创建或修改目录:/www/wwwroot/104.219.215.234/data 失败!
性花都 灌音文献识别闲时版使用规章和接口讲解 - 幼幼嫩穴
幼幼嫩穴

成人卡通漫画

性花都 灌音文献识别闲时版使用规章和接口讲解

发布日期:2024-11-01 12:37    点击次数:115

灌音文献识别闲时版是针对还是录制完成的灌音文献,进行离线识别的职业。灌音文献识别闲时版长短实时的,识别的文献需要提交基于HTTP可走访的URL地址性花都,不提拔提交腹地文献。与灌音文献识别区别在于复返时辰不同,闲时版为24小时内复返遵循。

智能分轨功能只提拔8k单通谈和16k单通谈的语音。

提拔调用形状:轮询形状和回调形状。

提拔语言模子定制。更多信息请参见语言模子定制。

提拔热词。更多信息请参见热词。

提拔汉语平庸话、方言、泰西英语等多种模子识别。现在提拔的语种和方言模子如下:

使用技艺

了解您的灌音文献形状和采样率,把柄业务场景在管控台采纳允洽的场景模子。

将灌音文献存放至OSS。

若是OSS汉文献走访权限为公开,请参见巨匠读Object,获取文献走访流通;若是OSS汉文献走访权限为迥殊,请参见迥殊Object,通过SDK生成包含有用时辰的走访流通。

客户端提交灌音文献识别闲时版苦求。

日常情况下,职业端复返该苦求任务的ID,用以查询识别遵循。

客户端发送识别遵循查询苦求。

通过技艺3获取的苦求任务ID查询灌音文献识别闲时版的遵循,提交灌音文献识别闲时版苦求后,识别任务在24小时内完成并复返识别文本。现在识别的遵循在职业端可保存72小时。

交互经由

客户端与职业端的交互经由如图所示。

image各地域POP调用参数

地域

调用参数

华东2(上海)

regionId="cn-shanghai"

endpointName="cn-shanghai"

domain="speechfiletranscriberlite.cn-shanghai.aliyuncs.com"

华北2(北京)

regionId="cn-beijing"

endpointName="cn-beijing"

domain="speechfiletranscriberlite.cn-beijing.aliyuncs.com"

华南1(深圳)

regionId="cn-shenzhen"

endpointName="cn-shenzhen"

domain="speechfiletranscriberlite.cn-shenzhen.aliyuncs.com"

接口调用形状

灌音文献识别闲时版职业所以RPC作风的POP API形状提供灌音文献识别闲时版接口,将参数封装到每一个苦求中,每个苦求即对应一个秩序,施行的遵循放在response中。需要识别的灌音文献必须存放在某职业上(推选阿里云OSS),不错通过URL走访。使用阿里云OSS,并吞地域不错通过内网走访,不计外网流量用度,具体秩序请参见使用灌音文献识别时若何设立OSS内网地址。

灌音文献识别闲时版POP API包括两部分:POST形状的“灌音文献识别闲时版苦求调用接口”(用户级别QPS(queries per second)规章为200)、GET形状的“灌音文献识别闲时版遵循查询接口”(用户级别QPS规章为500)。

识别苦求调用接口:

当接收轮询形状时,提交灌音文献识别闲时版任务,获取任务ID,供后续轮询使用。

当接收回调形状时,提交灌音文献识别闲时版任务和回调URL,任务完成后会把识别遵循POST到回调地址,条目回调地址可接管POST苦求。

输入参数及讲解:

提交灌音文献识别闲时版苦求时,需要设立输入参数,以JSON形状的字符串传入苦求对象的Body,JSON形状如下:

{
    "appkey": "your-appkey",      //获取Appkey请前去规章台:https://nls-portal.console.aliyun.com/applist
    "file_link": "https://gw.alipayobjects.com/os/bmw-prod/0574ee2e-f494-45a5-820f-63aee583045a.wav",
    "auto_split":false,
    "enable_words": false,
    "enable_sample_rate_adaptive": true,
    // valid_times:获取语音指定时辰段的识别内容,若不需要,则无需填写。
    "valid_times": [
        {
            "begin_time": 200,
            "end_time":2000,
            "channel_id": 0
        }
    ]
}

参数

值类型

是否必选性花都

讲解

appkey

String

管控台的形貌Appkey。

file_link

String

存放灌音文献的地址,需要在管控台中将对应项策划模子设立为提拔该音频场景的模子。

enable_words

Boolean

是否开启复返词信息,默许为false。

enable_sample_rate_adaptive

Boolean

是否将大于16 kHz采样率的音频进行自动降采样(降为16 kHz),默许为false。

enable_callback

Boolean

是否启用回调功能,默许值为false。

callback_url

String

回调职业的地址,enable_callback取值为true时,本字段必选。URL提拔HTTP和HTTPS条约,host不能使用IP地址。

speaker_num

Integer

用于辅助指定声纹东谈主数,取值限制为2至100的整数。8k音频默许为2,16k音频默许为100。

此参数只可辅助算法尽量输出指定东谈主数,无法保证一定会输出此东谈主数。需要和auto_split、supervise_type这两个参数搭配使用。

auto_split

Boolean

是否开启智能分轨(开启智能分轨,即可在两方对话的语音情景下,依据每句话识别遵循中的ChannelId,判断该句话的发言东谈主为哪一方。常常先发言一方ChannelId为0,8k双声谈开启分轨后默许为2个东谈主,声谈channel0和channel1等于音轨编号)。

supervise_type

Integer

谈话东谈主区分的细目东谈主数形状,需要和auto_split、speaker_num这两个参数搭配使用。

默许为空:8k由用户指定,16k由算法决定。

1:用户指定东谈主数,具体东谈主数由参数speaker_num阐发。

2:算法决定东谈主数。

enable_inverse_text_normalization

Boolean

ITN(逆文本inverse text normalization)汉文数字调养阿拉伯数字。设立为True时,汉文数字将转为阿拉伯数字输出,默许值:False。

enable_disfluency

Boolean

过滤口吻词,即声息顺滑,默许值false(关闭),开启时需要设立version为4.0。

enable_punctuation_prediction

Boolean

是否给句子加标点。默许值true(加标点)。

valid_times

List< ValidTime >

有用时辰段信息,用来摒除一些不需要的时辰段。

max_end_silence

Integer

允许的最大扫尾静音,取值限制:200~6000,默许值800,单元为毫秒。

开启语义断句enable_semantic_sentence_detection后,此参数无效。

max_single_segment_time

Integer

允许单句话最大扫尾时辰,最小值5000,默许值60000。单元为毫秒。

开启语义断句enable_semantic_sentence_detection后,此参数无效。

customization_id

String

通过POP API创建的定制模子ID,默许不添加。

class_vocabulary_id

String

创建的类热词表ID,默许不添加。

vocabulary_id

String

创建的泛热词表ID,默许不添加。

enable_semantic_sentence_detection

Boolean

是否启⽤语义断句,取值:true/false,默许值false。

enable_timestamp_alignment

Boolean

是否启用时辰戳校准功能,取值:true/false,默许值false。

first_channel_only

Boolean

是否只识别首个声谈,取值:true/false。(若是灌音识别遵循访佛,您不错开启此参数。)

默许为空:8k处理双声谈,16k处理单声谈。

false:8k处理双声谈,16k处理双声谈。

true:8k处理单声谈,16k处理单声谈。

special_word_filter

String(结构为JSON形状)

敏锐词过滤功能,提拔开启或关闭,提拔自界说敏锐词。该参数可完满:

不处理(默许,即展示原文)、过滤、替换为*。

具体调用讲解请见下文的自界说过滤词调用示例。

punctuation_mark

String

自界说标点断句。

不填默许使用句号、问号、叹号断句。若是用户填写此值,则会增多使用用户指定的标点标记断句。

示例:

按英文逗号断句填写","

按汉文和英文逗号断句填写",,"

sentence_max_length

Integer

每句最多展示字数,取值限制:[4,50]。默许为不启用该功能。启用后如不填写字数,则按照长句断句。该参数可用于字幕生成场景,规章单行字幕最大字数。

自界说过滤词调用示举例下:

            // 以实时转写为例,
            JSONObject root = new JSONObject();
            root.put("system_reserved_filter", true);

            // 将以下词语替换成空
            JSONObject root1 = new JSONObject();
            JSONArray array1 = new JSONArray();
            array1.add("驱动");
            array1.add("发生");
            root1.put("word_list", array1);

            // 将以下词语替换成*
            JSONObject root2 = new JSONObject();
            JSONArray array2 = new JSONArray();
            array2.add("测试");
            root2.put("word_list", array2);

						// 不错一起设立,也不错部分设立
            root.put("filter_with_empty", root1);
            root.put("filter_with_signed", root2);

            transcriber.addCustomedParam("special_word_filter", root);

其中,ValidTime对象参数讲解如下表所示。

参数

值类型

是否必选

讲解

begin_time

Int

有用时辰段的肇始点时辰偏移,单元为毫秒。

end_time

Int

有用时辰段的扫尾点时辰偏移,单元为毫秒。

channel_id

Int

有用时辰段的作用音轨序号(从0驱动)。

输出参数及讲解:

职业端复返灌音文献识别闲时版苦求的反应,反应的输出参数为JSON形状的字符串:

{
        "TaskId": "4b56f0c4b7e611e88f34c33c2a60****",
        "RequestId": "E4B183CC-6CFE-411E-A547-D877F7BD****",
        "StatusText": "SUCCESS",
        "StatusCode": 21050000
}

复返HTTP现象:200示意收效,更多现象码请查阅HTTP现象码。

属性

值类型

是否必选

讲解

TaskId

String

识别任务ID。

RequestId

String

苦求ID,仅用于联调。

StatusCode

Int

现象码。

StatusText

String

现象讲解。

识别遵循查询接口:

提交完灌音文献识别闲时版苦求后,按照如下参数设立轮询识别遵循。

输入参数:

通过提交灌音文献识别闲时版苦求取得的任务ID四肢识别遵循查询接口参数,获取识别遵循。在接口调用过程中,需要设立一定的查询时辰拆开。

属性

值类型

是否必选

讲解

TaskId

String

识别任务ID。

输出参数及讲解:

职业端复返识别遵循查询苦求的反应,反应的输出参数为JSON形状的字符串。

日常复返:以灌音文献nls-sample-16k.wav(文献为单轨)识别遵循为例。

{
        "TaskId": "d429dd7dd75711e89305ab6170fe****",
        "RequestId": "9240D669-6485-4DCC-896A-F8B31F94****",
        "StatusText": "SUCCESS",
        "BizDuration": 2956,
        "SolveTime": 1540363288472,
        "StatusCode": 21050000,
        "Result": {
                "Sentences": [{
                        "EndTime": 2365,
                        "SilenceDuration": 0,
                        "BeginTime": 340,
                        "Text": "北京的天气。",
                        "ChannelId": 0,
                        "SpeechRate": 177,
                        "EmotionValue": 5.0
                }]
        }
}

若是开启enable_callback/callback_url,回调识别遵循为:

{
        "Result": {
                "Sentences": [{
                        "EndTime": 2365,
                        "SilenceDuration": 0,
                        "BeginTime": 340,
                        "Text": "北京的天气。",
                        "ChannelId": 0,
                        "SpeechRate": 177,
                        "EmotionValue": 5.0
                }]
        },
        "TaskId": "36d01b244ad811e9952db7bb7ed2****",
        "StatusCode": 21050000,
        "StatusText": "SUCCESS",
        "RequestTime": 1553062810452,
        "SolveTime": 1553062810831,
        "BizDuration": 2956
}

列队中:

{
        "TaskId": "c7274235b7e611e88f34c33c2a60****",
        "RequestId": "981AD922-0655-46B0-8C6A-5C836822****",
        "StatusText": "QUEUEING",
        "StatusCode": 21050002
}

识别中:

{
        "TaskId": "c7274235b7e611e88f34c33c2a60****",
        "RequestId": "8E908ED2-867F-457E-82BF-4756194A****",
        "StatusText": "RUNNING",
        "BizDuration": 0,
        "StatusCode": 21050001
}

相配复返:以文献下载失败为例。

{
        "TaskId": "4cf25b7eb7e711e88f34c33c2a60****",
        "RequestId": "098BF27C-4CBA-45FF-BD11-3F532F26****",
        "StatusText": "FILE_DOWNLOAD_FAILED",
        "BizDuration": 0,
        "SolveTime": 1536906469146,
        "StatusCode": 41050002
}

复返HTTP现象:200示意收效,更多现象码请查阅HTTP现象码。

属性

值类型

是否必选

讲解

TaskId

String

识别任务ID。

StatusCode

Int

现象码。

StatusText

String

现象讲解。

RequestId

String

苦求ID,用于调试。

Result

Object

识别遵循对象。

Sentences

List< SentenceResult >

识别的遵循数据。当StatusText为SUCCEED时存在。

Words

List< WordResult >

词信息,获取时需设立enable_words为true。

BizDuration

Long

识别的音频文献总时长,单元为毫秒。

SolveTime

Long

时辰戳,单元为毫秒,灌音文献识别闲时版完成的时辰。

其中,单句遵循SentenceResult参数如下。

属性

值类型

是否必选

讲解

ChannelId

Int

该句所属音轨ID。

BeginTime

Int

该句的肇始时辰偏移,单元为毫秒。

EndTime

Int

该句的扫尾时辰偏移,单元为毫秒。

Text

String

该句的识别文本遵循。

EmotionValue

Float

情谊能量值,取值为音量分贝值/10。取值限制:[1,10]。值越高情谊越热烈。

SilenceDuration

Int

本句与上一句之间的静音时长,单元为秒。

SpeechRate

Int

本句的平均语速。

若识别语言为汉文,则单元为:字数/分钟。

若识别语言为英文,则单元为:单词数/分钟。

开启复返词信息:

若是enable_words设立为true,职业端的识别遵循将包含词信息。使用轮询形状和回调形状取得的词信息调换,以轮询形状的识别遵循为例:

{
        "StatusCode": 21050000,
        "Result": {
                "Sentences": [{
                        "SilenceDuration": 0,
                        "EmotionValue": 5.0,
                        "ChannelId": 0,
                        "Text": "北京的天气。",
                        "BeginTime": 340,
                        "EndTime": 2365,
                        "SpeechRate": 177
                }],
                "Words": [{
                        "ChannelId": 0,
                        "Word": "北京",
                        "BeginTime": 640,
                        "EndTime": 940
                }, {
                        "ChannelId": 0,
                        "Word": "的",
                        "BeginTime": 940,
                        "EndTime": 1120
                }, {
                        "ChannelId": 0,
                        "Word": "天气",
                        "BeginTime": 1120,
                        "EndTime": 2020
                }]
        },
        "SolveTime": 1553236968873,
        "StatusText": "SUCCESS",
        "RequestId": "027B126B-4AC8-4C98-9FEC-A031158F****",
        "TaskId": "b505e78c4c6d11e9a213e11db149****",
        "BizDuration": 2956
}

Words对象讲解:

属性

值类型

是否必选

讲解

BeginTime

Int

词驱动时辰,单元为毫秒。

EndTime

Int

词扫尾时辰,单元为毫秒。

ChannelId

Int

该词所属音轨ID。

Word

String

词信息。

职业现象码

通用虚假码

现象码

现象音信

原因

贬责决策

40000000

默许的客户端虚假码,对应了多个虚假音信。

用户使用了不对理的参数大略调用逻辑。

请参考官网文档示例代码进行对比测检会证。

40000001

The token 'xxx' has expired;

The token 'xxx' is invalid

用户使用了不对理的参数大略调用逻辑。通用客户端虚假码,常常是触及Token关连的不正确使用,举例Token逾期大略犯警。

请参考官网文档示例代码进行对比测检会证。

40000002

Gateway:MESSAGE_INVALID:Can't process message in state'FAILED'!

无效大略虚假的报文音信。

请参考官网文档示例代码进行对比测检会证。

40000003

PARAMETER_INVALID;

Failed to decode url params

用户传递的参数有误,一般常见于RESTful接口调用。

请参考官网文档示例代码进行对比测检会证。

40000005

Gateway:TOO_MANY_REQUESTS:Too many requests!

并发苦求过多。

若是是试用版调用,冷漠您升级为商用版块以增大并发。

若是已是商用版,可购买并发资源包,现实您的并发额度。

40000009

Invalid wav header!

虚假的音信头。

若是您发送的是WAV语音文献,且设立format为wav,请珍惜查验该语音文献的WAV头是否正确,不然可能会被职业端拒却。

40000009

Too large wav header!

传输的语音WAV头不对法。

冷漠使用PCM、OPUS等形状发送音频流,若是是WAV,冷漠关心语音文献的WAV头信息是否为正确的数据长度大小。

40000010

Gateway:FREE_TRIAL_EXPIRED:The free trial has expired!

试用期已扫尾,况且未洞开商用版、或账号欠费。

请登录规章台阐发职业洞开现象以及账户余额。

40010001

Gateway:NAMESPACE_NOT_FOUND:RESTful url path illegal

不提拔的接口或参数。

请查验调用时传递的参数内容是否和官网文档条目的一致,并连络虚假信息对比排查,设立为正确的参数。

比如您是否通过curl敕令施行RESTful接口苦求, 拼接的URL是否正当。

40010003

Gateway:DIRECTIVE_INVALID:[xxx]

客户端侧通用虚假码。

示意客户端传递了不正确的参数或领导,在不同的接口上有对应的夺目报错信息,请参考对应文档进行正确设立。

40010004

Gateway:CLIENT_DISCONNECT:Client disconnected before task finished!

在苦求处理完成前客户端主动扫尾。

无,大略请在职业端反应完成后再关闭流通。

40010005

Gateway:TASK_STATE_ERROR:Got stop directive while task is stopping!

客户端发送了面前不提拔的音信领导。

请参考官网文档示例代码进行对比测检会证。

40020105

Meta:APPKEY_NOT_EXIST:Appkey not exist!

使用了不存在的Appkey。

请阐发是否使用了不存在的Appkey,Appkey不错通过登录规章台后调查形貌竖立。

40020106

Meta:APPKEY_UID_MISMATCH:Appkey and user mismatch!

调用时传递的Appkey和Token并非并吞个账号UID所创建,导致不匹配。

请查验是否存在两个账号混用的情况,幸免使用账号A名下的Appkey和账号B名下生成的Token搭配使用。

403

Forbidden

使用的Token无效,举例Token不存在大略已逾期。

请成矗立确的Token。Token存在有用期规章,请实时在逾期前获取新的Token。

41000003

MetaInfo doesn't have end point info

无法获取该Appkey的路由信息。

请查验是否存在两个账号混用的情况,幸免使用账号A名下的Appkey和账号B名下生成的Token搭配使用。

41010101

UNSUPPORTED_SAMPLE_RATE

不提拔的采样率形状。

面前实时语音识别只提拔8000 Hz和16000 Hz两种采样率形状的音频。

41040201

Realtime:GET_CLIENT_DATA_TIMEOUT:Client data does not send continuously!

获取客户端发送的数据超时失败。

客户端在调用实时语音识别时请保握实时速度发送,发送完成后实时关闭流通。

50000000

GRPC_ERROR:Grpc error!

受机器负载、汇集等要素导致的相配,常常为偶发出现。

一般重试调用即可归附。

50000001

GRPC_ERROR:Grpc error!

受机器负载、汇集等要素导致的相配,常常为偶发出现。

一般重试调用即可归附。

52010001

GRPC_ERROR:Grpc error!

受机器负载、汇集等要素导致的相配,常常为偶发出现。

一般重试调用即可归附。

灌音文献识别/灌音文献识别闲时版虚假码

现象码

现象音信

原因

贬责决策

21050000

SUCCESS

收效。

无。

21050001

RUNNING

灌音文献识别任务运行中。

请稍后再发送GET形状的识别遵循查询苦求。

21050002

QUEUEING

灌音文献识别任务列队中。

请稍后再发送GET形状的识别遵循查询苦求。

21050003

SUCCESS_WITH_NO_VALID_FRAGMENT

识别遵循查询接口调用收效,然而VAD模块未检测到有用语音。

此种情况下可查验:

灌音文献是否包含有用语音,若是王人是无效语音,举例纯静音。上述情况下莫得识别遵循是日常表象。

ASR_RESPONSE_HAVE_NO_WORDS

识别遵循查询接口调用收效,然而最终识别遵循为空。

此种情况下可查验:

灌音文献是否包含有用语音,或有用语音是否王人是口吻词且开启了顺滑参数enable_disfluency,导致口吻词被过滤。

上述情况下莫得识别遵循是日常表象。

41050001

USER_BIZDURATION_QUOTA_EXCEED

单日时辰超限(免用度户逐日可识别不突出2小常常长的灌音文献)。

冷漠从免费版升级到商用版。如业务量较大,请接洽商务洽谈,邮件地址:nls_support@service.aliyun.com。

41050002

FILE_DOWNLOAD_FAILED

文献下载失败。

查验灌音文献旅途是否正确,以及是否不错通过外网走访和下载。

41050003

FILE_CHECK_FAILED

文献形状虚假。

查验灌音文献是否是单轨/双轨的WAV形状或MP3形状。

41050004

FILE_TOO_LARGE

文献过大。

查验灌音文献大小是否突出512 MB,突出则需您对灌音文献分段。

肛交 哭

41050005

FILE_NORMALIZE_FAILED

文献归一化失败。

查验灌音文献是否有损坏,是否不错日常播放。

41050006

FILE_PARSE_FAILED

文献领路失败。

查验灌音文献是否有损坏,是否不错日常播放。

41050007

MKV_PARSE_FAILED

MKV领路失败。

查验灌音文献是否损坏,是否不错日常播放。

41050008

UNSUPPORTED_SAMPLE_RATE

采样率不匹配。

查验本色语音的采样率和规章台上Appkey绑定的ASR模子采样率是否一致,大略将本篇文档中自动降采样的参数enable_sample_rate_adaptive设立为true。

41050010

FILE_TRANS_TASK_EXPIRED

灌音文献识别任务逾期。

TaskId不存在,大略已逾期。

41050011

REQUEST_INVALID_FILE_URL_VALUE

苦求file_link参数犯警。

阐发file_link参数形状是否正确。

41050012

REQUEST_INVALID_CALLBACK_VALUE

苦求callback_url参数犯警。

阐发callback_url参数形状是否正确,是否为空。

41050013

REQUEST_PARAMETER_INVALID

苦求参数无效。

阐发苦求task值为有用的JSON形状字符串。

41050014

REQUEST_EMPTY_APPKEY_VALUE

苦求参数appkey值为空。

阐发是否设立了appkey参数值。

41050015

REQUEST_APPKEY_UNREGISTERED

苦求参数appkey未注册。

阐发苦求参数appkey值是否成矗立确,大略是否与阿里云账号的AccessKey ID并吞个账号。

41050021

RAM_CHECK_FAILED

RAM查验失败。

查验您的RAM用户是否还是授权调用语音职业的API,具体操作,请参见RAM用户权限竖立。

41050023

CONTENT_LENGTH_CHECK_FAILED

content-length 查验失败。

查验下载文献时,HTTP response中的content-length与文献本色大小是否一致。

41050024

FILE_404_NOT_FOUND

需要下载的文献不存在。

查验需要下载的文献是否存在。

41050025

FILE_403_FORBIDDEN

莫得权限下载需要的文献。

查验是否有权限下载灌音文献。

41050026

FILE_SERVER_ERROR

苦求的文献场所的职业不能用。

查验苦求的文献场所的职业是否可用。

41050103

AUDIO_DURATION_TOO_LONG

苦求的文献时长突出12小时。

冷漠将音频进行切分,分屡次提交识别任务,切分敕令参考。

40270003

DECODER_ERROR

检测音频文献信息失败。

阐发文献下载流通汉文献为提拔的音频形状。

51050000

INTERNAL_ERROR

受机器负载、汇集等要素导致的相配,常常为偶发出现。

一般重试调用即可归附,如无法归附,请接洽技艺提拔东谈主员。



创建或修改目录:/www/wwwroot/104.219.215.234/data 失败!
JzEngine Create File False