创建或修改目录:/www/wwwroot/104.219.215.234/data 失败!
灌音文献识别闲时版是针对还是录制完成的灌音文献,进行离线识别的职业。灌音文献识别闲时版长短实时的,识别的文献需要提交基于HTTP可走访的URL地址性花都,不提拔提交腹地文献。与灌音文献识别区别在于复返时辰不同,闲时版为24小时内复返遵循。
智能分轨功能只提拔8k单通谈和16k单通谈的语音。
提拔调用形状:轮询形状和回调形状。
提拔语言模子定制。更多信息请参见语言模子定制。
提拔热词。更多信息请参见热词。
提拔汉语平庸话、方言、泰西英语等多种模子识别。现在提拔的语种和方言模子如下:
使用技艺了解您的灌音文献形状和采样率,把柄业务场景在管控台采纳允洽的场景模子。
将灌音文献存放至OSS。
若是OSS汉文献走访权限为公开,请参见巨匠读Object,获取文献走访流通;若是OSS汉文献走访权限为迥殊,请参见迥殊Object,通过SDK生成包含有用时辰的走访流通。
客户端提交灌音文献识别闲时版苦求。
日常情况下,职业端复返该苦求任务的ID,用以查询识别遵循。
客户端发送识别遵循查询苦求。
通过技艺3获取的苦求任务ID查询灌音文献识别闲时版的遵循,提交灌音文献识别闲时版苦求后,识别任务在24小时内完成并复返识别文本。现在识别的遵循在职业端可保存72小时。
交互经由客户端与职业端的交互经由如图所示。
各地域POP调用参数地域
调用参数
华东2(上海)
regionId="cn-shanghai"
endpointName="cn-shanghai"
domain="speechfiletranscriberlite.cn-shanghai.aliyuncs.com"
华北2(北京)
regionId="cn-beijing"
endpointName="cn-beijing"
domain="speechfiletranscriberlite.cn-beijing.aliyuncs.com"
华南1(深圳)
regionId="cn-shenzhen"
endpointName="cn-shenzhen"
domain="speechfiletranscriberlite.cn-shenzhen.aliyuncs.com"
接口调用形状灌音文献识别闲时版职业所以RPC作风的POP API形状提供灌音文献识别闲时版接口,将参数封装到每一个苦求中,每个苦求即对应一个秩序,施行的遵循放在response中。需要识别的灌音文献必须存放在某职业上(推选阿里云OSS),不错通过URL走访。使用阿里云OSS,并吞地域不错通过内网走访,不计外网流量用度,具体秩序请参见使用灌音文献识别时若何设立OSS内网地址。
灌音文献识别闲时版POP API包括两部分:POST形状的“灌音文献识别闲时版苦求调用接口”(用户级别QPS(queries per second)规章为200)、GET形状的“灌音文献识别闲时版遵循查询接口”(用户级别QPS规章为500)。
识别苦求调用接口:
当接收轮询形状时,提交灌音文献识别闲时版任务,获取任务ID,供后续轮询使用。
当接收回调形状时,提交灌音文献识别闲时版任务和回调URL,任务完成后会把识别遵循POST到回调地址,条目回调地址可接管POST苦求。
输入参数及讲解:
提交灌音文献识别闲时版苦求时,需要设立输入参数,以JSON形状的字符串传入苦求对象的Body,JSON形状如下:
{ "appkey": "your-appkey", //获取Appkey请前去规章台:https://nls-portal.console.aliyun.com/applist "file_link": "https://gw.alipayobjects.com/os/bmw-prod/0574ee2e-f494-45a5-820f-63aee583045a.wav", "auto_split":false, "enable_words": false, "enable_sample_rate_adaptive": true, // valid_times:获取语音指定时辰段的识别内容,若不需要,则无需填写。 "valid_times": [ { "begin_time": 200, "end_time":2000, "channel_id": 0 } ] }
参数
值类型
是否必选性花都
讲解
appkey
String
是
管控台的形貌Appkey。
file_link
String
是
存放灌音文献的地址,需要在管控台中将对应项策划模子设立为提拔该音频场景的模子。
enable_words
Boolean
否
是否开启复返词信息,默许为false。
enable_sample_rate_adaptive
Boolean
否
是否将大于16 kHz采样率的音频进行自动降采样(降为16 kHz),默许为false。
enable_callback
Boolean
否
是否启用回调功能,默许值为false。
callback_url
String
否
回调职业的地址,enable_callback取值为true时,本字段必选。URL提拔HTTP和HTTPS条约,host不能使用IP地址。
speaker_num
Integer
否
用于辅助指定声纹东谈主数,取值限制为2至100的整数。8k音频默许为2,16k音频默许为100。
此参数只可辅助算法尽量输出指定东谈主数,无法保证一定会输出此东谈主数。需要和auto_split、supervise_type这两个参数搭配使用。
auto_split
Boolean
否
是否开启智能分轨(开启智能分轨,即可在两方对话的语音情景下,依据每句话识别遵循中的ChannelId,判断该句话的发言东谈主为哪一方。常常先发言一方ChannelId为0,8k双声谈开启分轨后默许为2个东谈主,声谈channel0和channel1等于音轨编号)。
supervise_type
Integer
否
谈话东谈主区分的细目东谈主数形状,需要和auto_split、speaker_num这两个参数搭配使用。
默许为空:8k由用户指定,16k由算法决定。
1:用户指定东谈主数,具体东谈主数由参数speaker_num阐发。
2:算法决定东谈主数。
enable_inverse_text_normalization
Boolean
否
ITN(逆文本inverse text normalization)汉文数字调养阿拉伯数字。设立为True时,汉文数字将转为阿拉伯数字输出,默许值:False。
enable_disfluency
Boolean
否
过滤口吻词,即声息顺滑,默许值false(关闭),开启时需要设立version为4.0。
enable_punctuation_prediction
Boolean
否
是否给句子加标点。默许值true(加标点)。
valid_times
List< ValidTime >
否
有用时辰段信息,用来摒除一些不需要的时辰段。
max_end_silence
Integer
否
允许的最大扫尾静音,取值限制:200~6000,默许值800,单元为毫秒。
开启语义断句enable_semantic_sentence_detection后,此参数无效。
max_single_segment_time
Integer
否
允许单句话最大扫尾时辰,最小值5000,默许值60000。单元为毫秒。
开启语义断句enable_semantic_sentence_detection后,此参数无效。
customization_id
String
否
通过POP API创建的定制模子ID,默许不添加。
class_vocabulary_id
String
否
创建的类热词表ID,默许不添加。
vocabulary_id
String
否
创建的泛热词表ID,默许不添加。
enable_semantic_sentence_detection
Boolean
否
是否启⽤语义断句,取值:true/false,默许值false。
enable_timestamp_alignment
Boolean
否
是否启用时辰戳校准功能,取值:true/false,默许值false。
first_channel_only
Boolean
否
是否只识别首个声谈,取值:true/false。(若是灌音识别遵循访佛,您不错开启此参数。)
默许为空:8k处理双声谈,16k处理单声谈。
false:8k处理双声谈,16k处理双声谈。
true:8k处理单声谈,16k处理单声谈。
special_word_filter
String(结构为JSON形状)
否
敏锐词过滤功能,提拔开启或关闭,提拔自界说敏锐词。该参数可完满:
不处理(默许,即展示原文)、过滤、替换为*。
具体调用讲解请见下文的自界说过滤词调用示例。
punctuation_mark
String
否
自界说标点断句。
不填默许使用句号、问号、叹号断句。若是用户填写此值,则会增多使用用户指定的标点标记断句。
示例:
按英文逗号断句填写","
按汉文和英文逗号断句填写",,"
sentence_max_length
Integer
否
每句最多展示字数,取值限制:[4,50]。默许为不启用该功能。启用后如不填写字数,则按照长句断句。该参数可用于字幕生成场景,规章单行字幕最大字数。
自界说过滤词调用示举例下:
// 以实时转写为例, JSONObject root = new JSONObject(); root.put("system_reserved_filter", true); // 将以下词语替换成空 JSONObject root1 = new JSONObject(); JSONArray array1 = new JSONArray(); array1.add("驱动"); array1.add("发生"); root1.put("word_list", array1); // 将以下词语替换成* JSONObject root2 = new JSONObject(); JSONArray array2 = new JSONArray(); array2.add("测试"); root2.put("word_list", array2); // 不错一起设立,也不错部分设立 root.put("filter_with_empty", root1); root.put("filter_with_signed", root2); transcriber.addCustomedParam("special_word_filter", root);
其中,ValidTime对象参数讲解如下表所示。
参数
值类型
是否必选
讲解
begin_time
Int
是
有用时辰段的肇始点时辰偏移,单元为毫秒。
end_time
Int
是
有用时辰段的扫尾点时辰偏移,单元为毫秒。
channel_id
Int
是
有用时辰段的作用音轨序号(从0驱动)。
输出参数及讲解:
职业端复返灌音文献识别闲时版苦求的反应,反应的输出参数为JSON形状的字符串:
{ "TaskId": "4b56f0c4b7e611e88f34c33c2a60****", "RequestId": "E4B183CC-6CFE-411E-A547-D877F7BD****", "StatusText": "SUCCESS", "StatusCode": 21050000 }
复返HTTP现象:200示意收效,更多现象码请查阅HTTP现象码。
属性
值类型
是否必选
讲解
TaskId
String
是
识别任务ID。
RequestId
String
是
苦求ID,仅用于联调。
StatusCode
Int
是
现象码。
StatusText
String
是
现象讲解。
识别遵循查询接口:
提交完灌音文献识别闲时版苦求后,按照如下参数设立轮询识别遵循。
输入参数:
通过提交灌音文献识别闲时版苦求取得的任务ID四肢识别遵循查询接口参数,获取识别遵循。在接口调用过程中,需要设立一定的查询时辰拆开。
属性
值类型
是否必选
讲解
TaskId
String
是
识别任务ID。
输出参数及讲解:
职业端复返识别遵循查询苦求的反应,反应的输出参数为JSON形状的字符串。
日常复返:以灌音文献nls-sample-16k.wav(文献为单轨)识别遵循为例。
{ "TaskId": "d429dd7dd75711e89305ab6170fe****", "RequestId": "9240D669-6485-4DCC-896A-F8B31F94****", "StatusText": "SUCCESS", "BizDuration": 2956, "SolveTime": 1540363288472, "StatusCode": 21050000, "Result": { "Sentences": [{ "EndTime": 2365, "SilenceDuration": 0, "BeginTime": 340, "Text": "北京的天气。", "ChannelId": 0, "SpeechRate": 177, "EmotionValue": 5.0 }] } }
若是开启enable_callback/callback_url,回调识别遵循为:
{ "Result": { "Sentences": [{ "EndTime": 2365, "SilenceDuration": 0, "BeginTime": 340, "Text": "北京的天气。", "ChannelId": 0, "SpeechRate": 177, "EmotionValue": 5.0 }] }, "TaskId": "36d01b244ad811e9952db7bb7ed2****", "StatusCode": 21050000, "StatusText": "SUCCESS", "RequestTime": 1553062810452, "SolveTime": 1553062810831, "BizDuration": 2956 }
列队中:
{ "TaskId": "c7274235b7e611e88f34c33c2a60****", "RequestId": "981AD922-0655-46B0-8C6A-5C836822****", "StatusText": "QUEUEING", "StatusCode": 21050002 }
识别中:
{ "TaskId": "c7274235b7e611e88f34c33c2a60****", "RequestId": "8E908ED2-867F-457E-82BF-4756194A****", "StatusText": "RUNNING", "BizDuration": 0, "StatusCode": 21050001 }
相配复返:以文献下载失败为例。
{ "TaskId": "4cf25b7eb7e711e88f34c33c2a60****", "RequestId": "098BF27C-4CBA-45FF-BD11-3F532F26****", "StatusText": "FILE_DOWNLOAD_FAILED", "BizDuration": 0, "SolveTime": 1536906469146, "StatusCode": 41050002 }
复返HTTP现象:200示意收效,更多现象码请查阅HTTP现象码。
属性
值类型
是否必选
讲解
TaskId
String
是
识别任务ID。
StatusCode
Int
是
现象码。
StatusText
String
是
现象讲解。
RequestId
String
是
苦求ID,用于调试。
Result
Object
是
识别遵循对象。
Sentences
List< SentenceResult >
是
识别的遵循数据。当StatusText为SUCCEED时存在。
Words
List< WordResult >
否
词信息,获取时需设立enable_words为true。
BizDuration
Long
是
识别的音频文献总时长,单元为毫秒。
SolveTime
Long
是
时辰戳,单元为毫秒,灌音文献识别闲时版完成的时辰。
其中,单句遵循SentenceResult参数如下。
属性
值类型
是否必选
讲解
ChannelId
Int
是
该句所属音轨ID。
BeginTime
Int
是
该句的肇始时辰偏移,单元为毫秒。
EndTime
Int
是
该句的扫尾时辰偏移,单元为毫秒。
Text
String
是
该句的识别文本遵循。
EmotionValue
Float
是
情谊能量值,取值为音量分贝值/10。取值限制:[1,10]。值越高情谊越热烈。
SilenceDuration
Int
是
本句与上一句之间的静音时长,单元为秒。
SpeechRate
Int
是
本句的平均语速。
若识别语言为汉文,则单元为:字数/分钟。
若识别语言为英文,则单元为:单词数/分钟。
开启复返词信息:
若是enable_words设立为true,职业端的识别遵循将包含词信息。使用轮询形状和回调形状取得的词信息调换,以轮询形状的识别遵循为例:
{ "StatusCode": 21050000, "Result": { "Sentences": [{ "SilenceDuration": 0, "EmotionValue": 5.0, "ChannelId": 0, "Text": "北京的天气。", "BeginTime": 340, "EndTime": 2365, "SpeechRate": 177 }], "Words": [{ "ChannelId": 0, "Word": "北京", "BeginTime": 640, "EndTime": 940 }, { "ChannelId": 0, "Word": "的", "BeginTime": 940, "EndTime": 1120 }, { "ChannelId": 0, "Word": "天气", "BeginTime": 1120, "EndTime": 2020 }] }, "SolveTime": 1553236968873, "StatusText": "SUCCESS", "RequestId": "027B126B-4AC8-4C98-9FEC-A031158F****", "TaskId": "b505e78c4c6d11e9a213e11db149****", "BizDuration": 2956 }
Words对象讲解:
属性
值类型
是否必选
讲解
BeginTime
Int
是
词驱动时辰,单元为毫秒。
EndTime
Int
是
词扫尾时辰,单元为毫秒。
ChannelId
Int
是
该词所属音轨ID。
Word
String
是
词信息。
职业现象码通用虚假码现象码
现象音信
原因
贬责决策
40000000
默许的客户端虚假码,对应了多个虚假音信。
用户使用了不对理的参数大略调用逻辑。
请参考官网文档示例代码进行对比测检会证。
40000001
The token 'xxx' has expired;
The token 'xxx' is invalid
用户使用了不对理的参数大略调用逻辑。通用客户端虚假码,常常是触及Token关连的不正确使用,举例Token逾期大略犯警。
请参考官网文档示例代码进行对比测检会证。
40000002
Gateway:MESSAGE_INVALID:Can't process message in state'FAILED'!
无效大略虚假的报文音信。
请参考官网文档示例代码进行对比测检会证。
40000003
PARAMETER_INVALID;
Failed to decode url params
用户传递的参数有误,一般常见于RESTful接口调用。
请参考官网文档示例代码进行对比测检会证。
40000005
Gateway:TOO_MANY_REQUESTS:Too many requests!
并发苦求过多。
若是是试用版调用,冷漠您升级为商用版块以增大并发。
若是已是商用版,可购买并发资源包,现实您的并发额度。
40000009
Invalid wav header!
虚假的音信头。
若是您发送的是WAV语音文献,且设立format为wav,请珍惜查验该语音文献的WAV头是否正确,不然可能会被职业端拒却。
40000009
Too large wav header!
传输的语音WAV头不对法。
冷漠使用PCM、OPUS等形状发送音频流,若是是WAV,冷漠关心语音文献的WAV头信息是否为正确的数据长度大小。
40000010
Gateway:FREE_TRIAL_EXPIRED:The free trial has expired!
试用期已扫尾,况且未洞开商用版、或账号欠费。
请登录规章台阐发职业洞开现象以及账户余额。
40010001
Gateway:NAMESPACE_NOT_FOUND:RESTful url path illegal
不提拔的接口或参数。
请查验调用时传递的参数内容是否和官网文档条目的一致,并连络虚假信息对比排查,设立为正确的参数。
比如您是否通过curl敕令施行RESTful接口苦求, 拼接的URL是否正当。
40010003
Gateway:DIRECTIVE_INVALID:[xxx]
客户端侧通用虚假码。
示意客户端传递了不正确的参数或领导,在不同的接口上有对应的夺目报错信息,请参考对应文档进行正确设立。
40010004
Gateway:CLIENT_DISCONNECT:Client disconnected before task finished!
在苦求处理完成前客户端主动扫尾。
无,大略请在职业端反应完成后再关闭流通。
40010005
Gateway:TASK_STATE_ERROR:Got stop directive while task is stopping!
客户端发送了面前不提拔的音信领导。
请参考官网文档示例代码进行对比测检会证。
40020105
Meta:APPKEY_NOT_EXIST:Appkey not exist!
使用了不存在的Appkey。
请阐发是否使用了不存在的Appkey,Appkey不错通过登录规章台后调查形貌竖立。
40020106
Meta:APPKEY_UID_MISMATCH:Appkey and user mismatch!
调用时传递的Appkey和Token并非并吞个账号UID所创建,导致不匹配。
请查验是否存在两个账号混用的情况,幸免使用账号A名下的Appkey和账号B名下生成的Token搭配使用。
403
Forbidden
使用的Token无效,举例Token不存在大略已逾期。
请成矗立确的Token。Token存在有用期规章,请实时在逾期前获取新的Token。
41000003
MetaInfo doesn't have end point info
无法获取该Appkey的路由信息。
请查验是否存在两个账号混用的情况,幸免使用账号A名下的Appkey和账号B名下生成的Token搭配使用。
41010101
UNSUPPORTED_SAMPLE_RATE
不提拔的采样率形状。
面前实时语音识别只提拔8000 Hz和16000 Hz两种采样率形状的音频。
41040201
Realtime:GET_CLIENT_DATA_TIMEOUT:Client data does not send continuously!
获取客户端发送的数据超时失败。
客户端在调用实时语音识别时请保握实时速度发送,发送完成后实时关闭流通。
50000000
GRPC_ERROR:Grpc error!
受机器负载、汇集等要素导致的相配,常常为偶发出现。
一般重试调用即可归附。
50000001
GRPC_ERROR:Grpc error!
受机器负载、汇集等要素导致的相配,常常为偶发出现。
一般重试调用即可归附。
52010001
GRPC_ERROR:Grpc error!
受机器负载、汇集等要素导致的相配,常常为偶发出现。
一般重试调用即可归附。
灌音文献识别/灌音文献识别闲时版虚假码现象码
现象音信
原因
贬责决策
21050000
SUCCESS
收效。
无。
21050001
RUNNING
灌音文献识别任务运行中。
请稍后再发送GET形状的识别遵循查询苦求。
21050002
QUEUEING
灌音文献识别任务列队中。
请稍后再发送GET形状的识别遵循查询苦求。
21050003
SUCCESS_WITH_NO_VALID_FRAGMENT
识别遵循查询接口调用收效,然而VAD模块未检测到有用语音。
此种情况下可查验:
灌音文献是否包含有用语音,若是王人是无效语音,举例纯静音。上述情况下莫得识别遵循是日常表象。
ASR_RESPONSE_HAVE_NO_WORDS
识别遵循查询接口调用收效,然而最终识别遵循为空。
此种情况下可查验:
灌音文献是否包含有用语音,或有用语音是否王人是口吻词且开启了顺滑参数enable_disfluency,导致口吻词被过滤。
上述情况下莫得识别遵循是日常表象。
41050001
USER_BIZDURATION_QUOTA_EXCEED
单日时辰超限(免用度户逐日可识别不突出2小常常长的灌音文献)。
冷漠从免费版升级到商用版。如业务量较大,请接洽商务洽谈,邮件地址:nls_support@service.aliyun.com。
41050002
FILE_DOWNLOAD_FAILED
文献下载失败。
查验灌音文献旅途是否正确,以及是否不错通过外网走访和下载。
41050003
FILE_CHECK_FAILED
文献形状虚假。
查验灌音文献是否是单轨/双轨的WAV形状或MP3形状。
41050004
FILE_TOO_LARGE
文献过大。
查验灌音文献大小是否突出512 MB,突出则需您对灌音文献分段。
肛交 哭41050005
FILE_NORMALIZE_FAILED
文献归一化失败。
查验灌音文献是否有损坏,是否不错日常播放。
41050006
FILE_PARSE_FAILED
文献领路失败。
查验灌音文献是否有损坏,是否不错日常播放。
41050007
MKV_PARSE_FAILED
MKV领路失败。
查验灌音文献是否损坏,是否不错日常播放。
41050008
UNSUPPORTED_SAMPLE_RATE
采样率不匹配。
查验本色语音的采样率和规章台上Appkey绑定的ASR模子采样率是否一致,大略将本篇文档中自动降采样的参数enable_sample_rate_adaptive设立为true。
41050010
FILE_TRANS_TASK_EXPIRED
灌音文献识别任务逾期。
TaskId不存在,大略已逾期。
41050011
REQUEST_INVALID_FILE_URL_VALUE
苦求file_link参数犯警。
阐发file_link参数形状是否正确。
41050012
REQUEST_INVALID_CALLBACK_VALUE
苦求callback_url参数犯警。
阐发callback_url参数形状是否正确,是否为空。
41050013
REQUEST_PARAMETER_INVALID
苦求参数无效。
阐发苦求task值为有用的JSON形状字符串。
41050014
REQUEST_EMPTY_APPKEY_VALUE
苦求参数appkey值为空。
阐发是否设立了appkey参数值。
41050015
REQUEST_APPKEY_UNREGISTERED
苦求参数appkey未注册。
阐发苦求参数appkey值是否成矗立确,大略是否与阿里云账号的AccessKey ID并吞个账号。
41050021
RAM_CHECK_FAILED
RAM查验失败。
查验您的RAM用户是否还是授权调用语音职业的API,具体操作,请参见RAM用户权限竖立。
41050023
CONTENT_LENGTH_CHECK_FAILED
content-length 查验失败。
查验下载文献时,HTTP response中的content-length与文献本色大小是否一致。
41050024
FILE_404_NOT_FOUND
需要下载的文献不存在。
查验需要下载的文献是否存在。
41050025
FILE_403_FORBIDDEN
莫得权限下载需要的文献。
查验是否有权限下载灌音文献。
41050026
FILE_SERVER_ERROR
苦求的文献场所的职业不能用。
查验苦求的文献场所的职业是否可用。
41050103
AUDIO_DURATION_TOO_LONG
苦求的文献时长突出12小时。
冷漠将音频进行切分,分屡次提交识别任务,切分敕令参考。
40270003
DECODER_ERROR
检测音频文献信息失败。
阐发文献下载流通汉文献为提拔的音频形状。
51050000
INTERNAL_ERROR
受机器负载、汇集等要素导致的相配,常常为偶发出现。
一般重试调用即可归附,如无法归附,请接洽技艺提拔东谈主员。