本文件按照GB/T 1.1-2020《標(biāo)準(zhǔn)化工作導(dǎo)則 第1部分:標(biāo)準(zhǔn)的結(jié)構(gòu)和編寫》給出的規(guī)則起草。
請(qǐng)注意本文件的某些內(nèi)容可能涉及專利。本文件的發(fā)布機(jī)構(gòu)不承擔(dān)識(shí)別這些專利的責(zé)任。
本文件由**市人工智能產(chǎn)業(yè)協(xié)會(huì)(Shenzhen Artificial Intelligence Industry Association)標(biāo)準(zhǔn)化委員會(huì)提出并歸口。
本文件起草單位:**市人工智能產(chǎn)業(yè)協(xié)會(huì)、**市8K超高清視頻產(chǎn)業(yè)協(xié)作聯(lián)盟、**賽西信息技術(shù)有限公司、**市優(yōu)必選科技股份有限公司、**市金大智能創(chuàng)新科技有限公司、科大訊飛股份有限公司、**市博樂信息技術(shù)有限公司、鋒睿領(lǐng)創(chuàng)(珠海)科技有限公司、*****耳智能聲學(xué)科技有限公司、**歐博思智能科技有限公司、藍(lán)亞技術(shù)服務(wù)(**)有限公司、**酷酷科技有限公司、**光子晶體科技有限公司、**奧尼電子股份有限公司、東莞市律普電子科技有限公司、杭州匯萃智能科技有限公司。
本文件規(guī)定了支持語音和視覺進(jìn)行交互的虛擬數(shù)字人的技術(shù)要求和測(cè)量方法。
本文件適用于支持語音和視覺交互的虛擬數(shù)字人及其系統(tǒng)的研發(fā)、設(shè)計(jì)和測(cè)試。
下列文件對(duì)于本文件的應(yīng)用是必不可少的。凡是注日期的引用文件,僅注日期的版本適
用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。
GB 3096-2008 聲環(huán)境質(zhì)量標(biāo)準(zhǔn);
GB/T 5271.29-2006 信息技術(shù) 詞匯 第29部分:人工智能 語音識(shí)別與合成;
GB/T 12060.5-2011 聲系統(tǒng)設(shè)備 第5部分:揚(yáng)聲器主要性能測(cè)試方法;
GB/T 12060.16-2017 聲系統(tǒng)設(shè)備 第16部分:通過語音傳輸指數(shù)客觀評(píng)價(jià)言語可懂度;
GB/T 14277-2013 音頻組合設(shè)備通用規(guī)范;
GB/T 21023-2007 中文語音識(shí)別系統(tǒng)通用技術(shù)規(guī)范;
GB/T 21024-2007 中文語音合成系統(tǒng)通用技術(shù)規(guī)范;
GB/T 34083-2017 中文語音識(shí)別互聯(lián)網(wǎng)服務(wù)接口規(guī)范;
GB/T 34145-2017 中文語音合成互聯(lián)網(wǎng)服務(wù)接口規(guī)范;
GB/T 35273-2020 信息安全技術(shù) 個(gè)人信息安全規(guī)范;
GB/T 35312-2017 中文語音識(shí)別終端服務(wù)接口規(guī)范;
GB/T 36464.1-2020 信息技術(shù) 智能語音交互系統(tǒng) 第1部分:通用規(guī)范;
GB/T 36464.2-2018 信息技術(shù) 智能語音交互系統(tǒng) 第2部分:智能**;
GB/T 36464.3-2018 信息技術(shù) 智能語音交互系統(tǒng) 第3部分:智能客服;
GB/T 36464.4-2018 信息技術(shù) 智能語音交互系統(tǒng) 第4部分:移動(dòng)終端;
GB/T 36464.5-2018 信息技術(shù) 智能語音交互系統(tǒng) 第5部分:車載終端;
SJ/T 11380-2008 自動(dòng)聲紋識(shí)別(說話人識(shí)別)技術(shù)規(guī)范;
SJ/T 11540-2015 有源揚(yáng)聲器通用規(guī)范;
GB/T 38665.1-2020 信息技術(shù) 手勢(shì)交互系統(tǒng) 第1部分:通用技術(shù)要求;
GB/T 38665.2-2020 信息技術(shù) 手勢(shì)交互系統(tǒng) 第2部分:系統(tǒng)外部接口;
SJ/T 11348-2016 平板電視顯示性能測(cè)量方法;
GB/T 35273—2020《信息安全技術(shù)個(gè)人信息安全規(guī)范》。
下列術(shù)語和定義適用于本文件。
1.虛擬數(shù)字人 virtual digital human:
是基于計(jì)算機(jī)視覺和語音合成等技術(shù),進(jìn)行形象、聲音、動(dòng)作等的模型訓(xùn)練后,可以生成虛擬人像并與使用者交互的設(shè)備。
2.語音交互 speech interaction:
人類和功能單元之間通過語音進(jìn)行的信息傳遞和交流活動(dòng)。
[GB/T 36464.2-2018,定義3.1]
3.語音識(shí)別 speech recognition:
將人類的聲音信號(hào)轉(zhuǎn)化為文字或者指令的過程。
[GB/T 21023—2007,定義3.1]
4.語音合成 speech synthesis:
將給定的文本轉(zhuǎn)換成與之對(duì)應(yīng)的語音的過程。
[GB/T 34145—2017,定義3.1]
5.自然語言理解 natural language understanding:
讓計(jì)算機(jī)能夠理解自然語言文本中蘊(yùn)含的含義及意圖的過程。
6.語音喚醒 speech wake-up;voice trigger:
處于音頻流**狀態(tài)的語音交互系統(tǒng),在檢測(cè)到特定的特征或事件出現(xiàn)后,切換到命令詞識(shí)別、連續(xù)語音識(shí)別等其他處理狀態(tài)的過程。
[GB/T 36464.2-2018,定義3.13]
7.誤喚醒 false wake-up:
語音交互系統(tǒng)處于音頻流**狀態(tài),無音頻流或者音頻流中沒有出現(xiàn)喚醒所需的特征或事件時(shí),語音喚醒系統(tǒng)被喚醒的現(xiàn)象。
[改寫GB/T 36464.2-2018,定義3.14]
8.噪聲 noise:
語音采集過程中,采集到的能干擾對(duì)目標(biāo)語音信號(hào)的識(shí)別、理解或處理的信號(hào)。
9.聲紋 voiceprint:
指語音中所蘊(yùn)含的、能表征和標(biāo)識(shí)特定說話人的獨(dú)有的特性或特征。
[SJ/T 11380—2008,定義3.1.1]
10.聲紋識(shí)別 voiceprint recognition:
根據(jù)待識(shí)別語音的聲紋特征識(shí)別該段語音所對(duì)應(yīng)的說話人的過程。
[SJ/T 11380—2008,定義3.1.6]
11.麥克風(fēng)陣列 microphone array:
由具有確定空間拓?fù)浣Y(jié)構(gòu)的多個(gè)麥克風(fēng)組成的,對(duì)信號(hào)的空間特性進(jìn)行采樣并處理的系統(tǒng)。T/AIIA-002-2021
12.語音打斷 speech interruption:
語音交互系統(tǒng)在播放聲音的過程中,當(dāng)語音采集設(shè)備檢測(cè)到有效語音輸入時(shí),終端播放聲音,轉(zhuǎn)到語音識(shí)別等其他處理過程。
[GB/T 36464.2-2018,定義3.18]
13.隱私標(biāo)簽 privacy label:
由廠商或者開放平臺(tái)應(yīng)用定義的涉及使用者私密信息的數(shù)據(jù),對(duì)該類型數(shù)據(jù)加以標(biāo)識(shí)的標(biāo)簽。
14.手勢(shì) gesture:
用戶利用上肢(包括手部和手臂)表達(dá)交互意圖時(shí),所執(zhí)行的具體姿態(tài)或動(dòng)作。
15.手勢(shì)識(shí)別 gesture recognition:
從輸入的手勢(shì)圖像/視頻數(shù)據(jù)確定用戶手勢(shì)狀態(tài)。
16.人體姿態(tài)估計(jì) pose estimation:
從2D圖像中,預(yù)測(cè)人體的13個(gè)關(guān)節(jié)點(diǎn)和5個(gè)頭部關(guān)鍵點(diǎn)的圖像坐標(biāo)。13個(gè)人體關(guān)節(jié)點(diǎn)的
定義為:1 脖子(neck)、2 右肩(right shoudler)、3 右肘(right_elbow)、4 右腕(right_wrist)、5 左肩(left_shoudler)、6 左肘(left_elbow)、7 左腕(left_wrist)、8 右髖(right_hip)、9 右膝(right_knee)、10 右踝(right_ankle)、11 左髖(left_hip)、12 左膝(left_knee)、13 左踝(left_ankle);5個(gè)頭部關(guān)鍵點(diǎn)的定義為:14 鼻子(nose)、15 右眼(right_eye)、16 左眼(left_eye)、17 右耳(right_ear)、18 左耳(left_ear)。
語音交互測(cè)試要求
1 測(cè)試語料要求:
測(cè)試語料應(yīng)覆蓋被測(cè)系統(tǒng)的核心詞匯,并從被測(cè)系統(tǒng)詞匯量覆蓋、業(yè)務(wù)覆蓋、音節(jié)覆蓋,以及常用性角度進(jìn)行設(shè)計(jì),具體要求應(yīng)按GB/T 21023-2007執(zhí)行。
2 語音測(cè)試集要求:
語音測(cè)試集應(yīng)符合以下要求:
1) 語音識(shí)別準(zhǔn)確率測(cè)試應(yīng)至少由男女老少各 25 名發(fā)音人進(jìn)行錄制,語音喚醒功能測(cè)試應(yīng)至少由 100 名發(fā)音人錄制,具體要求應(yīng)按 GB/T 21023-2007 執(zhí)行;
2) 聲紋識(shí)別測(cè)試應(yīng)至少由 50 名發(fā)音人錄制驗(yàn)證,具體要求應(yīng)按 GB/T 21023-2007 執(zhí)行。
支持語音和視覺交互的虛擬數(shù)字人技術(shù)規(guī)范就先講到這里了,想要獲取更多認(rèn)證有關(guān)的內(nèi)容,您可關(guān)注藍(lán)亞技術(shù),我們將持續(xù)為您講解~ ,您這邊有任何疑問也可以聯(lián)系13632500972 (微同號(hào))
公司以藍(lán)牙無線技術(shù)服務(wù)起家,目前已擁有數(shù)字化實(shí)驗(yàn)室、EMC電磁兼容、RF射頻、藍(lán)牙BQB、安規(guī)、物聯(lián)網(wǎng)性能、音頻性能和可靠性實(shí)驗(yàn)室,是華南地區(qū)首家取得藍(lán)牙5測(cè)試能力的授權(quán)實(shí)驗(yàn)室。藍(lán)亞技術(shù)在武漢的實(shí)驗(yàn)室服務(wù)華中地區(qū)。我們的實(shí)驗(yàn)室滿足ISO17025:2017體系,并已獲得中國CNAS:L9788;美國 A2LA:CN1252;加拿大CAB:CN0028;日本C&S認(rèn)可、藍(lán)牙聯(lián)盟BQTF資質(zhì);亞馬遜合作檢測(cè)認(rèn)證供應(yīng)商資質(zhì)。
擁有無線產(chǎn)品暢銷全球相關(guān)測(cè)試能力,可提供BQB、SRRC、CR認(rèn)證(機(jī)器人)、FCC、IC、CE、Carplay、AndroidAuto、RCM、MIC/TELEC、研發(fā)跟互聯(lián)軟件測(cè)試及東南亞、中東、南美洲、非洲等多國轉(zhuǎn)證服務(wù)。