支持語音和視覺交互的虛擬數(shù)字人技術(shù)規(guī)范

2022-08-12   ?   Orange

本文件按照GB/T 1.1-2020《標(biāo)準(zhǔn)化工作導(dǎo)則 第1部分:標(biāo)準(zhǔn)的結(jié)構(gòu)和編寫》給出的規(guī)則起草。

請(qǐng)注意本文件的某些內(nèi)容可能涉及專利。本文件的發(fā)布機(jī)構(gòu)不承擔(dān)識(shí)別這些專利的責(zé)任。

本文件由**市人工智能產(chǎn)業(yè)協(xié)會(huì)(Shenzhen Artificial Intelligence Industry Association)標(biāo)準(zhǔn)化委員會(huì)提出并歸口。

本文件起草單位:**市人工智能產(chǎn)業(yè)協(xié)會(huì)、**市8K超高清視頻產(chǎn)業(yè)協(xié)作聯(lián)盟、**賽西信息技術(shù)有限公司、**市優(yōu)必選科技股份有限公司、**市金大智能創(chuàng)新科技有限公司、科大訊飛股份有限公司、**市博樂信息技術(shù)有限公司、鋒睿領(lǐng)創(chuàng)(珠海)科技有限公司、*****耳智能聲學(xué)科技有限公司、**歐博思智能科技有限公司、藍(lán)亞技術(shù)服務(wù)(**)有限公司、**酷酷科技有限公司、**光子晶體科技有限公司、**奧尼電子股份有限公司、東莞市律普電子科技有限公司、杭州匯萃智能科技有限公司。

支持語音和視覺交互的虛擬數(shù)字人技術(shù)范圍:

本文件規(guī)定了支持語音和視覺進(jìn)行交互的虛擬數(shù)字人的技術(shù)要求和測(cè)量方法。

本文件適用于支持語音和視覺交互的虛擬數(shù)字人及其系統(tǒng)的研發(fā)、設(shè)計(jì)和測(cè)試。


支持語音和視覺交互的虛擬數(shù)字人技術(shù)規(guī)范(圖1)


規(guī)范性引用文件:

下列文件對(duì)于本文件的應(yīng)用是必不可少的。凡是注日期的引用文件,僅注日期的版本適

用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。

GB 3096-2008 聲環(huán)境質(zhì)量標(biāo)準(zhǔn);

GB/T 5271.29-2006 信息技術(shù) 詞匯 第29部分:人工智能 語音識(shí)別與合成;

GB/T 12060.5-2011 聲系統(tǒng)設(shè)備 第5部分:揚(yáng)聲器主要性能測(cè)試方法;

GB/T 12060.16-2017 聲系統(tǒng)設(shè)備 第16部分:通過語音傳輸指數(shù)客觀評(píng)價(jià)言語可懂度;

GB/T 14277-2013 音頻組合設(shè)備通用規(guī)范;

GB/T 21023-2007 中文語音識(shí)別系統(tǒng)通用技術(shù)規(guī)范;

GB/T 21024-2007 中文語音合成系統(tǒng)通用技術(shù)規(guī)范;

GB/T 34083-2017 中文語音識(shí)別互聯(lián)網(wǎng)服務(wù)接口規(guī)范;

GB/T 34145-2017 中文語音合成互聯(lián)網(wǎng)服務(wù)接口規(guī)范;

GB/T 35273-2020 信息安全技術(shù) 個(gè)人信息安全規(guī)范;

GB/T 35312-2017 中文語音識(shí)別終端服務(wù)接口規(guī)范;

GB/T 36464.1-2020 信息技術(shù) 智能語音交互系統(tǒng) 第1部分:通用規(guī)范;

GB/T 36464.2-2018 信息技術(shù) 智能語音交互系統(tǒng) 第2部分:智能**;

GB/T 36464.3-2018 信息技術(shù) 智能語音交互系統(tǒng) 第3部分:智能客服;

GB/T 36464.4-2018 信息技術(shù) 智能語音交互系統(tǒng) 第4部分:移動(dòng)終端;

GB/T 36464.5-2018 信息技術(shù) 智能語音交互系統(tǒng) 第5部分:車載終端;

SJ/T 11380-2008 自動(dòng)聲紋識(shí)別(說話人識(shí)別)技術(shù)規(guī)范;

SJ/T 11540-2015 有源揚(yáng)聲器通用規(guī)范;

GB/T 38665.1-2020 信息技術(shù) 手勢(shì)交互系統(tǒng) 第1部分:通用技術(shù)要求;

GB/T 38665.2-2020 信息技術(shù) 手勢(shì)交互系統(tǒng) 第2部分:系統(tǒng)外部接口;

SJ/T 11348-2016 平板電視顯示性能測(cè)量方法;

GB/T 35273—2020《信息安全技術(shù)個(gè)人信息安全規(guī)范》。

術(shù)語和定義

下列術(shù)語和定義適用于本文件。

1.虛擬數(shù)字人 virtual digital human:

是基于計(jì)算機(jī)視覺和語音合成等技術(shù),進(jìn)行形象、聲音、動(dòng)作等的模型訓(xùn)練后,可以生成虛擬人像并與使用者交互的設(shè)備。

2.語音交互 speech interaction:

人類和功能單元之間通過語音進(jìn)行的信息傳遞和交流活動(dòng)。

[GB/T 36464.2-2018,定義3.1]

3.語音識(shí)別 speech recognition:

將人類的聲音信號(hào)轉(zhuǎn)化為文字或者指令的過程。

[GB/T 21023—2007,定義3.1]

4.語音合成 speech synthesis:

將給定的文本轉(zhuǎn)換成與之對(duì)應(yīng)的語音的過程。

[GB/T 34145—2017,定義3.1]

5.自然語言理解 natural language understanding:

讓計(jì)算機(jī)能夠理解自然語言文本中蘊(yùn)含的含義及意圖的過程。

6.語音喚醒 speech wake-up;voice trigger:

處于音頻流**狀態(tài)的語音交互系統(tǒng),在檢測(cè)到特定的特征或事件出現(xiàn)后,切換到命令詞識(shí)別、連續(xù)語音識(shí)別等其他處理狀態(tài)的過程。

[GB/T 36464.2-2018,定義3.13]

7.誤喚醒 false wake-up:

語音交互系統(tǒng)處于音頻流**狀態(tài),無音頻流或者音頻流中沒有出現(xiàn)喚醒所需的特征或事件時(shí),語音喚醒系統(tǒng)被喚醒的現(xiàn)象。

[改寫GB/T 36464.2-2018,定義3.14]

8.噪聲 noise:

語音采集過程中,采集到的能干擾對(duì)目標(biāo)語音信號(hào)的識(shí)別、理解或處理的信號(hào)。

9.聲紋 voiceprint:

指語音中所蘊(yùn)含的、能表征和標(biāo)識(shí)特定說話人的獨(dú)有的特性或特征。

[SJ/T 11380—2008,定義3.1.1]

10.聲紋識(shí)別 voiceprint recognition:

根據(jù)待識(shí)別語音的聲紋特征識(shí)別該段語音所對(duì)應(yīng)的說話人的過程。

[SJ/T 11380—2008,定義3.1.6]

11.麥克風(fēng)陣列 microphone array:

由具有確定空間拓?fù)浣Y(jié)構(gòu)的多個(gè)麥克風(fēng)組成的,對(duì)信號(hào)的空間特性進(jìn)行采樣并處理的系統(tǒng)。T/AIIA-002-2021

12.語音打斷 speech interruption:

語音交互系統(tǒng)在播放聲音的過程中,當(dāng)語音采集設(shè)備檢測(cè)到有效語音輸入時(shí),終端播放聲音,轉(zhuǎn)到語音識(shí)別等其他處理過程。

[GB/T 36464.2-2018,定義3.18]

13.隱私標(biāo)簽 privacy label:

由廠商或者開放平臺(tái)應(yīng)用定義的涉及使用者私密信息的數(shù)據(jù),對(duì)該類型數(shù)據(jù)加以標(biāo)識(shí)的標(biāo)簽。

14.手勢(shì) gesture:

用戶利用上肢(包括手部和手臂)表達(dá)交互意圖時(shí),所執(zhí)行的具體姿態(tài)或動(dòng)作。

15.手勢(shì)識(shí)別 gesture recognition:

從輸入的手勢(shì)圖像/視頻數(shù)據(jù)確定用戶手勢(shì)狀態(tài)。

16.人體姿態(tài)估計(jì) pose estimation:

從2D圖像中,預(yù)測(cè)人體的13個(gè)關(guān)節(jié)點(diǎn)和5個(gè)頭部關(guān)鍵點(diǎn)的圖像坐標(biāo)。13個(gè)人體關(guān)節(jié)點(diǎn)的

定義為:1 脖子(neck)、2 右肩(right shoudler)、3 右肘(right_elbow)、4 右腕(right_wrist)、5 左肩(left_shoudler)、6 左肘(left_elbow)、7 左腕(left_wrist)、8 右髖(right_hip)、9 右膝(right_knee)、10 右踝(right_ankle)、11 左髖(left_hip)、12 左膝(left_knee)、13 左踝(left_ankle);5個(gè)頭部關(guān)鍵點(diǎn)的定義為:14 鼻子(nose)、15 右眼(right_eye)、16 左眼(left_eye)、17 右耳(right_ear)、18 左耳(left_ear)。

測(cè)試方法

語音交互測(cè)試要求

1 測(cè)試語料要求:

測(cè)試語料應(yīng)覆蓋被測(cè)系統(tǒng)的核心詞匯,并從被測(cè)系統(tǒng)詞匯量覆蓋、業(yè)務(wù)覆蓋、音節(jié)覆蓋,以及常用性角度進(jìn)行設(shè)計(jì),具體要求應(yīng)按GB/T 21023-2007執(zhí)行。

2 語音測(cè)試集要求:

語音測(cè)試集應(yīng)符合以下要求:

1) 語音識(shí)別準(zhǔn)確率測(cè)試應(yīng)至少由男女老少各 25 名發(fā)音人進(jìn)行錄制,語音喚醒功能測(cè)試應(yīng)至少由 100 名發(fā)音人錄制,具體要求應(yīng)按 GB/T 21023-2007 執(zhí)行;

2) 聲紋識(shí)別測(cè)試應(yīng)至少由 50 名發(fā)音人錄制驗(yàn)證,具體要求應(yīng)按 GB/T 21023-2007 執(zhí)行。

支持語音和視覺交互的虛擬數(shù)字人技術(shù)規(guī)范就先講到這里了,想要獲取更多認(rèn)證有關(guān)的內(nèi)容,您可關(guān)注藍(lán)亞技術(shù),我們將持續(xù)為您講解~ ,您這邊有任何疑問也可以聯(lián)系13632500972 (微同號(hào))

公司以藍(lán)牙無線技術(shù)服務(wù)起家,目前已擁有數(shù)字化實(shí)驗(yàn)室、EMC電磁兼容、RF射頻、藍(lán)牙BQB、安規(guī)、物聯(lián)網(wǎng)性能、音頻性能和可靠性實(shí)驗(yàn)室,是華南地區(qū)首家取得藍(lán)牙5測(cè)試能力的授權(quán)實(shí)驗(yàn)室。藍(lán)亞技術(shù)在武漢的實(shí)驗(yàn)室服務(wù)華中地區(qū)。我們的實(shí)驗(yàn)室滿足ISO17025:2017體系,并已獲得中國CNAS:L9788;美國 A2LA:CN1252;加拿大CAB:CN0028;日本C&S認(rèn)可、藍(lán)牙聯(lián)盟BQTF資質(zhì);亞馬遜合作檢測(cè)認(rèn)證供應(yīng)商資質(zhì)。

擁有無線產(chǎn)品暢銷全球相關(guān)測(cè)試能力,可提供BQB、SRRC、CR認(rèn)證(機(jī)器人)、FCC、IC、CE、Carplay、AndroidAuto、RCM、MIC/TELEC、研發(fā)跟互聯(lián)軟件測(cè)試及東南亞、中東、南美洲、非洲等多國轉(zhuǎn)證服務(wù)。

相關(guān)內(nèi)容:
  • 中國機(jī)器人CR認(rèn)證_深圳藍(lán)亞
  • CR認(rèn)證是強(qiáng)制性的嗎?
  • 機(jī)器人CR認(rèn)證_深圳藍(lán)亞
  • CR認(rèn)證詳細(xì)介紹
  • CR認(rèn)證目錄(2023)
  • QQ在線咨詢
    全球認(rèn)證咨詢
    13632500972
    實(shí)驗(yàn)室座機(jī)
    0755-23059481
    <script> var _hmt = _hmt || []; (function() { var hm = document.createElement("script"); hm.src = "https://#/hm.js?6844225bf949cff65b89ec7139b9ad0f"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s); })(); </script>