IT安全運(yùn)維 -內(nèi)容安全審核
2020-05-01 17:25 作者:艾銻無限 瀏覽量:
隨著《網(wǎng)絡(luò)安全法》的實(shí)施,互聯(lián)網(wǎng)內(nèi)容安全的法規(guī)更加健全。內(nèi)容安全審核成為以短視頻、新聞資訊,直播等平臺(tái)優(yōu)先級(jí)最高的運(yùn)營(yíng)需求,不管是通過人工審核還是以系統(tǒng)性的機(jī)器審核,都是以最安全與最適合產(chǎn)品的審核結(jié)果維度為主,在以前這些都屬于網(wǎng)站管理員,論壇社區(qū)版主等
網(wǎng)站運(yùn)維的工作內(nèi)容。隨著國(guó)家監(jiān)管的力度不斷提升,暴力、血腥、政治、黃賭毒及危機(jī)青少年不良社會(huì)導(dǎo)內(nèi)容向已成為重點(diǎn)關(guān)注區(qū)域。作為
IT安全運(yùn)維必須了解。
常見的違規(guī)內(nèi)容,在文字、圖片、音視頻很容易被肉眼所捕捉到,對(duì)于需要肉眼仔細(xì)審核才能會(huì)發(fā)現(xiàn)內(nèi)容存在的問題,如文字中攜帶的形變、音變與直接赤裸顯示粗陋內(nèi)容;圖片中常見的血腥、帶有諷刺性、暗示性的內(nèi)容導(dǎo)向;音頻波形中雜亂外音包裹的其傳達(dá)核心無法識(shí)別的訊息。視頻中常見的漏點(diǎn)、涉黃、及音畫不同步現(xiàn)象。而這些違規(guī)內(nèi)容對(duì)現(xiàn)在的人工智能科技來講,識(shí)別審核程度較難,且識(shí)別效果不準(zhǔn)確。若處理類似于藏頭詩(shī)、漫畫圖、帶有正向文字的負(fù)面導(dǎo)向內(nèi)容,機(jī)器更是難上加難。當(dāng)企業(yè)領(lǐng)導(dǎo)為了減輕企業(yè)成本,執(zhí)意采用機(jī)器來審核,可能被監(jiān)管部門抽中的“中獎(jiǎng)”幾率性會(huì)增加很高,畢竟這場(chǎng)博弈,用僥幸的概率去對(duì)比約談甚至關(guān)停的企業(yè)風(fēng)險(xiǎn)還是有些大的。
內(nèi)容審核流程
內(nèi)容審核常分為兩個(gè)系統(tǒng),一個(gè)是政治審核系統(tǒng),一個(gè)其他系統(tǒng)審核。企業(yè)對(duì)于其他的審核條件會(huì)根據(jù)企業(yè)的運(yùn)營(yíng)需求調(diào)整寬松程度,甚至打擦邊球。但對(duì)于政治審核來講,沒有企業(yè)甘愿冒此風(fēng)險(xiǎn)。內(nèi)容審核系統(tǒng)基本上就是根據(jù)國(guó)家法律法規(guī),外加地方網(wǎng)監(jiān)法律法規(guī),文化部和公安部的政策規(guī)定,進(jìn)行審核的。對(duì)于內(nèi)容審核,第一是相關(guān)部門是親眼看到不良相關(guān)性的內(nèi)容,第二是通過API接口審核排查,不管是地方的網(wǎng)監(jiān),還是國(guó)家監(jiān)管部門,都是有一套相關(guān)的數(shù)據(jù)排查系統(tǒng)。政治違規(guī)相比其他違規(guī)監(jiān)測(cè)更為嚴(yán)格,目前市面上內(nèi)容審核方案服務(wù)商,對(duì)政治違規(guī)內(nèi)容判別檢測(cè)都做到近似100%。(這里普及一個(gè)知識(shí):法律法規(guī)是已經(jīng)成文的,就是不能觸犯的信息。犯了就是犯罪,必須有行政處罰的。而政策規(guī)定只能算是規(guī)矩,觸犯了根據(jù)情節(jié)嚴(yán)重,還有中國(guó)慣有國(guó)情的關(guān)系,可以有伸縮的。)內(nèi)容安全圖像、文字、音視頻是如何審核的?什么AI技術(shù)呢?這些審核的準(zhǔn)確度如何呢?
圖片審核技術(shù)與邏輯:
對(duì)于政治人物(圖片)的審核,可直接調(diào)用服務(wù)商的接口,如云凈網(wǎng)、圖譜科技、數(shù)美等,這些服務(wù)商已成型的識(shí)別技術(shù)可判斷當(dāng)前圖片是否涉黃,涉政,及違規(guī)性指數(shù),滿足企業(yè)對(duì)于圖片的審核條件。對(duì)于暴力、血腥、漫畫這類圖片,通常還是需配有人工逐條審核。在對(duì)于大并發(fā)量的上傳情況下,單人審核肯定無法滿足先審后發(fā)的規(guī)定,并可能會(huì)對(duì)用戶體驗(yàn)造成產(chǎn)品不舒適的感覺,引發(fā)規(guī)模性的流失。而避免這一漏洞,這時(shí),通常就需招聘多人甚至人工審核外包團(tuán)隊(duì)進(jìn)行內(nèi)容審核管理。對(duì)圖片識(shí)別技術(shù)方式而言,圖片的識(shí)別一般采用大數(shù)據(jù)標(biāo)簽學(xué)習(xí)與相似度對(duì)比技術(shù)。對(duì)于政治人物檢測(cè)識(shí)別則使用AI系統(tǒng)中的人臉識(shí)別系統(tǒng),人臉識(shí)別技術(shù)被廣泛采用的區(qū)域特征分析算法,通過深度學(xué)習(xí)技術(shù)從視頻和照片中提取人像特征點(diǎn),利用生物統(tǒng)計(jì)學(xué)的原理進(jìn)行分析建立數(shù)學(xué)模型,即人臉特征模板。在已建成的人臉特征模板與被測(cè)者的人的面像進(jìn)行特征分析,根據(jù)分析的結(jié)果來給出一個(gè)相似度值,最終搜索到最佳匹配人臉特征模板,并因此確定個(gè)人的身份信息。廣義的人臉識(shí)別實(shí)際包括構(gòu)建人臉識(shí)別系統(tǒng)的一系列相關(guān)技術(shù):包括圖像采集、人臉檢測(cè)、特征建模、比對(duì)辨識(shí)、身份確認(rèn)等;而狹義的人臉識(shí)別特指通過人臉進(jìn)行身份確認(rèn)或者身份查找的技術(shù)或系統(tǒng)。
文本的審核技術(shù)與邏輯:
文本的審核要比圖片更加多樣化及專業(yè)化,從文字場(chǎng)景來講,文字可能是一個(gè)簽名、一個(gè)詞組,一段文本甚至是一篇文章,還有些文字附帶在圖片上,如一張海報(bào),一張頭像圖等。從內(nèi)容上分,內(nèi)容應(yīng)該分為三種,文字,圖形與語言。在文字上來說,國(guó)內(nèi)圖書有中圖法,國(guó)外有亞馬遜分類法,高斯分類等。對(duì)于圖片中存在的文字,識(shí)別最多使用的還是OCR(文本識(shí)別技術(shù))。對(duì)于長(zhǎng)短文本及變形變異字體中,會(huì)使用到垃圾文本處理技術(shù)(在AI技術(shù)來講:CRF分詞,NLP,n-gram算法,隨機(jī)森林算法)隨機(jī)森林指的是利用多棵樹對(duì)樣本進(jìn)行訓(xùn)練并預(yù)測(cè)的一種分類器,通過對(duì)文本的處理進(jìn)行歸類,自動(dòng)預(yù)測(cè)文本內(nèi)容的形式。當(dāng)你要做預(yù)測(cè)的時(shí)候,新的觀察值隨著決策樹自上而下走下來并被賦予一個(gè)預(yù)測(cè)值或標(biāo)簽。一旦森林中的每棵樹都給有了預(yù)測(cè)值或標(biāo)簽,所有的預(yù)測(cè)結(jié)果將被歸總到一起,所有樹的投票返回做為最終的預(yù)測(cè)結(jié)果。簡(jiǎn)單來說,99.9%不相關(guān)的樹做出的預(yù)測(cè)結(jié)果涵蓋所有的情況,這些預(yù)測(cè)結(jié)果將會(huì)彼此抵消。少數(shù)優(yōu)秀的樹的預(yù)測(cè)結(jié)果將會(huì)脫穎而出,從而得到一個(gè)好的預(yù)測(cè)結(jié)果。對(duì)于圖片的識(shí)別,目前單靠機(jī)器識(shí)別,往往無法滿足審核需求,恕我直言,目前階段機(jī)器識(shí)別技術(shù)只能輔助人工審核,暫無法全面機(jī)器審核。AI機(jī)器審核還相當(dāng)于人類三歲的智商,是處于弱智能時(shí)代,為了增強(qiáng)內(nèi)容審核安全及無延遲的用戶體驗(yàn),建議企業(yè)還是組建人工審核團(tuán)隊(duì)。
語音識(shí)別技術(shù)與能力
語音在專業(yè)角度劃分為兩種:音頻與視頻。
語音(音頻)識(shí)別的應(yīng)用場(chǎng)景較多,比如AI智能音響常用到的語音識(shí)別,電話通話視頻中的語音視頻,甚至是直播平臺(tái)中主播在講的音頻內(nèi)容。音頻等于說話,說話包含說了什么?(涉政、涉黃、涉賭還是廣告信息)。
在音頻技術(shù)識(shí)別方面,針對(duì)不同的內(nèi)容有不同識(shí)別技術(shù)。針對(duì)說話內(nèi)容有語音識(shí)別、關(guān)鍵詞檢索等;針對(duì)語種的判別有語種識(shí)別的技術(shù);針對(duì)說話人的識(shí)別有聲紋識(shí)別技術(shù);針對(duì)說話內(nèi)容無關(guān)的通常采用音頻比對(duì)的技術(shù)來進(jìn)行檢測(cè)。通常一般短視頻,直播或者音頻平臺(tái),對(duì)音頻對(duì)比、聲紋的技術(shù)較為重視,是保證錄音質(zhì)量及外放聲音很有效的一種運(yùn)營(yíng)手段,但對(duì)內(nèi)容語音識(shí)別,則不太關(guān)注,畢竟語音識(shí)別技術(shù)對(duì)這些企業(yè)的應(yīng)用場(chǎng)景不是剛需。
基于語音識(shí)別的關(guān)鍵詞檢索是將語音識(shí)別的結(jié)構(gòu)構(gòu)建成一個(gè)索引網(wǎng)絡(luò),然后把關(guān)鍵詞從索引網(wǎng)絡(luò)中找出來。從上圖流程中可以看到,首先把語音進(jìn)行識(shí)別處理,從里面提取索引構(gòu)建索引網(wǎng)絡(luò),進(jìn)行關(guān)鍵詞檢索的時(shí)候,在通過關(guān)鍵詞表在網(wǎng)絡(luò)中進(jìn)行頻率,找到概率最高的,輸出其關(guān)鍵詞匹配結(jié)果。(在這一步可通過垃圾文本處理及上下語義分,對(duì)轉(zhuǎn)化的文本進(jìn)行處理)。目前音頻的識(shí)別技術(shù)能力還遠(yuǎn)遠(yuǎn)達(dá)不到準(zhǔn)確階段,比如音頻出現(xiàn)的“嬌喘聲”單靠技術(shù)根本無法識(shí)別,或識(shí)別(轉(zhuǎn)化)出來就是一串亂字。再如在人潮擁擠的雜音中,出現(xiàn)的音頻,也無法準(zhǔn)確的轉(zhuǎn)化成文字識(shí)別。遇到這種隱晦場(chǎng)景下的文本,通常還是需要人工去審核。
視頻識(shí)別技術(shù)與處理模式:
在視頻上,根據(jù)內(nèi)容不同,如直播、短視頻、個(gè)人上傳的視頻,視頻是畫面與音頻組成的以幀為單位的畫面。對(duì)于音頻常存在暴恐、淫穢傳播、甚至是音畫不同步等問題。在視頻處理上面,通常采用截幀上傳服務(wù)器數(shù)據(jù)對(duì)比來識(shí)別。其審核模式與圖片審核相同,會(huì)判斷場(chǎng)景(外室外還是室內(nèi))、會(huì)判斷人臉(畫面中出現(xiàn)的人是否是明星或者政治)、會(huì)判斷是否色情(根據(jù)畫面圖片的裸露狀態(tài),可為正常、性感、色情等不同唯獨(dú))。
如抖音、映客、等以視頻流為主的APP,對(duì)視頻內(nèi)容的審核往往通過機(jī)器的方式進(jìn)大量的審核篩檢,畫面中存在的嚴(yán)重血腥、暴恐、色情、政治新聞等危害畫面內(nèi)容會(huì)優(yōu)先被干掉,而那些不以直接性的畫面展示的內(nèi)容機(jī)器難以審查出來。講了這么多,內(nèi)容違規(guī)存在的音、視、圖、文,以技術(shù)的識(shí)別方式都是通用的,只不過在審核時(shí)設(shè)定的策略及寬進(jìn)程度不同,如圖片的識(shí)別,可設(shè)定存有性感,但不能色情,也可設(shè)置存有只能人臉,但不能物體,攔截的寬緊程度需要人工來設(shè)定,對(duì)于大量的內(nèi)容并發(fā),則是需要大量人工通過機(jī)器輔助人工進(jìn)行審核,而非機(jī)器單獨(dú)進(jìn)行全方位過濾。
內(nèi)容審核技術(shù)與邏輯不單單是套系統(tǒng),而非一套非常的準(zhǔn)確且嚴(yán)謹(jǐn)?shù)墓ぷ鳎瑑?nèi)容審核既要及時(shí)攔截違規(guī)內(nèi)容信息,又不能對(duì)用戶造成產(chǎn)品上的體驗(yàn)落差。內(nèi)容審核,任重而道遠(yuǎn)。
艾銻無限科技專業(yè):IT外包、
企業(yè)外包、
北京IT外包、桌面運(yùn)維、
弱電工程、網(wǎng)站開發(fā)、wifi覆蓋方案,
網(wǎng)絡(luò)外包,網(wǎng)絡(luò)管理服務(wù),
網(wǎng)管外包,綜合布線,服務(wù)器運(yùn)維服務(wù),
中小企業(yè)it外包服務(wù),服務(wù)器維保公司,硬件運(yùn)維,網(wǎng)站運(yùn)維服務(wù)
以上文章由北京艾銻無限科技發(fā)展有限公司整理