超強(qiáng)NLP思維導(dǎo)圖,知識(shí)點(diǎn)全面覆蓋:從基礎(chǔ)概念到最佳模型,萌新成長(zhǎng)必備資源


原標(biāo)題:超強(qiáng)NLP思維導(dǎo)圖,知識(shí)點(diǎn)全面覆蓋:從基礎(chǔ)概念到最佳模型,萌新成長(zhǎng)必備資源
以下是超強(qiáng)NLP思維導(dǎo)圖涵蓋的知識(shí)點(diǎn),從基礎(chǔ)概念到最佳模型,為萌新提供成長(zhǎng)必備資源:
一、基礎(chǔ)概念
NLP定義:讓計(jì)算機(jī)理解、解釋和生成人類(lèi)語(yǔ)言的技術(shù),是人工智能領(lǐng)域活躍且重要的研究方向,結(jié)合計(jì)算機(jī)科學(xué)、人工智能、語(yǔ)言學(xué)和心理學(xué)等多學(xué)科知識(shí),旨在打破人類(lèi)語(yǔ)言和計(jì)算機(jī)語(yǔ)言間的障礙,實(shí)現(xiàn)無(wú)縫交流互動(dòng)。
核心任務(wù):
自然語(yǔ)言理解(NLU):使計(jì)算機(jī)理解自然語(yǔ)言文本的意義,經(jīng)歷了基于規(guī)則、基于統(tǒng)計(jì)和基于深度學(xué)習(xí)(如Transformer是目前“最先進(jìn)”的方法,BERT和GPT - 2都是基于Transformer的)的三次迭代。
自然語(yǔ)言生成(NLG):以自然語(yǔ)言文本來(lái)表達(dá)給定的意圖、思想等,有內(nèi)容確定、文本結(jié)構(gòu)、句子聚合、語(yǔ)法化、參考表達(dá)式生成、語(yǔ)言實(shí)現(xiàn)六個(gè)步驟。
二、處理層面
詞法分析:包括漢語(yǔ)的分詞和詞性標(biāo)注。分詞是將輸入的文本切分為單獨(dú)的詞語(yǔ);詞性標(biāo)注是為每一個(gè)詞賦予一個(gè)類(lèi)別,如名詞、動(dòng)詞、形容詞等。
句法分析:以句子為單位進(jìn)行分析以得到句子的句法結(jié)構(gòu),主流方法有短語(yǔ)結(jié)構(gòu)句法體系、依存結(jié)構(gòu)句法體系、深層文法句法分析。
語(yǔ)義分析:最終目的是理解句子表達(dá)的真實(shí)語(yǔ)義,語(yǔ)義角色標(biāo)注是目前比較成熟的淺層語(yǔ)義分析技術(shù),通常在句法分析的基礎(chǔ)上完成。
三、主要流程
傳統(tǒng)機(jī)器學(xué)習(xí)的NLP流程:預(yù)處理(收集語(yǔ)料庫(kù)、文本清洗、分割成單個(gè)的單詞文本、刪除不相關(guān)的單詞、將所有字符轉(zhuǎn)換為小寫(xiě)、考慮詞性還原等)、特征提?。ㄔ~袋設(shè)計(jì)、Embedding、特征分類(lèi)器)。
深度學(xué)習(xí)的NLP流程:預(yù)處理、設(shè)計(jì)模型、模型訓(xùn)練。
四、關(guān)鍵技術(shù)
文本預(yù)處理:
中文分詞:將連續(xù)的中文文本切分成有意義的詞匯序列,方法有經(jīng)典的基于詞典及人工規(guī)則(適應(yīng)性不強(qiáng),速度快,成本低)、現(xiàn)代的基于統(tǒng)計(jì)和機(jī)器學(xué)習(xí)(適應(yīng)性強(qiáng),速度較慢,成本較高)。
子詞切分:將詞匯進(jìn)一步分解為更小的單位,即子詞,常見(jiàn)方法有Byte Pair Encoding (BPE)、WordPiece、Unigram、SentencePiece等。
詞性標(biāo)注:為文本中的每個(gè)單詞分配一個(gè)詞性標(biāo)簽,如名詞、動(dòng)詞、形容詞等。
去除停用詞:去掉常見(jiàn)的、無(wú)實(shí)際意義的詞(如“是”“的”)。
詞形還原/詞干提取:將詞語(yǔ)還原為基本形式(如“running”還原為“run”)。
特征工程:將文本數(shù)據(jù)轉(zhuǎn)換為適合機(jī)器學(xué)習(xí)模型使用的數(shù)值表示的過(guò)程。
詞袋模型:一種簡(jiǎn)化的表示方法,將文本表示為詞的出現(xiàn)頻率,忽略詞序。
N - gram:通過(guò)考慮連續(xù)的N個(gè)詞(如二元組、三元組等)來(lái)捕捉詞序信息。
TF - IDF:一種統(tǒng)計(jì)方法,用于評(píng)估一個(gè)詞對(duì)文檔的重要性。
詞嵌入:使用模型(如Word2Vec、GloVe)將詞轉(zhuǎn)換為向量表示,捕捉詞之間的語(yǔ)義關(guān)系。
五、核心任務(wù)
中文分詞:是中文文本處理的首要步驟,由于中文語(yǔ)言特點(diǎn),詞與詞之間沒(méi)有明顯分隔,需將連續(xù)的中文文本切分成有意義的詞匯序列。
文本分類(lèi):將給定的文本自動(dòng)分配到一個(gè)或多個(gè)預(yù)定義的類(lèi)別中,廣泛應(yīng)用于情感分析、垃圾郵件檢測(cè)、新聞分類(lèi)、主題識(shí)別等場(chǎng)景。
實(shí)體識(shí)別:自動(dòng)識(shí)別文本中具有特定意義的實(shí)體,并將它們分類(lèi)為預(yù)定義的類(lèi)別,如人名、地點(diǎn)、組織、日期、時(shí)間等,對(duì)信息提取、知識(shí)圖譜構(gòu)建、問(wèn)答系統(tǒng)、內(nèi)容推薦等應(yīng)用很重要。
關(guān)系抽取:從文本中識(shí)別實(shí)體之間的語(yǔ)義關(guān)系,如因果關(guān)系、擁有關(guān)系、親屬關(guān)系、地理位置關(guān)系等,對(duì)理解文本內(nèi)容、構(gòu)建知識(shí)圖譜、提升機(jī)器理解語(yǔ)言的能力等方面具有重要意義。
文本摘要:生成一段簡(jiǎn)潔準(zhǔn)確的摘要,來(lái)概括原文的主要內(nèi)容,分為抽取式摘要和生成式摘要。
機(jī)器翻譯:使用計(jì)算機(jī)程序?qū)⒁环N自然語(yǔ)言(源語(yǔ)言)自動(dòng)翻譯成另一種自然語(yǔ)言(目標(biāo)語(yǔ)言)的過(guò)程,不僅涉及詞匯的直接轉(zhuǎn)換,更重要的是要準(zhǔn)確傳達(dá)源語(yǔ)言文本的語(yǔ)義、風(fēng)格和文化背景等。
自動(dòng)問(wèn)答:使計(jì)算機(jī)能夠理解自然語(yǔ)言提出的問(wèn)題,并根據(jù)給定的數(shù)據(jù)源自動(dòng)提供準(zhǔn)確的答案,模擬了人類(lèi)理解和回答問(wèn)題的能力,涵蓋了從簡(jiǎn)單的事實(shí)查詢到復(fù)雜的推理和解釋,大致可分為檢索式問(wèn)答、知識(shí)庫(kù)問(wèn)答和社區(qū)問(wèn)答。
六、經(jīng)典模型
BERT模型:由谷歌在2018年研究發(fā)布,采用獨(dú)特的神經(jīng)網(wǎng)絡(luò)架構(gòu)Transformer進(jìn)行語(yǔ)言理解,適用于語(yǔ)音識(shí)別、文本到語(yǔ)音以及序列到序列的任何任務(wù),能有效應(yīng)對(duì)11個(gè)NLP任務(wù)。
GPT - 2模型:OpenAI于2019年2月發(fā)布的開(kāi)源模型,同年11月發(fā)布完整版本,在文本翻譯、QA問(wèn)答、文章總結(jié)、文本生成等NLP任務(wù)上可以達(dá)到人類(lèi)的水平,但生成長(zhǎng)文章時(shí),會(huì)變得重復(fù)或無(wú)意義。
GPT - 3模型:由OpenAI于2020年發(fā)布,是一個(gè)自回歸語(yǔ)言模型,使用深度學(xué)習(xí)來(lái)生成類(lèi)似人類(lèi)的文本,在零樣本和小樣本學(xué)習(xí)任務(wù)上表現(xiàn)出了強(qiáng)大的學(xué)習(xí)能力。
RoBERTa模型:由Meta AI在2019年7月份發(fā)布,基于BERT模型優(yōu)化得到,通過(guò)學(xué)習(xí)和預(yù)測(cè)故意掩膜的文本部分,在BERT的語(yǔ)言掩蔽策略上建立它的語(yǔ)言模型,并使用更大的小批量和學(xué)習(xí)率進(jìn)行訓(xùn)練。
ALBERT模型:由谷歌在2020年初發(fā)布,是BERT模型的精簡(jiǎn)版本,主要用于解決模型規(guī)模增加導(dǎo)致訓(xùn)練時(shí)間變慢的問(wèn)題,采用了因子嵌入和跨層參數(shù)共享兩種參數(shù)簡(jiǎn)化方法。
XLNet模型:CMU和Google Brain團(tuán)隊(duì)在2019年6月份發(fā)布的模型,是一種通用的自回歸預(yù)訓(xùn)練方法,在20個(gè)任務(wù)上超過(guò)了BERT的表現(xiàn),并在18個(gè)任務(wù)上取得了當(dāng)前最佳效果。
T5模型:Google在2020年7月份發(fā)布的一款強(qiáng)大的統(tǒng)一模型,將所有NLP任務(wù)都轉(zhuǎn)化成文本到文本任務(wù),方便評(píng)估不同模型結(jié)構(gòu)、預(yù)訓(xùn)練目標(biāo)函數(shù)、無(wú)標(biāo)簽數(shù)據(jù)集等的影響。
ELECTRA模型:借鑒了對(duì)抗網(wǎng)絡(luò)的思想,共訓(xùn)練兩個(gè)神經(jīng)網(wǎng)絡(luò)模型(生成器和判別器),采用聯(lián)合訓(xùn)練的方法,以1/4的算力就達(dá)到了RoBERTa的效果。
DeBERTa模型:微軟在2021年初發(fā)布,使用了兩種新技術(shù)(注意力解耦機(jī)制、增強(qiáng)的掩碼解碼器)改進(jìn)了BERT和RoBERTa模型,同時(shí)還引入了一種新的微調(diào)方法(虛擬對(duì)抗訓(xùn)練方法)以提高模型的泛化能力。
StructBERT模型:由阿里巴巴達(dá)摩院2019年提出的NLP預(yù)訓(xùn)練模型,基于BERT模型的改進(jìn),增加了兩個(gè)預(yù)訓(xùn)練任務(wù)和目標(biāo),可以最大限度地利用單詞和句子的順序,分別在單詞和句子級(jí)別利用語(yǔ)言結(jié)構(gòu)。
責(zé)任編輯:
【免責(zé)聲明】
1、本文內(nèi)容、數(shù)據(jù)、圖表等來(lái)源于網(wǎng)絡(luò)引用或其他公開(kāi)資料,版權(quán)歸屬原作者、原發(fā)表出處。若版權(quán)所有方對(duì)本文的引用持有異議,請(qǐng)聯(lián)系拍明芯城(marketing@iczoom.com),本方將及時(shí)處理。
2、本文的引用僅供讀者交流學(xué)習(xí)使用,不涉及商業(yè)目的。
3、本文內(nèi)容僅代表作者觀點(diǎn),拍明芯城不對(duì)內(nèi)容的準(zhǔn)確性、可靠性或完整性提供明示或暗示的保證。讀者閱讀本文后做出的決定或行為,是基于自主意愿和獨(dú)立判斷做出的,請(qǐng)讀者明確相關(guān)結(jié)果。
4、如需轉(zhuǎn)載本方擁有版權(quán)的文章,請(qǐng)聯(lián)系拍明芯城(marketing@iczoom.com)注明“轉(zhuǎn)載原因”。未經(jīng)允許私自轉(zhuǎn)載拍明芯城將保留追究其法律責(zé)任的權(quán)利。
拍明芯城擁有對(duì)此聲明的最終解釋權(quán)。