精品久久亚洲中文无码_亚洲乱码日产精品a级毛片久久_国产精品成人久久久久三级午夜电影_亚洲色无码国产精品网站可下载

舊版網站入口

站內搜索

中日對譯語料庫的研制與應用研究

2011年05月15日16:51

  北京外國語大學北京日本學研究中心徐一平教授主持的國家社會科學基金項目《中日對譯語料庫的研制與應用研究》,于1999年立項,2003年7月結項,其最終成果為《中日對譯語料庫》(CDROM)和《中日對譯語料庫的研制與應用研究論文集》。課題組主要成員有:曹大峰、施建軍、戴寶玉、李強、潘壽君、楊詘人。現將該成果的基本內容及其研究、應用情況介紹如下:

  隨著信息時代的到來,大規模真實文本的處理給自然語言處理研究提出了緊迫的要求。同時,語言學界也發現,單純依靠語言學家的內省和造句對語言所作的定性研究越來越難以全面、系統地描寫語言的真實全貌。因此,基于語料庫的經驗主義研究方法也就越來越受到語言學界和自然語言處理學界的青睞。在計算機不斷普及和自然語言處理研究不斷深入的過程中,基于單語語言的語料庫建設如雨后春筍,迅速發展。但是,作為基于中日兩種語言的大型雙語平行語料庫,目前在世界上還沒有得到開發和建立。因此可以說這一項目的完成,具有世界首創和填補空白的重要意義。

  一、內容豐富、加工到位、檢索功能齊全的中日對譯語料庫

  本項目完成的《中日對譯語料庫》(CDROM),共收入中日雙語各種文本語料2013萬余字。在語料的收集上,考慮到語言研究和自然語言處理研究應用的實際需要,在注重規模和原文、譯文質量的同時,還充分考慮到各種體裁、年代語料的平衡,經過對原文文本和譯文文本的調查和專家篩選,最終收入了中日文各類文章原文文本和譯文文本共80余篇。其中不但收錄了中日對譯文章中最常見的小說文本,還包括了如詩歌、散文、傳記、政論、法律法規、政府工作報告等各種體裁的語料文本,其跨越的時代也涉及到了近現代的各個時期,從而充分保證了語料的實用效果。在語料的錄入方面,經過了多次反復的校對,使錯誤率控制在了萬分之五以下,充分保證了所收語料的可信度。

  為了適應自然語言研究中知識提取的需要,對中日對譯語料庫中所收語料進行了原文譯文對齊、詞性標注、句法標注等三個方面的深加工處理。

  首先,原文譯文對齊是雙語平行語料庫的基本條件。但是,由于中日雙語語料自動對齊的計算機工具尚未問世,利用計算機對語料進行機器自動對齊加工,目前還不現實。因此,課題組成員利用人工方法對全部語料進行了對齊加工,制定了詳細的對齊原則,最終實現了本語料庫的雙語語料在段落層面上的100%對齊。在確保語料對齊加工質量的同時,為今后實現中日雙語語料計算機自動對齊和進一步細化至句對齊,摸索出了一套成功的經驗。

  其次,利用中日兩國自然語言處理研究中已經開發出來的先進的分詞、詞性標注技術和句法分析系統,對整個語料庫的中日語料文本分別進行了整體的分詞、詞性標注和嘗試性的句法標注。目前,由于自然語言處理技術的日益進步,中日兩國單語語言的基于統計模型的分詞技術和詞性標注技術均已日臻成熟。在中文方面,如北京大學計算語言學所開發的漢語分詞標注系統SLEX;在日文方面,如日本奈良尖端科學技術大學院大學建立的日語分詞標注系統CHASEN等,其計算機自動加工分詞和詞性標注的準確率均可以達到95%以上。在利用這些先進技術對本項目研制的中日對譯語料庫的語料進行分詞和詞性標注加工時,考慮到這些系統的統計模型都是基于純母語語料建立的這一特點,針對“對譯語料庫”的語料特殊性,特別是譯文語料中所存在的一些原文留下的烙印,如人名、地名等專有名詞,是基于母語語料的現有系統處理不了的問題,課題組在開發研制過程中,分別在這些系統中建立了對譯語言的中日文人名、地名等的專有名詞詞典。同時,采取了機器自動分詞、標注和人工校對相結合的方法,使中日雙語語料的分詞和詞性標注的準確率均達到了98%以上。另外,對10%的雙語語料進行了嘗試性的句法標注,其標注準確率,中文在60%—75%,日文在70%—80%之間。由于本項目的深加工處理,是在中日雙語語料中進行的,其中所遇到的問題和解決的辦法是現有基于母語語料的系統中所不曾遇到過的,特別是加工完以后的語料再反饋給單語語料加工系統作為習題庫進行學習,對進一步提高單語語料加工系統的準確率起到了積極的作用。

  一個語料庫建成以后,是否能得到充分的應用,其關鍵就在于該語料庫是否具備能夠滿足使用者要求的檢索功能。針對這一問題,課題組成員集思廣益,并與日本日立公司中央研究所通力合作,開發出了一套適合于中日對譯雙語平行語料庫特點,并能夠滿足中日語言研究者需要的檢索工具。

  為了適應中日雙語語料的特點,在檢索工具的功能上,要能夠做到對中日文語料進行雙向檢索,并能夠提取與檢索結果相對應的譯文語料,同時在計算機的同一個平臺上實現中日文的同屏顯示。課題組充分考慮到windows平臺的多語言技術特點,將本語料庫的主要開發平臺選定為windows操作系統。同時,為了使語料庫具有廣泛的通用性和較強的兼容性,中文語料采用了GB2312內碼存儲,日文語料采用了SHIFTJIS內碼存儲。這樣既可以適應各種版本的windows平臺,并且經過簡單轉換以后又可以在其他平臺(如UNIX、linux等)上使用,充分提高了語料庫的應用價值和學術價值,并為最終實現中日文同屏顯示和多功能檢索奠定了基礎。

  本語料庫提供的檢索工具主要是在windows2000和ie6.0上,利用數據庫技術開發研制的。在顯示檢索結果時針對不同文種使用不同字體,有效地解決了中日文同屏顯示的問題。而且,由于分別采用了中日兩國的國家工業標準代碼存儲語料,使得在不同語種檢索中出現的內碼沖突問題也得到了很好的解決,同時為語料庫數據的二次開發利用也創造了有利的條件。針對語料庫主要用于語言研究的特點,本語料庫提供的檢索工具,除具備一般語料庫所要求的簡單的字符串檢索功能以外,還具備了句型檢索、特定組合形態詞語檢索、使用頻率檢索、正則表達式檢索等適應各種語言研究復雜要求的檢索功能。其檢索速度也完全達到了實用的水平。

  二、邊研制、邊應用,研究成果始終在應用中驗證并提高

  正如課題組在立項報告中闡明的那樣,此次開發研制的《中日對譯語料庫(CDROM)》,其最終目的是為中日兩國語言研究服務。因此,對本語料庫的應用性提出了很高的要求。為了使完成以后的中日對譯語料庫能夠滿足中日兩國語言研究者的應用要求,在語料庫基本具備一定規模和相應的檢索功能以后,課題組成員以及其他一些相關研究人員就開始利用本語料庫進行各種語言研究的嘗試。并分別于2001年9月和2002年9月舉行了兩次大型的國際學術研討會。

  在2001年9月舉行的題為《中日對譯語料庫的研制與應用研究》的國際學術研討會上,來自中日兩國的研究學者交流和研討了中日對譯語料庫在漢語語言學研究、日語語言學研究、漢日對比語言學研究、自然語言處理研究等領域中的應用問題,這些研究廣泛涉及到了句法、詞匯、翻譯、詞典、歷時語言學等諸多方面,為課題組進一步完善中日對譯語料庫的研制提供了許多寶貴的數據。

  在2002年9月舉行的題為《語料庫應用研究的深化與拓展》的國際學術研討會上,來自中日韓三國的研究學者,圍繞“語料庫在語言學研究中的作用和局限性”、“語言學、信息處理研究所需要的語料庫”、“中日對譯語料庫的構建和現狀”、“語料庫信息的自動抽取及其在語言研究中的應用”、“口語語料庫的建設與應用”等課題,進行了廣泛、深入的探討。

  為了反映這些應用研究成果,課題組將開發過程中發表的階段性研究成果的論文以及利用中日對譯語料庫中期成果進行的應用性語言研究成果的論文匯集成冊,出版了《中日對譯語料庫的研制與應用研究論文集》。其中,利用中日對譯語料庫對中文的語氣助詞“吧”和日語助動詞“だろう”的對比研究、對中文的語氣助詞“呢”的研究以及對中日文完成時的對比研究等,都得出了未使用對譯語料庫進行研究所沒有得到的新的結論,進一步推動了中日兩國語言研究的深入發展,充分顯示了中日對譯語料庫在兩國語言研究中所能發揮的重要作用。

  當然,語料庫的應用也不僅僅限于單純的語言研究。如本語料庫還在清華大學的日文OCR開發項目,以及日本大學《日中古典文學今譯數據庫》項目等中日兩國的各類開發項目中得到了實際的應用,并收到了良好的社會效益。

  在自然語言處理領域,語料庫是構建語言數學模型的基礎。許多成功的機器翻譯系統的核心模型也都是在語料庫的基礎上建立起來的。在當今世界國際化進程不斷加快的今天,同處亞洲的中日兩國的關系越來越密切,一個滿足于中日兩國人民交往的中日機器翻譯系統,越來越成為一種迫切的需要。而中日對譯語料庫必將成為這種翻譯系統的基礎。同時,進一步加大各國人民之間的交流,從雙邊關系進一步發展為多邊關系也是世界發展的一個必然趨勢。在已經開發出的中日對譯雙語平行語料庫的基礎上,進一步研制開發中日韓對譯以及中日英對譯等三語或多語平行語料庫,將是課題組的下一個努力目標。
(責編:陳葉軍)
精品久久亚洲中文无码_亚洲乱码日产精品a级毛片久久_国产精品成人久久久久三级午夜电影_亚洲色无码国产精品网站可下载
  • <samp id="sgkyk"><pre id="sgkyk"></pre></samp>
    
    
    欧美日本高清视频| 一本一本a久久| 欧美精品久久久久久久免费观看| 亚洲一级影院| 亚洲国产综合在线| 亚洲欧美另类久久久精品2019| 好吊日精品视频| 国产精品视频一| 国产精品进线69影院| 欧美激情网站在线观看| 久久久久久网站| 久久九九精品| 欧美在线黄色| 久久精品视频在线观看| 午夜欧美理论片| 亚洲欧美日韩国产精品| 亚洲一级网站| 亚洲一区二区视频在线| 亚洲免费中文| 亚洲欧美日韩国产另类专区| 亚洲一区999| 亚洲视频免费在线| 亚洲图色在线| 午夜精品理论片| 亚洲欧美综合国产精品一区| 香蕉免费一区二区三区在线观看 | 欧美肉体xxxx裸体137大胆| 欧美国产激情| 欧美日韩福利在线观看| 欧美日韩精品免费看| 欧美日韩在线第一页| 国产精品草草| 国产精品久久久久影院色老大| 国产精品视频yy9099| 国产伊人精品| 在线观看亚洲| 亚洲精品日本| 亚洲欧美高清| 久久香蕉国产线看观看av| 老司机午夜精品视频在线观看| 欧美aaa级| 欧美性片在线观看| 国内精品久久久久久影视8 | 久久尤物电影视频在线观看| 欧美不卡福利| 国产精品久久久一本精品| 国产视频自拍一区| 亚洲人www| 亚洲欧美在线免费| 久热精品在线视频| 国产精品啊啊啊| 在线精品国精品国产尤物884a| 亚洲免费高清| 久久国内精品视频| 欧美精品一区二| 国产欧美日韩一区二区三区在线观看| 国内一区二区三区| 亚洲精品乱码久久久久久久久 | 亚洲福利一区| 亚洲在线不卡| 欧美成人亚洲成人日韩成人| 国产精品资源| 亚洲美女在线观看| 国产欧美日韩专区发布| 国产精品嫩草久久久久| 国产精品视频免费| 激情校园亚洲| 9人人澡人人爽人人精品| 欧美一级免费视频| 麻豆精品精品国产自在97香蕉| 欧美日韩亚洲网| 又紧又大又爽精品一区二区| 亚洲一区二区在线| 久久在线视频在线| 国产精品日韩欧美一区二区三区| 亚洲人成网站在线观看播放| 久久精品国产99国产精品| 欧美二区乱c少妇| 国产一区二区三区无遮挡| 亚洲视频在线一区| 欧美顶级大胆免费视频| 国内外成人免费激情在线视频| 一区二区三区欧美成人| 美脚丝袜一区二区三区在线观看| 国产欧美另类| 亚洲欧美在线网| 欧美日韩精品三区| 最新日韩av| 欧美激情精品久久久久久| 一区在线视频观看| 久久狠狠亚洲综合| 国产欧美日韩一区| 欧美在线网址| 国产一区二区三区丝袜| 午夜欧美理论片| 国产精品久久久爽爽爽麻豆色哟哟| 亚洲精品国产无天堂网2021| 玖玖国产精品视频| 狠狠色狠狠色综合日日五| 久久国产精品久久久久久| 国产精品麻豆成人av电影艾秋| 在线视频日本亚洲性| 欧美不卡在线视频| 国产精品视频久久| 亚洲男人的天堂在线aⅴ视频| 欧美性猛交xxxx免费看久久久| 一区视频在线播放| 先锋亚洲精品| 黄色免费成人| 麻豆乱码国产一区二区三区| 国产亚洲成av人片在线观看桃| 欧美中文字幕视频| 国产一区二区三区在线观看免费视频| 小处雏高清一区二区三区| 国产日产欧美一区| 久久久久久电影| 亚洲欧洲日韩女同| 欧美三级特黄| 午夜精品久久久久久久99水蜜桃| 国产精品成av人在线视午夜片| 性色av一区二区三区红粉影视| 国产亚洲精品资源在线26u| 欧美亚洲系列| 亚洲第一福利视频| 亚洲三级电影全部在线观看高清| 麻豆91精品91久久久的内涵| 亚洲电影免费观看高清| 欧美区二区三区| 亚洲国产精品专区久久| 欧美精品18videos性欧美| 亚洲视频一二区| 国产情人综合久久777777| 久久久午夜视频| 亚洲视频免费看| 国产三级欧美三级| 美女图片一区二区| 一区二区欧美视频| 国产日韩综合| 欧美天天综合网| 久久久久中文| 亚洲女同精品视频| 亚洲国内精品| 国内自拍一区| 国产精品午夜国产小视频| 女主播福利一区| 久久久欧美精品sm网站| 亚洲婷婷综合色高清在线| 亚洲黄色在线| 国产一区二区日韩精品| 久久亚洲国产精品日日av夜夜| 日韩午夜电影av| 亚洲国产精品成人精品| 国内激情久久| 国产精品欧美风情| 欧美日本在线一区| 母乳一区在线观看| 欧美不卡一卡二卡免费版| 欧美一区高清| 亚洲欧美日韩精品综合在线观看| 亚洲毛片一区二区| 1769国内精品视频在线播放| 激情综合中文娱乐网| 国产午夜精品理论片a级大结局 | 亚洲在线观看| 亚洲深夜影院| 亚洲伊人一本大道中文字幕| 日韩网站免费观看| 亚洲精品自在在线观看| 亚洲成人在线观看视频| 一区二区三区在线观看视频| 黑人一区二区| 在线国产精品一区| 在线播放视频一区| 亚洲二区在线| 亚洲欧洲一区二区三区在线观看| 136国产福利精品导航| 亚洲福利视频在线| 亚洲国产欧美国产综合一区| 亚洲激情影视| 亚洲毛片在线看| 亚洲婷婷免费| 久久久久九九九九| 农村妇女精品| 欧美日韩在线播| 国产精品久久久久久户外露出 | 亚洲一区二区三区在线播放| 亚洲一区二区三区成人在线视频精品| 中文欧美在线视频| 香蕉亚洲视频| 欧美成人精品福利| 欧美人与性禽动交情品| 欧美视频不卡中文| 国产精品制服诱惑| 一区免费在线| 一区二区三区高清视频在线观看| 亚洲素人在线| 老牛嫩草一区二区三区日本 | 欧美日韩一区在线观看| 国产欧美一区二区在线观看| 亚洲韩国日本中文字幕|