Back to site

Маўленчыя тэхналогія у аўтаматызаваных вывучэннях мовы: моцныя і слабыя бакі, новая парадыгма ВЫЗОВА

PDF версію

Фарзад Ehsani
Sehda, Inc

Ева Knodt
Sehda, Inc

РЭЗЮМЭ

Мы даследуем прыдатнасці разгортвання маўленчых тэхналогій у кампутарных сістэмах, якія могуць быць выкарыстаны для навучання веды замежнай мовы. Пры аналізе бягучага стану распазнанне прамовы і тэхналогія апрацоўкі прамовы і, даследуючы колькасць галасавых інтэрактыўных прыкладанняў CALL, мы прапануем, як ствараць надзейныя інтэрактыўных асяроддзяў навучання, якія выкарыстоўваюць перавагі маўленчых тэхналогій, працуючы вакол яго абмежаванні. У заключэнне, мы абапіраемся на наш агляд гэтых прыкладанняў, каб вызначыць напрамкі будучых даследаванняў, якія маглі б палепшыць як дызайн і агульную прадукцыйнасць галасавых інтэрактыўных сістэм CALL.


УВОДЗІНЫ

На працягу апошніх двух дзесяцігоддзяў, ажыццяўленне казаў мовы надаецца ўсё больш увагі з боку педагогаў. Замежныя фокус праграмы на мове вытворчых навыкаў з асаблівым акцэнтам на камунікатыўнай кампетэнцыі. Здольнасць студэнтаў удзельнічаць у правядзенні канструктыўнага ўзаемадзеяння ў гутарковы мова лічыцца важным, калі не самае галоўнае, мэта другую адукацыю мовы. Гэта зрушэнне акцэнтаў выклікала якая расце патрэбнасць у навучальных матэрыялах, якія забяспечваюць магчымасць для кантраляванага інтэрактыўныя практыцы гаварыць за межамі класнай пакоя.

З улікам апошніх дасягненняў у вобласці мультымедыйных тэхналогій, кампутарнага навучання мове (CALL) стала прывабнай альтэрнатывай традыцыйных спосабаў папаўнення або замены прамога вучня і настаўнікі ўзаемадзеяння, такія як лабараторыі мову або аўдыё-стужкі на аснове самастойнага навучання. Інтэграцыя гуку, галасавы ўзаемадзеяння, тэкст, відэа і анімацыі зрабіў магчымым стварэнне самастойнага інтэрактыўных асяроддзяў навучання, якія абяцаюць павысіць класе мадэль вывучэння мовы значна. Усё большая колькасць выдаўцоў падручнікаў цяпер прапануюць адукацыйныя праграмы якой-тое, і выкладчыкі могуць выбраць з вялікага разнастайнасці розных прадуктаў. Тым не менш, практычнае ўздзеянне Тэлефануйце ў галіне замежнага адукацыі мова была даволі сціплым. Шматлікія педагогі не хочуць, каб ахапіць тэхналогія, якая па-ранейшаму імкнецца прыняцце супольнасці выкладання мовы ў цэлым (Кеннингом & Кеннингом, 1990).

Шэрагу прычын былі названыя за абмежаваны практычнае ўздзеянне кампутарных мове. Сярод іх: адсутнасць адзінай тэарэтычнай базы для распрацоўкі і ацэнкі Сістэмы выкліку (Chapelle, 1997; Хаббард, 1988; Ng & Olivier, 1987); адсутнасці пераканаўчых эмпірычных сведчанняў для педагагічных перавагі кампутараў у вывучэнні мовы (Шапель, 1997; Dunkel, 1991; Салаберри, 1996) і, нарэшце, цяперашнія абмежаванні самай тэхналогіі (Галандыя, 1995; Warschauer, 1996). Хуткія тэхналагічныя дасягненні 1980-х гадоў выклікалі як чакання і патрабаванні, што прад'яўляюцца да кампутара ў якасці патэнцыйнага сродкі навучання. Педагогі і другога мовы (SLA) даследчыкаў, так зараз патрабуюць разумных, карыстальнікам адаптыўны Тэлефануйце сістэм, якія прапануюць не толькі перадавых дыягнастычных інструментаў, але і эфектыўных механізмаў зваротнай сувязі, здольны факусаваць навучэнцаў на тых галінах, якія патрабуюць выпраўлення практыкі. Як Warschauer выказаўся, кампутарызаваныя настаўнік мова павінна быць у стане

разумець вусную ўваход карыстальніка і ацаніць яе не толькі на правільнасць, але і мэтазгоднасці. Ён павінен быць у стане дыягнаставаць праблемы студэнта з вымаўленне, сінтаксіс, ці выкарыстання, а затым разумна вырашаць паміж набор магчымасцяў (напрыклад, паўтараючы, перафразуючы, запаволенне, выпраўленні, ці кіраўніцтва студэнта фоне тлумачэння). (Warschauer, 1996, стар 6)

Салаберри (1996) патрабуе як сістэма, здольная мадэлявання складаных сацыяльна-камунікатыўнай кампетэнтнасці жыць рэпетытар - іншымі словамі, лінгвістычны інтэлект чалавека - усяго толькі зрабіць выснову, што спроба стварэння "інтэлектуальнага навучання мове Сістэма зман "(с. 11). Таму што гаворка тэхналогія не дасканалая, яна не мае сэнсу наогул. Калі яна "не можа растлумачыць усю складанасць чалавечага мовы", чаму нават папрацавалі мадэлявання больш абмежаваныя аспекты выкарыстання мовы (Хігінс, 1988, стар VII)? Такое ўсё ці нічога разважанне здаецца сімптомам большай частцы апошніх педагагічнай літаратуры па выкліку. Пошуках тэарэтычнага абгрунтавання Тэлефануйце дызайн сістэмы і ацэнка (Шапель, 1997), як правіла, прыводзіць да завышаных чаканнях адносна таго, што тэхналогія павінна выканаць. У спалучэнні з невялікім або без веды базавай тэхналогіі, непазбежным вынікам з'яўляецца расчараванне.

-46 -

У дадзенай працы мы робім выпадку выкарыстання аўтаматычнага распазнавання прамовы (ASR) і апрацоўкі маўленчых тэхналогій у CALL. Мы прапануем не толькі тое, што маўленчых тэхналогій з'яўляецца важным кампанентам CALL, але што гэта, па сутнасці, гатовы да разгортвання паспяхова другую адукацыю мове, пры ўмове, што існуючыя абмежаванні тэхналогіі разумеюцца і сістэмы распрацаваны такім чынам, што праца Вакол гэтых абмежаванняў.

Для таго каб ацаніць патэнцыяльныя выгады ад выкарыстання маўленчых тэхналогій у CALL, базавыя веды як базавай тэхналогіі і свае абмежаванні - што можна і чаго нельга рабіць - мае вялікае значэнне. У наступным раздзеле мы прадставім агляд распазнання прамовы. Пасля гэтага мы дызайн вокладкі меркаванняў, паколькі яны звязаны з выкананнем тых ці іншых прыкладанняў прамовы. Агляд існуючых тэндэнцый даследаванне дапаможа вызначыць віды тэхналагічных дасягненняў, якія паддаюцца разгортваюцца ў кампутарных мове. Затым, каб паказаць магчымасці выкарыстання маўленчых тэхналогій, мы разгледзім шэраг інавацыйных вывучэнне мовы прыкладанняў, якія прапануюць галасавыя інтэрактыўныя магчымасці. Мы будзем ацэньваць гэтыя заявы з улікам таго, як яны аб'ядноўваюць у маўленчых тэхналогій у агульнае тэхнічнае і педагагічнае праектаванне, і наколькі эфектыўна яны маюць справу з бягучых тэхналагічных абмежаванняў. У заключнай частцы гэтага дакумента, мы будзем абапірацца на наш агляд гэтых прыкладанняў, а таксама наш уласны вопыт у будаўніцтве галасавой інтэрактыўнай сістэмы для навучання японскіх, вызначыць кірункі далейшых даследаванняў, якія маглі б палепшыць як дызайн і агульная прадукцыйнасць галасавых інтэрактыўных сістэм CALL.

ПРЫНЦЫПЫ ASR ТЭХНІКА

Разгледзім наступныя чатыры сцэнарыя:

У якой-то узроўні ўсе чатыры сцэнара ўключаюць распазнанне прамовы. Уваходны сігнал прамовы выклікае адказ ад "слухача". У першых двух выпадках, адказ складаецца з пісьмовага стэнаграму казалі ўваход, тады як у двух апошніх выпадках дзеянне выконваецца ў адказ казаў каманды. Ва ўсіх чатырох выпадках, "поспех" Голас ўзаемадзеяння па адносінах да той ці іншай задачы, замацаваныя ў набор чаканняў, якія суправаджаюць ўваход. Узаемадзеянне паспяхова, калі адказ - на машыну або чалавека "слухач" - адпавядае гэтым чаканням.

Прызнанне і разуменне чалавечай прамовы патрабуецца значная колькасць лінгвістычных ведаў: камандаванне фаналагічная, лексічных, семантычных, граматычных і прагматычных канвенцый, якія складаюць мову. Каманда слухача мова павінна быць "уверх", каб задачы распазнання, альбо ўзаемадзеяння не атрымліваецца. Джымі вяртаецца з няправільным прадметаў, таму што ён яшчэ не можа вусна адрозніваць розныя віды абутку. Акрамя таго, чытанне настаўнік б шкада пацярпець няўдачу ў выкананнi работы суда рэпарцёра або перапісванне медыцынскай інфармацыі аб пацыенце, як медыцынскі прыбор дыктоўка будзе дрэнным выбарам для дыягностыкі чытанне студэнта памылак. З іншага боку, чалавека рэпарцёр суду - калі ён або яна дарослы носьбіт мовы - не будзе ніякіх праблем выкананнем любой з задач, што названы ў (1) па (4). Моўнай кампетэнцыі дарослых носьбітаў мовы ахоплівае шырокае кола задач распазнання і камунікатыўнай дзейнасці. Кампутары, з другога боку, пачынаюць працаваць лепш, калі прызначаны для працы ў выразна абмежаваны моўнай паддаменаў.

Людзі і машыны працэсе прамовы ў прынцыпова рознымі спосабамі (Bernstein & Франка, 1996). Комплекс кагнітыўных працэсаў кошт чалавечай здольнасці звязваць акустычных сігналаў з сэнсы і намеры. Для камп'ютэра, з іншага боку, гаворка па сутнасці серыі лічбавых значэнняў. Аднак, нягледзячы на гэтыя адрозненні, асноўная праблема распазнання прамовы такое ж, як для людзей і машын, а менавіта: знайсці найлепшае адпаведнасць паміж дадзенай гукавой гаворкі і яе адпаведны радок слова. Аўтаматычныя тэхналогіі распазнання прамовы спробы мадэляваць і аптымізаваць гэты працэс вылічальнай.

З пачатку 1970-х гадоў шэраг розных падыходаў да ASR былі прапанаваны і рэалізаваны, у тым ліку дынамічнае скрыўленне часу, шаблон адпаведнасці, заснаваных на ведах экспертныя сістэмы, нейронавыя сеткі, і скрытыя мадэлявання Маркава (HMM) (Левинсон і Ліберман, 1981; Вайнштейн, МакКэндлесс, Mondshein, і Zue, 1975; для агляду гл. Bernstein & Франка, 1996). СММ-арыентаванага мадэлявання ставіцца складаных статыстычных і імавернасны вылічэнняў да праблемы шаблоне на суб-узроўні слоў. Абагульненай HMM падыход да распазнання прамовы апынулася эфектыўнай, калі не самы эфектыўны метад для стварэння высокапрадукцыйных дынамікаў незалежных рухавікоў прызнанне таго, што можа справіцца з вялікімі слоўнікамі, пераважная большасць камерцыйных сістэм сённяшняй разгарнуць гэтую тэхніку. Таму мы засяродзім нашы тэхнічныя абмеркавання тлумачэнне гэтай тэхнікі.

-47 -

HMM аснове распазнання прамовы складаецца з пяці асноўных кампанентаў: (а) акустычны аналізатар сігналаў, які вылічае спектральнае ўяўленне якія ўваходзяць прамовы; (б) набор мадэляў тэлефонаў (ЯЬЬ), падрыхтаваных на вялікую колькасць фактычных дадзеных, прамовы; ( в) лексіка для пераўтварэння подслово паслядоўнасці тэлефон у словах; (г) статыстычная мадэль мовы і граматыкі сеткі, якая вызначае задачы распазнавання з пункту гледжання законных словазлучэнняў на ўзроўні прапановы (е) дэкодэра, які з'яўляецца пошук Алгарытм вылічэнні лепшы матч паміж казаў выказванні і яго адпаведную радок слова. Малюнак 1 паказвае схематычныя ўяўленне кампаненты распазнання прамовы і іх функцыянальнае ўзаемадзеянне.

Малюнак 1. Кампаненты прылады распазнання прамовы

А. аналізу сігналаў

Першы крок у аўтаматычным распазнанні прамовы складаецца з аналізу ўваходнага сігналу прамовы. Калі чалавек кажа ў прылада ASR - як правіла, праз высокую якасць мікрафон з шумапрыглушэннем - кампутар ўзоры аналагавы ўваход у серыі з 16 - ці 8-бітныя значэнні на пэўнай частаце дыскрэтызацыі (ад 8 да 22 кГц). Гэтыя значэнні групуюцца ў зададзеных часовых інтэрвалаў перакрыцця званыя "кадры". Гэтыя лічбы забяспечваюць дакладнае апісанне амплітуды прамовы сігналу. У якасці другога кроку, шэраг акустычна адпаведных параметраў, такіх як энергетыка, спектральныя асаблівасці, і крок інфармацыі, здабываюць з маўленчага сігналу (для візуальнага падання некаторых з гэтых параметраў, гл малюнак 2 на старонцы 53). Падчас навучання, гэтая інфармацыя выкарыстоўваецца для мадэлявання, што пэўнай часткі маўленчага сігналу. Падчас прызнання, гэтая інфармацыя параўноўваецца з ужо існуючай мадэлі сігналу.

Мадэлі Б. Тэлефон

Падрыхтоўка машыны прызнаць казаў колькасці мову мадэлявання асноўных гукаў мовы (тэлефоны). Аўтаматычнае распазнанне прамовы радкоў разам гэтыя мадэлі для фармавання слоў. Прызнаючы, які ўваходзіць сігнал прамовы прадугледжвае адпаведнасць назіраецца акустычная паслядоўнасці з наборам HMM мадэляў. СММ можа мадэляваць альбо тэлефонаў або іншых суб-адзінак словы, ці гэта можа мадэль слова ці нават цэлыя прапановы. Тэлефоны альбо мадэлюецца як асобныя гукі - так званыя monophones - ці, як тэлефон камбінацый гэтая мадэль некалькі тэлефонаў і пераходы паміж імі (biphones або triphones). Пасля параўнання ўваходзіць гукавога сігналу з ЯЬЬ прадстаўляюць гукі мовы, сістэма вылічае гіпотэза, заснаваная на паслядоўнасці мадэляў, якія больш за ўсё нагадвае уваходны сігнал. НММ мадэль для кожнага моўнай адзінкі (тэлефон ці слова) змяшчае імавернасны прадстаўлення ўсіх магчымых вымаўлення для гэтай адзінкі - гэтак жа, як мадэль рукапіснага курсіўнае б будзе мець шмат розных уяўленняў.

Будаўніцтва ЯЬЬ - працэс, званы навучання - патрабуе вялікай колькасці маўленчых дадзеных тыпу сістэмы, як чакаецца, прызнаюць. Вялікі слоўнік-спікер незалежных бесперапынных сістэм дыктоўкі, як правіла, навучаны дзесяткі тысяч чыталі выказванні перасек насельніцтва, уключаючы членаў розных рэгіёнах дыялекце і ўзроставых груп. Як правіла, аўтаматычнае распазнаванне прамовы быць не можа карэктна апрацоўваць прамовы, якая адрозніваецца ў натуральным выражэнні прамовы яна выхавана на. Менавіта таму большасць камерцыйных сістэм дыктоўку, калі навучанне па стандартнай амерыканскага варыянту ангельскай мовы, дрэнна працуюць пры сустрэчы акцэнтаваныя словы, будзь то шляхам не з'яўляецца роднай, ці размаўляюць на розных дыялектах. Мы вернемся да гэтага пытання пры абмеркаванні галасавых інтэрактыўных прыкладанняў CALL.

-48 -

С. Лексікон

Лексікон, ці слоўнік, утрымлівае фанетычныя напісанне для ўсіх слоў, якія, як чакаецца, павінны выконвацца распознаватель. Яна служыць у якасці эталона для пераўтварэння тэлефонных паслядоўнасці вызначаецца алгарытм пошуку ў слова. Ён павінен быць старанна распрацаваны, каб пакрыць усю лексічную вобласць, у якой сістэма павінна выконваць. Калі распознаватель сустракае слова, якое ён "не ведае" (гэта значыць, слова не вызначаны ў лексікон), гэта будзе альбо выбраць бліжэйшы матч або вяртання з уласнага слоўніка прызнання памылкі. Незалежна ад прызнання памылкі зарэгістраваны як непрызнання або з уласнага слоўніка памылкі часткова залежыць ад памеру слоўніка. Калі, да прыкладу, слоўнік занадта малы для неабмежаванай задачы дыктоўка - скажам, не больш за 3 - з уласнага слоўніка памылкі, верагодна, будуць вельмі высокія. Калі слоўнік з'яўляецца занадта вялікім, то верагоднасць непрызнання памылкі ўзрастае, так як з больш падобна якія гучаць слоў, confusability павялічваецца. Слоўнікавы запас у большасці камерцыйных сістэм дыктоўкі як правіла, вагаецца ад 5K і 60K.

Д. мадэлі мовы

Моўная мадэль прадказвае, хутчэй за ўсё, працяг выказванні на аснове статыстычнай інфармацыі аб частаце, у якім слова паслядоўнасці адбываюцца ў сярэднім у мову, які будзе прызнаны. Напрыклад, слова паслядоўнасць голымі напалі на яго, будзе мець вельмі нізкую верагоднасць на любой мове, мадэль, заснаваная на стандартных ангельскіх выкарыстання, у той час як паслядоўнасць мядзведзь напаў на яго будзе мець больш высокую верагоднасць узнікнення. Такім чынам, мадэль мовы дапамагае стрымліваць гіпотэзы распазнавання вырабляецца на аснове акустычных дэкадавання гэтак жа, як кантэкст дапамагае расшыфраваць незразумелыя словы ў рукапісныя нататкі. Як ЯЬЬ, эфектыўную мадэль мовы павінны быць навучаны вялікіх аб'ёмаў дадзеных, у дадзеным выпадку тэкстаў, сабраных з прадметнай вобласці.

У ASR прыкладанняў з абмежаваным лексічным дамена і / або простае вызначэнне задачы, мадэлі мовы складаецца з граматычных сеткі, якая вызначае магчымыя паслядоўнасці слоў, каб быць прынятым сістэмы без прадастаўлення якой-небудзь статыстычнай інфармацыі. Гэты від дызайну падыходзіць для Тэлефануйце прыкладанняў, у якіх магчыма словазлучэнні і фразы вядомыя загадзя і могуць быць лёгка чакалася (напрыклад, на аснове карыстацкіх дадзеных, сабраных з сістэмай папярэдняй прататып). З-за апрыёрнай стрымліваюць функцыі граматыкі сеткі, прыкладанні з выразным вызначэннем граматыкі задачу як правіла, працуюць пры значна больш высокай дакладнасцю тэмпамі, чым якасць акустычных прызнанні б прапанаваць.

Я. дэкодэр

Прасцей кажучы, дэкодэр алгарытм, які спрабуе знайсці выказванні, якая максімізуе верагоднасць таго, што дадзеная паслядоўнасць гукаў прамовы адпавядае таму, што выказванні. Гэта пошук праблемы, і асабліва ў вялікіх сістэмах лексікі дбайнага разгляду павінна быць нададзена пытанням эфектыўнасці і аптымізацыі, напрыклад, ад таго, дэкодэр павінны займацца толькі найбольш верагодныя гіпотэзы або лік іх паралельна (Young, 1996). Поўны перабор ўсіх магчымых завяршэння выказванні ў канчатковым выніку можа быць больш дакладнымі, але сумнеўную каштоўнасць, калі даводзіцца чакаць два дня, каб атрымаць вынік. Кампрамісных рашэнняў, таму неабходна максімальна вынікаў пошуку і ў той жа час зводзячы да мінімуму колькасць працэсараў і час распазнавання.

Прадукцыйнасці і дызайну ПЫТАННІ УЖЫВАННЯ Гаворка

Для выкладчыкаў і распрацоўшчыкаў, зацікаўленых у разгортванні ASR у звон прыкладанняў, мабыць, самым важным фактарам з'яўляецца прызнанне прадукцыйнасці: Наколькі добрая тэхналогія? Ці гатовая яна да разгортвання ў вывучэнні мовы? На гэтыя пытанні нельга адказаць, за выключэннем спасылкі на асаблівасці прымянення тэхналогіі, і, такім чынам, тычацца ключавых пытанняў у развіцці ASR: пытанне інтэрфейс чалавек-машына дызайну.

Як мы памятаем, выкананне распазнання прамовы заўсёды дамена спецыфічныя - машына можа рабіць толькі тое, што ён запраграмаваны, каб зрабіць, і распознаватель з мадэлямі навучаны распазнаваць дыктоўку дзелавыя навіны ў лабараторных умовах будзе не ў стане справіцца спантаннай гутарковай мовы перадаецца па шумных тэлефонных каналаў. Пытанне, які неабходна даць адказ, такім чынам, не проста «Наколькі добра ASR тэхналогіі?" а, хутчэй, "Чаго мы хочам, каб яго выкарыстоўваць?" і "Як мы можам атрымаць яго для выканання задачы?"

У наступным раздзеле, мы будзем вырашаць пытанне аб прадукцыйнасці сістэмы, як яна ставіцца да ліку паспяховых камерцыйных прыкладанняў прамовы. Робячы ўпор на адрозненні паміж распознаватель прадукцыйнасці, з аднаго боку - разумеюць з пункту гледжання "сырыя" дакладнасць распазнання - і прадукцыйнасць сістэмы, з другога, мы прапануем як апошнія могуць быць аптымізаваныя ў агульны дызайн, які ўлічвае не толькі фактары, якія ўплываюць на эфектыўнасць распазнання як такой, але і, магчыма, нават больш важна, меркаванні чалавек-машына дызайн інтэрфейсу.

Гістарычна склалася, што фундаментальныя даследаванні распазнання прамовы была засяроджаная амаль выключна на аптымізацыі вялікі дынамік незалежны лексікі прызнанне бесперапыннай дыктоўкі. Магутным стымулам для гэтага даследавання прыйшла з ЗША фундаваныя урадам спаборніцтвах, якія праводзяцца штогод абароны перспектыўных даследаванняў Праекты агенцтва (DARPA). Асноўны акцэнт у гэтых спаборніцтвах быў зроблены на паляпшэнні "сырыя" дакладнасць распазнавання - у пераліку на сярэднюю пропускі, устаўкі і замены - вялікага слоўніка распазнавання бесперапыннай прамовы (LVCSRs) у задачы распазнання чытаць прысуд артыкул колькасць стандартных крыніц (напрыклад, The Wall Street Journal ці New York Times). Лепшая лабараторыя сістэм, якія ўдзельнічалі ў WSJ вялікага слоўніка бесперапынная задача дыктоўку дасягнулі стаўкі слова памылцы ўсяго 5%, гэта значыць, у сярэднім, адно прызнанне памылкі ў кожныя дваццаць слоў (паддонаў, 1994).

-49 -

Хоць штогадовы тэст DARPA тэсты далі значныя тэхналагічныя дасягненні, яны дрэнны паказчык ASR прадукцыйнасць, як ён ставіцца да магчымасці камерцыйнага выкарыстання тэхналогіі. Вельмі нешматлікія з лабараторных сістэм, якія ўдзельнічаюць у гэтых конкурсаў з'яўляюцца камерцыйна жыццяздольнымі, у значнай меры адносіцца і да вузкай скіраванасці на дакладнасць распазнавання. Эксперыментальныя сістэмы LVCSR звычайна працуюць на вельмі вялікіх кампутараў, а таксама прызнанне хуткасць не праблема. Для параўнання, базавай лініі распознаватель прадукцыйнасць камерцыйных сістэм дыктоўкі з прыкладна аналагічнае вызначэнне задач і слоўнікі 20К да 60К значна ніжэй. Цмока Naturally Speaking або ViaVoice IBM, напрыклад, пачаць з дакладнасцю базавай прызнанне толькі на 60% да 80% (ізноў жа ў залежнасці ад акцэнту, фонавы шум, тыпу выказванні і г.д.). Але гэтыя сістэмы працуюць на даступных платформах ПК з сціплыя патрабаванні да памяці, працуюць практычна ў рэальным часе, а таксама падтрымка спікер адаптацыі функцый, якія дазваляюць карыстачу навучання сістэмы. Навучанне распознаватель працэс узаемны: сістэма адаптуецца да акустычным характарыстыкам галасы карыстача на аснове аналізу і вывучэння маўленчых узораў, сабраных падчас усталёўкі фазы; карыстачу, з цягам часу, настройвае яго ці яе стылю прамовы на «дыктоўку рэжыме" выразна сфармуляваныя маўленчага ўводу, што адпавядае граматычным канвенцый пісьмовага дыскурсу. Хаскин (1997) паведамляе, пасля праходжання навучання, працэнт памылак ўсяго 5%, тады як больш кансерватыўныя ацэнкі дыяпазону паміж 11-13% у сярэднім (Jecker, 1998). Як відавочны камерцыйны поспех гэтых сістэм паказвае, напрыклад дыяпазон прадукцыйнасці можа быць прымальным, пры ўмове, што сістэма прапануе зручныя функцыі рэдагавання. Бесперапынная дыктоўку, аднак, застаецца абмежаваным па аб'ёме і па-ранейшаму далёкія ад прызнання спантаннай гутарковай гаворкі.

Важным урокам у развіцці LVCSR сістэмы з'яўляецца тое, што тэхналогія сама па сабе добра адаптуецца, што дае павышэнне надзейнасці, калі з улікам канкрэтнай задачы распазнавання. Гэта разуменне прывяло да паспяховай камерцыялізацыі маўленчых тэхналогій у тэлефонных прыкладанняў з абмежаванымі абласцямі задач, такіх як галасавы набор нумара, каталог дапамогі і пошуку інфармацыі. Ключом да распрацоўцы такіх прыкладанняў заключаецца ў выбары правільнай задачы і ў аптымізацыі зменных, якія ўплываюць на прызнанне прадукцыйнасці. У далейшым, мы абмяркуем некаторыя з гэтых зменных і паказаць, як прадукцыйнасць сістэмы можна павялічыць, калі гаворка тэхналогія інтэграваная ў carefuly распрацаваны карыстацкі інтэрфейс.

Вызначэнне задачы

Гэта самы важны крок у праектаванні прамовы распознаватель. Размежаванне прадукцыйнасць дамена накладвае абмежаванні як на памер слоўніка і тое, што называюць "здзіўленне", якая звычайна вызначаецца як сярэдні каэфіцыент галінавання ў любы граматыцы сеткі. Невялікі слоўнік распазнавання з абмежаванымі здзіўленне (напрыклад, тыпу выкарыстоўваюцца ў аўтаматычны набор нумара голасам), як правіла, значна больш надзейнымі, чым высокім здзіўленне вялікага слоўніка дыктоўку сістэмы.

Увогуле, распазнання працаваць хутчэй і больш дакладна, калі ўваходныя гаворка абвешчаныя ясна і бясшумнае навакольнага асяроддзя, калі задача здзіўленне нізкая, і, калі слоўнік малы. У гэтым выпадку сістэма патрабуе менш працэсарнага часу і памяці для апрацоўкі альтэрнатыўныя гіпотэзы прызнанне, і кошты слова памылкі, як правіла, ніжэй. Простае "так / не" прызнанні задача трывіяльна па параўнанні з сістэмай браніравання білетаў, якая выкарыстоўвае натуральны карыстацкі інтэрфейс дыялогу. Адносіны паміж здзіўленне і прадукцыйнасць можа працаваць на нашу карысць, калі мы распрацоўваем галасавых інтэрактыўных навучальных матэрыялаў, паколькі словы і фразы, якія выкарыстоўваюцца па мове навучэнцы, як правіла, абмяжоўваецца параўнальна невялікі набор выразна апісанай задачы. Тым не менш, для сістэм з абмежаванай вобласці задача выканаць як і чакалася, усе патэнцыйныя адказы карыстальнік павінен быць загадзя вядомыя і чаканыя ў граматыцы сістэмы і слоўнікавага запасу. Таму, вельмі важна сабраць дакладныя дадзеныя карыстача на ранніх стадыях распрацоўкі такіх сістэм.

Акустычныя Мадэлі

Распознавателями як правіла, працуюць лепш за ўсё, калі навучанне па (або адаптаваць да) голас характарыстыкі або стылю прамовы прамоўцы. Спікер незалежнага распазнання ўтрымліваць акустычныя мадэлі, атрыманыя шляхам асерадненні па значныя адрозненні ў прамовы мадэляў вялікіх груп насельніцтва розных узростаў і дыялект групы. У адрозненне ад гэтага, спікер-залежных сістэм навучаюцца менавіта на галасы гаворыць (ы), для якіх яны прызначаны. Трэцім варыянтам з'яўляецца спікер адаптацыі, тэхніка, у якой акустычныя параметры, атрыманыя з падмноства калонкі або аднаго з выступоўцаў, якія выкарыстоўваюцца для павелічэння або змены абагульненай мадэлі спікер-незалежнай сістэмай. Спікер адаптацыі можа знізіць стаўкі памылкі распазнавання на 30% да 70% у залежнасці ад акустычнай асяроддзя і арыгінальныя мадэлі акустычных выкарыстоўваецца (Neumeyer, Sankar, і Digalakis, 1995; Woodland, Пай, і моцных вятроў, 1996; Zavaliagkos, Шварц, Макдоно, і Махул, 1995). Значэнне для Тэлефануйце з'яўляецца тое, што родны акустычнай мадэлі могуць быць адаптаваныя прызнаць прамовы мовы навучэнцаў. Гэта ўключае ў сябе збор адпаведных дадзеных прамовы і навучанне неместный мадэляў. Атрымліваюцца мадэлі акустычных могуць быць зроблены выключна з неместный дадзеных (Neumeyer і соавт., 1996), або шляхам адаптацыі родных мадэляў неместный дадзеных (Ehsani, 1996).

-50 -

Уваходны мадальнасці

Іншая зменная, якая ўплывае на прызнанне прадукцыйнасць, якім чынам сістэма апрацоўвае уваходны сігнал прамовы. У сістэмах з дыскрэтным мадальнасьць уваходнага прамовы, распазнанне працэсаў кожнае слова ў асобнасці. Таму кожнае слова трэба казаць асобна з выразнымі паўзамі паміж імі. У сістэмах з бесперапынным рэжымам ўводу, няма такой паўзы неабходныя. Бесперапыннае распазнанне прамовы (КСА) сістэмы выкарыстаюць больш шырокі пошук алгарытмаў ў стадыі дэкадавання аптымізаваць не толькі тэлефон радкоў, але і слова радка. Кампраміс у дакладнасць распазнавання можа быць грозным, і ва ўмовах, калі сістэмныя рэсурсы абмежаваныя, і высокай ступенню дакладнасці неабходна, дыскрэтны ўваход можа быць дызайн выбару.

Уваходны якасці

Для дасягнення аптымальнай прадукцыйнасці прызнанне, які ўваходзіць сігнал прамовы павінны быць высокай акустычнага якасці. Лік стандартных метадаў можна выдаліць шум з сігналу або адаптаваць акустычных мадэляў для зашумленный дадзеных (для агляду гл. Young, 1996). Зрэшты, не толькі шумавыя перашкоды могуць паўплываць на якасць маўленчай ўвод. Шэраг іншых фактараў, часта не ўлічваюцца ў літаратуры, гуляць ролю, а, напрыклад, тыпу гукавой карты і мікрафона, выкарыстоўванага, ці ж гаворка праходзіць праз папярэдні ўзмацняльнік. Гукавыя карты маюць свае ўласныя ўнутраныя ўзмацняльнікі, але яны маюць тэндэнцыю ўзмацняць шум нараўне з прамовай. Амплітуды маўленчага сігналу неабходна старанна папраўкай на лепшае прызнанне працы. У прыватнасці, амплітуда павінна быць у межах пэўнага абмежаванага дыяпазону. Калі амплітуда перавышае верхні мяжа, сігнал будзе абразацца, і аналізатар сігналаў не можа выняць ўсе адпаведныя функцыі. Калі амплітуда з'яўляецца занадта нізкай, фонавы шум становіцца больш прыкметным і можа душыць сігнал.

Акрамя таго, мікрафон можа зрабіць вялізную розніцу ў знак прызнання працы. Большасць распазнання працуюць лепш пры выкарыстанні з сістэмай шумапрыглушэння галоўцы мікрафона. Мала таго, што гэтыя мікрафоны адфільтроўваць староннія шумы, але шлем-пазіцыі гарантуе, што адлегласць паміж вуснаў спікера і мікрафона падтрымліваецца на пастаянным узроўні і амплітуда застаецца стабільным на працягу выказванняў. Нарэшце, нейкі механізм для аўтаматычнай налады (або, кажучы, карыстачу наладзіць) узмацняльніка або предусилителя налада кошту. Большасць камерцыйных галасавых інтэрактыўных сістэм Прапанова выкліку гэтай функцыі.

Уважлівы аналіз фактараў, апісаных вышэй, павінны ўступіць у дызайне камерцыйных прыкладанняў гаворка, калі яны хочуць паказваць добрыя вынікі ў практычных прыкладаннях.

Сучасныя тэндэнцыі ў VOICE-INTERACTIVE ВЫЗОВА

У апошнія гады ўсё большая колькасць прамовы лабараторыі пачалі разгортванне маўленчых тэхналогій у Тэлефануйце прыкладанняў. Вынікі ўключаюць галасавыя інтэрактыўныя прататыпы сістэм для навучання вымаўленню, чытанню і абмежаваным гутарковыя навыкі ў падлозе абмежаваных кантэкстах. Наш агляд гэтых прыкладанняў з'яўляецца далёка не вычарпальным. Яна ахоплівае выбраць нумар у асноўным эксперыментальных сістэм, якія даследуюць шляху мы знайшлі перспектыўны і апраўдана. Мы абмяркуем спектр паслуг галасавой сувязі, узаемадзеяння гэтых сістэм прапаноўваюць для адпрацоўкі пэўных навыкаў мовы, растлумачыць іх тэхнічнай рэалізацыі, і пракаментаваць педагагічную каштоўнасць гэтых рэалізацый. Акрамя ўручэння кароткі агляд сістэмы, мы паведамляем эксперыментальныя вынікі, калі ў наяўнасці і даць ацэнку таго, як далёка тэхналогія ад разгортвання ў камерцыйных і адукацыйных асяроддзяў.

Навучанне вымаўленню

Карысна і выдатна паспяховага прымянення тэхналогій распазнання прамовы і апрацоўкі быў прадэманстраваны шэраг навукова-даследчых і камерцыйных лабараторый ў галіне вымаўлення навучання. Voice-інтэрактыўных рэпетытараў вымаўлення дапамагае вучням паўтараць вымаўленыя словы і фразы або чытаць услых пакаранне ў мэтавым мове для мэт ажыццяўлення як гукі і інтанацыі мовы. Ключом да паспяховай навучання вымаўленню з'яўляецца карэкціруючыя зваротнай сувязі, у прыватнасці, тып зваротнай сувязі, якія не належаць на ўласнае ўспрыманне студэнта. Шэраг эксперыментальных сістэмах рэалізаваны аўтаматычны скоринг вымаўленне, як сродкі ацэнкі кажуць вытворчасцей навучэнца ў плане валодання, сегментарны якасці (фанемы) і над-сегментарны функцый (інтанацыі). Аўтаматычна генеруюцца веданне адзнака можа быць выкарыстана ў якасці асновы для прадастаўлення іншых відаў карэкціруючых зваротнай сувязі. Мы абмяркоўваем сегментарнага і над-сегментарны зваротнай сувязі больш падрабязна ніжэй.

Сегментныя Зваротная сувязь. Тэхнічна, распрацоўка інтэрактыўнага галасавога вымаўлення настаўнік выходзіць за рамкі сучасных патрабуе камерцыйных сістэм дыктоўкі. У той час як граматыкі і лексікі вымаўленне настаўнік павінен быць параўнальна просты, базавай тэхналогіі апрацоўкі прамовы, як правіла, складаны, паколькі ён павінен быць наладжаны, каб прызнаць і ацаніць disfluent прамовы мовы навучэнцаў. Звычайных распознаватель прамовы прызначаны для стварэння самых дабрачынныя чытання выказванні прамоўцы. Акустычныя мадэлі абагульненага такім чынам, каб прыняць і прызнаць правільнай шырокі спектр розных акцэнтаў і вымаўлення. Вымаўленне настаўнікі, наадварот, павінны быць навучаны і прызнаваць і выпраўляць тонкія адхіленні ад стандартных роднага вымаўлення.

-51 -

Шэраг метадаў, былі прапанаваныя для аўтаматычнага распазнавання і забіў неместный прамовы (Бернштэйн, 1997; Франка, Neumeyer, Кім, і Ронен, 1997; Кім, Франка, і Neumeyer, 1997; Witt & Young, 1997). У агульных рысах працэдура складаецца з будынка роднага мадэлі вымаўлення, а затым вымярэння неместный адказы ад родных мадэлях. Гэта патрабуе мадэлі навучаны як родны і няродны прамовы дадзеных у мэтавым мове, а таксама дапоўніць набор алгарытмаў для вымярэння акустычнага зменныя, якія даказалі сваю карыснасць ў адрозніванні выхадзец з неместный прамовы. Гэтыя зменныя ўключаюць адказ затрымкі, сегмент працягласці, паміж словамі паўзы (ва фразах), спектральны верагоднасці, і асноўную частату (F0). Машына ацэнкі разлічваюцца зыходзячы з статыстычных дадзеных, атрыманых з параўнання неместный значэння гэтых зменных у роднай мадэляў.

У апошнім кроку, машына спароджаных ацэнкі вымаўлення правяраюцца шляхам супастаўлення гэтых паказчыкаў з рашэннем чалавечых слухачоў эксперт. Як і варта было чакаць, дакладнасць ацэнкі узрастае з павелічэннем працягласці выказванні павінны быць ацэнены. Стэнфардскі даследчы інстытут (НДІ) прадэманстраваў 0,44 карэляцыі паміж машынай і ацэнкі чалавечага вынікі на тэлефон узроўні. На ўзроўні прапановы, машына-чалавек карэляцыі 0,58, і на гаварыў узроўні было 0,72 для агульнай складанасці 50 выказванняў на дынамік (Франка і інш, 1997;.. Кім і інш, 1997). Гэтыя вынікі параўнання з 0,55, 0,65 і 0,80 для тэлефона, выказванні, і дынаміка ўзроўню карэляцыі паміж чалавечым грэйдэр. Даследаванне, праведзенае ў Энтропическое паказвае, што на аснове ад 20 да 30 за выказванні спікера і на лінейнай камбінацыі вышэй метады, можна атрымаць машыну-чалавека грэйдэр карэляцыі высокія ўзроўні 0,85 (Бернштэйн, 1997).

Іншыя выкарыстоўвалі экспертныя веды аб сістэматычных памылак вымаўлення зробленыя вучнямі L2 дарослы для таго, каб дыягнаставаць і выпраўляць такія памылкі. Адной з такіх сістэм з'яўляецца Еўрапейская SPELL праект Супольнасці аўтаматызаванай ацэнкі і ўдасканалення вымаўлення замежных моў (Хілер, Руні, Vaughan, Эккерт, Laver, і Джэк, 1994). Гэтая сістэма выкарыстоўвае перадавыя апрацоўкі і распазнавання прамовы тэхналогій для ацэнкі памылкі вымаўлення навучэнцамі L2 ангельскай мовы (французскага або італьянскага мовы) і забяспечваюць неадкладных карэкціруючых зваротнай сувязі. Адзін з метадаў для выяўлення памылкі зычных індукаваных міжмоўнай пераклад быў ўключыць вымаўленне студэнтаў L1 ў граматыцы сеткі. У дадатак да ангельскага / м / гуку, напрыклад, граматыка сетку таксама ўключае / т / ці / з /, гэта значыць тыповыя памылкі неместный італьянскі размаўляць на англійскай мове. Гэтая сістэма, хоць і даволі просты ў выкарыстанні тэхналогіі ASR, можа быць вельмі эфектыўным ў дыягностыцы і карэкцыі вядомых праблем L1 перашкод. Тым не менш, ён меней эфектыўны для выяўлення рэдкіх і больш своеасаблівы памылкі вымаўлення. Акрамя таго, яна мяркуе, што фанетычная сістэма мовы (напрыклад, англійская) можа быць дакладна супастаўленыя з навучэнцамі роднай мовы (напрыклад, італьянскі). Хоць гэта здагадка можа добра працаваць для італьянскай навучэнцаў па англійскай, то, вядома, не для кітайскіх навучэнцаў, гэта значыць, Ёсць гукі на кітайскім, што не падобныя на якіх-небудзь гукаў у англійскай мове.

Сістэмы для навучання вымаўленню японскіх доўгія галосныя, насавыя мору, мору і шумных быў нядаўна пабудаваны ў Такійскім універсітэце. Гэтая сістэма дазваляе студэнтам практыку фонематического адрозненні ў японцаў, што, як вядома, звязаны з асаблівымі праблемамі ў L2 навучэнцаў. Яна запытвае студэнтаў прамаўляць мінімальных пар (напрыклад, доўгія і кароткія галосныя) і вяртае неадкладную зваротную сувязь на адрэзку працягласцю. На аснове абмежаваных дадзеных, сістэма здаецца досыць эфектыўным на гэтай канкрэтнай задачы. Навучэнцы хутка асвоіў адпаведныя сігналы працягласць і час, затрачаны на навучанне гэтых навыкаў вымаўлення не выходзяць за рамкі абмежаванняў японскага L2 навучальных праграм (Кава і Hirose, 1997). Тым не менш, даследаванне не дае ніякіх дадзеных аб доўгатэрміновых эфектах выкарыстання сістэмы.

Supra-сегментарны Зваротная сувязь. Некарэктнае выкарыстанне звыш-сегментарны функцый, такіх як інтанацыя і стрэс, як было паказана паляпшэнне сінтаксічныя і семантычныя пераборлівасць вуснай прамовы (Crystal, 1981). У вуснай інфармацыі размовы, інтанацыі і стрэсу не толькі дапамагае слухачам знайсці фразу мяжы і словы акцэнт, але і выявіць прагматычную скіраванасць выказванні (напрыклад, пытальныя супраць дэкларатыўнага). Адным з асноўных акустычных карэлятаў стрэсу і інтанацыі асноўнай частаты (F0), іншыя акустычныя характарыстыкі ўключаюць гучнасць, працягласць і тэмп. Большасць камерцыйных праграм апрацоўкі сігналаў прылады для адсочвання і візуальна адлюстроўваць контуры F0 (гл. Малюнак 2 ). Такія дысплеі могуць і выкарыстоўваюцца, каб даць каштоўную зваротную сувязь вымаўлення для студэнтаў. Эксперыменты паказалі, што візуальнае адлюстраванне F0 над-сегментарны характарыстыкі ў спалучэнні з акустычнай зваротнай сувязі з'яўляецца больш эфектыўным, чым акустычнай зваротнай сувязі ў адзіночку (дэ-Bot, 1983; Джэймс, 1976), асабліва калі F0 контур студэнта адлюстроўваецца разам з роднай мадэлі. Здзяйсняльнасць гэтага тыпу візуальнай зваротнай сувязі быў прадэманстраваны шэраг простых прататыпаў (Аббертон & Fourcin, 1975; Anderson-Вось, 1994; Хілер і інш, 1994;. Spaai і Hermes, 1993; Стиббард, 1996). Мы лічым, што гэтая тэхналогія мае добры патэнцыял для іх ўключэння ў камерцыйныя сістэмы CALL.

Іншыя віды візуальнай зваротнай сувязі вымаўленне ўключаюць графічны дысплей асобы носьбіта мовы, галасавы тракт, спектр інфармацыі, і гаворка сігналаў (гл. Малюнак 2 ). Эксперыменты паказалі, што візуальнае адлюстраванне гаворыць паляпшае не толькі словам дакладнасць ідэнтыфікацыі (Bernstein & хрысціянін, 1996), але і рытм прамовы і тэрміны (Markham & Нагана-Madesen, 1997). Вялікая колькасць камерцыйных выкладчыкаў вымаўленне на рынку сёння прапануюць гэты від зваротнай сувязі. Трэція эксперыментуюць з выкарыстаннем у рэжыме рэальнага часу спектраграмы або адлюстраванне сігналу словы забяспечыць вымаўленне зваротнай сувязі. Molholt (1990) і Мануэль (1990) Даклад анекдатычны поспех у выкарыстанні такіх дысплеяў, а таксама кіраўніцтва аб тым, як інтэрпрэтаваць адлюстроўвае палепшыць вымаўленне супрасегментных функцый навучэнцаў L2 англійскай мовы. Тым не менш, аўтары не даюць эксперыментальныя доказы эфектыўнасці гэтага віду візуальную зваротную сувязь. Наш уласны вопыт у рэальным часе спектр сігналу і адлюстроўвае прадугледжвае іх магчымага выкарыстання ў якасці вымаўлення зваротнай сувязі, калі яны прадстаўлены разам з іншымі відамі зваротнай сувязі, а таксама з інструкцыямі аб тым, як інтэрпрэтаваць дысплеяў.

-52 -

Малюнак 2. Альтэрнатыўныя гаворкі рэжымы адлюстравання гэтай фразы ён быў забіты стрэлам у спіну, створаныя з праграмнага забеспячэння для апрацоўкі сігналу Энтропическое ст.(1)

Чытанне ўслых

Чытанне ўслых практыкаванні пісьменнасці ў абодвух другой мовы і пісьменнасці. Інтэнсіўная практыка ў чытанні ўслых дапамагае навучэнцам ствараць звычайныя сувязі паміж гукамі і іх пісьмовай форме, навык, які патрабуе шматгадовай практыкі ў маленькіх дзяцей і студэнтаў мовах з выкарыстаннем не-фанетычнага лісты, такіх як японскі або кітайскі. Навучанне дзяцей і студэнтаў, як чытаць іх родным або замежнай мове, такім чынам, вобласць, дзе тэхналогіі распазнання прамовы можа мець істотнае значэнне. Уявіце, чытанне настаўнік, які не толькі слухае дзяцей і студэнтаў чытанне ўслых расказ, прадстаўленыя на экране, але ўмешваецца, каб аказаць дапамогу, калі гэта неабходна і выпраўляе памылкі.

Праектаванне апорнай сеткі прызнанне галасавога інтэрактыўнага чытання настаўнік павінен быць адносна простым. Існуе толькі адзін правільны казаў адказ на любое пісьмовае запрашэнне і сістэма «ведае» загадзя, што студэнт будзе спрабаваць сказаць. Тым не менш, тэхнічная задача складаецца ў прызнанні і адэкватна рэагаваць на disfluencies нявопытных чытачоў. Такія disfluencies ўключаюць ваганні, mispronunciations, фальстарт, і само-карэкцыі.

У пачатку 1990-х, Коўэн і Джонс (1991), МакКэндлесс (1992), і Філіпс, Zue і МакКэндлесс (1993) сярод іншых прадэманстравалі тэхнічную магчымасць інтэрактыўнага галасавога чытання настаўніка, без, аднак, прадастаўленне эмпірычных дадзеных карыстача. Адным з першых накіравала прататып сістэмы для навучання чытанню дзяцей малодшага ўзросту была распрацавана Цэнтрам выкладання і навучання (CTL) у 1991 годзе (Kantrov, 1991). Простыя, але надзейныя мультымедыйныя прыкладанні, выкарыстоўванага ізаляваныя, дынамік залежыць ад распазнання і абмежаваны слоўнікавы запас чытання (18 + слоў). Сістэма была распрацавана для пашырэння чытанне слоўніка дзіцячых шляхам укаранення новых слоў у кантэксце мэтанакіраванай гульні: дзеці закліканы дапамагчы несці пераадолець перашкоды на шляху дадому, чытаю слова правільна выдаляе перашкоды. Вынікі трох палявых выпрабаванняў у двух раёне Бостана дзяржаўных школах паказаў, што праблемы з ужываннем былі звязаны з чалавечай інтэрфейс і рэжым ўводу (мікрафоны), а не кампанент распазнання прамовы як такі. Як ні дзіўна, памылкі распазнавання, асабліва непрызнання правільна чытаць словы, унесла пазітыўны ўклад педагагічнага ўплыву прымянення: дзеці атрымалі дадатковую практыку чытання, таму што яны павінны былі паўтараць словы некалькі разоў, пакуль машына адказалі адпаведным чынам.

Адзін з самых амбіцыйных трэнераў аўтаматызаванага чытання ў цяперашні час распрацоўваецца ў рамках Праекту LISTEN Універсітэта Карнегі-Меллона (CMU). Прызначаны для барацьбы з непісьменнасцю, цалкам аўтаматызаваны прататып выкарыстоўвае распазнання разам прамовы слухаць дзеці чытаюць тэкст і бесперапыннага аўтаматычнага запуску педагагічна адпаведных мерапрыемстваў (Маставая, Рот, гауптман, & Kane, 1994). Сістэма ўключае персаналізаваныя агент, "Эмілі", які забяспечвае зваротную сувязь і дапамогу ў выпадку неабходнасці. Сістэма ўключае ў сябе экспертныя веды па індывідуальнай дапамогі чытання, які з'яўляецца і педагагічна актуальнай і тэхнічна здзяйсняльным. Эмілі ўмешваецца, калі дзіця misreads адно або некалькі слоў у бягучым прапанове, захрасае, або націскае на слова, каб атрымаць дапамогу. З іншага боку, каб паменшыць расчараванне ў дзяцей з чытаннем цяжкасцяў, сістэма свядома устрымліваецца ад лячэння фальстарт, самастойнага выпраўлення, або ваганні, як "памылкі". Замест гэтага, памылкі такога тыпу мадэлююцца і ўключаны ў прызнанні граматыкі як прымальнае.

-53 -

Эксперыментальныя выпрабаванні сістэмы быў праведзены сярод 12 другакласнікаў ў гарадскіх школах, у Пітсбургу. Вынікі паказалі, што дзеці маглі чытаць на ўзроўні чытання 0,6 года больш прасунутай пры выкарыстанні аўтаматызаваных трэнер чытанне, і сярэдняе лік чытанне памылкі знізіўся з 12,3% (без дапамогі) да 2,6% (з дапамогай) у тэкстах з аналагічнымі цяжкасцямі.

Палепшаная версія чытанне трэнер КМУ працуе ў рэжыме рэальнага часу на даступную платформу PC была накіравана ў 1996 годзе сярод 8 з самых бедных третий чытачы класа ў Форт Піт, PA для вымярэння паляпшэнняў у чытанні прадукцыйнасці ў параўнанні з 8 месяцаў выкарыстання сістэмы (Маставая, 1997; Маставая і Бусел, 1997). Хоць раней даследаванні вымяраецца прадукцыйнасць чытання толькі з пункту гледжання студэнта стаўкі слова памылка, дасканалая сістэма рэалізуе алгарытмы для вымярэння беглость чытання ў маленькіх дзяцей. Адпаведныя зменныя прадукцыйнасці ўключаюць хуткасці чытання, паміж словамі затрымкі (маўчанне), disfluency (фальстарт, сама-карэкцыі, бяздзейнасці) і час, праведзены з памочнікам. Параўнанне суб'ектаў беглость чытання узроўняў у пачатку выкарыстання сістэмы з тымі, у рэшце рэшт, эксперыменты дазваляюць выказаць здагадку, агульнае паляпшэнне чытання дакладнасцю 16% і 35%-ною паніжэнне межсловное затрымкі. Пасля выкарыстання сістэмы на працягу васьмі месяцаў, узровень студэнтаў, якія вывучаюць паляпшэнне ў сярэднім на два гады. Гэтыя вынікі з'яўляюцца абнадзейлівымі, так як яны паказваюць, як дбайнае праектаванне сістэмы і ацэнкі на аснове карыстацкіх дадзеных можа прывесці да карысным і практычнае прымяненне.

Выкладанне лінгвістычных структур і Таварыства з абмежаванай Гутарка

Нараўне з падтрымкай сістэмы для выкладання асноўных вымаўленне і навыкі пісьменнасці, ASR тэхналогіі ўкараняюцца ў аўтаматызаваных выкладчыкаў мовы, якія прапануюць практыку ў розных вышэйшых ўзроўню моўных навыкаў: ад высокай абмежаванай граматыкі і лексікі практыкаванні для абмежаванага гутарковыя навыкі ў мадэляваных рэальных сітуацый. Да ўкаранення любой такой сістэмы, выбар павінен быць зроблены паміж двума прынцыпова іншая сістэма тыпаў канструкцыі: зачыненыя адказу па параўнанні з адкрытай архітэктурай адказ. У абодвух праектаў, студэнтам будзе прапанавана для маўленчага ўводу камбінацыяй напісана, кажуць, ці графічныя стымулы. Тым не менш, канструкцыі істотна адрозніваюцца па адносінах да тыпу славеснага кампутар-вучань ўзаемадзеяння яны падтрымліваюць. У закрытых сістэм рэагавання, студэнты павінны выбраць адзін адказ з абмежаванага ліку магчымых адказаў прадстаўлена на экране. Студэнты дакладна ведаць, што яны могуць сказаць у адказ на любы запыт. Наадварот, у сістэмах з адкрытым дызайнам адказ, сетка застаецца схаваным і студэнтаў стаіць задача генераваць адпаведны адказ без якіх-небудзь сігналы ад сістэмы.

Закрытая Адказ узораў. Адной з першых рэалізацый закрытай канструкцыі адказ быў голас Інтэрактыўная сістэма мове (Вилис), распрацаваная ў НДІ (Bernstein & Ртищев, 1991). Гэтая сістэма выклікае кажуць адказы студэнтаў, прадстаўляючы пытанні аб графічных дысплеяў карт і схем. Студэнты вывесці правільныя адказы на набор з некалькімі варыянтамі адказаў і вырабляць кажуць адказы.

У апошні час прататып якога вядзецца ў НДІ з'яўляецца голас Інтэрактыўная сістэма мовы (VILTS), сістэма, прызначаная для садзейнічання гаварыць і слухаць навыкі для пачатку праз прасунутых вучняў L2 французскага (Иган, 1996;. Neumeyer і інш, 1996; Rypa, 1996). Сістэма ўключае ў сябе аўтэнтычны, вуснай гутарковай матэрыялы, сабраныя з французскага мовы ў прывабным, гнуткім і арыентаванага на карыстача ўрок архітэктуры. Сістэма разгортваецца распазнання прамовы для кіраўніцтва студэнтамі урокаў і аўтаматычнай вымаўлення скоринга для забеспячэння зваротнай сувязі па беглости студэнцкіх адказаў. Наколькі нам вядома, толькі аспект вымаўлення скоринга сістэмы была пацверджана ў эксперыментальных даследаваннях (Neumeyer і соавт., 1996).

У педагагічна больш складаныя сістэмы, запыт-адказ рэжым высокай кантэкст і прадставіў як частка мадэлюецца размова з віртуальным суразмоўцам. Каб стымуляваць цікавасць студэнтаў, зачыненых запытаў адказ часта прадстаўляюцца ў выглядзе гульняў або мэта кіраваных задач. Адна камерцыйная сістэма, якая выкарыстоўвае ўвесь патэнцыял гэтай канструкцыі з'яўляецца TraciTalk (Courseware Выданне International, Купертино, штат Каліфорнія), голас кіраванай мультымедыйнай сістэмы Тэлефануюць, накіраваныя на больш прасунутых вучняў ESL. У серыі слаба звязаныя паміж сабой сцэнары, сістэма прыцягвае студэнтаў у вырашэнні таямніцай. Да кожнага сцэнара, студэнтам даюць заданне (напрыклад, выяўленне пэўнага тыпу інфармацыі), і яны выканаць гэтую задачу, вусна ўзаемадзейнічаюць з героямі на экране. Кожны голас ўзаемадзеяння прапануе некалькі магчымых адказаў, і кожны казаў адказ рухаецца размову ў некалькі іншым кірунку. Ёсць шмат шляхоў праз кожны сцэнар, і не кожны шлях дае патрэбную інфармацыю. Гэта матывуе студэнтаў, каб вярнуцца да пачатку сцэны і апрабаваць розныя стратэгіі допыту. Больш за тое, TraciTalk функцыі агента, што студэнты могуць звярнуцца за дапамогай і прымае галасавыя каманды для навігацыі па сістэме. Акрамя таго, што больш займальным і цікавым, гульні і праблемна-арыентаваных праграм ўтоенай форме дадатнай зваротнай сувязі, падаючы студэнтам пачуццё таго, што вырашылі праблему выключна за кошт зносін на вывучаемай мове.

Тэхналогія распазнання прамовы, які ляжыць у аснове закрытых рэалізацыі запытаў адказ вельмі просты, нават у больш складаных сістэмах. Для любога дадзенага ўзаемадзеяння, задачы здзіўленне нізкім і лексікі памер параўнальна невяліка. У выніку, гэтыя сістэмы маюць тэндэнцыю быць вельмі надзейнымі. Дакладнасць распазнання стаўкі на нізкіх і верхніх 90% дыяпазону можна чакаць, у залежнасці ад вызначэння задачы, слоўнікавы запас памер і ступень неместный disfluency.

-54 -

Open Design рэагавання. Асноўным прынцыпам адкрытай канструкцыі адказам з'яўляецца тое, што студэнты павінны прыдумаць адказ цалкам самастойна, без дапамогі з сістэмы. Такія сістэмы ўяўляюць вялікую праблему для студэнта і, такім чынам, паддаюцца педагагічна больш амбіцыйныя рэалізацый. Унутрана, аднак, сістэмы адказаў гэтага тыпу працэсу студэнтаў, як быццам яны былі адабраны з множнага выбару спісу (Waters, 1994). Як мінімум, усе магчымыя правільныя адказы павінны быць уключаны ў граматыцы сеткі. Калі, акрамя таго, сістэма павінна даць больш дэталёвую інфармацыю аб няправільных або сумніўныя ўваход, любыя патэнцыйныя памылкі павінны быць змадэляваныя і чаканыя ў граматыцы сеткі. Адкрыты дызайн адказ можа быць альбо вельмі простым або пагрозліва комплексу. Хоць гэта лёгка рэалізаваць адкрыты дызайн адказу на простае пытанне-адказ свердзелы (напрыклад, "Што колер травы?"), Праектаванне сістэмы, здольнай змясціць да працяглага размовы на тэму «Як мне трапіць на вакзал? " патрабуе шматузроўневай сеткі граматыцы заснавана на дадзеных, атрыманых ад студэнтаў, прыродныя магчымасці апрацоўкі мовы, а таксама стратэгіі для аднаўлення з неразумення. У наступным, мы прадстаўляем пачуццё спектр магчымасцяў, звязаных з гэтым тыпам заходу дызайну.

Стымул-рэакцыя запытаў

Нядаўняе ўкараненне адкрытай канструкцыі адказ для навучання пачатку іспанскі Аўта Інтэрактыўная Tutor (TAIT) на Mitsubishi Research Laboratories (Waters, 1995). Сістэма ўяўляе навучальны матэрыял у выглядзе стымул-рэакцыя пары і арганізаваны вакол мноства прымітыўных элементаў, якія можна атрымаць, такія як "Што такое іспанскага словы" левы "?" Ён выкарыстоўвае распазнанне прамовы для апрацоўкі ўваходных і студэнтаў, каб рухацца наперад. Што адрознівае гэтую сістэму ад іншых, разгледжаныя ў аглядзе з'яўляецца той факт, што карыстач-адаптыўнай. Ён будуе развіваецца мадэль ведаў карыстальніка, адсочваючы сярэдні ўзровень памылак, і гэта ўяўляе наступнага матэрыялу адпаведна. Хоць сістэма ніколі не была накіравана з карыстальнікамі і, нягледзячы на тое, што ён выкарыстоўвае даволі прымітыўныя, малога слоўнікавага запасу, дыскрэтных уваходаў, дынамік залежыць ад прамовы распознаватель, нефармальныя дадзеныя сведчаць аб тым, што TAIT робіць разумнае выкарыстанне дызайну, каб атрымаць максімальную аддачу ад простай рэалізацыі маўленчых тэхналогій.

Імітацыя рэальнага размовы

У апошнія некалькі гадоў колькасць маўленчых лабараторыі спрабавалі пабудаваць сістэмы, якія могуць разумець і судзіць бесперапыннага гутарковай мове і падтрымліваць размову праз некалькі паваротаў. Мэта складаецца ў тым, каб імітаваць істотныя рысы чалавека-чалавечага зносін з мэтай навучання і практыкі гутарковыя навыкі ў мэтавым мове. Ўзаемадзеянне павінна працаваць, не патрабуючы закладу сігналы ад мышы або клавіятуры, працаваць на адпаведную гутарковай тэмпе, і ўключаюць славесныя стратэгій для дазволу непаразуменняў.

Прататып сістэмы для мадэлявання дзейнасці чалавека чалавечых узаемадзеянняў нядаўна быў распрацаваны ў Энтропийная (Ehsani, Бернстайна, Najmi, і Todic, 1997; Ehsani, Бернстайна, і Najmi, у друку). Сістэма, названая Subarashii (на Японскай "выдатны"), прапануе пачаткоўцаў студэнтаў японскіх магчымасць вырашаць простыя задачы праз (віртуальных) казаў ўзаемадзеяння з аднамоўных японскіх першабытнікаў. Subarashii прызначаны зразумець, што студэнт гаворыць на японскай мове (у межах абмежаванні кантэксту) і рэагаваць значным чынам у размоўным японскім.

У серыі слаба звязаных паўсядзённых сітуацыях, сістэма стварае праблемы ў пісьмовым англійскай (напрыклад, запрашаючы аднаго пайсці ў кіно) і прапануе выпадковыя падтрымкі студэнта ў форме пісьмовых напамінкаў, але праблемы могуць быць вырашаныя толькі гаварыць і разуменні японцаў. Нягледзячы на абмежаваныя камунікатыўныя кампетэнцыі навучэнцаў пачатку L2, існуе мноства патэнцыйна сапраўдныя выказванні аб тым, што студэнт можа вырабляць у любой сітуацыі, нават калі некаторыя з іх могуць быць граматычна ці прагматычна няслушным. Subarashii не толькі правільна апрацаваць правільныя адказы, але гэта таксама прызнаць і адхіліць (з адпаведным паведамленнем) шмат няўдалых уваходаў. Аднак, для таго, каб даць адпаведную зваротную сувязь аб студэнцкіх памылак, сістэма павінна быць у стане прадбачыць такія памылкі, а таксама чаканыя адказы. Іншымі словамі, яны павінны быць уключаныя ў прызнанні сеткі. Для стварэння такой сеткі, кожная сустрэча была прататып у традыцыйнай асяроддзі Hypercard на Macintosh з ўводу тэксту. Hypercard прадастаўляе эфектыўныя сродкі мадэлявання кожная сустрэча на аснове фактычнага ўкладу тэст групе студэнтаў.

Акустычных мадэляў для гэтай сістэмы былі першапачаткова пабудаваны з нізкім адмовы, каб быць больш паблажлівымі акцэнту студэнта. Аднак такі падыход прывёў да адносна вялікую долю распазнаецца выказванняў, і ілжыва прыняцця. Два даследаванні, праведзеныя сярод 32 студэнтаў з Сілвер Крык Вышэйшая школа, Сан-Хасэ, і 13 студэнтаў Стэнфардскага далі трывожна нізкая дакладнасць распазнання стаўкі (41,6% і 36,6% адпаведна) з-за недахопу дадзеных для навучання. Гэтыя вынікі азначаюць, што толькі адна траціна адказаў студэнтаў былі правільна зразумелі. Тым не менш, функцыянальная дакладнасць, гэта значыць працэнт выпадкаў, сістэма адказала адпаведным чынам, быў значна вышэй (66,9% і 71,4% для Сілвер Крык і Стэнфардскага адпаведна). Напрыклад, калі вучань сказаў: "Прывітанне, як справы?" і пытанне быў распазнаецца як "Прывітанне, як справы?", гэта тэхнічна прызнання памылкі. Функцыянальна, тым не менш, сістэма будзе рэагаваць адпаведным чынам дазваляе выказаць здагадку, што амаль ідэальнай дакладнасць распазнання не можа быць неабходным умовай для эфектыўнай сістэмы дыялогавага прамовы.

-55 -

Будучыя тэндэнцыі ў VOICE-INTERACTIVE ВЫЗОВА

У папярэдніх раздзелах мы разгледзелі бягучы стан маўленчых тэхналогій, абмеркавалі некаторыя з фактараў, якія ўплываюць на прызнанне прадукцыйнасці, і ўведзены шэраг навукова-даследчых прататыпаў, якія ілюструюць спектр маўленчых функцый Тэлефануйце прыкладанняў, якія ў цяперашні час тэхнічна і педагагічна мэтазгодна. За выключэннем некалькіх пошукавых адкрытых сістэм дыялогавае адказ, большасць з гэтых сістэм прызначана для навучання і ацэнкі моўнай формы (вымаўленне, беглость прамовы, слоўнікавы запас даследаванні, ці граматычная структура). Гэта не выпадкова. Фармальныя асаблівасці могуць быць дакладна вызначаны і інтэграваныя ў мэтанакіраванай задачай дызайну. Гэта азначае, што высокай прадукцыйнасці можна чакаць. Акрамя таго, засваенне моўнай формы застаецца важным кампанентам навучання L2, нягледзячы на акцэнт на сувязі (Галандыя, 1995). Доўгі, арыентаваныя практыкі вялікай колькасці элементаў да гэтага часу лічыцца эфектыўным сродкам пашырэння і ўзмацнення моўнай кампетэнцыі (Waters, 1994). Тым не менш, такая практыка з'яўляецца працаёмкім. Тэлефануйце можаце аўтаматызаваць гэтыя аспекты моўнай падрыхтоўкі, тым самым вызваліўшы каштоўны час класа, якія маглі б быць патрачаны на трэніроўкі.

Хаця такія сістэмы з'яўляюцца важным крокам у правільным кірунку, іншыя, больш складаныя і амбіцыйныя прыкладанняў мажлівыя і, несумненна, пажадана. Уявіце сабе, студэнт можа мець доступ у Інтэрнэт, знайсці мову па свайму выбару, і атрымаеце доступ да ўсёабдымнай галасавой інтэрактыўнай мультымедыйнай праграмы мову, які забяспечыць эквівалент ўвесь першы год навучання ў каледжы навучанне. Кампутар будзе ацэньваць веды на ўзроўні студэнта і дызайн курс навучання з улікам сваіх запатрабаванняў. Або падумайце, выкарыстоўваючы той жа інтэрнэт-рэсурсы і набор высокага ўзроўню, сродкі распрацоўкі, каб злучыць серыі віртуальных сустрэч навакольных задача знайсці кватэру ў Берліне. Як мінімум, можна было б спадзявацца, што натуральная ёмістасць падачы гаворка становіцца руціннай асаблівасцю любога выкліку прыкладанняў.

Для многіх выкладчыкаў, яны могуць па-ранейшаму здаюцца далёкай мэты, і тым не менш мы лічым, што яны не з'яўляюцца недасяжнымі. У далейшым мы атаясамляе чацвёра самых стойкіх пытанні ў будаўніцтве прамовы прыкладанняў з падтрымкай мовы навучання і прапанаваць, як яны маглі б быць вырашаны з тым каб больш шырокае распаўсюджванне камерцыйнай рэалізацыі маўленчых тэхналогій у CALL.

1. Дадатковыя даследаванні, неабходныя на мадэляванні і прагназаванні многооборотные дыялогаў.

Інтэлектуальных адкрытых рэпетытар мовы адказ павінен не толькі правільна распазнаць дадзенага маўленчага ўводу, але ў дадатак зразумець, што было сказана і ацэньваць сэнс выказванні па прагматычным мэтазгоднасці. Аўтаматычнае разуменне прамовы патрабуе апрацоўкі натуральнага мовы (NLP) магчымасці, тэхналогія атрымання граматычныя, семантычныя і прагматычныя інфармацыі ад пісьмовай або вуснай гаворкі. НЛП была паспяхова разгорнута ў экспертных сістэмах і пошуку інфармацыі. Адным з першых галасавога інтэрактыўнага дыялогу сістэм з выкарыстаннем НЛП была спансуецца DARPA Air Travel Information System (Паллетт, 1995), якая дазваляе карыстачу атрымліваць інфармацыю аб авіярэйсах і забраніраваць квіткі па тэлефоне. Падобныя камерцыйныя сістэмы былі рэалізаваны для аўтаматычнага пошуку надвор'я і рэстаран інфармацыі, віртуальных асяроддзяў, і тэлефон аўтаматычна абслуговага персаналу. Многія з урокаў, вынятых у распрацоўцы такіх сістэм могуць быць карысныя для распрацоўкі прыкладанняў Тэлефануйце для практыкуючых гутарковыя навыкі.

2. Усё больш і больш дадзеных для навучання, неабходных для падтрымкі фундаментальных даследаванняў у вобласці мадэлявання неместный гутарковай гаворкі.

Адзін з самых неабходных рэсурсаў для развіцця адкрытых адказ гутарковы прыкладанняў выклік вялікі карпарацыі неместный транскрибируется дадзеныя словы, чытання і гутарковай мовы. Так акцэнты мяняюцца ў залежнасці ад першага мовы студэнта, асобныя базы дадзеных павінны быць альбо сабраны па кожнаму L1 падгрупа, або рэпрэзентатыўнай выбаркі асоб, якія будуць размаўляць на розных мовах павінны быць уключаны ў базу дадзеных. Стварэнне такіх баз даных з'яўляецца надзвычай працоўных і фінансавых выдаткаў - транскрыпцыі тэлефона ўзровень спантаннай гутарковай дадзеных можа каштаваць да аднаго даляра ў тэлефоне. Колькасць шматмоўных гутарковы базы дадзеных тэлефонных прамовы галоснасці праз лінгвістычны Кансорцыум дадзеных (НРС), у тым ліку Камутатар (амерыканскі англійская) і CALLHOME (англійская, японскі, іспанскі, кітайскі, арабская, нямецкая). Нашы ўласныя намаганні ў супрацоўніцтве з універсітэтам Джона Хопкінса (Byrne, Knodt, Khudanpur, і Бернштэйн, 1998; Knodt, Бернстайна, і Todic, 1998) у тым, каб збіраць і мадэлі спантанага ангельскага размовы паміж лацінаамерыканскага тубыльцаў. Усе гэтыя намаганні палепшыць наша разуменне disfluent прамовы мовы навучэнцаў і дапамагчы мадэлі гэтай прамовы тыпу для чалавека і машыны сувязі.

-56 -

3. Сродкі распрацоўкі і API, павінны стаць больш даступнымі і простымі ў выкарыстанні.

Функцыянальнасці распазнання прамовы, хутчэй за ўсё, стала стандартнай функцыяй Тэлефануйце, калі яна можа быць лёгка уключаны ў прыкладанні вывучэння мовы. Лепшым спосабам дасягнення гэтага з'яўляецца выкарыстанне стандартызаваных API прамовы. Speech API ўяўляе сабой набор праграмных модуляў, якія дазваляюць распрацоўнікам прыкладанняў для доступу да функцыянальнасці прамовы дэкодэр без неабходнасці поўнага разумення прымяняецца тэхналогіі. Большасць вытворцаў маюць свае прыватныя або агалоску прамовы API, і ў цяперашні час Ёсць некалькі канкуруючых "стандартаў". Энтропийная нядаўна пабудаваў прамовы API спецыяльна прыстасаваныя да патрэбаў мовы педагогаў. Гэты API аб'ядноўвае стане сучасных распазнання прамовы і набор высокадакладных працэдур праграмавання высокага ўзроўню з існуючымі асяроддзямі распрацоўкі для ўключэння распазнання прамовы на базе ПК прыкладанняў моўную падрыхтоўку. Энтропийная прамовы API забяспечвае універсальны сераду распрацоўкі для адукацыйнага праграмнага забеспячэння, сумяшчальнага з іншымі мультымедыйныя сродкі авторинга, такія як Java або Authorware. API простая ў выкарыстанні і падтрымлівае магутныя функцыі для выкліку прыкладанняў, уключаючы доступ да інфармацыі F0, тэрміны, давер балаў, і аўтаматычнае адлюстраванне вядомых неместный вымаўлення.

4. Так як галасавыя інтэрактыўныя сістэмы завуць стаць больш шырокае прызнанне, якасць камерцыйных сістэм, хутчэй за ўсё, палепшыцца.

Ільвіная доля фінансавання паступае выклік з урадавых крыніц. Так як гэтыя сродкі сціплыя і высокіх выдаткаў вытворчасці, большасць з назапашвальных сістэм застаюцца на эксперыментальнай стадыі, толькі нешматлікія з іх былі пратэставаныя з канчатковымі карыстачамі і яшчэ меншы лік увайшлі камерцыйным рынку. Распаўсюджаны аргумент мяркуе, што выклік будзе мець большае практычнае ўплыў на навучанне, калі больш за добра прадуманыя прыкладанні Тэлефануйце лёгка даступныя. Без сумневу, нам трэба лепш і больш дбайнае тэставанне сістэмы. Такія сістэмы павінны стаць больш даступнай, просты ва ўсталёўцы, а таксама незалежная ад платформы. Тым не менш, павелічэнне камерцыйнага поспеху тэлефонных прыкладанняў на аснове галасы аб тым, што тэхналогія будзе хутка паляпшацца пасля ўступлення на камерцыйным рынку ў большым маштабе. У выніку, вялікая колькасць карыстацкіх дадзеных стане даступным для ўзмацнення і ўдасканалення тэхналогіі яшчэ далей.

АБ АЎТАРА

Фарзад Ehsani з'яўляецца тэхнічны дырэктар кампаніі Sehda, Inc запуску упорам на вялікія дадатку слоўнік для дыялогу і субтытраў. Раней ён быў кіраўніком Language Systems ў навукова-даследчай лабараторыі Энтропическое. Ён мае ступень бакалаўра ў вобласці кампутарных навук і магістраў і інжынераў ступень у галіне электратэхнікі ўсё з Масачусецкага тэхналагічнага інстытута. Да прыходу ў Энтропическое, г-н Ehsani працавала ў NEC, Motorola, Масачусецкі тэхналагічны інстытут, і снежні, як даследчык акцэнтам на мове мадэлявання і распазнання прамовы.

Электронная пошта: farzad@sehda.com

Ева Knodt з'яўляецца віцэ-прэзідэнтам па маркетынгу ў Sehda, Inc запуску упорам на вялікія дадатку слоўнік для дыялогу і субтытраў. Яна мае доктарскую ступень у галіне нямецкай літаратуры ў Універсітэце Вірджыніі і выкладаў у Індзіану і Стэнфардскім універсітэтах. Да гэтага яна была навуковым супрацоўнікам навукова-даследчай лабараторыі Энтропическое, якія працуюць у галіне доследна-канструктарскіх і рэалізацыі пратаколу, а таксама будынкі мовы і акустычныя мадэлі для ангельскай і японскага моў.

Электронная пошта: knodt@sehda.com

-57 -

Спасылкі

Аббертон Е., і Fourcin, А. (1975). Візуальную зваротную сувязь і набыццё інтанацыі. У EH Леннеберг, і Е. Леннеберг (рэдакцыя), фонды развіцця мовы (2-е выд., Стар. 157-165). Нью-Ёрк: Academic Press.

Андэрсан-Вось, J. (1994). Інтэрпрэтацыя візуальную зваротную сувязь на супрасегментные ў Навучанне з дапамогай кампутара вымаўленне. CALICO Journal, 11 (4), 5-21.

. Бернштэйн, Дж. (1997) Аўтаматычная казаў ацэнкі мове па тэлефоне (тэхнічных навук член палаты прадстаўнікоў нумар 5-97), Менло Парк, Каліфорнія: Энтропическое, Inc

Бернштэйн, Д., і Орас, Ф. (1996). Распазнанне прамовы з дапамогай кампутара. У Н. Ласо (рэдакцыя), прынцыпы эксперыментальнай фанетыкі (с. 408-434). Сэнт-Луіс: Мосби.

Бернштэйн, Д., і Ртищев, Д. (1991). Голас інтэрактыўная сістэма мове, Працы Eurospeech, верасень, 981-983.

Бернштэйн, Л., і хрысціянскія, Б. (1996). Для ўспрымання прамовы на людзей ці машын, трох сэнсах лепш, чым адна. Працы Міжнароднай канферэнцыі па Размоўны мова апрацоўкі, кастрычніку, 1477-1480.

Бірн, W., Knodt Я., Khudanpur, С., і Бернштэйн, Дж. (1998). З'яўляецца аўтаматычнага распазнавання прамовы гатовы да няродны прамовы? Намаганні па зборы дадзеных і першыя эксперыменты ў мадэляванні гутарковы англійская іспанец, Працы маўленчых тэхналогій у вывучэнні мовы, травень.

Шапель, C. (1997). Тэлефануйце ў 2000 годзе: ўсё яшчэ ў пошуках даследчыя парадыгмы навучання мове і тэхналогіі, 1 (1), 19-43?. Праверана 1 лютага 1998 г ад World Wide Web: http://polyglot.cal.msu.edu/llt/vol1num1/chapelle/default.html.

Коўэн Х., і Джонс, Б. (1991). Дасягненне студэнтаў з чытаннем праблем. Электроннае навучанне 11 (1), 36-38.

Crystal, D. (1981). Клінічная лінгвістыка. Нью-Ёрк: Харпер Press.

дэ-Bot, К. (1983). Візуальная зваротная сувязь інтанацыі. Эфектыўнасць і індукаванага паводзін практыцы мовы і гаворкі, 26 (4), 331-350.

Dunkel, П. (рэдакцыя). (1991) Кампутарны мову навучання і тэсціравання. Даследаванні пытанняў і практыкі Філадэльфіі. Penn State University Press.

Иган, К. (1996). Распазнанне прамовы прымяненне да вывучэння мовы. Echos Працы CALICO, ліпень.

Ehsani, Ф. (1996) Упраўленне паветраным рухам задача для японскіх (тэхнічных навук член палаты прадстаўнікоў нумар 7-96), Менло Парк, Каліфорнія:. Энтропийная, Inc

Ehsani, Ф. Бернштэйн, Д., Najmi, A., & Todic, В. (1997). Subarashii. Японскіх інтэрактыўных казаў моўнага адукацыі Працы Eurospeech, верасень, 681-684.

Ehsani, Ф. Бернштэйн, Д., і Najmi, А. (у друку). Інтэрактыўная сістэма дыялогавага навучання японскага мовы. Маўленчы камунікацыі.

Франка, H., Neumeyer, Л. Кім Ю., і Ронен, В. (1997). Аўтаматычная скоринга вымаўленне мовай навучання. Працы ICASSP, красавік, 1471-1474.

Хаскин, Д. (1997, 23 верасня). Распазнаванне галасы дасягае новых вышынь з цмокам натуральна казаць. PC Magazine, 16.

. Хігінс, J. (1988) Мова навучэнцаў і кампутараў: Чалавечы інтэлект і штучны unintelligence. Сінгапур: Longman Group.

Хілер, С., Руні, Я., Воган, Р. Эккерт, М., Laver, J., і Джэк, М. (1994). Аўтаматызаваная сістэма для аўтаматызаванага навучання вымаўленню. Аўтаматызаванага навучання мове, 7 (1), 51-63.

Галандыя, М. (1995). Выпадку для інтэлектуальных CALL. У Галандыі М., JD Каплан, і MR Sams (рэдакцыя), Інтэлектуальны выкладчыкаў мовы: тэорыя фарміравання тэхналогій. Mahwah, Нью-Джэрсі: Лоўрэнс Erlbaum Associates.

Хабарда, П. (1988). Комплекснай асновы для Тэлефануйце курсаў ацэнкі. CALICO Journal, снежань, 51-72.

Джэймс, Я. (1976). Набыццё просодические асаблівасці мовы, выкарыстоўваючы словы візуалізатара. Міжнародны часопіс прыкладной лінгвістыкі 14, 227-243.

-58 -

Jecker, Д. (1998, 10 сакавіка). Распазнанне прамовы - Тэсты часопіса PC Magazine, 17..

. Kantrov, І. (1991) Размова з кампутарам: распазнанне прамовы прататып сістэмы ранняга інструкцый чытання (тэхнічных навук член палаты прадстаўнікоў нумар 91-3). Ньютан, М.: Цэнтр развіцця адукацыі.

Кава, Г., і Hirose, К. (1997). Тэлефануйце сістэмы распазнання прамовы для навучання вымаўленню японскіх доўгія галосныя, насавыя мору і мору шумнымі. Працы Eurospeech, верасень, 657-660.

Кеннингом, MM, і Кеннингом, MJ (1990) Кампутары і мовы навучання. Бягучая тэорыя і практыка. Лондан: Эліс Horwood.

Кім, Ю. Франка, H., і Neumeyer, Л. (1997). Аўтаматычная скоринга вымаўленне канкрэтных сегментаў тэлефон для мовы навучання. Працы Eurospeech, верасень, 645-648.

Knodt, Э. Бернштэйн, Д., і Todic, В. (1998). Пратакол для збору корпус спантаннай, гутарковы, Іспанец англійскай мове. Матэрыялы Першай міжнароднай канферэнцыі па мове рэсурсаў і ацэнкі, травень, 341-345.

Левинсон, С., і Ліберман, М. (1981). Распазнанне прамовы з дапамогай кампутара. Scientific American, красавік, 64-76.

МакКэндлесс, М. (1992). Словы для адмовы пісьменнасці настаўніка. Неапублікаваныя абараніў кандыдацкую дысертацыю, Масачусецкім тэхналагічным інстытуце ў Кембрыджы.

Мануэль, С. (1990). Маўленчы камунікацыі справаздачу (Справаздача № 133, стар 289-299). Cambridge, MA: Масачусецкі тэхналагічны інстытут, навукова-даследчай лабараторыі электронікі.

Маркхем, Д., і Нагана-Madesen, Ю. (1996). Працы Міжнароднай канферэнцыі па Размоўны мова апрацоўкі, кастрычніку, 1473-1476.

Molholt, Г. (1990). Спектральны аналіз і мадэлі ў вымаўленні. Кампутары і гуманітарны, 24, 81-92.

Маставая, J. (1997). Сумесныя даследаванні па вывучэнню тэхналогіі:. Аўтаматызаванай памочнік чытаў, што слухае Матэрыялы Нацыянальнага навуковага фонду Інтэрактыўныя сістэмы першыя атрымальнiкi грантаў семінара жніўня

Маставая Дж. Рот, С., гауптман, А. Г., і Кейн, М. (1994). Трэнер прататып чытаў, што слухае. Матэрыялы 12-й Нацыянальнай канферэнцыі па штучнаму інтэлекту, жнівень, 785-792.

Маставая, J., і бусел, Г. (1997). Гукі цішыні: на шляху да аўтаматызаванай ацэнкі ведаў студэнтаў у чытанні настаўнік, які слухае Працы 14-й Нацыянальнай канферэнцыі па штучнаму інтэлекту, ліпень,355-361..

Neumeyer Л., Sankar, A., & Digalakis, В. (1995). Параўнальнае вывучэнне метадаў спікер адаптацыі. Працы Eurospeech, верасень, 1127-1130.

Neumeyer, Л., Франка, Х., Вайнтрауб, М., і кошт, П. (1996). Аўтаматычны тэкставы незалежных забіўшы вымаўлення замежных прамовы студэнта мовы. Міжнародная канферэнцыя па апрацоўцы Размоўны мову, верасень, 1457-1460.

Нг, KLE, і Аліўе, В. (1987). Кампутарны вывучэння мовы. Расследаванні па некаторых Пытанні праектавання і рэалізацыі сістэмы, 15 (1), 1-17.

Паддонаў, Д., Фискус Дж. Фішэр, У., Garofolo Дж. Лунд, Б. Марцін, A., & Przybocki, М. (1994). 1993 тэстаў для Арпа казаў моўнай праграмы. Працы семінара правах тэхналогіі мовы (с. 49-74). Сан - Францыска: Morgan Kaufmann Publishers, Inc

Паддонаў, Д., Фискус Дж. Фішэр, У., Garofolo Дж. Лунд, Б. Марцін, A., & Przybocki, М. (1995). 1994 тэстаў для Арпа казаў моўнай праграмы. Працы семінара правах тэхналогіі мовы (с. 5-36). Сан - Францыска: Morgan Kaufmann Publishers, Inc

Філіпс, М., Zue В., і МакКэндлесс, М. (1993). Мова рэпетытар: інтэрактыўная дапамогу для выкладання англійскай і японскага моў. У Zue В. (рэдакцыя), Гадавы рэзюмэ даследавання (с. 29-30). Cambridge MA: Размоўны мову Systems Group, MIT LCS.

Rypa, М. (1996). VILTS: голас інтэрактыўныя сістэмы навучання мове Працы CALICO, ліпеня..

-59 -

Салаберри, М. Р. (1996). Тэарэтычнай асновай для развіцця педагагічных задач у вобласці кампутарнай сувязі апасродкаванае. CALICO Journal, 14 (1), 5-34.

Spaai, Г. і Hermes, Д. (1993). Візуальнага адлюстравання для навучання інтанацыі. CALICO Journal 10 (3), 19-30.

Стиббард, R. (1996). Выкладанне англійскай мовы інтанацыю, з візуальным адлюстраваннем асноўнай частаты Інтэрнэт TESOL Journal, 2 (8) Праверана 1 лютым 1998 ад World Wide Web:.. http://www.aitech.ac.jp/ ~ iteslj / Артыкулы / Стиббард -Інтанацыя.

Warschauer, М. (1996). Кампутарны мову навучання. увядзеннем у С. Фотаздымкі (рэдакцыя), Мультымедыя выкладання мовы (с. 3-20). Логас International: Токіо.

Вады, R. (1994). Аўдыё настаўнік інтэрактыўнай (тэхнічных навук член палаты прадстаўнікоў нумар 94-04). Кембрыджскі даследчы цэнтр, Масачусэтс: Mitsubishi Electronic Research Laboratories.

Вады, R. (1995). Аўдыё інтэрактыўныя настаўніка. Аўтаматызаванага навучання мове, 8 (4), 325-354.

Вайнштейн, К., МакКэндлесс, С., Mondshein Л., і Zue, В. (1975). Сістэма акустычнага фанетычнага аналізу бесперапыннай прамовы. IEEE Trans. Акуст. Гаворка і апрацоўкі сігналаў, 23 (1), 54-67.

Віт, С., & Young, С. (1997). Мова навучання, заснаваную на неместный распазнання прамовы. Працы Eurospeech, верасень, 633-636.

Лясной, П., Пай, Д., і моцных вятроў, М. (1996). Итерационные некантралюемага адаптацыі выкарыстаннем максімальнага праўдападобны лінейнай рэгрэсіі. Працы Міжнароднай канферэнцыі па Размоўны мова апрацоўкі, кастрычніку, 1133-1136.

Маладыя, С. (1996). Агляд вялікага слоўніка распазнання разам прамовы. IEEE Signal Processing Magazine, верасень, 45-57.

Zavaliagkos Г. Шварц, Р., McDonough, J., і Махул, J. (1995). Адаптацыя алгарытмаў распазнавання вялікага хм маштабе. Працы Eurospeech, верасень, 1131-1134.

Published (Last edited): Apr 15 , source: http://llt.msu.edu/vol2num1/article3/index.html