Естественный язык дается машинам нелегко. В отличие от людей, компьютерам непросто отличить, скажем, лук, растущий на грядке, от лука, из которого можно стрелять. Хотите услышать сатиру или шутку? У алгоритмов с этим большие проблемы. Ирония? Игра слов? Культурный контекст? Забудьте об этом.
Значения некоторых слов, вполне ясных для человека, часто находятся за гранью понимания компьютера, на что специалист по компьютерным наукам Луис фон Ан, ставший бизнесменом, и делает ставку. Его проект Duolingo, который был представлен публике во вторник (19 июня 2012г.), предлагает направить массу людей, изучающих иностранный язык, для работы над переводами текстов в интернет.
Для таких людей переводческая платформа
Последние пять месяцев сайт был доступен только по приглашению, и сейчас программа работает с английским, испанским, французским и немецким языками. Люди или компании могут добавлять в Duolingo тексты для перевода, и на данном этапе этот сервис абсолютно бесплатен.
Чтобы обеспечить контент для уроков, Duolingo также может использовать любой текст, не находящийся под авторским правом, или выпущенный под свободной лицензией Creative Commons. Пользователи голосуют за лучшие переводы, обеспечивая некоторую степень контроля качества.
"Вы изучаете иностранный язык и в то же время помогаете переводить для веб. Вы учитесь на собственном опыте," - говорит Луис фон Ан.
Переводчик Google Translate, в отличие от Duolingo, всецело полагается на работу машин - в основном, компьютер улавливает суть текста, но иногда выдает несуразный результат, приводящий в замешательство. Google использует большие объемы информации для выдачи результата в своем переводчике, наполняя его текстами, которые были переведены на множество языков, и используются в дальнейшем для тренировки программы.
Луис фон Ан надеется, что множество людей будут посещать онлайновый сервис бесплатных уроков Duolingo, чтобы обучиться иностранному языку. Идея создания Duolingo пришла в голову ученому, когда он заметил, что зачастую качественный онлайн-контент недоступен многим его друзьям и родственникам, живущим в Гватемале, так как они не знают английского языка. Контент, к примеру, на испанском языке наименее информативен, и люди, не знающие другого иностранного языка, практически вынуждены принимать информацию на веру.
Краудсорсинг ,т.е. привлечение добровольцев -любителей к рабочему процессу, лежит в основе замысла фон Ана. Человек и компьютер делают перевод совершенно по-разному, и если какой-либо компании нужен перевод текстов большого объема на множество языков, то машинный перевод может быть более продуктивным. Коллега создателя Duolingo Алэн Лэви, считает, что краудсорсинг хорошо работает в случае, если компании или отдельному человеку нужен перевод небольшого объема, который должен быть выполнен быстро и недорого, однако будет качественным и подобным переводу, сделанному человеком, знающим по крайней мере два языка.
Марк Фронс, главный представитель информационной службы New York Times, сообщил, что они экспериментировали с онлайновым сервисом Duolingo как с потенциальным средством перевода контента на другие языки, но компания не давала никаких обязательств по поводу использования программы в дальнейшем.
Создатель Duolingo намеревается сделать онлайн-энциклопедию Wikipedia своим первым переводческим проектом.
Наибольшее количество статей в Wikipedia опубликовано на английском языке (около 4 миллионов). Далее следуют статьи на немецком (1.4 млн), французском (1.3 млн) и голландском (1 млн) языках. Что касается других популярных языков, то тут их количество разнится: к примеру, на испанском языке опубликовано 900.000 статей, а на языке суахили (используется жителями Восточной Африки) - менее 24.000.
Представитель Wikimedia Foundation Джей Уолш неоднократно говорил, что они приветствуют каждого, кто хотел бы взять материал из Wikipedia для перевода (он опубликован в соответствии с лицензией Creative Commons), однако прежде чем опубликовать уже переведенный материал на сайте Wikipedia, его нужно проверить, чтобы убедиться, что перевод верный. "Люди, которые работают в Wikipedia, справляются с многочисленными проблемами, стараясь сделать все на высшем уровне," - заявляет Уолш.
Чтобы Duolingo исправно работал, необходимо большое количество людей, изучающих иностранный язык, и чем больше знаний они приобретают, тем больше вероятность того, что перевод получится качественным. В программе Duolingo большой текст разбивается на куски разной степени сложности, и потом эти кусочки текста раздаются ученикам в зависимости от того, какой у них уровень знаний, а затем снова собираются в один большой текст. "Со временем мы намерены взимать плату с контент-провайдеров для более быстрого или более точного перевода," - говорит Создатель Duolingo.
Венчурный капитал переводческой платформы Duolingo составил 3.3 миллиона долларов. Инвесторами старт-апа выступили компания Union Square Ventures, известный американский писатель и бизнесмен Тим Феррисс, а также актер Эштон Катчер.
По материалам bits.blogs.nytimes.com