Творим будущее своими руками
Частичный перепост из
olegmakarenko.ru. Полностью запись с агитацией тут: http://fritzmorgen.livejournal.com/547229.html
( Collapse )
Так вот. Сейчас энтузиасты запустили очень важный проект по поддержке русского языка. Проект по созданию открытого корпуса текстов на русском языке: http://habrahabr.ru/post/152799/
Что это такое?
Это сборник из размеченных специальным образом статей, который программисты смогут использовать для разработки разного рода компьютерных систем на русском языке.
Сразу приведу пример. Допустим, робот слышит команду «вызывай наряд». Как ему понять о чём идёт речь, о наряде милиции или о национальном наряде? Или, может быть, хозяин запросил у него бухгалтерский наряд-заказ?
Корпус текстов нужен для того, чтобы расшить все эти неоднозначности, разжевать роботу их смысл и, в конечном итоге, научить робота понимать обычную русскую речь.
( Collapse )
Что мы с вами можем сделать, чтобы исправить ситуацию?
Очевидно, присоединиться к проекту по разметке свободного корпуса текстов. Согласно подсчётам авторов, для первого этапа работ нужно будет скормить добровольцам четыре миллиона вопросов. Если таковых добровольцев наберётся пять тысяч, то каждому из них нужно будет потратить всего лишь один час времени.
После чего свободно скачиваемый корпус текстов на русском языке будет в полном распоряжении всех отечественных роботостроителей.
Как конкретно происходит «разметка»? Вы заходите на сайт открытого корпуса и берёте на разметку небольшую связку слов:
http://opencorpora.org/
Если вы выберете, например, пул «существительные — именительный/винительный», вам будут показывать фрагменты такого типа:
…Это задает вектор нового персонажа — любила его больше…
…помазывает лбы невесты и жениха освященным маслом…
…только лишь укажите автора текста…
Вам надо будет указывать сайту, где выделенное слово стоит в именительном, а где — в родительном падеже. Это удобнее всего делать, заменяя в уме нужное слово на слово «лиса». «Вектор новой лисы», «укажите лису текста» и так далее — по окончанию слова сразу всё понятно.
Работа для любящего русский язык человека довольно простая, на грани развлечения, что-то типа раскладки пасьянсов или лузганья кроссвордов. Про огромную важность этой работы я уже написал. Поэтому, коллеги, я считаю себя вправе обратиться к вам с просьбой.
Примите, пожалуйста, участие в разметке этого корпуса текстов. И обязательно посоветуйте своим читателям сделать то же самое. Тогда через несколько лет вы сможете сказать своему личному андроиду, что своим умением говорить на русском языке он обязан в том числе и вам.
Я вписалась, очень интересно! И личная прокачка тоже идёт. На сайте не регистрировалась, влогинилась через LJ.
( Collapse )
Так вот. Сейчас энтузиасты запустили очень важный проект по поддержке русского языка. Проект по созданию открытого корпуса текстов на русском языке: http://habrahabr.ru/post/152799/
Что это такое?
Это сборник из размеченных специальным образом статей, который программисты смогут использовать для разработки разного рода компьютерных систем на русском языке.
Сразу приведу пример. Допустим, робот слышит команду «вызывай наряд». Как ему понять о чём идёт речь, о наряде милиции или о национальном наряде? Или, может быть, хозяин запросил у него бухгалтерский наряд-заказ?
Корпус текстов нужен для того, чтобы расшить все эти неоднозначности, разжевать роботу их смысл и, в конечном итоге, научить робота понимать обычную русскую речь.
( Collapse )
Что мы с вами можем сделать, чтобы исправить ситуацию?
Очевидно, присоединиться к проекту по разметке свободного корпуса текстов. Согласно подсчётам авторов, для первого этапа работ нужно будет скормить добровольцам четыре миллиона вопросов. Если таковых добровольцев наберётся пять тысяч, то каждому из них нужно будет потратить всего лишь один час времени.
После чего свободно скачиваемый корпус текстов на русском языке будет в полном распоряжении всех отечественных роботостроителей.
Как конкретно происходит «разметка»? Вы заходите на сайт открытого корпуса и берёте на разметку небольшую связку слов:
http://opencorpora.org/
Если вы выберете, например, пул «существительные — именительный/винительный», вам будут показывать фрагменты такого типа:
…Это задает вектор нового персонажа — любила его больше…
…помазывает лбы невесты и жениха освященным маслом…
…только лишь укажите автора текста…
Вам надо будет указывать сайту, где выделенное слово стоит в именительном, а где — в родительном падеже. Это удобнее всего делать, заменяя в уме нужное слово на слово «лиса». «Вектор новой лисы», «укажите лису текста» и так далее — по окончанию слова сразу всё понятно.
Работа для любящего русский язык человека довольно простая, на грани развлечения, что-то типа раскладки пасьянсов или лузганья кроссвордов. Про огромную важность этой работы я уже написал. Поэтому, коллеги, я считаю себя вправе обратиться к вам с просьбой.
Примите, пожалуйста, участие в разметке этого корпуса текстов. И обязательно посоветуйте своим читателям сделать то же самое. Тогда через несколько лет вы сможете сказать своему личному андроиду, что своим умением говорить на русском языке он обязан в том числе и вам.
Я вписалась, очень интересно! И личная прокачка тоже идёт. На сайте не регистрировалась, влогинилась через LJ.