00:00
Астана -10oC
Поиск KZ

Представлена «Модель обучения казахскому языку Tilqazyna на основе ИИ

17 января, 2025
Лезбаева Мөлдір Лезбаева Мөлдір
Представлена «Модель обучения казахскому языку Tilqazyna на основе ИИ
Фото freepik.com

Национальный научно-практический центр «Тіл-Қазына» при Комитете языковой политики Министерства науки и высшего образования представил первые результаты разработки модели обучения казахскому языку Tilqazyna на основе искусственного интеллекта, передает Elordainfo.kz со ссылкой на пресс-службу Министерства науки и высшего образования РК.

В настоящее время модель способна решать задачи в различных областях казахского языка, включая лексику, морфологию, семантику и др. Она может генерировать текст на казахском языке, создавать перифразы, обрабатывать контекст, сокращать тексты, исправлять грамматические и пунктуационные ошибки, раскрывать значения фразеологизмов и переводить термины.

Эта специализированная LLM модель  уже доступна на платформе Hugging Face, что позволяет пользователям работать с ней.

Использование модели откроет новые возможности для разработки IT-продуктов на казахском языке с применением искусственного интеллекта, что соответствует Посланию Президента Касым-Жомарта Токаева о превращении Казахстана в страну, активно использующую искусственный интеллект и развивающую цифровые технологии.

При создании модели эксперты центра «Тіл-Қазына» применяли алгоритмы обработки естественного языка и тщательно анализировали большие объемы данных. В частности:

- Для проверки слов использовались 684 876 лексических единиц.

- Для улучшения системы проверки словосочетаний было проанализировано 20 212 правильных и ошибочных вариантов.

- Для исправления пунктуационных ошибок обработано 5 558 текстов.

- Для коррекции структуры текста подготовлено 3 000 правильных и неправильных версий текстов.

- Для функции сокращения предложений создана база из 6 000 полных и сокращенных предложений.

- Для функции перифраза собрано 14 790 синонимических рядов.

- Общий объем обработанного корпуса казахского языка составил 35 ГБ.

В текущем году модель будет дополнена функцией голосового общения и разработкой удобного интерфейса для пользователей.

Кроме того, проект сможет обучать казахскому языку на уровнях A1, A2 и B1, с планами расширения до уровней B2 и C1 к 2026 году.

В конечном итоге проект приведет к созданию голосового помощника, который будет разрабатывать индивидуальную программу обучения казахскому языку в зависимости от уровня знаний пользователя.

Мобильное приложение будет доступно для операционных систем iOS и Android.