В Казахстане разработан инновационный ИИ для научных и образовательных проектов

фото: Оңалхан Өнерхан

В Казахстане завершено обучение большой языковой модели KazLLM, основанной на 148 миллиардах токенов на казахском, английском, русском и турецком языках, передает Elordainfo.kz со ссылкой на Министерство цифрового развития, инноваций и аэрокосмической промышленности РК.

Разработкой модели занималась команда Института Умных Систем и Искусственного Интеллекта (ISSAI) при Nazarbayev University с поддержкой МЦРИАП РК и МНВО РК.

KazLLM будет доступна широкому кругу пользователей, включая научное сообщество, стартапы и крупные корпорации. Модель станет основой для создания более масштабного проекта — TurkLLM, который будет направлен на развитие технологий обработки естественного языка в тюркоязычном пространстве. Соглашение об этом проекте было подписано на саммите ОТГ.

Этот проект стал важной вехой в создании национальной AI-инфраструктуры и подтверждением статуса Казахстана как технологического лидера региона. Реализация KazLLM способствовала не только созданию передового инструмента искусственного интеллекта, но и росту компетенций в области ИТ. Внесли свой вклад в проект такие организации, как Тил Казына, АО «НИТ», Maqsut Narikbayev University и другие.

«Запуск модели KazLLM с открытым исходным кодом представляет собой важный шаг вперед в развитии экосистемы искусственного интеллекта Казахстана. Эта инициатива отражает нашу приверженность поддержке инноваций и продвижению научных достижений, которые способствуют технологическому прогрессу. Я уверен, что эта передовая модель поможет преодолеть цифровое неравенство, обеспечив доступные и инклюзивные цифровые услуги для каждого казахстанца», — отметил министр Жаслан Мадиев.

Модель была обучена на базе 148 миллиардов токенов. Создано две версии с 8 миллиардами и 70 миллиардами параметров, которые служат основой для разработки новых продуктов в сфере искусственного интеллекта. Эти версии превосходят аналогичные модели по качеству и точности.

На первом этапе KazLLM будет доступна в открытом доступе для разработчиков, стартапов и компаний, чтобы стимулировать создание новых продуктов и сервисов. Подготовлены подробные инструкции, которые помогут быстро интегрировать модель в различные проекты.

«Эта модель отражает стремление Казахстана к инновациям, самостоятельности и росту своей технологической экосистемы. Наша команда подготовила две версии KazLLM с 8 миллиардами и 70 миллиардами параметров, построенные на архитектуре Meta Llama и оптимизированные для высокопроизводительных систем и сред с ограниченными ресурсами. Таким образом, разработчики смогут скачать и запустить нашу модель как на сложных серверах, так и на ноутбуках», — рассказал директор Института Умных Систем и Искусственного Интеллекта (ISSAI) при Nazarbayev University профессор Хусейн Атакан Варол.

Ключевыми партнерами в создании модели стали Beeline Казахстан и ИТ-компания QazCode. Эти компании объединили усилия в разработке языковых моделей, таких как Kaz-RoBERTA, а также в создании ИИ-решений для малых языковых групп. Поддержка в виде предоставленных серверов с вычислительными мощностями 8 DGX H100 значительно ускорила процесс обучения модели.

Для сравнения: обычному компьютеру нужно несколько дней, чтобы проанализировать архив из 1 миллиона фотографий, в то время как 8 серверов DGX H100 справятся с этой задачей всего за несколько секунд.

«Наша команда активно участвовала в разработке и обучении модели KazLLM. Сложный процесс, включающий создание модели, учитывающей особенности казахского языка, и 50 дней вычислений, позволил улучшить понимание контекста и обеспечить качественное взаимодействие с пользователями. Тестирование показало, что модель эффективно решает технические задачи, учитывая культурные особенности. Мы уверены, что KazLLM станет важным инструментом для всего Казахстана, помогая преодолеть языковой цифровой барьер и улучшить качество цифровых сервисов в регионе», — прокомментировал CEO QazCode Алексей Шаравар.

KazLLM — это современная языковая модель искусственного интеллекта, предназначенная для обработки, анализа и генерации текстов на казахском языке. Это уникальная разработка, которая нацелена на продвижение казахского языка в цифровом пространстве, а также на поддержку бизнеса, науки и общества. Модель способна выполнять широкий спектр задач, от перевода и обработки документов до автоматизации общения.

Национальная модель откроет новые возможности для бизнеса. Она позволит разрабатывать чат-ботов, системы поддержки клиентов, автоматизировать документооборот и проводить анализ данных. Например, банки смогут ускорить обработку запросов на казахском языке, а ритейлеры улучшат пользовательский опыт. Образовательные и научные учреждения смогут создавать приложения для обучения казахскому языку и инструменты для анализа научных текстов. В области медиа и контента появится возможность генерировать новости, улучшать качество перевода и создавать инструменты для написания текстов.