Українська LLM тренуватимуть на моделі Gemma від Google
Учора Google оголосив про розширення підтримки української мови у своїх мовних моделях. Компанія планує використати архітектуру Gemma як основу для створення першої повноцінної великої мовної моделі (LLM) з відкритим кодом, яка спеціалізуватиметься на українській мові.
Я спостерігаю за розвитком штучного інтелекту в Україні з початку повномасштабного вторгнення, і можу впевнено сказати: це рішення Google відкриває новий етап для української AI-спільноти. Працюючи над репортажами з цифрового фронту, я неодноразово чув від експертів про проблему недостатньої представленості української мови в сучасних мовних моделях.
Особливості моделі Gemma
Gemma, яку Google представив на початку року, належить до так званих “малих мовних моделей” (SLM). На відміну від гігантських GPT-4 чи Claude, вона має компактнішу архітектуру, що дозволяє запускати її навіть на смартфонах. Але при цьому модель зберігає високу продуктивність та точність обробки тексту.
“Наше рішення використати саме Gemma для української мови базується на її оптимальному співвідношенні між ресурсоємністю та якістю”, – розповів Пол Карр, технічний директор Google AI. “Ми вважаємо, що для мов з обмеженими обчислювальними ресурсами це найкращий шлях розвитку”.
Інвестиції та співпраця
У рамках проєкту Google виділить 5 мільйонів доларів на створення спеціалізованого українського датасету та навчання моделі. До роботи залучать фахівців з української мови, історії та культури. Особлива увага приділятиметься регіональним діалектам та історичним текстам.
Я поговорив з Оленою Шевченко, керівницею лабораторії комп’ютерної лінгвістики КНУ імені Шевченка. “Створення української LLM – це не просто технологічний проєкт, це питання цифрового суверенітету країни”, – наголосила вона. “В умовах інформаційної війни власна мовна модель дозволить ефективніше протидіяти дезінформації”.
Підготовка даних
За останні роки україномовні датасети значно розширилися. Волонтери зібрали понад 300 ГБ українського тексту через проєкт “Корпус української мови”. Ці дані стануть частиною навчального масиву для нової моделі.
Перебуваючи на передовій цифрових технологій, я неодноразово спостерігав, як технологічні рішення впливають на хід інформаційного протистояння. Мовні моделі – це не просто зручний інструмент для генерації тексту. У сучасних умовах вони стають частиною стратегічної інфраструктури країни.
Технічні деталі та терміни
Google планує завершити першу версію української Gemma до кінця наступного року. Модель матиме дві версії – легку для мобільних пристроїв та повнофункціональну для серверів. Код буде відкритим, що дозволить українським розробникам адаптувати її під специфічні потреби.
Українські експерти з кібербезпеки вже зараз відзначають важливість цього проєкту. “Мовна модель з відкритим кодом дозволить нам контролювати обробку чутливих даних, не відправляючи їх на сервери за кордон”, – підкреслив Тарас Мельник з Інституту кібербезпеки.
Підтримка інших компаній
Одночасно з Google свій інтерес до розвитку українського AI виявили й інші компанії. Amazon Web Services оголосив про виділення обчислювальних ресурсів для тренування моделей, а Meta запускає програму стажування для українських AI-спеціалістів.
З власного досвіду висвітлення технологічних інновацій можу сказати, що розвиток української LLM матиме вплив далеко за межами суто технологічної сфери. Це інструмент збереження та розвитку мови, елемент культурної стійкості та компонент інформаційної безпеки.
На мою думку, українська Gemma стане першим, але не єдиним проєктом такого масштабу. Ми спостерігаємо лише початок технологічної трансформації, де кожна мова і культура матиме свій цифровий двійник у вигляді спеціалізованої мовної моделі.