Duża premiera polskiego AI. Wypuszczono 11 modeli PLLuM

Rodzina polskich modeli językowych znacznie się powiększyła. Twórcy wprowadzili kilkanaście nowych rozwiązań zaprojektowanych dla biznesu, administracji i obywateli.

Marian Szutiak (msnet)
0
Udostępnij na fb
Udostępnij na X
Duża premiera polskiego AI. Wypuszczono 11 modeli PLLuM

Sztuczna inteligencja z lepszą znajomością polskiego

Udostępniono 11 nowych modeli z rodziny PLLuM. Są to otwarte, polskie modele językowe, zaprojektowane z myślą o wsparciu administracji publicznej, przedsiębiorstw oraz użytkowników indywidualnych. Oprogramowanie to sprawnie obsługuje ponad 20 gatunków tekstów administracyjnych, dobrze rozumiejąc język urzędowy. Działają na otwartych licencjach, w pełni zgodnych z surowymi wymogami unijnego rozporządzenia AI Act. To największa dotychczasowa premiera modeli PLLuM na w pełni otwartych zasadach.

Dalsza część tekstu pod wideo

PLLuM odnajduje się w polskim kontekście prawnym i kulturowym, precyzyjniej niż modele zagraniczne. Jest otwarty i dostępny dla wszystkich. Już dzisiaj znajduje zastosowanie w sprawa urzędowych, rozmowach w mObywatelu, a także w wielu firmach i jednostkach badawczych. Dzisiaj rozwijamy rodzinę modeli, za co dziękuję całemu konsorcjum HIVE.

powiedział Dariusz Standerski, wiceminister cyfryzacji

Administracja publiczna zyska nowe narzędzia

Nowe warianty PLLuM wyróżnia bardzo dobra znajomość języka polskiego. Algorytmy radzą sobie ze stylem potocznym oraz urzędowym. Modele poprawnie interpretują polski kontekst kulturowy, historyczny i prawny. Oprogramowanie potrafi generować teksty urzędowe oraz upraszczać ten sformalizowany język. Narzędzia te wspierają różnorodne zadania biurowe operacyjne. Mogą również z powodzeniem pracować na gotowych wzorach dokumentów prawnych. Rozumieją też szeroki kontekst procedur administracyjnych.

Zapewniają one bezpieczniejsze odpowiedzi. Jest to efekt dokładnej analizy rzeczywistych interakcji użytkowników w aplikacji PLLuM Chat. Algorytmy działają sprawnie w systemach opartych na architekturze RAG.

Chcemy, żeby PLLuM był coraz lepszy i znajdował zastosowanie w kolejnych miejscach. Zbudowaliśmy nie tylko modele językowe, ale i unikalne kompetencje w polskim ekosystemie AI.

dodał Szymon Łukasik, dyrektor Ośrodka Badań nad Bezpieczeństwem Sztucznej Inteligencji NASK

Cztery rozmiary oprogramowania

Rodzina PLLuM obejmuje teraz cztery kategorie wagowe. Najmniejszy model 4B działa szybko i sprawdza się nawet przy mocno ograniczonej mocy obliczeniowej. Wymaga on jednak odpowiedniego dostrojenia do zadania. Wersje 8B i 12B stanowią kompromis między wydajnością a jakością. Twórcy polecają je do wdrożeń produkcyjnych. Modele te bardzo dobrze działają jako silniki w systemach RAG. Największy model 70B przeznaczono do najbardziej złożonych zadań. Radzi on sobie z nimi bez konieczności dodatkowej modyfikacji.

Warianty 4B, 8B i 12B przygotowano w trzech wersjach. Użytkownicy mogą pobrać model bazowy do eksperymentów. Dostępny jest też model instrukcyjny do wybranych zadań oraz wariant dialogowy. Ta ostatnia wersja posiada wbudowane zabezpieczenia przed szkodliwymi treściami. Model 70B opracowano w odmianie instrukcyjnej i dialogowej.

Całość opublikowano wraz z obszerną dokumentacją wymaganą przez AI Act. Obejmuje ona szczegółowy opis samych modeli, wykaz źródeł danych oraz omówienie metod treningu i oceny jakości.

Ogromna baza danych treningowych

Oprogramowanie powstało w ramach szerokiego projektu HIVE AI, zrealizowanego w 2025 roku. Procesem tym kierował NASK, a w pracach wzięły też udział inne polskie instytucje. W tym gronie znalazły się ACK Cyfronet AGH, Instytut Podstaw Informatyki PAN oraz OPI PIB. Pomagały też Instytut Slawistyki PAN, Uniwersytet Łódzki oraz Politechnika Wrocławska.

Zbiór danych treningowych był ogromny, obejmując około 7 milionów polskich tekstów. Informacje dobierano pod kątem legalności, jakości i transparentności. Dane pochodziły z umów licencyjnych, zasobów Creative Commons oraz wolnej domeny publicznej. Zasilano je dokumentami z takich źródeł, jak Monitor Polski, Dziennik Ustaw oraz oficjalne stenogramy parlamentarne.

Pretrening oparto na metodzie stopniowego uczenia się. Algorytmy przyswajały najpierw proste informacje, a następnie przechodziły do trudniejszych zestawów danych. Do fazy końcowego dostrajania przygotowano 17,5 tysiąca nowych instrukcji organicznych. Pakiet ten zawierał ponad 6 tysięcy wieloturowych dialogów, które połączono z bazą pochodzącą z ubiegłorocznego projektu PLLuM z 2024 roku. Dzięki temu twórcy wykorzystali do treningu łącznie około 80 tysięcy ręcznie tworzonych instrukcji.

Więcej informacji o PLLuM znajdziesz pod tym adresem.