鈥濷becnie 艣wiat stawia na modele open-source, kt贸re mo偶na uruchamia膰 lokalnie i dostosowywa膰 do w艂asnych potrzeb, specyficznych danych oraz oczekiwa艅 konkretnej organizacji. To kluczowy krok w budowaniu niezale偶no艣ci technologicznej i uniezale偶nieniu si臋 od zagranicznych dostawc贸w.鈥 鈥搘skazuje Sebastian Kondracki z firmy Deviniti, wsp贸艂tw贸rca modelu Bielik. 鈥濲臋zyk polski jest pe艂en niuans贸w, kontekstu kulturowego i subtelno艣ci komunikacyjnych, kt贸re maj膮 ogromne znaczenie w interakcjach z u偶ytkownikami. Zagraniczne modele, nawet je艣li s膮 dobrze wytrenowane na polskich danych, nigdy nie osi膮gn膮 takiej precyzji jak modele rozwijane lokalnie. Wa偶na jest r贸wnie偶 kwestia bezpiecze艅stwa danych. Korzystanie z zagranicznych rozwi膮za艅 wi膮偶e si臋 z ryzykiem wycieku wra偶liwych informacji, co jest szczeg贸lnie istotne w sektorach takich jak bankowo艣膰, ubezpieczenia czy administracja publiczna. Posiadanie krajowego modelu pozwala na pe艂n膮 kontrol臋 nad danymi, ich przechowywaniem i przetwarzaniem, co ma fundamentalne znaczenie w kontek艣cie zgodno艣ci z regulacjami, takimi jak RODO oraz budowania zaufania do sztucznej inteligencji w Polsce.鈥 鈥 dodaje.
Podobnego zdania jest dr hab. Piotr P臋zik, prof. U艁 wsp贸艂tw贸rca modelu PLLuM, kt贸ry zwraca uwag臋, 偶e 鈥mimo, i偶 wszystkie popularne generatywne modele j臋zykowe s膮 wieloj臋zyczne, to z oczywistych wzgl臋d贸w j臋zyk polski nie jest dominuj膮cym 藕r贸d艂em danych tekstowych w 偶adnym z nich. Konsekwencj膮 tego faktu jest nieprzewidywalna jako艣膰 j臋zykowa modeli wieloj臋zycznych w r贸偶nych typach funkcjonalnych i gatunkach generowanych tekst贸w. Tak jak nie mo偶na zrobi膰 bardzo dobrego modelu og贸lnego przeznaczenia opieraj膮c si臋 tylko na danych polskich, tak r贸wnie偶 nie mo偶na stworzy膰 modelu, kt贸ry konsekwentnie generuje poprawn膮 stylistycznie i funkcjonalnie polszczyzn臋 bez oryginalnych polskich danych treningowych w postaci wysokiej jako艣ci tekst贸w, instrukcji i preferencji u偶ywanych do dostrajania modeli. Im wi臋kszy mamy wp艂yw na proces treningu modeli j臋zykowych, tym lepiej mo偶emy kontrolowa膰 ich zachowanie oraz preferencje. Jest to wa偶ny aspekt bezpiecze艅stwa modeli, kt贸re mog膮 by膰 narz臋dziem subtelnej propagandy wynikaj膮cej ze specyfiki procesu ich dostrajania. Powinni艣my zatem zna膰 od podstaw ca艂y proces wytwarzania generatywnych modeli j臋zykowych i rozwija膰 w艂asn膮 technologi臋 generatywnej sztucznej inteligencji.鈥
Model PLLuM
To efekt wsp贸艂pracy ekspert贸w konsorcjum zrzeszaj膮cego polskie instytucje naukowe, w sk艂ad kt贸rego wesz艂y: Politechnika Wroc艂awska, kt贸ra jest liderem projektu, Pa艅stwowy Instytut Badawczy NASK, Instytut Podstaw Informatyki Polskiej Akademii Nauk, O艣rodek Przetwarzania Informacji Pa艅stwowy Instytut Badawczy, Instytut Slawistyki Polskiej Akademii Nauk oraz Uniwersytet 艁贸dzki (kierownikiem projektu w ramach U艁 jest dr hab. Piotr P臋zik, prof. U艁 z Wydzia艂u Filologicznego). Celem PLLuM jest stworzenie otwartego polskiego modelu j臋zykowego, opartego na zr贸偶nicowanych zbiorach danych uwzgl臋dniaj膮cych specyfik臋 i z艂o偶ono艣膰 naszego j臋zyka. B臋dzie on mi臋dzy innymi pozwala艂 na interakcje w j臋zyku naturalnym i stwarza艂 mo偶liwo艣膰 dostosowania do zr贸偶nicowanych potrzeb firm, podmiot贸w administracji pa艅stwowej czy instytucji naukowo-badawczych. Przyk艂adowo, model zostanie wykorzystany w procesie automatyzacji przetwarzania dokument贸w, analizy ich tre艣ci, wyszukiwania informacji (np. inteligentny asystent urz臋dniczy, wirtualny asystent w mObywatel itp.), a tak偶e w procesie rozwoju zaawansowanych aplikacji edukacyjnych.
Szczeg贸艂owe informacje dotycz膮ce projektu s膮 dost臋pne na stronie
Model jest dost臋pny:
Model Bielik
Jest efektem pracy Fundacji SpeakLeash oraz Akademickiego Centrum Komputerowego Cyfronet AGH. Co ciekawe, Fundacja SpeakLeash to inicjatywa open-science w sk艂ad, kt贸rej wchodz膮 pasjonaci AI (np. pracownicy polskich przedsi臋biorstw, badacze z o艣rodk贸w naukowych oraz studenci kierunk贸w zwi膮zanych z obszarami sztucznej inteligencji). G艂贸wnym za艂o偶eniem tego projektu jest stworzenie modelu, kt贸ry b臋dzie uwzgl臋dnia艂 specyfik臋 polskiego j臋zyka i kultury (np. idiomy, synonimy, regionalizmy), a tak偶e uchwyci jego z艂o偶ono艣膰 i niuanse. Model gwarantuje bezpiecze艅stwo danych (dzia艂a w obr臋bie danej organizacji, korzystaj膮c z jej wewn臋trznych zasob贸w). Wymaga konfiguracji, tak aby np. odpowiada膰 na pytania w oparciu o wiedz臋 danej firmy czy instytucji bez ryzyka wycieku danych. Mo偶liwe jest jego dostosowanie do posiadanej infrastruktury, a tak偶e specyficznych potrzeb i mo偶liwo艣ci. Po model si臋gn臋艂y ju偶 banki, firmy ubezpieczeniowe i instytucje publiczne, kt贸re implementuj膮 i adaptuj膮 ten model w swoich procesach biznesowych
Informacje o projekcie s膮 dost臋pne na stronie:
Model mo偶na testowa膰: a tak偶e za po艣rednictwem: LM Studio () i Jan.AI ().
Model QRA
Modele QRA (OPI-PG/Qra-1b, OPI-PG/Qra-7b, OPI-PG/Qra-13b), powsta艂y w wyniku wsp贸艂pracy Politechniki Gda艅skiej i AI Lab O艣rodka Przetwarzania Informacji 鈥 Pa艅stwowego Instytutu Badawczego (OPI PIB). Mog膮 one znale藕膰 swoje zastosowanie jako wsparcie np. dla pracownik贸w naukowo-badawczych, instytucji pa艅stwowych czy firm (np. jako element rozwi膮za艅 informatycznych, kt贸re wymagaj膮 jednak dobrego rozumienia i pos艂ugiwania si臋 j臋zykiem polskim). Poniewa偶 modele QRA nie s膮 typowymi modelami konwersacyjnymi, ich implementacja i adaptacja wymaga wiedzy ekspert贸w z dziedziny AI, kt贸rzy b臋d膮 w stanie je trenowa膰 na w艂asnych danych, tak aby dostosowa膰 je do konkretnych potrzeb i problem贸w danej instytucji czy firmy. Modele nie tylko rozumiej膮 tre艣ci w j臋zyku polskim, ale tak偶e potrafi膮 np. dokona膰 klasyfikacji tekst贸w, przygotowa膰 ich streszczenie czy stworzy膰 sp贸jny tekst.
Modele QRA s膮 dost臋pne w repozytorium:
Dr hab. in偶. Jaros艂aw Protasiewicz, dyrektor O艣rodka Przetwarzania Informacji 鈥 Pa艅stwowego Instytutu Badawczego, wsp贸艂autor QRA, podkre艣la, 偶e 鈥zdecydowanie warto budowa膰 i rozwija膰 polskie LLM-y. Sprawdzaj膮 si臋 one lepiej dla tekst贸w opublikowanych w naszym j臋zyku. Warto jednak zastanowi膰 si臋, czy koniecznie musimy si臋 艣ciga膰 z USA i Chinami w budowaniu takich modeli. Z bada艅 rynkowych wynika, 偶e ponad 90% ma艂ych, 艣rednich i nawet du偶ych firm, nie potrzebuje asystenta do otwartej rozmowy na ka偶dy temat. Bardziej przydatne s膮 dla nich dedykowane LLM-y, kt贸re b臋d膮 dotyczy膰 10-20 konkretnych scenariuszy. Ponadto, tam gdzie wyst臋puje ryzyko utraty przewagi konkurencyjnej bazuj膮cej na prywatnych danych, b臋dziemy szli w du偶o mniejsze modele szyte na miar臋 konkretnych firm lub jednostek akademickich i naukowych, uwzgl臋dniaj膮c pewne kryteria (np. w obszarze znajomo艣ci temat贸w typowych dla naszej kultury czy historii).鈥
Narodowe, w tym polskie, LLM mog膮 ju偶 wkr贸tce sta膰 si臋 wa偶nym narz臋dziem w budowaniu przewagi konkurencyjnej poszczeg贸lnych kraj贸w, ich gospodarek i spo艂ecze艅stw. Warto jednak obok zachwytu nad nimi, pami臋ta膰, 偶e to cz艂owiek pozostaje odpowiedzialny za ich etyczne i odpowiedzialne wykorzystanie.
Opracowanie: dr Dominika Kaczorowska-Spychalska, prof. U艁 we wsp贸艂pracy z: dr hab. Piotr P臋zik, prof. U艁, Sebastian Kondracki, dr hab. in偶. Jaros艂aw Protasiewicz