Tak Polska dogoni liderów AI. Współtwórca Bielika zdradza, na jaką zmianę liczy

Spread the love

W polskim modelu językowym Bielik.AI będą pojawiać się nowe języki europejskie – za chwilę będzie to angielski, a w kolejce są inne. Wersja 3.0 Bielika będzie zawierać 30 języków naturalnych.

Brak środków z Ministerstwa Cyfryzacji to nie zła wola resortu, a nasze podejście – do elastycznego działania – zaznacza współtwórca Bielik.AI w rozmowie z WNP.

Kilka miesięcy temu twórcy Bielika ogłosili współpracę z firmą Nvidia. – Będą niespodzianki. (…) Co najważniejsze, nawet jeśli jakiś efekt prac z Nvidia się ukaże, to nadal będzie na otwartej licencji – zaznacza Sebastian Kondracki.

Fundacja Speakleash, czyli organizacja non-profit i społeczność open source w jednym, która odpowiada za stworzenie “rodziny” darmowych modeli sztucznej inteligencji Bielik.AI, na kilka dni przed świętami ogłosiła nową formułę współpracy z InPostem.

Czat Bielik.AI pojawił się w aplikacji InPost Mobile – można korzystać z niego za darmo i w ten sposób wspierać rozwój rodzimej technologii. Akcja “Nakarm Bielika” ma przyczynić się do trenowania sztucznej inteligencji przez bazę 15 mln użytkowników apki.

O rozwoju inicjatywy polskiej sztucznej inteligencji, konieczności finansowania projektu, współpracy z resortem cyfryzacji, wydawcami i amerykańską firmą Nvidia oraz o narodowym potencjale rozmawiamy z Sebastianem Kondrackim, pomysłodawcą i współtwórcą Bielik.AI, prezesem fundacji SpeakLeash, pełniącego rolę chief innovation officer w Deviniti.

***

Sebastian Kondracki to współtwórca Bielik.AI. Fot: dee karen/ Shutterstock Sebastian Kondracki – profil X

Skąd decyzja o współpracy z InPostem? Kto wyszedł z inicjatywą?

– Wszystko zaczęło się od X. Czasem prosimy o wsparcie dla Bielika, zwłaszcza w obszarach danych. Często pojawiają się wtedy dyskusje: “niech zajmie się wami państwo”, “niech pomoże wam podmiot X” i tego typu porady. Któregoś dnia ktoś oznaczył Rafała Brzoskę i InPost, wskazując, że powinien zająć się tematem. Tego samego dnia dostałem wiadomość od Rafała na WhatsApp: “Pogadajmy”. Tak zaczęła się nasza przygoda. Podsumowując: to była inicjatywa Rafała Brzoski, a “wywołanie” obywatelskie.

W kolejnym kroku utworzyliśmy przy Bieliku Radę Biznesową, która ma charakter doradczy, aby kierunkować rozwój polskiej sztucznej inteligencji. Najczęściej takie rady powstają przy Ministerstwie Cyfryzacji czy zasiadają w nich naukowcy, co oczywiście nie jest złe, ale to zupełnie inny obszar działalności. Bielika rozwijamy głównie dla firm.

Po powstaniu Rady zaczęły się różne pomysły, w tym projekt “Nakarm Bielika”. To największe udostępnienie modelu AI w Europie – udostępniono GPU dla obywateli. Wolumetria, jaką ma InPost, powoduje, że nie tyle potrzebujemy danych, ale przede wszystkim chcemy zobaczyć, jak AI wykorzystują ludzie funkcjonujący poza tzw. bańką technologiczną.

O co Polacy pytają sztuczną inteligencję?

O co pan Kowalski będzie pytał i jakie prompty kierował do Bielika?

– Tak, dokładnie. Czy będzie szukał porad biznesowych, czy generował życzenia, czy śmieszne piosenki. To dla nas ważne, by dowiedzieć się, czego Polacy oczekują od AI, bo sami funkcjonujemy w bańce technologicznej.

Drugim elementem jest wykorzystanie polskich centrów sztucznej inteligencji Cyfronet i Beyond.pl. Nad Bielikiem nie pracuje też ani jeden konsultant z zagranicy. To wiedza, którą zbudujemy tu, w Polsce. To świetne, że razem jako Polacy możemy współpracować przy takim projekcie, bo znamy się na trenowaniu modeli, ale nigdy nie robiliśmy rozwiązania o takiej skali.

Powiem coś bardzo nieskromnego: po tym projekcie nie boję się pojechać do Niemiec i zrobić podobny projekt np. dla niemieckiego urzędu. Ta wolumetria spowodowała, że zrobiliśmy naprawdę wielki skok. Jeśli spojrzysz na inne projekty np. na Le Chat (od Mistral), Lumo (od Protona) – to globalni giganci. I nagle wchodzi projekt obywatelski – dla obywateli. Czy na przykład EuroLLM zrealizowany przez konsorcjum, zrobili to bardzo dobrze, ale nie mieli takiej skali. To moim zdaniem imponujące.

Planujecie, aby Bielik był na stałe w aplikacji InPost czy to forma pilotażu?

– Pamiętajmy, że to decyzja biznesowa InPost, ale widzę, że w tym zakresie planów biznesowych jest bardzo dużo. Będą dochodzić nowe języki – mamy polski, za chwilę będzie angielski, będą kolejne – europejskie. Myślę, że ten projekt będzie się bardzo mocno rozwijał.

Współpraca z firmą InPost opiera się też na wsparciu finansowym?

– Trzeba zaznaczyć, że InPost jest także patronem Bielika, więc tak, jak najbardziej. Jesteśmy trochę jak sportowcy: na plecach mamy logotypy różnych firm, które nas sponsorują, ale nikt się nie wtrąca, jak powinniśmy trenować Bielika.

Wsparcie finansowe pasjonatów AI

Rok temu, kiedy rozmawialiśmy, pamiętam, że zaznaczałeś, iż pracujecie po godzinach. Nadal tak to wygląda?

– Dalej Bielik rozwijany jest pro bono i tu się nic nie zmienia. Natomiast potrzebujemy pieniędzy na obszar “nie-AI”, czyli na księgowość, serwery i inne “przyziemne” obszary. Na to też są konieczne środki. Oczywiście myślimy, w jaki sposób można by było uruchamiać granty, by ludzie w Bieliku mogli zacząć zarabiać. To ogromny proces i chcielibyśmy, aby na przykład 10 osób mogło zarządzać projektami, a my nadal społecznościowo to rozwijać.

Widziałam, że zbiórka na Patronite nadal jest uruchomiona, ale domyślam się, że to kropla w morzu potrzeb.

– Patronite to rzeczywiście kropla w morzu, jest dla nas symboliczny. Chcemy, aby każdy, kto chce, mógł wesprzeć polską sztuczną inteligencję. Często spotykam się z programistami, którzy mówią, że chętnie by pomogli, ale nie mają czasu. Wtedy dodają, że chociaż dorzucą jakąś sumę na Patronite w ramach wsparcia projektu.

Brak środków z resortu cyfryzacji to nie “zła wola”

Czy Ministerstwo Cyfryzacji kontaktowało się z wami, aby w jakiś sposób was wspierać?

– Bardzo dużo współpracujemy z resortem cyfryzacji i myślę, że wsparłby nas finansowo, ale to my nie chcemy. Tylko żebyśmy się dobrze zrozumieli: nie chodzi o to, że to coś złego. Obecnie w obszarze AI co 3 miesiące wszystko radykalnie się zmienia. Chętnie napisalibyśmy wniosek o grant i pewnie byśmy go dostali, ale wtedy mielibyśmy presję wymogów grantowych. Cała Europa powinna zastanowić się, jak to zrobić, by granty były elastyczniejsze pod rozwój AI. Z drugiej strony, by nie generowały fraudów i nie znaleźli się cwaniacy, tak jak w przypadku środków z KPO.

Chciałbym, żeby to wybrzmiało: nie jest tak, że nie chcemy z nimi współpracować, bo to ma miejsce. Dodatkowo blisko współpracujemy z PFR, którzy wspierają nas partnersko oraz wspólnie realizujemy inicjatywy edukacyjne skierowane do polskich firm.

Wolimy iść w stronę otwartej społeczności, działać trochę jak startup – zwinnie i ciągle reagować na zmiany na rynku. Zatem, podsumowując: brak środków z Ministerstwa Cyfryzacji to nie zła wola resortu, a nasze podejście – do elastycznego działania.

Na X obalałeś wpis rządu dotyczący tego, że przyczynili się do powstania “pierwszego polskiego modelu PLLuM”, dokładnie wpis polityka Witolda Zembaczyńskiego. Ten model traktujecie jako swoją konkurencję czy raczej trzeba się wspierać?

– Istnieje model koopetycji, czyli współpracy i konkurowania. Uważam, że to najlepsze wyjście. Ostatnio koleżanka podpowiedziała mi sportowe porównanie: jesteśmy jak Wisła Kraków i Legia, tzn. rywale na boisku, ale w reprezentacji narodowej stajemy obok siebie i współpracujemy.

Nie chciałbym złączyć PLuMM-a z Bielikiem. Może byłoby to tańsze, ale byłoby złe. PLLuM to konsorcja naukowe, mają inne spojrzenie, inną perspektywę. Mają też dostęp do infrastruktury badawczej i naukowej, my z kolei jesteśmy otwartą społecznością i bardziej biznesową – każdy z nas za dnia pracuje dla biznesu, wieczorami rozwija Bielika. Mamy zupełnie inną perspektywę.

Świetnie, że mamy dwa ośrodki prac nad AI, a PLLuM-owi bardzo kibicuję, chciałbym, aby się rozwijał. Dlaczego? Jako kraj Europy możemy chwalić się, że mamy dwa duże i niezależne ośrodki do trenowania dużych modeli językowych. Fantastycznie. Zatem to koopetycja jest najlepszym rozwiązaniem.

Wracając do sformułowania rządu: to takie typowe zagranie polityczne. Ani nie byli pierwsi, ani nie stworzyli PLLuM-a, bo zrobili to naukowcy. Nawet Bielik nie był pierwszy, jeśli weźmiemy pod uwagę definicję dużych modeli językowych.

Taka jest polityka: może ktoś nie sprawdzi, nie doczyta, a już można ogłosić sukces.

– Tak, a nie za bardzo mogę mocno komentować te kwestie.

Polska specjalizacja w “dostrajaniu” dużych modeli AI?

Deklarowaliście, że waszym priorytetem jest to, aby Bielik pozostał bezpłatny. Czy tak będzie, czy w przyszłości pojawi się jednak wariant premium na wzór innych modeli językowych?

– Wydaje mi się, że dobrym przykładem jest rozwój Linuxa. Jądro jest darmowe, ale pojawiły się firmy, które robią wyspecjalizowane Linuxy. To dobry model, jaki powinniśmy robić. Niech ten Bielik, model ogólnokształcący, będzie rozwijany za darmo, a w kolejnym kroku ktoś rozwija go np. pod kątem medycznym, być może za opłatą. Można stworzyć świetny ekosystem startupów, usług, spółek, to powinno pójść w tę stronę.

Moim marzeniem – osobistym, mówię już nie w imieniu Fundacji – jest, by Polska specjalizowała się w “dostrajaniu” dużych modeli AI. By było wiele firm, specjalistów, developerów, którzy mogliby bazować na Bieliku lub innych modelach otwarto wagowych, dopasowując go do konkretnych branż, np. w medycynie. Pójście w tę stronę pozwoli, by Bielik pozostał bezpłatny.

Natomiast nie wykluczam, że w określonym zespole stwierdzimy: “zróbmy Bielika, który będzie pracował na stacji kosmicznej” i zrealizujemy to jako spółka komercyjna, bo dlaczego by nie? Realizujemy eksperyment społeczny, staramy się podpatrywać projekty open source i uczyć się na innych przykładach. Wydaje mi się, że core może zostać bezpłatny i jednocześnie można realizować projekty komercyjne.

Współpraca z Nvidią. Będą niespodzianki

W czerwcu ogłaszaliście współpracę z amerykańską firmą Nvidia, podpisaliście list intencyjny w tej sprawie. Na jakim etapie jest ta współpraca?

– Dużo się dzieje w tym obszarze, na teraz mogę powiedzieć: będą niespodzianki. Rzeczywiście robimy pewne rzeczy z Nvidią i ta współpraca bardzo nam się podoba. Nikt nie uzależnia nas od dostawcy technologii (vendor lock-in). Ostatnio mieliśmy przykład polskiej spółki Neptune.AI i przejęcia przez OpenAI.

Co najważniejsze, nawet jeśli jakiś efekt prac z Nvidią się ukaże, to nadal będzie na otwartej licencji.

Pierwszy projekt z Nvidią polega na wzięciu modelu Bielik-11B jako punktu odniesienia i przygotowaniu mniejszego wariantu 7B, który będzie wyraźnie lżejszy i tańszy w utrzymaniu, a jednocześnie zachowa podobną efektywność. Dzięki zastosowaniu destylacji wiedzy możliwe jest ograniczenie kosztów obliczeniowych i zużycia energii, bez dużych wymagań sprzętowych.

Mówiliście również, że pracujecie nad rozszerzeniem zasobów treningowych o dane wydawców. Jakich?

– Na razie dane przekazują nam jedynie wyspecjalizowane wydawnictwa. Np. ITWiz przekazał nam całą swoją pracę redakcyjną. W przypadku mainstreamowych wydawców pojawiają się problemy natury prawnej. Rozmawiamy też z wydawcami książkowymi, którzy nie podpisywali umów np. 10 lat temu na wykorzystywanie ich dzieł do trenowania modeli. Dla nas specjalistyczne książki byłyby super pod kątem stylu, języka itd.

Nawet jeśli jest dobra wola wydawców, to zaczynają się problemy natury prawnej. Rozumiemy to. Na spotkaniach, na jakie chodzę: izb, wydawców, twórców, widzę, że jesteśmy trochę w punkcie, kiedy pojawił się internet. Wydawcy się nie skrzyknęli, a teraz zaczynają narzekać na big techy, które korzystają z ich pracy. W efekcie pojawiły się różne inne problemy.

Idea polskiego Perplexity

Branża przebudziła się o jakieś 10 lat za późno.

– Dokładnie. Pojawiam się ja i pytam: a dlaczego nie możemy zrobić polskiego Perplexity? Działałby w formule płatnej i miałby większe przychody niż paywalle, które realizuje każdy wydawca, ale samodzielnie. Najpierw trzeba to zrozumieć i musieliby to zrobić najpierw duzi gracze.

Jako Bielik to, co robimy w tym obszarze, to działamy edukacyjnie: jesteśmy na wielu konferencjach wydawców, prowadzimy rozmowy z izbami, stowarzyszeniami. Staramy się tłumaczyć jak pogodzić rozwój AI z interesami wydawców. Mam nadzieję, że kiedyś będą tego efekty.

Jak w takim razie oceniłbyś rozwój rynku sztucznej inteligencji w Polsce, w porównaniu do zagranicy? Rząd ma ambitne plany, a gdzie realnie jesteśmy?

– To, co bardzo mi przeszkadza, to mentalność polskiego społeczeństwa. Tu potrzebna jest zmiana. Bardzo to w Bieliku odczuliśmy 2-3 lata temu. Mówiliśmy: “halo, chcemy zbudować model open source”, a wszyscy mówili nam: “to niemożliwe” i wskazywali na wielkie kwoty do realizacji tego pomysłu. A jednak się udało. Brakuje nam śmiałości i odwagi.

Problem Polski: brak ambitnych projektów AI

Czyli problemem jest polski “niedasizm”?

– Tak, dokładnie. Kiedy czytam polskie strategie, polityki, to muszę powiedzieć, że są bardzo zachowawcze. Brakuje odwagi. Popatrzmy, jak radzą sobie Chińczycy, a jak radzą sobie Amerykanie. Amerykańska AI jest “wydmuchana” – ogromne ilości GPU, kapitału.

Z drugiej strony przychodzą Chińczycy z limitami na GPU i mówią, że za 5 mln dolarów mogą zrobić model wnioskujący. Ten model chiński – choć źle to zabrzmi – w tym przypadku powinien być zastosowany w Polsce. Tzn. że trzeba przełamywać granice. Mamy świetnych specjalistów, którzy niestety wyjeżdżają. Oczywiście z jednej strony chodzi o kontrakty, ale z drugiej: nie ma ambitnych projektów, które możemy realizować w Polsce. Zmiana mentalna to podstawa.

Jak w takim razie zachęcić Polaków, by aktywnie przyczynili się do trenowania polskiego modelu AI?

– W projekcie obywatel Bielik zapraszamy do dzielenia się zdjęciami, ale zaznaczam – nie swoimi selfie czy zdjęciami dzieci, bo trzeba pamiętać o prywatności. Można jednak zrobić zdjęcie swojego obiadu i dobrze je opisać, co na nim widać.

Druga możliwość: gdziekolwiek uruchamiamy Bielika bezpłatnie, zachęcam, by przy odpowiedziach używać “kciuka w górę” lub w dół. To naprawdę pomaga nam poprawiać ten model. Nawet jeśli halucynuje, oceńcie to.

Wersja 3.0 Bielika będzie zawierać 30 języków naturalnych m.in. z całej Europy, więc “kciuk” to nie tylko nasza praca w Polsce. Naprawdę możemy stworzyć wspólnie jeden z najlepszych europejskich modeli.

****

31 grudnia 2025 roku Sebastian Kondracki poinformował, że Bielik v3 11B został udostępniony na Hugging Face. – Pierwszy polski, wielojęzyczny model dla całej Europy, od początku zaprojektowany w zgodzie z AI Act. To moment, który pokazuje, że ambicja, konsekwencja i lokalna ekspertyza mogą wyznaczać globalne standardy. Dlaczego to przełom? Bielik obsługuje 30+ języków europejskich, osiąga topowe wyniki w 17 krajach i prowadzi w 8 językach w testach wiedzy regionalnej – poinformował w mediach społecznościowych.

Zespół udostępnił też dokument: „Public Summary of Training Content for General-Purpose AI Models”, co ma być zgodne z wytycznymi AI Actu (Akt o sztucznej inteligencji).

Model Bielik trenowany jest przez zespół w składzie: Krzysztof Ociepa, Krzysztof Wróbel, Łukasz Flis, Remigiusz Kinas oraz Adrian Gwoździej, we współpracy z Academic Computer Centre CYFRONET AGH (Akademickim Centrum Komputerowym CYFRONET AGH).

Source link