description: W przeciwieństwie do ChatGPT od OpenAI i jego konkurentów z wielkich firm technologicznych, te narzędzia AI działają lokalnie, więc Twoje dane nigdy nie opuszczają komputera.
Korzystanie z **czatów AI** (lub też **czatów SI**), znanych również jako duże modele językowe (LLM), stało się coraz bardziej powszechne od czasu pojawienia się ChatGPT w 2022 roku. LLM-y mogą pomagać w lepszym pisaniu, ułatwiać zrozumienie nieznanych tematów lub odpowiadać na szeroki zakres pytań. Ich działanie polega na statystycznym przewidywaniu kolejnego słowa w odpowiedzi na podstawie ogromnej ilości danych pozyskanych z sieci.
Dane wykorzystywane do trenowania modeli sztucznej inteligencji obejmują jednak ogromne zbiory publicznie dostępnych informacji zebranych z Internetu, które mogą zawierać poufne dane, takie jak imiona, nazwiska czy adresy. Oprogramowanie sztucznej inteligencji działające w chmurze często [gromadzi dane wejściowe](https://openai.com/policies/row-privacy-policy) użytkownika, co oznacza, że Twoje rozmowy nie są dla nich prywatne. Praktyka ta zwiększa również ryzyko wycieków danych. Ponadto istnieje realna możliwość, że LLM ujawni prywatne informacje z Twoich czatów w przyszłych rozmowach z innymi użytkownikami.
Jeśli obawiasz się takich praktyk, możesz zrezygnować z używania sztucznej inteligencji albo skorzystać z [prawdziwie otwartych modeli](https://proton.me/blog/how-to-build-privacy-first-ai), które publicznie udostępniają i pozwalają zweryfikować zbiory danych użyte do treningu. Przykładem takiego modelu jest [OLMoE](https://allenai.org/blog/olmoe-an-open-small-and-state-of-the-art-mixture-of-experts-model-c258432d0514) opracowany przez [Ai2](https://allenai.org/open-data).
Alternatywnie można uruchamiać modele sztucznej inteligencji lokalnie, dzięki czemu dane nigdy nie opuszczają urządzenia i nie są udostępniane stronom trzecim. Modele lokalne stanowią zatem bardziej prywatną i bezpieczną alternatywę dla rozwiązań chmurowych i pozwalają na przekazywanie modelowi poufnych informacji bez obaw.
Modele uruchamiane lokalnie są też dość przystępne. Mniejsze modele można uruchamiać z mniejszą prędkością, mając tylko 8GB pamięci RAM. Najlepsze wrażenia zapewnia jednak bardziej wydajny sprzęt, np. dedykowana karta graficzna z odpowiednią ilością pamięci VRAM lub nowoczesny system z szybką pamięcią LPDDR5X.
LLM-y zwykle rozróżnia się według liczby parametrów — dla modeli open-source dostępnych dla użytkowników końcowych wartości te wahają się od około 1,3 mld do 405 mld parametrów. Na przykład modele o parametrach poniżej 6,7 mld parametrów nadają się głównie do podstawowych zadań, takich jak streszczenia tekstu, natomiast modele w przedziale 7–13 mld stanowią dobry kompromis między jakością a szybkością. Modele o zaawansowanych zdolnościach rozumowania mają zwykle około 70 mld parametrów.
Dla sprzętu konsumenckiego zwykle zaleca się używanie [modeli kwantyzowanych](https://huggingface.co/docs/optimum/en/concept_guides/quantization), które dają najlepszy balans między jakością modelu a wydajnością. Sprawdź poniższą tabelę, aby uzyskać bardziej szczegółowe informacje o typowych wymaganiach dla różnych rozmiarów modeli kwantyzowanych.
Dostępnych jest wiele modeli na licencjach pozwalających na swobodne użycie. Platformą, która umożliwia przeglądanie, badanie i pobieranie modeli w popularnych formatach (np. [GGUF](https://huggingface.co/docs/hub/en/gguf)), jest [Hugging Face](https://huggingface.co/models). Firmy udostępniające dobre modele z otwartymi wagami to m.in. Mistral, Meta, Microsoft i Google. Jednak istnieje też wiele modeli tworzonych przez społeczność oraz modeli [dostrojonych](https://en.wikipedia.org/wiki/Fine-tuning_\(deep_learning\)). Jak wspomniano wcześniej, modele kwantyzowane zwykle oferują najlepszy kompromis jakości i wydajności dla sprzętu konsumenckiego.
Aby wybrać model odpowiedni dla Twoich potrzeb, warto śledzić rankingi i benchmarki. Najbardziej popularnym rankingiem społecznościowym jest [LM Arena](https://lmarena.ai). Z kolei [OpenLLM Leaderboard](https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard) koncentruje się na wydajności modeli z otwartymi wagami w standardowych benchmarkach, takich jak [MMLU-Pro](https://arxiv.org/abs/2406.01574). Istnieją też wyspecjalizowane benchmarki mierzące np. [inteligencję emocjonalną](https://eqbench.com), [„nieocenzurowaną ogólną inteligencję”](https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard) oraz [wiele innych](https://nebuly.com/blog/llm-leaderboards).
**Kobold.cpp** to klient sztucznej inteligencji uruchamiany lokalnie na komputerach z systemem Windows, Mac lub Linux. To doskonały wybór, jeśli zależy Ci na szerokich możliwościach dostosowywania i modyfikacji, na przykład w celu odgrywania ról.
Oprócz obsługi szerokiej gamy modeli tekstowych, Kobold.cpp obsługuje też generatory obrazów, takie jak [Stable Diffusion](https://stability.ai/stable-image), oraz narzędzia do automatycznego rozpoznawania mowy, np. [Whisper](https://github.com/ggerganov/whisper.cpp).
Kobold.cpp umożliwia modyfikowanie parametrów, takich jak temperatura modelu czy tzw. system prompt czatu. Pozwala także na utworzenie tunelu sieciowego, dzięki któremu do modeli sztucznej inteligencji można uzyskać dostęp z innych urządzeń, np. ze smartfona.
**Ollama** to asystent AI działający z wiersza poleceń, dostępny na komputerach z systemem macOS, Linux i Windows. Ollama to świetny wybór, jeśli zależy Ci na kliencie, który jest łatwy w obsłudze, szeroko kompatybilny i szybki dzięki wykorzystaniu wnioskowania i innych technik. Nie wymaga też żadnej ręcznej konfiguracji.
Oprócz obsługi szerokiej gamy modeli tekstowych, Ollama obsługuje także modele [LLaVA](https://github.com/haotian-liu/LLaVA), oraz posiada eksperymentalne wsparcie dla [możliwości wizyjnych Llama](https://huggingface.co/blog/llama32#what-is-llama-32-vision) opracowanych przez Meta.
Ollama upraszcza proces konfiguracji lokalnego czatu AI, automatycznie pobierając wybrany przez Ciebie model. Na przykład polecenie `ollama run llama3.2` automatycznie pobierze i uruchomi model Llama 3.2. Ponadto Ollama prowadzi własną [bibliotekę modeli](https://ollama.com/library), w której hostuje pliki różnych modeli sztucznej inteligencji. Dzięki temu modele są weryfikowane pod kątem wydajności i bezpieczeństwa, co eliminuje konieczność samodzielnego sprawdzania autentyczności plików modelu.
**Llamafile** to lekki, jednoplikowy program wykonywalny, który pozwala uruchamiać LLM lokalnie na własnym komputerze bez żadnej konfiguracji. Projekt jest [wspierany przez Mozillę](https://hacks.mozilla.org/2023/11/introducing-llamafile) i jest dostępny w systemach Linux, macOS i Windows.
Mozilla udostępniła llamafile tylko dla niektórych modeli Llama i Mistral, podczas gdy dostępnych jest niewiele wersji tworzonych przez zewnętrznych autorów. Ponadto system Windows ogranicza rozmiar plików `.exe` do 4GB, podczas gdy większość modeli ma większy rozmiar.
Jeśli korzystasz z klienta AI, który utrzymuje własną bibliotekę plików modelu (takiego jak [Ollama](#ollama-cli) czy [Llamafile](#llamafile)), pobieraj modele z tej biblioteki. Jednak jeśli chcesz pobrać modele, które nie znajdują się w ich bibliotece, albo korzystasz z klienta AI, który nie prowadzi własnej biblioteki (np. [Kobold.cpp](#koboldcpp)), musisz podjąć dodatkowe kroki, aby upewnić się, że pobierany model jest bezpieczny i autentyczny.
Zalecamy pobieranie plików modeli z serwisu Hugging Face, ponieważ oferuje on szereg funkcji umożliwiających sprawdzenie, czy pobrane pliki są autentyczne i bezpieczne w użyciu.
- Odznakę „Safe” obok pliku modelu (tylko Hugging Face)
- Pasujące sumy kontrolne[^1]
- Na Hugging Face skrót (hash) znajdziesz, klikając plik modelu i wybierając przycisk **Copy SHA256** znajdujący się pod nim. Należy porównać tę sumę kontrolną z tą z pobranego pliku modelu.
Należy pamiętać, że nie jesteśmy powiązani z żadnym z polecanych przez nas projektów. Oprócz [naszych standardowych kryteriów](about/criteria.md) opracowaliśmy jasny zestaw wymagań, które pozwalają nam formułować obiektywne zalecenia. Sugerujemy zapoznanie się z tą listą przed wyborem projektu oraz przeprowadzenie własnych badań, aby upewnić się, że jest to odpowiedni wybór dla Ciebie.
Nasze kryteria „najlepszego scenariusza” określają, jak powinien wyglądać idealny projekt w tej kategorii. Nasze zalecenia nie muszą spełniać wszystkich tych warunków, jednak projekty, które spełniają więcej z nich, mogą być oceniane wyżej od pozostałych na stronie.
\*[LLaVA]: Large Language and Vision Assistant (wielomodalny model sztucznej inteligencji)
\*[LLM]: Duży model językowy (model sztucznej inteligencji, taki jak ChatGPT)
\*[LLMs]: Duże modele językowe (modele sztucznej inteligencji, takie jak ChatGPT)
\*[modele z otwartymi wagami]: Model sztucznej inteligencji, który każdy może pobrać i używać, jednak dane treningowe i/lub zastosowane algorytmy pozostają zastrzeżone.
\*[system prompt]: System prompt (z ang. instrukcja systemowa) to ogólne instrukcje przekazywane przez człowieka, które określają sposób działania modelu.
\*[temperatura]: Temperatura modelu to parametr służący do kontrolowania poziomu losowości i kreatywności generowanego tekstu.
[^1]: Suma kontrolna pliku to rodzaj odcisku palca chroniącego przed manipulacją. Deweloper zwykle udostępnia sumę kontrolną w osobnym pliku tekstowym lub na stronie pobierania. Zweryfikowanie, czy suma kontrolna pobranego pliku zgadza się z tą podaną przez dewelopera, pomaga upewnić się, że plik jest oryginalny i nie został zmodyfikowany w trakcie transferu. Możesz użyć poleceń takich jak `sha256sum` w systemach Linux i macOS albo `certutil -hashfile file SHA256` w systemie Windows, aby wygenerować sumę kontrolną pobranego pliku.