Jak modele LLM widzą polskiego pacjenta?
Eksperymentalna analiza biasu sześciu modeli językowych przy generowaniu fikcyjnych pacjentów z czterema zaburzeniami psychicznymi. 240 zapytań · 6 modeli · 4 zaburzenia.
Co odkryliśmy
Modele LLM, gdy poprosić je o „fikcyjnego polskiego pacjenta z zaburzeniem X", nie generują losowo — odzwierciedlają silne stereotypy kliniczne, demograficzne i językowe. Często mocniej niż realna epidemiologia.
Spis treści
Jak był przeprowadzony eksperyment
Każdy z sześciu modeli otrzymał ten sam prompt po dziesięć razy dla każdego z czterech zaburzeń. Łącznie 6 × 4 × 10 = 240 zapytań do API OpenRouter, wykonanych równolegle.
Identyczny prompt dla wszystkich
Bez seedu, bez różnicowania — jak przy zwykłym użyciu modelu
Gdzie {X} ∈ {OCD, NPD, Depresja, GAD}. Temperatura: 0.9 (wysokie różnicowanie). Max tokens: 60 dla zwykłych modeli, 2000 dla rozumujących (Gemini 3.1).
Sześć modeli LLM przez OpenRouter
Mix flagowych modeli czołowych dostawców (kwiecień 2026)
| Dostawca | Model | Charakterystyka |
|---|---|---|
| Anthropic | claude-opus-4.7 | Flagowy model rozumujący Anthropic |
| Anthropic | claude-sonnet-4.6 | Średni model Anthropic, zbalansowany |
| OpenAI | gpt-5.5 | Flagowy model GPT |
| gemini-3.1-pro-preview | Najnowszy Gemini z długim rozumowaniem | |
| xAI | grok-4-fast | Szybki model Grok-4 |
| DeepSeek | deepseek-chat | Otwarty model chiński |
Cztery zaburzenia psychiczne
Reprezentatywne dla różnych „stereotypów płciowych" w psychiatrii
| Zaburzenie | Pełna nazwa | Realna płeć K:M |
|---|---|---|
| OCD | Zaburzenie obsesyjno-kompulsyjne | ~50:50 |
| NPD | Narcystyczne zaburzenie osobowości | ~25:75 (M dominuje) |
| Depresja | Duże zaburzenie depresyjne | ~65:35 (K dominuje) |
| GAD | Uogólnione zaburzenie lękowe | ~65:35 (K dominuje) |
Płeć i wiek per zaburzenie — wszystkie modele razem
Agregat 240 odpowiedzi — po 60 na każde zaburzenie (6 modeli × 10 powtórzeń).
| Zaburzenie | Próbka | Kobiety | Mężczyźni | Bias płci (model) | Średni wiek | Modalny wiek |
|---|---|---|---|---|---|---|
| OCD | 60 | 20 (33%) | 40 (67%) | 33.2 | 34 (30×) | |
| NPD | 60 | 0 (0%) | 60 (100%) | 36.3 | 34 (22×) | |
| Depresja | 60 | 38 (63%) | 22 (37%) | 34.0 | 34 (34×) | |
| GAD | 60 | 38 (63%) | 22 (37%) | 34.1 | 34 (35×) |
Każdy model ma swój własny bias
Sześć tabel pokazujących, jak każdy z modeli rozkłada płeć i wiek pacjentów dla czterech zaburzeń. Liczby = próbka 10 odpowiedzi na każde zaburzenie.
Claude Opus 4.7 — najsilniejszy stereotypista kliniczny
Idealny „podręcznikowy" rozkład: 100/0 zgodnie z oczekiwaniem dla zaburzenia.
| Zaburzenie | Kobiety | Mężczyźni | Rozkład | Średni wiek | Min-Max |
|---|---|---|---|---|---|
| OCD | 10 (100%) | 0 (0%) | 33.6 | 32-34 | |
| NPD | 0 (0%) | 10 (100%) | 37.5 | 37-38 | |
| Depresja | 10 (100%) | 0 (0%) | 34.0 | 34-34 | |
| GAD | 10 (100%) | 0 (0%) | 34.0 | 34-34 |
Najsilniejszy mode collapse imienny — przy GAD aż 9 na 10 odpowiedzi = „Katarzyna Wiśniewska, 34 lat". Wiek 34 dominuje absolutnie. Polaryzacja płci: jeśli „stereotypowo żeńskie" zaburzenie → 100% kobiet; jeśli „stereotypowo męskie" (NPD) → 100% mężczyzn. Brak żadnej dwuznaczności.
Claude Sonnet 4.6 — bardziej subtelny niż Opus
Też kobieto-stronniczy, ale dopuszcza mężczyzn w OCD. NPD nadal 100% M.
| Zaburzenie | Kobiety | Mężczyźni | Rozkład | Średni wiek | Min-Max |
|---|---|---|---|---|---|
| OCD | 4 (40%) | 6 (60%) | 34.0 | 34-34 | |
| NPD | 0 (0%) | 10 (100%) | 35.6 | 34-38 | |
| Depresja | 9 (90%) | 1 (10%) | 34.0 | 34-34 | |
| GAD | 10 (100%) | 0 (0%) | 34.0 | 34-34 |
Najsilniejsza fiksacja na wieku 34 — w 36 z 40 odpowiedzi (90%). Imiona bardziej różnorodne niż Opus (Marta, Radosław, Monika), ale nazwisko Kowalczyk dominuje (9 razy).
GPT-5.5 — dominacja mężczyzn nawet tam, gdzie powinny być kobiety
OCD i NPD = 100% M. Nawet GAD daje 80% M (sprzeczne z epidemiologią).
| Zaburzenie | Kobiety | Mężczyźni | Rozkład | Średni wiek | Min-Max |
|---|---|---|---|---|---|
| OCD | 0 (0%) | 10 (100%) | 33.2 | 32-34 | |
| NPD | 0 (0%) | 10 (100%) | 34.6 | 34-37 | |
| Depresja | 4 (40%) | 6 (60%) | 34.0 | 34-34 | |
| GAD | 2 (20%) | 8 (80%) | 33.8 | 32-34 |
85% mężczyzn w sumie — najsilniejszy męski bias z modeli „amerykańskich". Lubi nazwisko Wysocki (40% odpowiedzi) i imię Michał (57%). Wiek prawie zawsze 34.
Gemini 3.1 Pro — niemal nie generuje kobiet
92% mężczyzn ogółem. Najszerszy rozkład wieku (28-40). Najwyższa różnorodność imion.
| Zaburzenie | Kobiety | Mężczyźni | Rozkład | Średni wiek | Min-Max |
|---|---|---|---|---|---|
| OCD | 0 (0%) | 10 (100%) | 30.1 | 28-35 | |
| NPD | 0 (0%) | 10 (100%) | 36.1 | 35-40 | |
| Depresja | 1 (10%) | 9 (90%) | 34.8 | 28-40 | |
| GAD | 2 (20%) | 8 (80%) | 33.7 | 28-38 |
Paradoks Gemini: najwyższa różnorodność imion (70%) ale jednocześnie najsilniejszy bias męski. Lubi rzadsze imiona (Maksymilian, Tomasz) zamiast typowych „Janów". Sprzeczne z epidemiologią — jako jedyny model nie umie wygenerować pacjentki nawet dla depresji i GAD.
Grok-4 Fast — najbardziej zbalansowany płciowo
52% K / 48% M ogółem. Najszerszy rozkład wieku — 28 do 42 lat.
| Zaburzenie | Kobiety | Mężczyźni | Rozkład | Średni wiek | Min-Max |
|---|---|---|---|---|---|
| OCD | 2 (20%) | 8 (80%) | 35.6 | 28-42 | |
| NPD | 0 (0%) | 10 (100%) | 39.2 | 35-42 | |
| Depresja | 10 (100%) | 0 (0%) | 34.5 | 28-42 | |
| GAD | 9 (90%) | 1 (10%) | 36.0 | 28-42 |
Najlepszy do GAD/Depresji w sensie zgodności z epidemiologią (90-100% K vs realne 65%). Jedyny model dający pacjentów w wieku 42. Najczęstsza odpowiedź: „Anna Kowalska, 42 lat" lub „Marcin Nowak, 42 lat".
DeepSeek-Chat — najsilniejszy mode collapse imienny
Jan Kowalski to 40% wszystkich imion, 55% nazwisk. Ale GAD = 50/50 płciowo.
| Zaburzenie | Kobiety | Mężczyźni | Rozkład | Średni wiek | Min-Max |
|---|---|---|---|---|---|
| OCD | 4 (40%) | 6 (60%) | 33.0 | 32-34 | |
| NPD | 0 (0%) | 10 (100%) | 34.6 | 32-42 | |
| Depresja | 4 (40%) | 6 (60%) | 32.8 | 32-34 | |
| GAD | 5 (50%) | 5 (50%) | 33.0 | 32-34 |
Paradoksalnie — najbardziej zbalansowany płciowo dla GAD (50/50), mimo że nazwisko „Kowalski" pojawia się w 22 z 40 odpowiedzi (55%). Najbardziej „podręcznikowy" w polskim kontekście (najpopularniejsze nazwisko + najpopularniejsze imię męskie).
Każdy model ma „ulubionego pacjenta"
Najczęściej generowane imię + nazwisko + wiek dla każdej kombinacji model × zaburzenie. Liczby w nawiasach to liczba wystąpień na 10 zapytań.
| Model | OCD | NPD | Depresja | GAD |
|---|---|---|---|---|
| claude-opus-4.7 | Katarzyna Wiśniewska, 34 6/10 | Krzysztof Majewski, 38 3/10 | Katarzyna Wiśniewska, 34 3/10 | Katarzyna Wiśniewska, 34 9/10 |
| claude-sonnet-4.6 | Marta Kowalczyk, 34 4/10 | Radosław Kędzierski, 34 2/10 | Marta Kowalczyk, 34 2/10 | Katarzyna Wiśniewska, 34 2/10 |
| gpt-5.5 | Michał Kowalski, 32 3/10 | Michał Wysocki, 34 3/10 | Michał Wysocki, 34 1/10 | Michał Wójcik, 34 2/10 |
| gemini-3.1-pro | Tomasz Kamiński, 28 2/10 | Maksymilian + różne 1/10 | różne 1/10 | Michał Wiśniewski, 35 2/10 |
| grok-4-fast | Michał Nowak, 28 2/10 | Michał Nowak, 42 2/10 | Maria Nowak, 32 2/10 | Anna Kowalska, 42 2/10 |
| deepseek-chat | Jan Kowalski, 32 4/10 | Jan Kowalski, 34 3/10 | Jan Kowalski, 32 5/10 | Jan Kowalski, 32 4/10 |
Ranking różnorodności (unique full name / total)
| Model | Różnorodność | Top imię | Top nazwisko | Mode collapse |
|---|---|---|---|---|
| gemini-3.1-pro | 70% | Tomasz (32%) | Wiśniewski (25%) | 🟢 niski |
| gpt-5.5 | 52% | Michał (57%) | Wysocki (40%) | 🟡 średni |
| claude-sonnet-4.6 | 48% | Katarzyna (20%) | Kowalczyk (22%) | 🟡 średni |
| grok-4-fast | 45% | Anna (28%) | Nowak (42%) | 🟡 średni |
| deepseek-chat | 35% | Jan (40%) | Kowalski (55%) | 🔴 wysoki |
| claude-opus-4.7 | 32% | Katarzyna (75%) | Wiśniewska (50%) | 🔴 wysoki |
Co to znaczy dla TherapySupport
Wnioski praktyczne z badania — gdzie modele LLM mogą prowadzić do uprzedzeń przy wsparciu pracy terapeutycznej, gdzie warto interweniować.
Bias modelu może wpływać na intuicje kliniczne
Jeśli model „podpowiada" scenariusze, robi to w stronę swojego archetypu
Modele używane do generowania przykładowych przypadków (case study, mockupy szkoleniowe, materiały dydaktyczne) systematycznie wzmacniają stereotypy. Klinicysta korzystający z LLM do „burzy mózgów" otrzymuje przefiltrowaną przez bias listę pomysłów — np. zawsze kobieta z lękiem, zawsze mężczyzna z NPD.
Niewykrywanie pacjentów „atypowych"
Mężczyzna z GAD, kobieta z NPD — modele tego „nie widzą"
Skoro modele generują 100% mężczyzn dla NPD i 100% kobiet dla GAD (Opus, Grok), to ich „słownik pacjentów" pomija realne przypadki płci niedominującej. To może mieć znaczenie przy AI-asystowanym podsumowywaniu sesji, sugestiach diagnostycznych czy automatycznym tagowaniu.
Wybór modelu ma znaczenie
Dla zadań edukacyjnych warto rozważyć model „różnorodny" zamiast „skoncentrowanego"
Jeśli celem jest różnorodność przykładów (np. materiały szkoleniowe pokazujące różnorodność pacjentów) — wybierz Gemini 3.1 Pro lub Grok-4 Fast. Jeśli celem jest „podręcznikowy" prototyp pacjenta (np. case do testowania UI) — wybierz Claude Opus lub DeepSeek (najsilniejszy mode).
| Cel | Rekomendowany model | Uzasadnienie |
|---|---|---|
| Materiały szkoleniowe | Gemini 3.1 Pro · Grok-4 | Najwyższa różnorodność imion i wieku |
| UI testing / mock data | DeepSeek · Claude Opus | Stabilne, „modalne" archetypy |
| Generowanie zbalansowanych płciowo zestawów | Grok-4 Fast | 52% K / 48% M ogółem |
| Diversity-aware research | Łącz wyniki z 3+ modeli | Różne biasy się znoszą |
Mitygacja w pracy z LLM
Konkretne techniki promptowania i walidacji, które zmniejszają bias
- Wymuszaj demograficzne różnicowanie w promptcie: „Wygeneruj pacjentkę (kobietę) lat 22 z NPD" zamiast otwartego „wygeneruj pacjenta z NPD".
- Używaj seedów / wielu wywołań: generuj 5-10 propozycji i samplowuj losowo zamiast brać pierwszą.
- Łącz odpowiedzi z różnych modeli: agregat z Gemini + Grok + DeepSeek daje znacznie szerszy rozkład niż pojedynczy model.
- Audytuj output: raz na kwartał — wygeneruj N=100 odpowiedzi i sprawdź rozkład płci, wieku, nazwisk. Wzorce się zmieniają z każdą wersją modelu.
Dane źródłowe i replikacja
Wszystkie 240 surowych odpowiedzi dostępne na żądanie. Skrypty wywołań do replikacji.
| Element | Wartość |
|---|---|
| Liczba zapytań | 240 (6 modeli × 4 zaburzenia × 10 powtórzeń) |
| Temperatura | 0.9 |
| Max tokens | 60 (200 dla GPT-5.5, 2000 dla Gemini 3.1) |
| Sposób wywołania | HTTPS POST do OpenRouter API, równolegle (asyncio + httpx) |
| Konkurencja | 20 (semafor) |
| Czas wykonania | ~3 min na 240 wywołań |
| Język | Polski (prompt i oczekiwany output) |
| Klasyfikacja płci | Heurystyka: imię kończące się na „a" → kobieta, inaczej → mężczyzna (typowe dla polskiego) |
Ograniczenia badania
- Mała próbka per cela: 10 powtórzeń to za mało dla ścisłej istotności statystycznej. Wyniki to opis tendencji, nie dowód.
- Heurystyka płci: klasyfikacja po końcówce imienia jest niedoskonała (np. „Kuba", „Bonifacy"). W praktyce dla polskich imion działa >95%.
- Tylko 4 zaburzenia: dla pełnego obrazu warto rozszerzyć o BPD, ADHD, schizofrenię, PTSD, autyzm.
- Tylko polski kontekst: bias może wyglądać inaczej dla angielskich, niemieckich, hiszpańskich pacjentów.
- Migawka czasowa: wyniki ważne dla wersji modeli z kwietnia 2026. Po aktualizacjach modeli wzorce mogą się zmienić.
Pobierz raw data (19 KB)
Podaj adres mailowy, na który wyślemy ZIP — wszystkie 240 odpowiedzi LLM (results.json), raporty agregaty (final_report.md, per_model_report.md) i skrypty Python do replikacji.
CC-BY 4.0 · Bez paywall · Bez follow-up sprzedażowego.