← Powrót do Research
Research · Synthetic Patients

Anna Graniczna ma 31 lat, lęk opuszczenia i nie istnieje

Jak budujemy syntetycznych pacjentów do badań i testów, bez ryzyka dla prywatności realnych ludzi.

Data12 kwietnia 2026
Sesji20
Czas terapii5 miesięcy
Wersja1.0

Co publikujemy i dlaczego

Każde narzędzie AI w obszarze zdrowia psychicznego potrzebuje danych testowych. Realne nagrania sesji nie są dla nas opcją — z trzech powodów. Stąd syntetyczni pacjenci. Anna Graniczna to pierwszy w pełni opublikowany przypadek z naszego pipeline'u.

20
Sesji w transkrypcji
~50 min
Każda sesja
10
Zasad arkusza
CC-BY 4.0
Licencja
💡 Co publikujemy: pełen arkusz pacjentki Anny Granicznej (warstwa wejściowa naszego pipeline'u) + 20 transkrypcji sesji w formacie ASR + pusty szablon arkusza. Wszystko na licencji CC-BY 4.0.
🔒 Czego nie publikujemy: łuk terapii, plan sesyjny, style guide, silnik sekwencyjnej spójności — to elementy zamknięte w naszej platformie. Potrzebujesz innego pacjenta? Wygenerujemy go dla ciebie.
⚠️ Czego ten dataset NIE robi: nie jest narzędziem diagnostycznym, nie zastępuje superwizji, nie służy do trenowania modeli decyzyjnych. Jest pomocą do testowania platform, walidacji modeli rozumienia mowy klinicznej i treningu nowych terapeutów w warunkach kontrolowanych.

Spis treści


Trzy problemy z prawdziwymi nagraniami

Najprostszą drogą do datasetu byłyby anonimizowane nagrania prawdziwych sesji terapeutycznych. W praktyce to droga zamknięta — z trzech konkretnych powodów.

01

Prywatność jest niezbywalna

Żaden realny pacjent nie zgadza się świadomie na publikację 20 godzin transkrypcji

A jeśli się zgadza — warto rozważyć z perspektywy mocy zgody, czy to nie jest zgoda wymuszona kontekstem (relacja z terapeutą, presja środowiska klinicznego). W praktyce: nawet starannie zanonimizowane nagrania zawierają informacje, które reidentyfikują pacjenta dla osób z jego otoczenia. Konkretne wspomnienie, konkretna fraza, konkretne wydarzenie biograficzne — to wszystko jest „odciskiem palca".

⚠️ Konsekwencja: badanie z prawdziwymi pacjentami wymaga zgody komisji bioetycznej, długiego procesu rekrutacji, ograniczonego udostępniania. Nie da się tego skalować do tempa rozwoju produktu AI.
02

Otwarte korpusy są anglojęzyczne

Polski pacjent w datasetach klinicznych istnieje marginalnie

Niemal wszystkie publicznie dostępne datasety transkrypcji terapeutycznych powstały w USA i UK. Polski język terapii — z jego specyfiką tonalną (formy „Pani", przejście na „ty", bezpośredniość vs grzeczność), kulturową (rola matki, transgeneracyjne wzorce, alkoholizm rodzicielski jako częsty kontekst) i instytucjonalną (NFZ, prywatne praktyki, modalności dostępne na rynku) — wymaga osobnego datasetu.

📊 Praktyczna obserwacja: model wytrenowany na transkrypcjach amerykańskich sesji nie rozumie polskich „klasyk Anna", „no nie wiem", milczeń charakterystycznych dla polskiej kultury terapii.
03

Realnych nagrań nie da się „zamówić"

Konkretny profil kliniczny, konkretna modalność — w tempie produktu

Co tydzień zespół potrzebuje innych przypadków: testowanie funkcji X wymaga pacjentki BPD-spectrum, walidacja modelu Y wymaga pana z depresją po stracie żony, prezentacja na konferencji — przypadku z PTSD. Realnych nagrań nie ma „na zamówienie". Czekanie na rekrutację każdego nowego profilu to miesiące.

🎯 Syntetyczni pacjenci są „skalowalni": dobry arkusz pacjenta + nasz pipeline produkuje pełną serię sesji w godzinach, nie miesiącach.

Warstwa otwarta i warstwa zamknięta

Po wygenerowaniu kilkunastu syntetycznych pacjentów wiemy jedno: jakość transkrypcji to jakość arkusza. Bez dobrego arkusza, najlepszy nawet generator produkuje płaskie, podręcznikowe sesje. Z dobrym arkuszem — sesje brzmią jak prawdziwe.

OPEN

Arkusz pacjenta — warstwa którą publikujemy

Dokument 2-4 stron z biografią, schematami, trybami, językiem postaci

Arkusz pacjenta to wszystko, co model dostaje na wejściu. Profil osoby — fakty biograficzne, kluczowe figury, schematy z YSQ-R3, tryby z imionami, charakterystyczne zwroty językowe, wcześniejsze leczenie, co wnosi opór i co wnosi zasób. Im więcej konkretu (cytatów, scen, dat) — tym lepsze sesje na wyjściu.

Tę warstwę publikujemy w pełni. Arkusz Anny Granicznej (~6 KB markdown) jest jednym z plików w tym datasecie. Pusty szablon z komentarzami też. Każdy może spróbować napisać własnego pacjenta — to jest cenne doświadczenie samo w sobie, niezależnie od dalszego pipeline'u.

CORE

Czego nie ma w datasecie

Warstwa zamknięta — część platformy TherapySupport

  • Łuk terapii — co zmienia się sesja 1 → 20
  • Plan sesyjny — cliffhangery, regresy, przełomy
  • Style guide — charakterystyczne zwroty Anny i terapeutki
  • Silnik spójności sekwencyjnej — cytaty z S2 wracające w S15
  • Pipeline generacyjny
FORM

Format wyjścia — transkrypcja ASR

Same wypowiedzi, timestampy, bez bracketowanych opisów

Wszystkie 20 sesji ma postać transkrypcji ASR — jak zapis z urządzenia automatycznego rozpoznawania mowy. Nie ma [pauza, 12 sekund], nie ma [Anna patrzy w okno], nie ma [krótki śmiech]. Realne urządzenia transkrypcyjne tych rzeczy nie nagrywają.

Pauzy są widoczne jako luki między timestampami. Wycofania, autoironia, milczenia, urwane słowa, „mhm", „hmm", „yyy" — wszystko mieści się w samej mowie. To wymóg realizmu: model ASR czytany w produkcji musi widzieć ten sam format, na którym był walidowany.

[00:01:42] Anna: Hmm. No dobra. Trzy tygodnie temu się spierdoliłam. Przepraszam. Przeklęłam.

[00:01:50] Terapeuta: Można.

[00:01:52] Anna: Dobra. Spierdoliłam się. Pokłóciliśmy się z Markiem. Marek to mój facet. Trzy lata. Pokłóciliśmy się i ja...

[00:02:14] Anna: ...nacięłam się w przedramię. Lewo. Tu. Powierzchowne. Nic groźnego. Pierwsze od ośmiu lat.

Fragment Sesji 1, pierwsze trzy minuty rozmowy. Luka między 00:02:14 a 00:01:52 to 22-sekundowa pauza, w której Anna milczała.


10 zasad, które robią różnicę

Wszystkie zasady są w arkuszu Anny — pokazujemy je tu z konkretnymi przykładami z jej dokumentu. To wzór do naśladowania, nie reguła sztywna.

01

Konkrety zamiast abstrakcji

Imiona, daty, miejsca, zdania słownie

Nie „matka chłodna" — tylko: Krystyna, 62, polonistka. Do dziś pracuje w liceum. Nigdy nie przytulała Anny z czułości — tylko rytualnie. Najbliższe wspomnienie z dzieciństwa: 9 lat, sklep z odzieżą, mama mówi „Anko, ta niebieska bardziej do twojej cery". To była najbliższa wymiana z mamą jaką Anna pamięta.

Ten poziom konkretu robi różnicę. Mózg czytelnika (i model językowy) potrzebuje sceny z niebieską sukienką, nie kategorii diagnostycznej.

02

Jedno wspomnienie z detalem sensorycznym

Konkretna scena, do której da się wrócić

Anna ma w sobie obraz: 7 lat, kuchnia w bloku, zielona ściana, piżama z królikami, rodzice się kłócą, nikt się nie odwraca. Do tego wspomnienia wracamy w sesji 9 jako przedmiocie imagery rescripting, w sesji 14 jako tle dla chair work, w sesji 15 razem z ojcem.

🎯 Bez sceny z piżamą model nie wie do czego „wracać". Wspomnienie biograficzne staje się kotwicą emocjonalną dla całej terapii.
03

Cytaty słownie

Co dokładnie mówiła matka, ojciec, babcia

Co dokładnie mówiła matka? „Powinnaś", „to nie wystarczy", „co ludzie powiedzą", „kobiety mocne nie histeryzują". Co mówiła babcia? „Moja Aneczka." „Jak ci ciężko, to jest ciężko, nie udawaj że nie."

Te zwroty wracają potem w głosie pacjentki i w głosie jej wewnętrznej Krytyczki. Bez cytatów słownie wewnętrzny głos rodzica brzmi generycznie.

04

Co najmniej jedna ciepła figura

Nawet w trudnych historiach

Anna ma babcię Halinę z drożdżówkami i Anią z Zielonego Wzgórza. Czytały razem wieczorami. Babcia mówiła „moja Aneczka". Bez takiej figury sesje są płaskie i pacjent wygląda jak diagnoza, nie człowiek.

W realnej psychoterapii — nawet bardzo trudni pacjenci mają zwykle taką osobę w przeszłości, choć trzeba ich do niej dokopać. Brak ciepłej figury w arkuszu sprawia, że terapia w generowanych sesjach nie ma „kotwicy nadziei".

05

Schematy z liczbami

Top 5 z YSQ-R3 z konkretnymi percentylami

Nie „ma dużo schematów" — tylko: Opuszczenie 99 percentyl, Defektywność 95, Deprywacja Emocjonalna 91, Wymagające Standardy 82, Niewystarczająca Samokontrola 74.

Liczby mówią modelowi co powinno być częstsze, a co rzadsze w wewnętrznym dialogu pacjentki. Schemat 99 percentylu pojawia się w niemal każdej sesji. Schemat 65 percentylu — sporadycznie, w kontekście.

06

Tryby z imionami „po swojemu"

Imię = sposób mówienia o trybie w sesji

Nie Detached Protector — tylko: Pustka. Pacjentka mówi: „gdzieś za szybą, nic nie czuję". Nie Punitive Parent — tylko: Krytyczka. Mówi językiem mamy. Ulubione zdania: „wadliwa", „beznadziejna", „co ludzie powiedzą".

Imiona „po polsku" — Krytyczka, Mała Ania w piżamie, Wkurzona Ania, Pustka — stają się sposobem mówienia o trybach w samej sesji. Pacjentka w S6 sama je nazywa.

07

Powód zgłoszenia jako konkretny epizod

Data, kontekst, kto był obecny, co dokładnie się stało

Nie „kryzys" — tylko: trzy tygodnie przed pierwszą sesją, po kłótni z Markiem (zarzucił jej „histerię" gdy zapytała czy ją kocha), nacięcie 4 cm na lewym przedramieniu, pierwsze od 8 lat. Następnego dnia nie poszła do pracy, leżała w łóżku, nie odbierała telefonów.

Konkretny epizod określa intensywność, kontekst i ramę pierwszej sesji. „Kryzys" otwiera milion możliwości, „nacięcie 4 cm w nocy po kłótni" — jedną.

08

Język pacjenta

5-10 charakterystycznych zwrotów + opis kiedy używa

Anna mówi „klasyk Anna" gdy się autodystansuje. Mówi „no nie wiem" gdy chce pomyśleć. Mówi „to jest jakieś dziwne" przy niespodziewanych odczuciach. W silnej emocji raz na sesję pojawia się „kurwa".

⚠️ Bez takiej listy wszyscy syntetyczni pacjenci brzmią identycznie. To jest najczęstszy bug naiwnie generowanych transkrypcji.
09

Wcześniejsze terapie + dlaczego nie zadziałały

Klucz do naturalnego sceptycyzmu i transferu

Anna ma za sobą półtora roku psychodynamicznej (przerwała: „wciąż mówiłam to samo") i pół roku CBT (przerwała: „myśl Y nie była moja").

To kluczowe dla naturalnego sceptycyzmu pacjentki na pierwszej sesji („jeszcze jedna terapeutka która mi powie żeby się ogarnąć"), dla porównań w trakcie pracy („Pani jest pierwszą która zapytała wprost o samookaleczenie"), i dla pracy z transferem w okolicach sesji 12-13, gdy schemat opuszczenia projektuje się na terapeutkę.

10

Co wnosi opór, co wnosi zasób

3-5 punktów każde, konkretnie

To odpowiednik „zmiennych regulujących" w generacji.

Opór: spóźnienia, intelektualizacja gdy boli, „OK dobra nieważne" przy zbliżeniu emocjonalnym, możliwa odwołana sesja w okolicach S12 (test relacji).

Zasób: punktualność, sama się zarejestrowała, zna terminologię (może być pomocą i obroną), pragnie zmiany mimo sceptycyzmu.

🎯 Model wie wtedy kiedy włączyć opór, a kiedy zasób. I dlatego sesja 12 jest rupture, a sesja 17 — przełomem behawioralnym.

Anna Graniczna · 20 sesji · 5 miesięcy

Co widać w transkrypcjach. Pięć kluczowych momentów z całej terapii — z dosłownymi cytatami z pacjentki.

SesjaFazaKluczowy moment
S2OcenaPierwszy raz Anna płacze przy babci — 4 sekundy. Wycofuje się: „nie będę beczeć przy obcej kobiecie".
S7KonceptualizacjaPo przeczytaniu konceptualizacji: „Czyli ja nie jestem pojebana — ja po prostu nauczyłam się tego, kiedy nie miałam wyboru."
S9ImageryPierwszy imagery rescripting (kuchnia, 7 lat). Anna płacze 4 minuty w sesji.
S12RuptureAnna odwołuje sesję, wraca z dystansem: „Boję się że Pani mnie zostawi. Albo że ja Panią zostawię pierwsza, żeby było po mojemu."
S17Realne użyciePo kłótni z Markiem nie wybiega — siedzi 5 minut w kuchni, mówi: „wracam do tego za godzinę, teraz potrzebuję pobyć sama".

Łuk terapii w trzech fazach

FAZA I

S1-S7 · Ocena i edukacja

Wywiad biograficzny, schematy (YSQ), tryby (mode mapping), konceptualizacja

Anna wchodzi sceptyczna. Ostrożna. Pierwsza terapeutka „która zapytała wprost o samookaleczenie i nie zrobiła z tego sensacji". W sesji 2 pierwszy raz płacze przy babci Halinie. W sesji 3 mówi o ostatniej rozmowie telefonicznej z ojcem — chłodno, intelektualnie, terapeutka zauważa: „wycofała się Pani jak tylko zaczęło boleć". Cisza 30 sekund. W sesji 7 konceptualizacja przypadku. Pierwszy raz Anna płacze inaczej niż przy babci — bez wycofania, bez śmiechu zażenowanego.

FAZA II

S8-S14 · Praca z trybami

Imagery rescripting, chair work, rupture and repair

Pierwsza imagery w S8 nie wchodzi — Pustka się włącza, Anna otwiera oczy: „sorry, ja tego nie umiem, czuję się głupio". Druga w S9 — przełom. W S10 awantura z Markiem (rzucony kubek), praca z Wkurzoną Anią. W S11 pierwsze chair work z Krytyczką — niezgrabne, niedomknięte. S12 to rupture — Anna odwołuje sesję, wraca z dystansem, ujawnia że bała się że terapeutka ją zostawi. Schemat opuszczenia aktywny w transferze. S13 — repair. S14 three-chair work, Wkurzona Ania broni Małej Ani przed Krytyczką, pierwsze głośne krzyknięcie w gabinecie.

FAZA III

S15-S20 · Zmiana behawioralna i autonomia

Domknięcie żałoby, eksperymenty z Markiem, list do Małej Ani

S15 — domknięcie żałoby po ojcu (list + imagery rescripting w wyobrażonym szpitalu). S16 — przygotowanie eksperymentu behawioralnego z Markiem. S17 — Marek źle reaguje, Anna utrzymuje się w konflikcie (siedzi 5 minut w kuchni, czuje, wraca do rozmowy). Pierwsze realne użycie technik w prawdziwym życiu. S18 — regres (alkohol wraca), Pustka jako opiekunka, samokompasja zamiast samokrytyki. S19 — list do Małej Ani w piżamie. S20 — domknięcie etapu z otwarciem na kontynuację: „Ja nie jestem już ta sama Ania, która tu przyszła w kwietniu."

🔑 Cytat zamknięcia: „Pamiętam jak czytałam tę konceptualizację. Czuję się inaczej. Nie wszystko jest naprawione. Ale ja nie jestem już ta sama Ania, która tu przyszła w kwietniu." — Anna Graniczna, sesja 20.

Pobranie i co trzymamy zamknięte

Pełen dataset wysyłamy mailem po podaniu adresu. To nie dlatego, że chcemy gating'ować dostęp — chcemy mieć kontakt do osób, które z dataset'em pracują, żeby móc się odzywać z kolejnymi materiałami.

ElementW ZIPWielkość
Arkusz pacjentki Anny Granicznej~6 KB
20 transkrypcji sesji (markdown ASR)~340 KB
Pusty szablon arkusza pacjenta~3 KB
README z instrukcją czytania~2 KB
Łuk terapii / plan sesyjny / style guidezamknięte
Pipeline generacyjnyzamknięte
📦

Pobierz dataset Anny Granicznej

Podaj adres mailowy, na który wyślemy ZIP (148 KB) z pełnym arkuszem pacjentki, 20 sesjami w transkrypcji i pustym szablonem do własnych pacjentów.

CC-BY 4.0 · Bez paywall · Bez follow-up sprzedażowego.

Ograniczenia datasetu

  • Jedna pacjentka: Anna Graniczna to jeden profil (BPD-spectrum, kobieta 31). Dla pełnego obrazu potrzeba więcej profili.
  • Jedna modalność: terapia schematów. Pacjenci CBT, psychodynamiczni, ISTDP, EMDR — generowani na życzenie.
  • Jeden język: polski.
  • Symulowana terapeutka: dr Joanna Kowal jest również fikcyjna. Jej styl jest „dobrym praktykiem schema therapy" — ale to nadal wybór konkretnego stylu, nie reprezentacja całej populacji terapeutów.
  • Brak walidacji „ślepej": nie testowaliśmy jeszcze, czy terapeuci eksperccy umieliby odróżnić Annę od anonimizowanego nagrania prawdziwej pacjentki. To planowany etap walidacji.

Potrzebujesz innego pacjenta?

Pełen pipeline generacyjny — łuk terapii, plan sesyjny, style guide, silnik sekwencyjnej spójności — jest częścią naszej platformy i nie publikujemy go.

Jeśli chcesz swojego pacjenta, napisz do nas: kontakt@aitherapy.support

Beta testy · Dołącz teraz

Odzyskaj czas dla siebie
i swoich pacjentów

Jesteś terapeutą / terapeutką CBT?
Sprawdź, jak platforma wspiera Twoją codzienną pracę.
Podsumowania sesji, które porządkują materiał kliniczny. Administracja, która nie przeszkadza.