Przejdź do bloga

Trzy kluczowe zagrożenia dla badania klinicznego
Jesteście gotowi na takie ryzyko?

Trzy kluczowe zagrożenia dla badania klinicznego

Jesteście gotowi na takie ryzyko?

Wstęp

Badania kliniczne stanowią niebagatelne wyzwanie pod względem planowania. Wszelkie dyskusje i przygotowania rozpoczynają się na długo przed rekrutacją pierwszych pacjentów, w fazie projektowania badania. Omawiane są wtedy kwestie z różnych obszarów: medycyny, etyki, prawa, finansów, logistyki, administracji i wreszcie - statystyki. Analiza statystyczna stanowi ostatni etap badania, gdy dane zostały zebrane i nadchodzi czas uzyskania na ich podstawie odpowiedzi na postawione pytania. Na tej podstawie opracowywane są raporty statystyczny i kliniczny z badania (ang. Statistical Analysis Report - SARClinical Study Report - CSR). Na podstawie informacji zawartych w raporcie klinicznym agencja regulacyjna podejmie decyzję czy badana terapia zostanie dopuszczona do stosowania.

Na etapie projektowania badania podejmowane są kluczowe decyzje w zakresie rodzaju i schematu badania, a także formułowane są pytania badawcze i ich hierarchia. Pytania te są następnie tłumaczone na język hipotez statystycznych. Określa się także zakres i charakter informacji, które posłużą do oceny stanu pacjenta w zakresie bezpieczeństwa i efektywności leczenia. Informacje te noszą nazwę punktów końcowych (ang. endpoints) i stanowią podstawę do sformułowania hipotez statystycznych i przeprowadzenia stosownych analiz. Obliczana jest również minimalna liczba pacjentów niezbędna do uzyskania odpowiedniej mocy statystycznej oraz ustalane są szczegóły procesu randomizacji, jeśli jest przewidywana. Dokonuje się także pierwszych rozważań w zakresie wyboru metod statystycznych i niektórych ich kluczowych parametrów. Dyskutuje się także sposoby redukcji potencjalnego obciążenia wyników analiz (ang. bias).

Dokonane ustalenia pozwalają na oszacowanie ram czasowych i budżetu badania oraz zaplanowanie działań od strony logistycznej. Szczegóły trafiają do obowiązkowych dokumentów badania takich, jak plan zarządzania danymi (ang. Data Management Plan - DMP), czy plan analizy statystycznej (ang. Statistical Analysis Plan - SAP), a także wspomagających - polityki bezpieczeństwa i kontroli jakości.

Konsultowanie statystycznych aspektów eksperymentu po jego zakończenia przypomina zlecenie jego autopsji.

Błędy popełnione na etapie projektowania badania wpłyną na każdy kolejny krok i mogą zadecydować o jego porażce. Niedopatrzenia, pozornie drobne błędy, czy wreszcie niezdolność do przewidywania następstw działań bądź decyzji (lub, co gorsza, świadome ignorowanie negatywnych scenariuszy) mogą skutkować poważnymi konsekwencjami. Do najbardziej dotkliwych mogą należeć utrata reputacji i zaufania, procesy sądowe, kary umowne, grzywny, a wreszcie ostateczne niepowodzenie kosztownego i niosącego nadzieje badania. Niestety, wiele rzeczy może pójść nie tak w badaniach interwencyjnych. Dodatkowo, problemy mogą kumulować się z czasem, zwłaszcza w przypadku badań długotrwałych, o wysokiej śmiertelności, skomplikowanym procesie leczenia oraz złożonych reakcjach fizjologicznych. Kardiologia i onkologia to typowe przykłady trudnych obszarów terapeutycznych.

Niestety, w obliczu nadziei na powodzenie badania i wprowadzenie na rynek obiecującej terapii, łatwo popaść w hurraoptymizm. Oddalanie od siebie wizji „czarnych scenariuszy” może skończyć się katastrofą na tym ostatnim etapie badania, kiedy zwykle jest już za późno by skutecznie „ugasić pożary”. Każdy przecież chce się przygotować na najlepsze, zamiast na najgorsze. Jednak, jak zauważył sir Ronald Fisher, “wzywanie statystyka by skonsultować wyniki eksperymentu, który już się zakończył (negatywnie) jest jak proszenie go o wykonanie autopsji badania”. Można co najwyżej próbować określić co zawiodło. I te słowa, naszym zdaniem, dobrze oddają konieczność zaangażowania ekspertów statystyki od najwcześniejszych chwil badania, kiedy jeszcze wszystko można zmienić i dopracować. Jeśli badanie jest poprawnie zaplanowane i uwzględnia szereg alternatywnych scenariuszy, ryzyko porażki badania może być znacząco (choć oczywiście nie całkowicie) zredukowane.

Przygotowaliśmy serię artykułów, w których opiszemy szereg zagrożeń dla badań klinicznych ze strony statystyki. Ze względu na rozległość zagadnienia, podzieliliśmy je na trzy części zatytułowane: [zaniedbania w fazie projektowania], [strategiczna ignorancja] i [zgubne ślepe zaufanie w kwestiach technicznych].

Mamy nadzieję, że wiedza ta przyda się podczas planowania Waszych badań.

Omówmy zagadnienia poruszane w kolejnych częściach.

Część I: Zaniedbania w fazie projektowania

Konflikty między celem a hipotezą

W nawet najlepiej zaprojektowanych badaniach może się zdarzyć, że uzyskana odpowiedź będzie niezupełnie zgodna (lub zupełnie niezgodna!) z postawionymi celami. Sytuacja taka może mieć miejsce, jeśli testowana hipoteza statystyczna odpowiada na pytanie inne niż oryginalnie postawione pytanie badawcze. Możliwe jest wówczas uzyskanie poprawnej pod względem technicznym i merytorycznym odpowiedzi na pytanie, którego jednak… nie zadano.

Jakkolwiek absurdalnie to brzmi, sytuacja taka nie należy do rzadkości. Spowodowane jest to mnogością perspektyw, z których można spojrzeć na te same dane. Perspektywy te tworzone są przez kombinacje różnorakich czynników, przede wszystkim: definicje punktów końcowych, moment dokonania obserwacji (pomiaru), a także wybór miar służących do podsumowania punktów końcowych. Te i inne czynniki mogą sprawić, że do pytania badawczego zostanie przypisana nieprawidłowo (z punktu widzenia celu badania) skonstruowana hipoteza.

Ignorowanie „zabójców mocy” statystycznej

Moc statystyczna jest kluczowym czynnikiem, bez którego badanie jest praktycznie skazane na porażkę i to od samego początku. W takim przypadku analiza nie jest w stanie wykazać zadowalających klinicznie efektów nawet najbardziej obiecującej terapii, zatem wydaje się ona nieskuteczna, a samo badanie – pozbawione sensu. Typowe pułapki w tym obszarze obejmują, m.in. niezaadresowany problem pacjentów przedwcześnie „wypadających” z badania, nadmierne mnożenie celów badawczych, nieprawidłowe użycie metod statystycznych (bądź ustawienie ich parametrów), czy wreszcie nieprawidłowe bądź nieefektywne zaadresowanie problemu wielokrotnych porównań. Wszystkie te zagadnienia są kluczowe, ale szczególnie pierwszy z nich stanowi wyzwanie, gdyż pacjenci mogą wycofać zgodę lub zostać wykluczonymi z badania z różnych powodów, takich jak: poważne skutki uboczne, brak skuteczności terapii, bariery logistyczne, czy istotne naruszenia protokołu. Niestety, problemy te często pozostają niezauważone do momentu, gdy jest już za późno na wdrożenie efektywnych rozwiązań. Ochrona badania przed „cichymi zabójcami mocy” jest zatem krytycznie istotnym zagadnieniem.

Nienasycona zachłanność badawcza

Chęć maksymalnego wykorzystania możliwości badania by odpowiedzieć na jak najwięcej pytań jest w pełni zrozumiała. Jest to bardzo atrakcyjne z naukowego punktu widzenia, ale także równie ryzykowne. Ocena bezpieczeństwa i skuteczności terapii jest oczywiście kluczowa, ale mnożenie pytań badawczych może łatwo doprowadzić do „rozmycia”, tj. utraty czytelności celów przyświecających badaniu. To może doprowadzić do utraty spójności informacji płynącej z różnych obszarów danego badania. Dodatkowo skomplikowaniu może ulec kontrola istotności statystycznej i związanego z nią tzw. poziomu błędu pierwszego rodzaju (tj. fałszywa detekcja nieistniejącego efektu) na poziomie badania.

Mnogość celów badawczych może łatwo prowadzić do sprzecznych obserwacji, w których poszczególne analizy indywidualnie wykazują skuteczność terapii, a sumaryczny wynik staje się niejasny.

Niezależnie od liczby nakreślonych celów i postawionych pytań, agencje regulacyjne będą oczekiwać jasnego rozróżnienia pomiędzy celami pierwszorzędowymi, drugorzędowymi i eksploracyjnymi. Bez starannego zaplanowania tychże, badacze mogą ostatecznie zagubić się w złożoności ich własnego badania. „Mniej znaczy więcej”, dlatego niezbędna jest równowaga pomiędzy możliwością odpowiedzi na wszystkie istotne pytania, a uczynieniem ich struktury tak prostą, jak to możliwe.

Brakujące obserwacje, problemy natury obliczeniowej, brakujące grupy obserwacji lub nierównowaga w ich liczebności, niska moc statystyczna na równi z rzeczywistym brakiem efektu – wszystko to może zamienić obiecujące badanie w statystyczną katastrofę.

Nadmierna złożoność punktów końcowych

Jedną z metod ograniczenia liczby celów badawczych przy jednoczesnym zaadresowaniu kwestii bezpieczeństwa i efektywności jest powiązanie odpowiadających im logicznych wyrażeń (zwanych komponentami) za pomocą operatora logicznej koniunkcji („oraz”) w jeden złożony punkt końcowy. Takie podejście może wydawać się atrakcyjne, gdyż znacznie redukuje liczbę i upraszcza strukturę hipotez, ale wiąże się też z poważnym ryzykiem. Jeśli, z jakiegokolwiek powodu, zawiedzie jeden tylko komponent, wartość logiczna całego punktu końcowego okaże się fałszem. Brakujące obserwacje, problemy natury obliczeniowej, brakujące grupy obserwacji lub nierównowaga w ich liczebności, niska moc statystyczna na równi z rzeczywistym brakiem efektu – wszystko to może zamienić obiecujące badanie w statystyczną katastrofę. Cóż, eksplozja jądrowa zaczyna się od pojedynczego neutronu… Widzieliśmy badania, w których oczekiwane wskaźniki efektywności leczenia były wysokie, lecz obserwowane dane temu przeczyły, sprowadzając wyniki do zaledwie kilku sukcesów właśnie z powodu niepowodzeń w poszczególnych komponentach. Wiedząc w jaki sposób nadmierna złożoność punktów końcowych może stać się przyczyną upadku badania, warto stosować się do wspomnianej już zasady „mniej znaczy więcej”. To nie truizm, to złota zasada!

Brak pomysłu na brakujące obserwacje

Brakujące obserwacje to, naszym zdaniem, jedno z najtrudniejszych zagadnień, z jakimi przychodzi mierzyć się biostatystykowi, a jednocześnie jedno z największych zagrożeń dla badania. Szczególnie, jeśli braki wystąpią w pierwszorzędowym punkcie końcowym - zwłaszcza złożonym! Nawet jeśli braki występują całkowicie losowo, osłabia to moc statystyczną (czasem znacznie poniżej 80%) i może doprowadzić do sytuacji, w której kontynuowanie badanie przestaje mieć sens.

Prawdziwe niebezpieczeństwo pojawia się jednak wtedy, gdy braki w danych nie występują w sposób losowy, a np. zależą od niskich bądź wysokich wartości tej konkretnie zmiennej a także potencjalnie innych, nieuwzględnionych w badaniu zmiennych. Po pierwsze – nie można tego w żaden sposób zweryfikować, ponieważ nie widzimy brakującej części danych. Po drugie, niełatwo temu sprostać nawet za pomocą nowoczesnych technik imputacji danych – dokładnie z tego samego, co wcześniej, powodu. Na domiar złego, owe brakujące dane mogą znacznie zniekształcić wyniki, np. poprzez nadmierne zawyżenie lub zaniżenie wielkości efektu. Najlepsze, co w takiej sytuacji może zrobić biostatystyk, to przeprowadzenie tzw. analizy czułości, uwzględniającej różne (typowe) scenariusze imputacji, choć jest to skomplikowane i czasochłonne. I chociaż istnieją nowoczesne techniki wielowymiarowej imputacji, wiążą się one z własnymi wyzwaniami.

Oczywiście, najlepiej byłoby zaprojektować i przeprowadzić badanie tak, by całkowicie uniknąć brakujących danych, ale to rzadko (jeśli w ogóle) jest możliwe - choćby ze względu na fakt, iż ludzie nie są nieśmiertelni. W znakomitej większości przypadków braki w danych będą istnieć, a konsekwencje tego będą w taki czy inny sposób odczuwalne. Niezbędne jest zaplanowanie środków zaradczych z wyprzedzeniem, ponieważ gdy dane zostaną utracone, niewiele już można zrobić.

Część II: Strategiczna ignorancja

Pomijanie opinii ekspertów

W badaniach klinicznych niezbędna jest współpraca statystyków ze specjalistami dziedzinowymi. Jej pominięcie może mieć fatalne konsekwencje dla powodzenia badania, a nawet prowadzić do naukowo błędnych (choć technicznie poprawnych) rozwiązań. Przykładowo, wiedza dziedzinowa jest niezbędna by poprawnie traktować obserwacje o ekstremalnie wysokich lub niskich wartościach, bądź właściwie opisać zmienne teoretycznymi rozkładami, nie zniekształcając zanadto informacji zawartej w danych. Zrozumienie niuansów danego obszaru terapeutycznego jest istotne podczas dyskusji progów istotności klinicznej, a także przy wyborze właściwych dla konkretnego przypadku, technik imputacji brakujących danych i definiowaniu związanych z tym zależności. Dzięki temu łatwiej uniknąć sytuacji, gdy imponująco wyglądająco na papierze wyniki są w gruncie rzeczy dalekie od rzeczywistości.

Współpraca powinna być obustronna, i tak – obecność statystyka powinna mieć miejsce na większości etapów badania od jego najwcześniejszych chwil, zaś eksperci dziedzinowi (badacze) powinni być zaangażowani przynajmniej w kluczowe ustalenia statystyczne, by zawczasu korygować błędne przekonania i wynikające z nich decyzje.

…może i błędnie, ale za to niepoprawnie…

Wyzbycie się błędnych nawyków jest niezwykle trudne, szczególnie gdy zostały one głęboko zakorzenione w umyśle i podtrzymywane przez osoby uważane przez nas za autorytety. Nie inaczej jest w statystyce. Wiele mitów i błędnych praktyk jest stale obecnych w codziennej pracy. Co gorsza, są one utrwalane i nauczane bez weryfikacji. O ile część tych praktyk jest przede wszystkim nieefektywna, to jednak wiele jest potencjalnie szkodliwych i może zagrozić poprawności analizy.

Przykłady takich nieefektywnych bądź szkodliwych praktyk można mnożyć. Na początek wymieńmy nagminne obliczanie „mocy post-hoc”, stosowanie nadmiernie konserwatywnych korekt na wielokrotne porównania (np. metoda Bonferroniego) i to pomimo wieloletniej dostępności lepszych alternatyw (np. gatekeeping, fallback czy fixed sequence), a także nieuzasadnione i wręcz „toporne” stosowanie korekt na wielokrotne porównania, w każdej możliwej analizie i na każdym poziomie (czyniąc analizę wręcz niezdolną do wykrycia jakiegokolwiek efektu, a nawet utraty powtarzalności wyników). Dość częstym nadal błędem jest analiza zmian względem wartości początkowej w obrębie porównywanych grup, zamiast porównań pomiędzy nimi. Powszechną w randomizowanych badaniach praktyką jest raportowanie p-wartości testów statystycznych porównujących ramiona na starcie badania, co bywa uzasadniane w najróżniejszy, zwykle niepoprawny sposób. Widoczny bywa brak zrozumienia roli korekt modeli longitudinalnych o wartość początkowej pewnych zmiennych. Powszechne jest mylenie istotności statystycznej z praktyczną oraz błędne utożsamianie standaryzowanych miar efektu, takich jak „D Cohena” z praktyczną istotnością. Do tego dochodzi nieprawidłowa interpretacja testów statystycznych opartych na rangach, często nieuzasadniona kategoryzacja zmiennych ciągłych, czy wreszcie traktowanie odpowiedzi na skali Likerta jako numerycznych bez poczynienia odpowiednich i bardzo silnych założeń. Innym częstym błędem jest imputowanie brakujących danych średnią arytmetyczną lub medianą. A to tylko niewielka część praktyk, które wielokrotnie spotykaliśmy w analizach. Uważamy, że kształtowanie świadomości w tym zakresie jest kluczowe dla zapewnienia odpowiedniej jakości badań.

Jeżeli uważamy za słuszne ubezpieczenie samochodu i domu, a także dywersyfikujemy dochody, dbając o naszą płynność finansową, to dlaczego nie mielibyśmy zabezpieczyć się przed możliwymi przeciwnościami, które mogą nas spotkać w tak złożonej kwestii, jak badanie kliniczne?

Nawet najlepsze plany mogą zawieść i – jak to zwykle bywa – w najmniej oczekiwanym momencie. Założenia zaplanowanych metod statystycznych mogą nie zostać spełnione. Modele statystyczne używane do testowania hipotez mogą nie „zbiegnąć się” (ang. converge) do rozwiązania. Przypadki skrajne mogą sprawić, że estymowane wartości staną się niestabilne (niewielkie zmiany w danych powodują znaczne zmiany wyniku). Rozkłady statystyczne przyjmują najdziwniejsze kształty, dalekie od podręcznikowych (i jeszcze dalsze od gaussowskiego). Wszystko to utrudnia przeprowadzenie zaplanowanych analiz i interpretowanie wyników. Dodatkowo obecność obserwacji odstających jeszcze pogłębia te problemy. Potrzebny jest zatem „plan B”, którego często – brak. Brak planu „B” (a czasem nawet „C”) może sprawić, że utkniemy w miejscu, marnując czas i pieniądze. Pozostanie nam bierne oczekiwanie na „koło ratunkowe” w postaci propozycji od recenzentów statystycznych – co wcale nie musi się zdarzyć. Brak „awaryjnych dróg analizy” może doprowadzić do frustrującej sytuacji, gdy pieniądze na badanie zostały wydane, dane zostały zebrane, ale niewiele można z nimi teraz zrobić. Plan B to ubezpieczenie na wypadek drobnej bądź poważnej katastrofy.

Jeżeli uważamy za słuszne ubezpieczenie samochodu i domu, a także dywersyfikujemy dochody, dbając o naszą płynność finansową, to dlaczego nie mielibyśmy zabezpieczyć się przed możliwymi przeciwnościami, które mogą nas spotkać w tak złożonej kwestii, jak badanie kliniczne?

Plany awaryjne, które są… awaryjne

Oto przezornie zaplanowaliśmy szereg alternatywnych scenariuszy analizy na wypadek różnych zagrożeń i czujemy się pewni, że pomogą nam one w krytycznej sytuacji. Lecz co w sytuacji, gdy ścieżka alternatywa – choć zadziała - nie doprowadzi do tego samego celu, co ścieżka zaplanowana? Poleganie na planie awaryjnym, który daje iluzoryczną ochronę (a której to iluzoryczności nie jesteśmy świadomi), może doprowadzić do kolejnych problemów oraz narazić na trudne pytania od recenzentów statystycznych.

Dlaczego ścieżka alternatywna może być zwodnicza w działaniu? Na przykład, często proponowane nieparametryczne testy statystyczne oparte na rangach lub kwantylach działają na innych hipotezach, a co za tym idzie – mogą odpowiadać na inne pytania. To, czy te pytania będą spójne z oryginalnie zaplanowanymi jest złożoną kwestią, zależną od danych i nie sposób na nie odpowiedzieć a priori. Innymi słowy, analiza nie polega już np. na porównywaniu średnich arytmetycznych, ale – przykładowo - na stochastycznej dominacji (ang. stochastic superiority, dominance). Przejście od porównania średnich do porównania median również nie jest pozbawione problemów interpretacyjnych i to na wielu poziomach! Nowoczesne, elastyczne testy porównujące krzywe przeżycia w przypadku braku proporcjonalnych ryzyk, jak np. test Max-Combo czy ważone wersje testu Log-rank, zapewne wykryją różnice, ale co to dokładnie oznacza? O czym te różnice świadczą? Czy będziemy w stanie przełożyć otrzymany wynik na oryginalne pytanie? Idźmy dalej, pozostając w kontekście analizy przeżycia - czy porównanie miar takich jak RMST (ang. restrictied mean survival time) zamiast ryzyk odpowiada na podobne pytanie? Być może – w danym kontekście - tak, ale nie można tego przyjąć za pewnik. Uważajmy zatem na rozwiązania, które co prawda pozwalają zaadresować pewne problemy, ale mogą znacząco zmienić perspektywę!

Skoro zdajemy sobie sprawę z wagi audytów bezpieczeństwa i procedur, dlaczego nie audytować planu analizy statystycznej, aby zawczasu wykryć i zaradzić potencjalnie kosztownym pułapkom?

Zaplanowany auto-sabotaż

Może się zdarzyć, że - pomimo najlepszych intencji - porażka zostanie w pewien sposób „zaprogramowana” w naszych planach. Planowanie analiz statystycznych wymaga wiedzy i doświadczenia w wielu aspektach. Tłumaczenie pytań badawczych na język hipotez statystycznych, dobór właściwych procedur analitycznych (testów, modeli), podejście uwzględniające niewielkie rozmiary danych (typowe dla badań wczesnych faz), definiowanie parametrów wejściowych, czy wreszcie planowanie diagnostyki założeń metod statystycznych i radzenia sobie z ich naruszeniami, konieczność zaplanowania metod radzenia sobie z brakującymi obserwacjami, wykrywanie i odpowiednie potraktowanie wartości odstających (pamiętając, że mogą to być błędy wprowadzania danych, ale także zupełnie prawidłowe obserwacje!), wybór różnych korekt (zależnie od kontekstu) to zaledwie kilka kwestii, które będą mieć zasadniczy wpływ na wyniki analiz. Co, jeśli niektóre z tych kwestii zostały niewłaściwe zaadresowane na etapie planowania? Może się okazać, że umieściliśmy, nieświadomie, w naszych planach granat z opóźnionym zapłonem, który da o sobie znać w najmniej odpowiedniej chwili.

Dlatego wskazana jest weryfikacja planów z pomocą zewnętrznych ekspertów, nawet jeśli uważamy się za doświadczonych specjalistów. „Co dwie głowy, to nie jedna”, głosi przysłowie i jest w nim wiele racji. Spojrzenie innej osoby może pozwolić na wykrycie dobrze ukrytych przed naszymi własnymi oczami problemów. W przeciwnym razie mogą pozostać ukryte do momentu, gdy będzie za późno na zmianę. Oczywiście, niektórym problemom nadal można zaradzić ad-hoc (z odpowiednim uzasadnieniem), być może także recenzent statystyczny obejdzie się z nami łagodnie. Lepiej jednak nie polegać na myśleniu życzeniowym. Skoro zdajemy sobie sprawę z wagi audytów bezpieczeństwa i procedur, dlaczego nie audytować planu analizy statystycznej, aby zawczasu wykryć i zaradzić potencjalnie kosztownym pułapkom?

Część III: Zgubne ślepe zaufanie w kwestiach technicznych

Walidacja przez popularność (i cenę)

Pokładanie pełnego zaufania w oprogramowaniu wyłącznie na podstawie jego popularności i ceny (komercyjne) bądź popularności i filozofii (open-source) może skończyć się zawodem. Faktem jest, że narzędzia komercyjne mają silne wsparcie finansowe i naukowe, lecz ich zamknięta, własnościowa natura uniemożliwia zewnętrzną ocenę jakości i poprawności kodu programu implementującego daną metodę. Z kolei oprogramowanie open-source jest tworzone przez entuzjastów (zarówno uznanych ekspertów, jak i nowicjuszy), zazwyczaj za darmo, często „po godzinach”. Z natury kod takiego oprogramowania jest ogólnodostępny, zatem każdy – w ramach swych umiejętności – może ów kod zweryfikować i zaproponować ulepszenia lub poprawki błędów (bądź dokonać poprawek samodzielnie). Niestety, jakość i poprawność numeryczna nie mogą być automatycznie zagwarantowane, ponieważ zależą od wiedzy teoretycznej, praktycznego doświadczenia i… chęci autora by zrobić to na odpowiednio wysokim poziomie jakości.

Bez względu na to, czy oprogramowanie kosztuje tysiące dolarów, czy jest darmowe, czy jest na rynku od zaledwie kilku lat czy od dekad, nadal jest tworzone przez ludzi, a „błądzić jest rzeczą ludzką”. Oczywiście, możemy wierzyć bezkrytycznie marketingowym zapewnieniom, że dany produkt jest najwyższej jakości i można mu zaufać „w ciemno”, lecz gdy wydarzy się coś złego (np. błąd w obliczeniach), czy wówczas producent bądź indywidualny autor zrekompensuje nam szkody, pokryje grzywny i kary umowne za przekroczenie terminów, przywróci utracone kontrakty i zyski? Czy przywróci naszą reputację w środowisku i wobec klienta? Cóż, być może tak właśnie będzie, ale zawsze warto uważnie przeczytać licencję.

Czy darmowe zawsze oznacza złe? Absolutnie nie. Gdyby tak było, rozwiązania takie (jak chociażby systemy linux, pakiet statystyczny R, itp.) nie byłyby tak szeroko stosowane, przez dziesięciolecia, w najbardziej wymagających aplikacjach. Z drugiej strony argument ad populum jest wątpliwy i wręcz niebezpieczny. Zaufania nie powinno się określać na podstawie marketingu, 5-gwiazdkowych ocen na GitHub, tysięcy pobrań bibliotek czy schludnie napisanej dokumentacji. To oczywiście coś znaczy, ale marketing nie decyduje o jakości. „Zaufaj, ale sprawdzaj” powinno stać się tu naszym credo. Przegląd kodu, okresowo zaplanowana lektura sekcji „Issues”, „News” i „Changes” na GitHub lub CRAN (lub - jeśli dostępne - na stronie producenta), a także własne działania walidacyjne powinny stać się naszą rutyną.

Ufaj, lecz sprawdzaj – tylko wówczas nie narazisz się na zarzut zaniechania.

Ignorowanie różnic między narzędziami

Często spotykaną sytuacją jest, gdy ktoś zadaje w Internecie pytanie o rozbieżność wyników pewnej metody statystycznej pomiędzy różnymi pakietami. Sytuacja taka może mieć miejsce z wielu powodów: błędów implementacyjnych, różnic w domyślnych wartościach pewnych parametrów, użycia optymalizacji numerycznej celem uzyskania lepszej wydajności i precyzji obliczeń, użycia różnych algorytmów estymacji i tzw. „optymalizacji matematycznej”, różnic w implementacji generatora liczb losowych (powodujących różnice w wynikach metod Monte Carlo, pomimo zadania tej samej wartości „ziarna”), zastosowania różnych form estymatorów, zastosowania różnych konwencji, różnie zdefiniowanych warunków stopu w obliczeniach iteracyjnych, stosowania zaokrągleń zamiast dokładnych wartości (a także różnych metod zaokrąglania wartości), itp. Czasem różnice w wynikach są niewielkie, a czasem mogą prowadzić do zupełnie innych wniosków. Niektóre z rozbieżności można łatwo wyeliminować, ustawiając odpowiednio pewne parametry, podczas gdy zrozumienie innych wymaga uważnego przestudiowania dokumentacji celem poznania szczegółów implementacyjnych.

Powszechnie panującym, lecz błędnym przekonaniem jest to, że rozwiązania przyjęte w narzędziu droższym, istniejącym dłużej na rynku lub popularniejszym są automatycznie lepsze. Tak wcale nie musi być. Autorzy różnych narzędzi kierują się pewną logiką i starają zapewnić jak najbardziej uniwersalne wartości domyślne, ale w statystyce rzadko kiedy istnieje jeden sposób obliczenia czegoś, uniwersalnie lepszy od innych. To, jak zachowa się pewna metoda statystyczna zwykle zależy od (bardzo) wielu czynników, więc nierzadko trzeba przyjąć pewien kompromis. Użytkownicy nie powinni zakładać, że wszystkie implementacje danej metody muszą dawać dokładnie ten sam wynik, tylko uważnie przeczytać dokumentację. Często możliwym jest uzyskanie spójności przez zmianę określonych ustawień.

Założenie dostępności tych samych narzędzi

Wybór metod statystycznych powinien być zawsze podyktowany poprawnością metodologiczną i potrzebami, nie zaś tym, co jest dostępne w danym pakiecie oprogramowania. Innymi słowy, wybór metod analitycznych powinien być niezależny od oprogramowania. Tyle teoria. Istotnym jest natomiast to, że to, co jest dostępne w danym narzędziu, pozwala na szybkie rozpoczęcie pracy. Czasem, gdy na pokładzie brakuje prostszej metody, możliwym jest jej relatywnie szybkie zaprogramowanie ad-hoc, ale w bardziej złożonych przypadkach będzie to wymagać specjalistycznej wiedzy, wiele dodatkowego czasu (prowadząc do przekroczenia zarówno harmonogramu, jak i budżetu) oraz rygorystycznej walidacji. Już sam problem walidacji może przekreślić nasze plany, jeśli niemożliwe będzie porównanie wyników z referencją, do której nie mamy dostępu. Oczywiście, czasami można po prostu tymczasowo użyć innego pakietu statystycznego (np. open-source), ale bywa, iż wymagana procedura jeszcze nie doczekała się działającej implementacji.

Obecnie dostępne pakiety statystyczne, tak komercyjne, jak i open-source, oferują silny arsenał metod statystycznych, ale zawsze należy pamiętać, że osoba, która wykona analizę na podstawie przygotowanego planu, może nie mieć dostępu do proponowanych przez nas narzędzi. Aby uniknąć przestojów i opóźnień, weryfikacja dostępności określonych metod w docelowym środowisku powinna mieć miejsce zawczasu.

Brak zapewnienia integralności środowiska

- Wczoraj działało, dziś nie działa!
- Wyniki obliczeń dziwnie się zmieniły, choć niczego nie zmienialiśmy w procesie analizy!
- Moje wyniki różnią się nieco od twoich! Zrobiliśmy to poprawnie, skąd zatem różnice?

Nieoczekiwane, nagle pojawiające się rozbieżności w wynikach często są rezultatem przypadkowych bądź zaplanowanych aktualizacji oprogramowania oraz zmian w konfiguracji środowiska obliczeniowego. Nawet pozornie drobne aktualizacje raz zweryfikowanego środowiska mogą zaburzyć jego spójność, choćby przez zmiany pewnych ustawień, zastosowanie przybliżeń, wprowadzenie nowej techniki optymalizacji, itd.

Bez surowo przestrzeganej kontroli wersji badacze mogą mieć trudności z odtworzeniem wyników poprzednich analiz. Aby zachować spójność, kluczowe jest przeprowadzanie audytu zmian, rejestrowanie kluczowych ustawień (takich jak ziarna generatora liczb losowych, liczba iteracji algorytmu Monte Carlo, zastosowane wartości parametrów – nawet te domyślne, gdyż mogą się one zmieniać z kolejnymi aktualizacjami) i wdrażanie zasad utrzymania integralności. W idealnym przypadku zasady te powinny zostać opisane w odpowiednich procedurach operacyjnych. Poprawnie wdrożona polityka zapewnienia integralności i aktualizacji środowiska obliczeniowego zdecydowanie polepszy powtarzalność wyników i zapobiegnie przestojom potrzebnym do wyjaśnienia tego, co zostało zmienione niejako „przy okazji”.

Jak pokazuje praktyka, niepowodzenie eksperymentu wcale nie wymaga złośliwego działania, a jedynie zaniedbań. Rygorystyczne planowanie oraz wynikająca z doświadczenia zdolność do przewidywania problemów stają się kluczowym elementem w skomplikowanej układance. Ich brak może łatwo sprawić, że zamiast cieszyć się poprawnym złożeniem badania w agencji regulacyjnej, konieczna będzie autopsja badania, które poległo tak naprawdę zanim jeszcze się zaczęło.

Jesteście gotowi na takie ryzyko?

Ciąg dalszy nastąpi…

3Threats - introduction 3Threats - part 1 3Threats - part 2 3Threats - part 3

Jeżeli chcielibyście przeprowadzić audyt projektu badania albo opracować strategię ratowania projektu, skontaktujcie się z nami pod adresem . Zapraszamy również do zapoznania się naszą kompletną ofertą usług CRO .

Udostępnij na: