Ewaluacja 2.0 i 3/4

Na stronach legislacja.gov.pl pojawił się projekt nowelizacji rozporządzenia w sprawie ewaluacji. Przy okazji dostosowywania do przedłużonego okresu ewaluacyjnego Minister proponuje nam jeszcze parę zmian, z których co najmniej dwie mogą być rewolucyjne.

Jeśli chodzi o dostosowanie terminów i liczby publikacji do pięcioletniego okresu ewaluacji, to projekt radzi sobie z tym nie najgorzej. Nowe brzmienie przepisu jest następujące:

„§ 36. W ewaluacji przeprowadzanej w 2022 r. suma udziałów jednostkowych za

1) artykuły naukowe opublikowane w latach 2019–2021,
2) monografie naukowe, rozdziały w monografiach naukowych i redakcje naukowe monografii naukowych, opublikowane w latach 2017–2021

– uwzględniane w ocenie ewaluowanego podmiotu w danej dyscyplinie naukowej, z wyłączeniem dyscypliny naukowej informatyka oraz dyscypliny naukowej informatyka techniczna i telekomunikacja, nie może być większa niż 220% liczby N.”;

Wychodzi zatem, że przy dłuższym okresie sprawozdawczym zwiększono udział publikacji „post-Gowinowych” o te 20 pkt. procentowych, zachowując jednak zasadę, że algorytm wybiera 3N najlepszych publikacji spośród 4N best-of-the-best osiągnięć jednostki. Czyli dalej obowiązuje zasada „3 dobre” (przepis dotyczy osiągnięć uwzględnianych, czyli tego, co algorytm wybierze do 3N). Projekt zgrabnie przechodzi z wartości bezwzględnych na procenty i w komentowanym przepisie mamy nie 2,2*N udziałów, tylko 220% liczby N umykają dwie rzeczy. Primo – w dotychczasowej wersji rozporządzenia 2N była zawsze liczbą całkowitą. Maksymalna liczba udziałów według propozycji ministerialnej już taką być nie musi. Dla jednostki dużej, mającej N=100 problemu nie ma, bo 220% N to 220, czyli liczba całkowita. Dla minimalnego N=12 220% N to 26.4. No to jak policzymy te 0.4 udziału? Za lata 2017-2019 pierwsza jednostka będzie mogła przedłożyć 80 publikacji (znów liczba całkowita), druga zaś – aż 9.6. Jeśli się złoży tak, że w tej drugiej jednostce publikowano tylko indywidualnie albo w parach to może wyjść, że mamy 27 publikacji z limitu za 2017-2019 i 10 za lata 2017-2018. Broszury o ewaluacji sugerują (uwaga: przepis tego nie reguluje), że w takim przypadku punkty za nadmiarową publikację nie będą przemnażane przez odpowiedni współczynnik (odpowiednio 0.4 i 0.6) tylko wrzucane do kosza. W rezultacie ten system może prowadzić do systemowego pogorszenia pozycji niektórych ośrodków. Mała jednostka z powyższego przykładu będzie mogła uwzględnić tylko 35 publikacji zamiast 36, co daje jakieś 2.777(7) pkt procentowego różnicy. Im większa liczba N tym uszczerbek mniejszy, podobnie jak ryzyko że nieuwzględnienie 1 slota wpłynie na ocenę końcową. Proponowane tu rozumienie przepisu wydaje się być w zgodzie z widoczną w rozporządzeniu ogólną tendencją do zniechęcania małych jednostek do starania się o kategorię. Przykładowo, sankcje polegające na zmniejszeniu puli publikacji uwzględnianych w ewaluacji konstruowane są tak, że od ogólnej liczby 3N publikacji odejmuje się stałą wartość, a nie odpowiedni procent publikacji. W ten sposób dla uczelni z N=100 odjęcie od 3N 3 publikacji to strata 1%. Uczelnia z N = 12 i 3N = 36 po stracie 3 publikacji z puli gubi 8,3% swojego dorobku. Ta tendencja de facto łagodniejszych sankcji dla większych ośrodków może znaczyć, że polityka rządu jest taka, żeby stopniowo wygaszać prowadzenie badań w dyscyplinach mających w danym ośrodku mniej niż kilkudziesięciu przedstawicieli, lub też żeby zachęcać je do osiągania doskonałych wyników i bardzo mocnego pilnowania, żeby papiery były w porządku. Ponieważ jednak sankcje powiązane są z oświadczeniami, których złożenie jest prawem, a nie obowiązkiem pracownika, tudzież z brakiem aktywności publikacyjnej, możliwość zapobieżenia niektórym negatywnym skutkom pracowniczej lekkomyślności jest żadna. Pracownik, który nie złożył oświadczeń i nic nie publikował może wylecieć z hukiem i trzaskiem, ale w dalszym ciągu podtopi swoją uczelnię. Secundo -przy takim liczeniu zmniejsza się znaczenie pracy wykonanej w latach 2017-2018. Teksty w czasopismach z listy ministerialnej za ten okres będą stanowić jedynie 0.8 z 3N. Co więcej, ponieważ teksty z nowej listy czasopism są wyżej punktowane, możliwe będzie nadgonienie różnicy, zwłaszcza gdy czasopismo za 5 pkt, które wydajemy deus ex machina dostało punktów 40. Całość wyraźnie do przemyślenia i przeliczenia. Nie można na razie nawet zrobić symulacji, bo od paru dni PBN mówi grzecznie, że się przebudowuje i żeby mu nie przeszkadzać.

Dość duży pakiet zmian dotyczy szczegółów technicznych i punktacji. I tutaj widać, że ktoś sprawę przemyślał i prawdopodobnie zrobił już wstępne symulacje, których wyniki wszyscy chcielibyśmy zobaczyć. M. in. podwyższono punktację za edycje źródłowe i z 25% punktów za monografię zrobiło się 50%. Aż się prosi, żeby pójść krok dalej i uwzględnić, że oprócz wyborów źródeł ze wstępem mamy także edycje krytyczne oraz editio princeps. Trudno tak samo traktować zbiór konstytucji azjatyckich ze wstępem, jak np. pierwsze wydanie akt Rzeczpospolitej Babińskiej (nie wiem, czy ktoś w ogóle podał je do druku) opatrzone stosownym aparatem naukowym. Ale prawodawca wie lepiej – „im widnieje.”

Plus należy się też ministerstwu za ograniczenie obowiązków sprawozdawczych i składania oświadczeń o kompletności danych. Parę innych tego typu atrakcji też wyeliminowano. W zasadzie to trudno mi zrozumieć, dlaczego te wszystkie informacje, które sprawozdajemy z wynikami cząstkowymi kryterium I i II nie są po prostu dostępne w Internecie.

Zwiększono dokładność z jaką będą wyliczane punkty przy pracach współautorskich. Otóż dokładność zwiększono z dwóch do czterech miejsc po przecinku. Dlaczego – możemy zgadywać. Mam dwie hipotezy – pierwsza jest taka, że przy dokładności do dwóch miejsc algorytm nie umie sensownie wybrać 3N najlepszych tekstów. Druga, uzasadniona wynikami poprzednich parametryzacji, jest taka, że nawet przy dorzuceniu punktów niektórym czasopismom, co zwiększa ostatecznie rozpiętość wyników punktowych, wyniki uzyskane podczas robienia symulacji wskazują, że różnice pomiędzy ośrodkami są tak niewielkie, że o kategorii badawczej będzie decydować przypadek, albo wszyscy dostaną tę samą. W niektórych dyscyplinach rzeczywiście tak było, że o kategorii decydowały inne kryteria niż jakość publikacji.

Pozostałe zmiany techniczne pomijam, widać z nich, że ktoś już intensywnie pracuje nad rozruchem systemu i stara się na bieżąco usuwć błędy.

No i w ramach przeglądu na koniec gamechanger. Zmieniono zasady wyliczeń punktów w kryterium III. Dotychczas przyznawano je tylko za zasięg wypływu na społeczeństwo (międzynarodowy, krajowy, regionalny, lokalny, żaden), teraz jeszcze punktu te będą przemnażane przez mnożnik wynikający ze znaczenia wpływu (1 – przełomowe, 0,7 – kluczowe, 0,4 – istotne, 0,2 – ograniczone, 0 – nikłe). Dodatkowo po staremu można po uważaniu dorzucić 20 pkt. za interdyscyplinarność badań. Czyli teraz międzynarodowe osiągnięcie będzie mogło mieć mniej punktów, niż lokalne interdyscyplinare o ograniczonym wpływie. W zależności co eksperci zobaczą. Rozumiem cel takiego dwuelementowego oceniania, – strategia rozwoju gminy i strategia rozwoju nauki i szkolnictwa wyższego mają oczywiście ciut różny zasięg geograficzny, a dobra strategia rozwoju gminy zasługuje na więcej punktów niż zła strategia rozwoju nauki i szkolnictwa wyższego. Nie rozumiem jednak, jakimi metodami eksperci będą mierzyć znaczenie wpływu. Projekt posłguje się pojęciami nieostrymi, zwłaszcza przy pierwszych trzech. Przełomowe to zapewne coś, czego żadna z jednostek nie osiągnie. Odkrycie, że flogiston nie istnieje było przełomowe, no i pewnie miało jakiś wpływ na otoczenie. Zabawy matematyków z fraktalami były kluczowe czy istotne? Złamanie kodu Enigmy? Byłoby miło, gdyby ministerstwo zechciało pokazać na konkretnym przykładzie jak będzie oceniany zasięg i znaczenie wpływu. Można to zrobić na prostym przykładzie: z OSR wynika, że ta zmiana jest skutkiem badań pilotażowych w ramach programu DIALOG. No to weźmy te badania i ich przetworzenie w projekt rozporządzenia. Zasięg jak się wydaje krajowy (chyba że zaczniemy sprzedawać patent za granicę), a znaczenie? Przewrót kopernikański? Kluczowe? Istotne? Ograniczone? Dla biednych ziutków piszących opisy wpływu – kluczowe. Dla wyników ewaluacji – prawdopodobnie przełomowe. Ponieważ nie wiemy, jak wyliczyć znaczenie wpływu, to praktyczne – żadne. Ktoś się pokusi i pokaże, jak ekspert będzie oceniał ten rodzaj wpływu?

Brak jakichkolwiek intersubiektywnie weryfikowalnych kryteriów oceny znaczenia wpływu, ba, nawet jakichkolwiek wytycznych dla ekspertów oznacza, że zmiana ta jest nieprzemyślana. Albo przeciwnie – jest bardzo przemyślana. Kryterium III jest czysto ocenne, a ocena ta będzie dokonywana arbitralnie. Wierząc w czystość intencji ekspertów wiem, że nie dostaną oni narzędzi pozwalających dokonać uczciwej oceny. Co więcej, nawet propozycje eksperckie są tylko propozycjami. Ostateczny wynik ewaluacji jest decyzją organu władzy publicznej. A ten właśnie wpisał sobie do rozporządzenia dodatkową zabawkę pozwalającą na podrasowanie wyników tym, którym obiektywne kryteria nie sprzyjają i pogorszenie ich tym, którzy w świetle pierwszych dwóch obiektywnych kryteriów wypadli dobrze, a nie powinni. Ministerstwo ma teraz dwa narzędzia ręcznego sterowania wynikami. Jedno to progi punktowe na kategorie i próg przewyższenia G (złośliwe zwierzątko, o którym mało kto pamięta) drugie to wyniki kryterium III. Pierwsze pozwoli podjąć decyzję polityczną, jaki procent uczelni zachowa prawa do nadawania stopni akademickich. W zależności od tego, co będzie się bardziej opłacać albo odtrąbimy sukces reformy: „wszyscy się postarali i wszyscy utrzymali prawa akademickie i mają kategorię B+,” albo odtrąbimy sukces reformy: „stworzyliśmy wreszcie porządne narzędzie pozwalające na oddzielenie ziaren od plew i pozbawiliśmy praw akademickich ośrodki, w których nie uprawiano nauki na przyzwoitym poziomie; naukowym pozorantom mówimy stanowcze NIE!.” Oczywiście może się zdarzyć, że przy tym globalnym przesuwaniu linijki ośrodek, który absolutnie nie może przestać być kategorii A/B+ spadnie pod kreskę. Może też się zdarzyć, że jakiś innowacyjny młody ośrodek bezczelnie ośmieli się mieć wyniki lepsze niż liderzy i zaburzy narrację o prowincjonalnej miernocie. No to wtedy wykorzystamy narzędzie drugie i pierwszemu podpompujemy wyniki w kryterium III, a drugiemu przytrzemy różki.

Nawet, jeśli w ministerstwie pracują anioły i święci, przy takich zasadach ewaluacji jakie wyłaniają się z obecnych i proponowanych przepisów, pokusa ręcznego podrasowania wyników będzie zbyt duża. Kuszeni będą minister, jego urzędnicy i eksperci. Co gorsza, nawet jak wszyscy wykażą hart ducha św. Antoniego i skusić się nie dadzą, i tak ze względu na nieostrość kryteriów i brak jawności danych będzie podejrzenie nieczystej gry. Dlatego też można wykorzystać ten moment do usunięcia propozycji dotyczących kryterium III i wprowadzenia przepisów zwiększających jawność: obowiązku ujawnienia w POL-On 1 stycznia 2022 r kompletu danych potrzebnych do dokonania ewaluacji tak, żeby jednostki mogły dokonać obliczeń samodzielnie i porównać swoje wyniki z osiągnięciami konkurencji, obowiązku opublikowania w tej samej dacie metody ustalania progów punktowych ze szczególnym uwzględnieniem danych o pozycji dyscyplin na tle światowym dokonanej przy użyciu międzynarodowych baz bibliometrycznych oraz wytycznych dla ekspertów oceniających kryterium III tak, żeby po uzyskaniu decyzji o przyznaniu kategorii strona mogła z czystym sumieniem powiedzieć, że wie, dlaczego dostała kategorię X a nie Y i dlaczego sąsiednia uczelnia ma kategorię Y a nie X.