### zastosowanie metod dra Kontka - podsumowanie

W notatniku `kontek.ipynb` zastosowano [metody zaproponowane przez dr. Kontka](https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5296441) wraz z komentarzami i wątpliwościami.

W szczególności zwrócono uwagę na trzy kwestie:

* Wykrywanie outlierów: Za potencjalne obserwacje odstające należy uznać przypadki, w których w jednej komisji zaobserowano np minimum 3/4 - a nie tylko jedną. Wyjątkiem moze byc mniejsza liczba głosów w drugiej rundzie, co od razu wydaje się bardzo podejrzane. Tego rodzaju przypadki powinny być wychwytywane już na etapie wprowadzania danych do systemu

* Clustrowanie po kodach pocztowych: Choć intuicyjne, może być w niektórych przypadkach nietrafione — kody pocztowe nie zawsze dobrze odwzorowują rzeczywiste granice geograficzne czy społeczne. Dodatkowo, nie usunięto komisji o bardzo specyficznym charakterze (szpitale, domy pomocy społecznej, areszty śledcze, zakłady karne czy komisje zagraniczne) - których wyniki mogą odbiegać od "typowej" komisji

* Jednostronność analizy: Autor analizuje tylko jedną stronę — i takie podejście tłumaczy "brakiem czasu". Jednak — jak pokazano w niniejszym kodzie — rozszerzenie analizy na przypadki odwrotne lub inne lata nie wymagało istotnie większego nakładu pracy. Trudno więc oprzeć się wrażeniu, że wybór ten był przynajmniej częściowo celowy, co stawia pod znakiem zapytania obiektywność całej analizy

Mimo wspomnianych zastrzeżeń, zaproponowane metody są interesujące i — po niewielkim dostosowaniu — mogą być bardzo użyteczne w praktyce, zwłaszcza przy okazji kolejnych wyborów. Przykładowe zastosowania to:

* automatyczne ostrzeganie podczas wprowadzania wyników do systemu, gdy dane z danej komisji znacząco odbiegają od wzorca grupy;

* analiza po zakończeniu głosowania, służąca do wskazania kilku komisji, które warto objąć dodatkową weryfikacją lub ponownym przeliczeniem głosów.

Takie podejścia mogą realnie zwiększyć wiarygodność procesu wyborczego, przy jednoczesnym zachowaniu szacunku dla jego demokratycznych fundamentów.

Dla porównania, w plikach `kontek_2020` oraz `kontek_2015` zaimplementowano te same algorytmy, lecz na danych z lat odpowiednio 2020 i 2015.

Tutaj chciałbym tylko porównać te wyniki


In [3]:
# ustalamy k na poziomie 2
k = 2

### 1. Nadmierne poparcie dla kandydata A (względem mediany w ramach lokalnej grupy)

| Rok  | Kandydat        | Liczba anomalii |
|------|------------------|------------------|
| 2025 | Trzaskowski      | 4551             |
| 2025 | Nawrocki         | 3750             |
| 2020 | Trzaskowski      | 3430             |
| 2020 | Duda             | 2893             |
| 2015 | Komorowski       | 3206             |
| 2015 | Duda             | 2928             |

### 2. Nadmierny względny wzrost poparcia dla kandydata A między pierwszą a drugą turą, w porównaniu do odpowiedniego wzrostu poparcia dla kandydata B o w tej samej grupie lokalnej;

| Rok  | Kandydat        | Liczba anomalii |
|------|------------------|------------------|
| 2025 | Trzaskowski      | 3552             |
| 2025 | Nawrocki         | 3127             |
| 2020 | Trzaskowski      | 3795             |
| 2020 | Duda             | 1863             |
| 2015 | Komorowski       | 2754             |
| 2015 | Duda             | 3074             |

### 3. Komisje, w których kandydat A uzyskał więcej głosów niż kandydat B w drugiej turze, mimo że mediana wyników w grupie wskazywała na przewagę kandydata B;

| Rok  | Kandydat        | Liczba anomalii |
|------|------------------|------------------|
| 2025 | Trzaskowski      | 1885             |
| 2025 | Nawrocki         | 1843             |
| 2020 | Trzaskowski      | 2608             |
| 2020 | Duda             | 1999             |
| 2015 | Komorowski       | 1806             |
| 2015 | Duda             | 1750             |

### 4. Kandydat otrzymał mniej głosów w drugiej turze niż w pierwszej

| Rok  | Kandydat        | Liczba anomalii |
|------|------------------|------------------|
| 2025 | Trzaskowski      | 128              |
| 2025 | Nawrocki         | 112             |
| 2020 | Trzaskowski      | 106              |
| 2020 | Duda             | 284              |
| 2015 | Komorowski       | 286              |
| 2015 | Duda             | 93               |

### Sumowanie anomalii


Liczba komisji z minimum jedną lub ze wszystkimi czterema anomaliami


| Rok  | Kandydat     | 1 anomalia | 2 anomalie | 3 anomalie | 4 anomalie |
|------|--------------|------------|------------|------------|------------|
| 2025 | Trzaskowski  | 8161       | 1179       | 34         | 3          |
| 2025 | Nawrocki     | 6871       | 483        | 34         | 2          |
| 2020 | Trzaskowski  | 8406       | 962        | 24         | 2          |
| 2020 | Duda         | 6243       | 571        | 47         | 0          |
| 2015 | Komorowski   | 7073       | 756        | 30         | 0          |
| 2015 | Duda         | 7124       | 842        | 71         | 1          |


### Komentarz
Jak widać, wyniki z roku 2025 nie odbiegają istotnie od danych z lat wcześniejszych. Rozkład liczby anomalii — niezależnie od kandydata — pozostaje na porównywalnym poziomie w każdej analizowanej elekcji.

Oczywiście nie oznacza to, że błędy nie występują. Przy ponad 32 tysiącach komisji wyborczych, ludzki błąd oraz statystyczne odchylenia są nieuniknione. To naturalny element każdego dużego procesu organizacyjnego.

Warto jednak zaznaczyć, że [liczba komisji wyborczych się zmienia](https://demagog.org.pl/wypowiedzi/protesty-wyborcze-czy-wzrost-liczby-komisji-ma-znaczenie/), co oznacza, że nie powinniśmy porównywać wyników nominalnie. Większa liczba komisji to większa skala operacji i naturalnie większa liczba miejsc, w których może dojść do błędu — bez względu na intencje.

Nie powinniśmy jednak na podstawie jednostkowych przypadków tracić zaufania do instytucji państwowych ani podważać fundamentów demokracji. Wyciąganie ogólnych wniosków na podstawie kilku obserwacji może prowadzić do niepotrzebnej polaryzacji i chaosu informacyjnego.

To, co możemy i powinniśmy robić, to stale udoskonalać systemy liczenia i rejestrowania głosów — zarówno po stronie technicznej (informatycznej), jak i organizacyjnej, by minimalizować ryzyko pomyłek i zwiększać przejrzystość procesu.