# Prognozowanie wyników wyborów prezydenckich 2025

### Igor Domaradzki 89987

Zadanie zaliczeniowe polega na prognozie wyników pierwszej tury wyborów prezydenckich.

Niemały kłopot sprawiło mi wybranie odpowiedniej metody do rozwiązania tego problemu. Rozważałem użycie MLPRegressor, Random Forest czy regresji liniowej. Problemem jednak była trudność w zdobyciu dużej ilości danych. Po prostu nie mieliśmy w III RP wystarczająco dużej liczby wyborów. Chciałem, aby moim zbiorem danych było zestawienie sondaży, a zmienną objaśnianą – wynik w wyborach. Pomyślałem, że można by znaleźć jakiś zbiór danych w internecie o takiej strukturze. Jednak ku mojemu zaskoczeniu, żadnego takiego nie znalazłem.

Zdecydowałem się więc zastosować podejście bardziej ekonometryczne niż deep learningowe. W poniższym rozwiązaniu zastosowałem model ARMA, który miałem przyjemność poznać na zajęciach "Applied Macroeconometrics" podczas mojej półrocznej wymiany studenckiej na szwajcarskim Université de Neuchâtel.

## Plan mojego projektu:

* Pobranie danych sondażowych dotyczących wyborów
* Modyfikacja danych
* Dopasowanie modelu
* Obliczenie predykcji
* Normalizacja wyników


In [1]:
import requests
import pandas as pd
from bs4 import BeautifulSoup
import numpy as np
from statsmodels.tsa.stattools import adfuller
from statsmodels.tsa.arima.model import ARIMA
from sklearn.metrics import mean_absolute_error

import warnings
warnings.filterwarnings("ignore")


### Pobranie danych z Internetu

In [2]:
# Na poniższej stronie znajduje się tabela ze wszystkimi sondażami
url = 'https://ewybory.eu/wybory-prezydenckie-2025-polska/sondaze-prezydenckie/'

# Pobranie zawartości strony
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
tables = soup.find_all('table')

# Zapis do df
try:
    df = pd.read_html(str(tables[0]))[0]
    print(df.head())
except Exception as e:
    print("Błąd.", e)


                                        Unnamed: 0 Senyszyn Zandberg Biejat  \
0    IBRiS / Rzeczpospolita N=1073Termin: 11-12.05      1.0      4.1    5.5   
1  IBRiS / Polskie Radio 24 N=1067Termin: 10-11.05      0.9      5.4    6.3   
2                       OGB N=1000Termin: 07-10.05      1.6      4.8    3.8   
3          Pollster / SE.pl N=1077Termin: 07-08.05      1.4      7.2    5.5   
4          United Surveys / WP N=1000Termin: 07.05        —      3.7    6.1   

   Trzaskowski  Hołownia  Nawrocki Jakubiak  Mentzen Braun Stanowski  
0         32.3       7.9      25.2      0.9     11.2   2.5       2.4  
1         31.7       8.6      23.6      1.1     12.6   2.6       1.6  
2         36.5       4.2      30.4        —     12.3   3.7       1.2  
3         32.3       8.4      22.7      0.9     13.6   5.3       2.0  
4         33.2       7.5      23.2      1.2     13.6   3.5       1.6  


In [3]:
df = df.drop(columns = "Unnamed: 0")
df.head(10)

Unnamed: 0,Senyszyn,Zandberg,Biejat,Trzaskowski,Hołownia,Nawrocki,Jakubiak,Mentzen,Braun,Stanowski
0,1.0,4.1,5.5,32.3,7.9,25.2,0.9,11.2,2.5,2.4
1,0.9,5.4,6.3,31.7,8.6,23.6,1.1,12.6,2.6,1.6
2,1.6,4.8,3.8,36.5,4.2,30.4,—,12.3,3.7,1.2
3,1.4,7.2,5.5,32.3,8.4,22.7,0.9,13.6,5.3,2.0
4,—,3.7,6.1,33.2,7.5,23.2,1.2,13.6,3.5,1.6
5,2,5.0,6.0,31.0,5.0,25.0,3,14.0,4.0,1
6,1,5.0,6.0,30.0,7.0,25.0,—,13.0,4.0,—
7,—,4.3,5.6,31.6,8.0,24.7,1.5,12.8,2.0,2.5
8,1,6.0,4.0,33.0,7.0,25.0,1,15.0,4.0,2
9,1.2,3.2,5.1,33.2,6.1,25.6,1.6,11.5,1.4,1.1


Zauważam, że dla niektórych wartości mamy - oznaczające 0%, zamieńy na wartości numeryczne

In [4]:
# Zamiana myślników (—) na 0 i konwersja na float
df = df.replace({'—': 0, '<0.5': 0.25})
df = df.astype(float)
df.head(10)

Unnamed: 0,Senyszyn,Zandberg,Biejat,Trzaskowski,Hołownia,Nawrocki,Jakubiak,Mentzen,Braun,Stanowski
0,1.0,4.1,5.5,32.3,7.9,25.2,0.9,11.2,2.5,2.4
1,0.9,5.4,6.3,31.7,8.6,23.6,1.1,12.6,2.6,1.6
2,1.6,4.8,3.8,36.5,4.2,30.4,0.0,12.3,3.7,1.2
3,1.4,7.2,5.5,32.3,8.4,22.7,0.9,13.6,5.3,2.0
4,0.0,3.7,6.1,33.2,7.5,23.2,1.2,13.6,3.5,1.6
5,2.0,5.0,6.0,31.0,5.0,25.0,3.0,14.0,4.0,1.0
6,1.0,5.0,6.0,30.0,7.0,25.0,0.0,13.0,4.0,0.0
7,0.0,4.3,5.6,31.6,8.0,24.7,1.5,12.8,2.0,2.5
8,1.0,6.0,4.0,33.0,7.0,25.0,1.0,15.0,4.0,2.0
9,1.2,3.2,5.1,33.2,6.1,25.6,1.6,11.5,1.4,1.1


Warunkiem zostosowania modelu ARMA jest stacjonarność szeregu czasowego (czyli średnia wartośc nie powinna być zmienna w czasie). Niektóre szeregi wyników sondażowych kandydatów są stacjonarne, a niektóre nie. Można to sprawdzić za pomocą testu ADF. Jeśli p-value < 0.05 to odrzucamy hipoteze zerową o niestacjonarności szeregu. Gdy szereg jest niestacjonarny to trzeba go zróznicować i na szeregu różnic dokonać analizy ARMA. 

In [5]:
# Na podstawie eksperymentów na danych historycznych wybrałem hiperparametry ARMA(2,2) 
p = 2
q = 2
out = {}
for column in df.columns:
    # Szereg czasowy wyników sondażowych, w danych jest od najnowszego, a dla ARMA potrzebujemy od najstarczego
    wartosci = df[column].values[::-1]
    # Test ADF
    result = adfuller(wartosci)
    p_value = result[1]
    
    if p_value < 0.05:
        # Szereg stacjonarny
        model = ARIMA(wartosci, order=(p, 0, q))
        model_fit = model.fit()
        # Prognoza dla następnego okresu, tj. wyborów.
        forecast = model_fit.forecast(steps=1)[0]
        out[column] = forecast
    else:
        # Szereg niestacjonarny
        zroznicowane_wartosci = np.diff(wartosci)
        model = ARIMA(zroznicowane_wartosci, order=(p, 0, q))
        model_fit = model.fit()
        # Tu nie przywidujemy wyniku, a wartość róznicy wyniku w wyborach i ostatniego wyniku w sondażu. 
        forecast = model_fit.forecast(steps=1)[0]
        ostatnia_wartosc = wartosci[-1]
        out[column] = forecast + ostatnia_wartosc
        
    
    

Zobaczmy wyniki

In [6]:
y_pred = pd.Series(out)
y_pred

Senyszyn        1.282838
Zandberg        5.413597
Biejat          4.790381
Trzaskowski    33.053059
Hołownia        6.881876
Nawrocki       24.191903
Jakubiak        1.323431
Mentzen        12.575573
Braun           3.516150
Stanowski       1.570984
dtype: float64

Co z kandydatami nieuwzględnionymi w sondażach na ewyboru.eu? Pozwolę sobie dopisać ich do powyższego wektora "z palca". Według ewybory.wu ich szanse prezentują się następująco:

In [11]:
out["Maciak"] = 0.2
out["Bartosiewicz"] = 0.2
out["Woch"] = 0.1

In [12]:
y_pred = pd.Series(out)
y_pred

Senyszyn         1.282838
Zandberg         5.413597
Biejat           4.790381
Trzaskowski     33.053059
Hołownia         6.881876
Nawrocki        24.191903
Jakubiak         1.323431
Mentzen         12.575573
Braun            3.516150
Stanowski        1.570984
Maciak           0.200000
Bartosiewicz     0.200000
Woch             0.100000
dtype: float64

Wyniki nie sumują się do 100%, teraz znormalizuje dane, aby tak było.

In [13]:
sum(y_pred)

95.09979328519991

In [14]:
# Ograniczenie do przedziału [0, 100], gdyby jakiaś predykcja była poniżej 0 
y_pred = np.clip(y_pred, 0, 100)
# Normalizacja tak, by suma = 100%
y_pred_normalized = 100 * y_pred / y_pred.sum()

In [15]:
y_pred_normalized

Senyszyn         1.348939
Zandberg         5.692544
Biejat           5.037215
Trzaskowski     34.756184
Hołownia         7.236479
Nawrocki        25.438439
Jakubiak         1.391624
Mentzen         13.223555
Braun            3.697326
Stanowski        1.651932
Maciak           0.210305
Bartosiewicz     0.210305
Woch             0.105153
dtype: float64

In [16]:
# Formatownie, na stornie PKW procenty są do dwóch miejsc po przecinku
procenty = y_pred_normalized.sort_values(ascending=False).apply(lambda x: f"{x:.2f}%")
print(procenty)


Trzaskowski     34.76%
Nawrocki        25.44%
Mentzen         13.22%
Hołownia         7.24%
Zandberg         5.69%
Biejat           5.04%
Braun            3.70%
Stanowski        1.65%
Jakubiak         1.39%
Senyszyn         1.35%
Maciak           0.21%
Bartosiewicz     0.21%
Woch             0.11%
dtype: object
