#  Wprowadzenie do modelowania w Pythonie cz. 1
importowanie bibliotek i wczytywanie danych

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split # podział na zbiór treningowy i testowy
from sklearn.linear_model import LinearRegression # model Regresji liniowej
from sklearn.metrics import mean_squared_error, r2_score 
from scipy.stats import pointbiserialr, shapiro

# Wczytanie zbioru IRYS
iris = sns.load_dataset("iris")
print("Podgląd danych IRYS:")
display(iris.head())

# Wczytanie danych CO2
co2 = pd.read_csv("https://raw.githubusercontent.com/jisokolowski/labaJDA/main/input/co2_emmission/CO2_emission.csv")
display(co2)

## Analiza korelacji

In [None]:
# Analiza korelacji dla zbioru IRYS
correlation_matrix = iris.drop(columns = 'species').corr()
plt.figure(figsize=(8,6))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt='.2f')
plt.title("Macierz korelacji dla zbioru IRYS")
plt.show()

In [None]:
display(pointbiserialr(np.array(iris['species'] == 'setosa'), np.array(iris['sepal_length'])).statistic)
display(pointbiserialr(np.array(iris['species'] == 'versicolor'), np.array(iris['sepal_length'])).statistic)
display(pointbiserialr(np.array(iris['species'] == 'virginica'), np.array(iris['sepal_length'])).statistic)

In [None]:
## Pair plot
sns.pairplot(iris, hue = 'species')
plt.show()

In [None]:
# Wybór zmiennych na podstawie korelacji
features_irys = ['petal_width', 'petal_length', 'species']
X_iris = iris[features_irys]

# Dodawanie zmiennych dummy
X_iris = pd.get_dummies(X_iris, drop_first = True)

y_iris = iris['sepal_length']

### Ćwiczenie:
Sprawdź korelację dla zbioru `co2`. 
Które zmienne wybrałbyś do modelowania CO2_Emissions?

## Podział na zbiory treningowe i testowe (80% trening, 20% test)

In [None]:
X_train_iris, X_test_iris, y_train_iris, y_test_iris = train_test_split(X_iris, y_iris, test_size=0.2, random_state=42)

### Ćwiczenie:
Podziel zbiór dla `co2`

## Tworzenie i trenowanie modelu regresji liniowej dla IRIS

In [None]:
# Tworzenie modelu
model_iris = LinearRegression()
model_iris.fit(X = X_train_iris, y = y_train_iris)

# Predykcja wartości testowych
y_pred_iris = model_iris.predict(X_test_iris)

In [None]:
model_iris.coef_

In [None]:
X_train_iris

In [None]:
model_iris.intercept_

Model `model_iris` zakłada, że `sepal_length = -0.1314786 * petal_width + 0.9778683  * petal_length -1.65857536 * species_versicolor -2.2063472 * species_virginica + 3.604303215678032`

### Ćwiczenie:
Policz predykcje dla zioru uczącego

### Ćwiczenie:
Powtórz kroki dla zbioru `co2`

## Obliczenie metryk jakości modelu


In [None]:
rmse_iris = np.sqrt(mean_squared_error(y_test_iris, y_pred_iris))
r2_iris = r2_score(y_test_iris, y_pred_iris)
print(f'IRIS - RMSE: {rmse_iris}')
print(f'IRIS - R2 Score: {np.round(r2_iris,2)}')

### Ćwiczenie:
Oblicz metryki dla zioru treningowego.
Czy widać znaczną różnicę?

### Ćwiczenie:
Usuń kolumnę `species`, wytrenuj model i sprawdź wyniki

### Ćwiczenie:
Powtórz kroki dla zbioru `co2`

## Sprawdzanie założeń regresji dla IRIS (normalny rozkład reszt)

In [None]:
residuals_iris = y_test_iris - y_pred_iris
plt.figure(figsize=(8,6))
sns.histplot(residuals_iris, kde=True)
plt.title("Histogram reszt dla IRIS")
plt.show()

alpha = 0.05
shapiro_test = shapiro(y_test_iris - y_pred_iris)
print(f"Test Shapiro-Wilka dla Grupy 1: Wartość statystyki = {shapiro_test.statistic:.4f}, p-wartość = {shapiro_test.pvalue:.4f}")

if shapiro_test.pvalue < alpha:
    print("Dane nie mają rozkładu normalnego.")
else:
    print("Nie znaleziono podstaw by odrzucić rozkład normalny w danych.")

## Wizualizacja wyników regresji liniowej

In [None]:
# Wizualizacja wyników regresji liniowej
plt.figure(figsize=(8, 6))
sns.scatterplot(x=y_test_iris, y=y_pred_iris)
plt.xlabel("Rzeczywiste wartości")
plt.ylabel("Przewidywane wartości")
plt.title("Regresja liniowa: rzeczywiste vs przewidywane (IRIS)")
plt.show()


In [None]:
sns.regplot(x = y_test_iris, y=y_pred_iris)
plt.title('Relacja między zmiennymi objaśniającymi a zmienną objaśnianą')
plt.show()

### Ćwiczenie:
Powtórz kroki dla zbioru `co2`

## Reprezentatywność próby

### Ćwiczenie:
Podziel zbiór w alternatywny sposób zostawiającw zbiorze treningowym 2 gatunki, w testowym trzeci