# Zadanie: Przewidywanie wieku oposów na podstawie cech morfometrycznych

**Cel:**  
W tym zadaniu mamy zbiór danych dotyczących gatunku oposów, zapisany w pliku `possum.csv`. Chcemy zbudować model regresyjny, który na podstawie wymiarów ciała i innych cech będzie przewidywał wiek osobników.

**Dane:**  
Zbiór danych zawiera następujące kolumny:

- **case**: Unikalny identyfikator obserwacji.
- **site**: Numer stanowiska (miejsce odłowu).
- **Pop**: Populacja (np. "Vic" lub inna).
- **sex**: Płeć zwierzęcia ("m" dla samca, "f" dla samicy).
- **age**: Wiek w latach (zmienna docelowa, zawiera 2 brakujące wartości).
- **hdlngth**: Długość głowy (mm).
- **skullw**: Szerokość czaszki (mm).
- **totlngth**: Całkowita długość (mm).
- **taill**: Długość ogona (mm).
- **footlgth**: Długość stopy (mm, 1 brakująca wartość).
- **earconch**: Długość małżowiny usznej (mm).
- **eye**: Wielkość oka (mm).
- **chest**: Obwód klatki piersiowej (cm).
- **belly**: Obwód brzucha (cm).

**Problem:**  
Zmienna docelowa to **age**. Niestety, w zbiorze danych znajdują się brakujące wartości (2 w kolumnie `age` oraz 1 w `footlgth`). Musimy je odpowiednio uzupełnić przed budową modelu.

**Co należy zrobić:**

1. **Wczytać dane** z pliku `possum.csv`.
2. **Zbadać dane**: sprawdzić typy zmiennych, rozkłady, brakujące wartości.
3. **Przetworzyć dane**:  
   - Poradzić sobie z brakującymi wartościami w kolumnach `age` i `footlgth`.  
   - Zakodować zmienne kategoryczne (`Pop`, `sex`) w postaci numerycznej (np. One-Hot Encoding).
   - Zastanowić się, czy potrzebne jest skalowanie cech numerycznych.
4. **Podzielić dane** na zbiór treningowy i testowy.
5. **Zbudować model regresyjny** (np. regresja liniowa, Ridge, Lasso lub inny regresor) i dopasować go do danych treningowych.
6. **Oszacować jakość modelu** na zbiorze testowym za pomocą odpowiednich miar błędu (np. MSE, MAE, R²).

**Wskazówki:**

- Możesz użyć `SimpleImputer` ze scikit-learn do uzupełniania braków (np. średnią dla cech numerycznych).
- Dla cech kategorycznych możesz użyć `OneHotEncoder`.
- Zastanów się nad pipeline’em (`Pipeline`) i `ColumnTransformerem`, aby uporządkować proces przetwarzania danych i modelowania w jednym kroku.
- Wypróbuj różne modele i porównaj ich wyniki.

**Oczekiwany rezultat:**  
Na końcu otrzymasz model, który na podstawie wymiarów ciała i informacji o populacji oraz płci possuma będzie potrafił przewidzieć wiek z pewną dokładnością. Zwróć uwagę na interpretację wyników i oceń, czy model nadaje się do praktycznego zastosowania.



In [1]:
# Wczytaj potrzebne biblioteki
# np. pandas, numpy, matplotlib, seaborn
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib as plot
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.impute import SimpleImputer
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LinearRegression, Ridge, Lasso
from sklearn.metrics import mean_squared_error, r2_score

ModuleNotFoundError: No module named 'pandas'

In [None]:

# 1. Wczytaj dane z pliku possum.csv
df = pd.read_csv('possum.csv')


In [None]:

# 2. Wyświetl podstawowe informacje o danych (rozmiar, nagłówki, info o kolumnach)
print(df.shape)
display(df.head())
df.info()

In [None]:

# 3. Sprawdź brakujące wartości
print(df.isnull().sum())


In [None]:
# 4. Ponieważ wiek (age) to zmienna docelowa, zdecyduj jak poradzić sobie z brakującymi wartościami w age
# (np. usunięcie wierszy z brakami w age)
df = df.dropna(subset=['age','footlgth'])

In [None]:


# 5. Określ kolumny kategoryczne i numeryczne
cat_features = df[['sex','Pop']]
num_features = df[['case','site','age','hdlngth','skullw','totlngth','taill','footlgth','earconch','eye','chest','belly']]


In [None]:

# 6. Podziel dane na X i y (y = age), a następnie na zbiór treningowy i testowy
X = df.drop[['age']]
y = df['age']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
# 7. Stwórz pipeline dla cech numerycznych z imputacją medianą i skalowaniem
num_pipeline = Pipeline([
   ('imputer', SimpleImputer(strategy='median')),
   ('scaler', StandardScaler())
])

In [None]:
# 8. Stwórz pipeline dla cech kategorycznych z OneHotEncoder
cat_pipeline = Pipeline([
   ('encoder', OneHotEncoder(drop='first'))
])

In [None]:
# 9. Stwórz ColumnTransformer łączący oba pipeline’y
preprocessor = ColumnTransformer([
   ('num', num_pipeline, num_features),
   ('cat', cat_pipeline, cat_features)
], remainder='drop')

In [None]:

# 10. Zbuduj pipeline z modelem regresji liniowej i dopasuj do danych treningowych
lin_pipeline = Pipeline([
   ('preprocessing', preprocessor),
   ('model', LinearRegression())
])
lin_pipeline.fit(X_train, y_train)

In [None]:


# 11. Dokonaj predykcji na zbiorze testowym i oblicz MSE oraz R² dla modelu liniowego
y_pred_lin = ...
mse_lin = ...
r2_lin = ...
print("MSE (Linear):", mse_lin)
print("R² (Linear):", r2_lin)


In [None]:


# 12. Przetestuj Ridge i Lasso dla różnych wartości alpha
# alphas = [0.1, 1, 10, 100]


In [None]:
# 13. Wyświetl wyniki w formie tabeli (DataFrame) i narysuj wykres MSE vs alpha oraz R² vs alpha
# results_df = ...
# (results_df)

# plt.figure(...)
# # wykres dla MSE
# # plt.plot(...)
# # wykres dla R²
# # plt.plot(...)
# plt.show()

In [None]:
# 14. Podsumuj wyniki w komentarzu: Która metoda działa najlepiej? Jak wpływa alpha na model?
