
Celem projektu jest analiza danych dotyczących udaru mózgu, znajdujących się w pliku `healthcare-dataset-stroke-data.csv`. Wyniki należy przedstawić w formie  raportu (RMarkdown, Jupyter, etc.) zawierającego kod programu jak i opisy dokonywanych decyzji. Analiza powinna zawierać co najmniej następujące punkty:

1. Czyszczenie danych (usuwanie/inputacja braków danych, naprawa błędów, transformacje danych, rozwiązanie problemu wartości odstających)
2. Eksploracyjna analiza danych
3. Zamodelowanie zmiennej `stroke` na podstawie pozostałych zmiennych. Minimum 3 modele.
4. Ewaluacja na zbiorze testowym (wybór modelu i metryk z uzasadnieniem)

Możliwe jest rozwiązaniem w języku R lub Python. Rozwiązania wysłać do 24.01.2022 na adres mailowy: michalmaj116@gmail.com z tytułem "studia podyplomowe"


# 1. Importy

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import sklearn
#from sklearn.impute import SimpleImputer
#from sklearn.impute import KNNImputer
from sklearn.preprocessing import OneHotEncoder
#from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import MinMaxScaler

#from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import f1_score, roc_curve, auc

from imblearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import RepeatedStratifiedKFold, GridSearchCV
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.ensemble import BaggingClassifier, AdaBoostClassifier 
from imblearn.over_sampling import SMOTE
from sklearn.neighbors import KNeighborsClassifier, LocalOutlierFactor
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score, confusion_matrix


# 2. Wczytanie danych

In [None]:
data_student = pd.read_csv("data/mat2.csv", comment="#", sep=',')
data_student.head()

# 3. Zrozumienie danych
### Zbiór danych
https://www.kaggle.com/datasets/henryshan/student-performance-prediction

Dane te dotyczą osiągnięć uczniów w szkołach średnich w dwóch portugalskich szkołach . Atrybuty danych obejmują oceny uczniów, cechy demograficzne, społeczne i związane ze szkołą. Zebrano je przy użyciu raportów szkolnych i kwestionariuszy.

Udostępniono dwa zbiory danych dotyczące wyników z dwóch odrębnych przedmiotów: matematyki (mat.csv) i języka portugalskiego (por.csv) . W [Cortez i Silva, 2008] oba zbiory danych modelowano w ramach zadań klasyfikacji i regresji binarnej/pięciopoziomowej.

Przeanalizuję dane dotyczące matematyki.

Skala ocen:

0-9 - niedostatecznie
10-17 - dost, db
18-19, 20 - bdb, cel


- **School**: szkoła ucznia (binarnie: „GP” – Gabriel Pereira lub „MS” – Mousinho da Silveira)

- **Sex** : płeć ucznia (binarnie: „F” – kobieta lub „M” – mężczyzna

- **Age** : wiek ucznia (numeryczny: od 15 do 22 lat)

- **address**: typ adresu domowego ucznia (binarnie: „U” – miejski lub „R” – wiejski)

- **famsize**: wielkość rodziny (binarnie: „LE3” – mniejsza lub równa 3 lub „GT3” – większa niż 3)

- **Pstatus**: status konkubinacyjny rodziców (binarnie: „T” – mieszkający razem lub „A” – osobno)

- **Medu**: wykształcenie matki (liczba: 0 – brak, 1 – wykształcenie podstawowe (IV klasa), 2 – V–IX klasa, 3 – wykształcenie średnie lub 4 – wykształcenie wyższe)

- **Fedu**: wykształcenie ojca (liczba: 0 – brak, 1 – wykształcenie podstawowe (IV klasa), 2 – V–IX klasa, 3 – wykształcenie średnie lub 4 – wykształcenie wyższe)

- **Mjob**: zawód matki (nominalny: „nauczyciel”, „związany ze służbą zdrowia”, „służby cywilne” (np. administracja lub policja), „w_domu” lub „inny”)

- **Fjob**: zawód ojca (nominalny: „nauczyciel”, „służba zdrowia”, „służba” cywilna (np. administracja lub policja), „w_domu” lub „inny”)

- **reason**: powód, aby wybrać tę szkołę (nominalny: blisko „domu”, „reputacja szkoły”, „preferowany kurs” lub „inny”)

- **guardian**: opiekun ucznia (nominalny: „matka”, „ojciec” lub „inny”)

- **traveltime**: czas dojazdu z domu do szkoły (liczbowo: 1–<15 min., 2–15 do 30 min., 3–30 min. do 1 godziny lub 4–>1 godzina)

- **studytime**: tygodniowy czas nauki (liczbowo: 1–<2 godziny, 2–2 do 5 godzin, 3–5 do 10 godzin lub 4–>10 godzin)

- **failures**: liczba przeszłych niepowodzeń klas (liczbowa: n jeśli 1<=n<3, w przeciwnym razie 4)

- **schoolsup**: dodatkowe wsparcie edukacyjne (binarne: tak lub nie)

- **famsup**: rodzinne wsparcie edukacyjne (binarne: tak lub nie)

- **paid**: dodatkowe płatne zajęcia w ramach przedmiotu kursu (matematyka lub portugalski) (binarnie: tak lub nie)

- **activities**: zajęcia pozalekcyjne (binarne: tak lub nie)

- **nursery**: uczęszczał do przedszkola (binarnie: tak lub nie)

- **higher**: chce podjąć studia wyższe (binarnie: tak lub nie)

- **internet**:Dostęp do Internetu w domu (binarnie: tak lub nie)

- **romantic**:w związku romantycznym (binarnie: tak lub nie)

- **famrel**: jakość relacji rodzinnych (liczbowo: od 1 – bardzo zła do 5 – doskonała)

- **freetime**: czas wolny po szkole (liczbowo: od 1 – bardzo niska do 5 – bardzo wysoka)

- **goout**: wyjście z przyjaciółmi (liczba: od 1 - bardzo niska do 5 - bardzo wysoka)

- **Dalc**: spożycie alkoholu w ciągu dnia roboczego (liczbowe: od 1 – bardzo niskie do 5 – bardzo wysokie)

- **Walc**: weekendowe spożycie alkoholu (liczbowe: od 1 – bardzo niskie do 5 – bardzo wysokie)

- **health**: aktualny stan zdrowia (numeryczny: od 1 – bardzo zły do 5 – bardzo dobry)

- **absence**: liczba nieobecności w szkole (numeryczna: od 0 do 93)

- **G1**: ocena z pierwszego okresu (numeryczna: od 0 do 20)

- **G2**: ocena z drugiego okresu (numeryczna: od 0 do 20)

- **G3**: ocena końcowa (numeryczna: od 0 do 20, cel wyjściowy)




In [None]:
# sprawdzam brakujące dane, i kategorie danych
type(data_student)
data_student.shape
data_student.columns
data_student.info()


In [None]:
#pozmieniam zmienne objekt na category - jednak nie będę zmieniać
#data_student.school = data_student.school.astype('category')
#data_student.sex = data_student.sex.astype('category')
#data_student.address = data_student.address.astype('category')
#data_student.famsize = data_student.famsize.astype('category')
#data_student.Pstatus = data_student.Pstatus.astype('category')
#data_student.Mjob = data_student.Mjob.astype('category')
#data_student.Fjob = data_student.Fjob.astype('category')
#data_student.reason = data_student.reason.astype('category')
#data_student.guardian = data_student.guardian.astype('category')
#data_student.schoolsup = data_student.schoolsup.astype('category')
#data_student.famsup = data_student.famsup.astype('category')
#data_student.paid = data_student.paid.astype('category')
#data_student.activities = data_student.activities.astype('category')
#data_student.nursery = data_student.nursery.astype('category')
#data_student.romantic = data_student.romantic.astype('category')

In [None]:
num_cols = ['age', 'Medu', 'Fedu', 'traveltime', 'studytime', 'failures', 'famrel', 'freetime', 'goout',
            'Dalc', 'Walc', 'health', 'absences', 'G1', 'G2', 'G3']
cat_cols = ['school', 'sex', 'address', 'famsize', 'Pstatus', 'Mjob', 'Fjob', 'reason', 'guardian', 'schoolsup', 
            'famsup', 'paid', 'activities', 'nursery', 'romantic']

### Przygotowanie danych

In [None]:
#usunięcie kolumny unnamed0 - nic nie wnosi
data_student.drop('Unnamed: 0', axis=1, inplace=True)
data_student.head()

#KODOWANIE ZMIENNYCH KATEGORYCZNYCH
encoder = OneHotEncoder()
transformed_data = encoder.fit_transform(data_student[cat_cols])
print(transformed_data.toarray())

#NORMALIZACJA ZMIENNYCH
scaler = MinMaxScaler()

# Dopasowanie skalera do danych i wykonanie transformacji
data_student_normalized = scaler.fit_transform(data_student[num_cols])
print(data_student_normalized)

In [None]:
#poznaje kolejne kolumny nietypowe
data_student.groupby('school').count()
#nierówność duża między dwiema rodzajami szkół

In [None]:
data_student.groupby('sex').count()

In [None]:
data_student.groupby('address').count()
#głównie miejskie

In [None]:
data_student.groupby('famsize').count()

In [None]:
data_student.groupby('Pstatus').count()
#A - rodzice mieszkający osobno

In [None]:
data_student.groupby('Mjob').count()

In [None]:
data_student.groupby('Fjob').count()

In [None]:
data_student.groupby('reason').count()

In [None]:
data_student.groupby('guardian').count()
#opiekun ucznia

In [None]:
data_student.groupby('schoolsup').count()
#dodatkowe wsparcie edukacyjne

In [None]:
data_student.groupby('famsup').count()
#dodatkowe wsparcie edukacyjne - w rodzinie

In [None]:
data_student.groupby('paid').count()
#dodatkowe wsparcie edukacyjne - płatne zajęcia

In [None]:
data_student.groupby('activities').count()
# zajęcia pozalekcyjne

In [None]:
data_student.groupby('nursery').count()
#przedszkole

In [None]:
data_student.groupby('romantic').count()
#zwiazek

In [None]:
#sprawdzam wartości zmiennej celu - chyba bym pogrupowała w jakieś wartości ocen????

counts = data_student['G3'].value_counts()
percentages = counts / counts.sum() * 100

plt.bar(percentages.index, percentages.values) 
plt.title('G3 Column')
plt.xlabel('G3')
plt.ylabel('Percentage')
plt.show()


In [None]:
#badam zmienne numeryczne
data_student.describe()

# 4. Outliery 



In [None]:
#Szukam outlierów metodą z_scores
data_student_imputed = pd.DataFrame(data_student, columns=num_cols)

means = np.mean(data_student_imputed, axis=0)
sds = np.std(data_student_imputed, axis=0)
z_scores = np.abs(data_student_imputed - means) / sds
outliers = np.where(z_scores > 3)

print(outliers)

In [None]:
data_student_imputed.iloc[outliers[0][outliers[1] >= 3]]

In [None]:
### usunąć outliery

In [None]:
for col in num_cols:
    fig, (ax1, ax2) = plt.subplots(ncols=2, figsize=(18, 5))
    sns.histplot(data=data_student, x=col, hue='G3', kde=True, ax=ax1)
    sns.boxplot(data=data_student, x='G3', y=col, ax=ax2)
    fig.suptitle(f'{col} by G3', fontsize=14)
    plt.show()

In [None]:
# Co ja tu widzę???
#wiek - wraz z wiekiem wzrasta ilość udarów - od 40, średnio 42+, pojeynczy wynik poniżej 20 (może się zdarzyć)
#glukoza - nie widzę szczególnego związku
#bmi - nie wiem co widać???

# 5. Korelacja

In [None]:
corr_P = data_student.corr("pearson", numeric_only=True)
corr_P.shape

In [None]:
corr_P

In [None]:
corr_P_tri = corr_P.where(np.triu(np.ones(corr_P.shape, dtype=bool), k=1)).stack().sort_values()
corr_P_tri

In [None]:
corr_P_tri[abs(corr_P_tri)>0.4]

In [None]:
#Sprawdzam ewentualną korelację 
plt.figure(figsize = (14,14))
plt.title("Correlation between different features of the dataset", fontsize = 16)
sns.heatmap(data_student.corr(numeric_only = True), cmap = 'coolwarm', annot = True)
plt.xticks(fontsize=12, rotation = 90)
plt.yticks(fontsize=12, rotation = 90)
plt.legend(fontsize=12)



In [None]:
#data_numeric = data_student.loc[:, num_cols]
#sns.pairplot(data_numeric, hue = "G3", diag_kind = "kde")
#plt.show()

G1, G2 z G3
Fedu z Medu
Walz z Malz
Walc z GOout


In [None]:
#usuwam kolunmy g1, g2,
# z kol Medu i Pedu zrobię średnią
#z kol Walc i Dalc zrobię średnią


In [None]:
#usuwam kolunmy g1, g2 - są silnie skorelowane z G3

In [None]:
data_student.drop(columns='G1', inplace=True)
data_student.drop(columns='G2', inplace=True)
data_student.head()

In [None]:
#z kol Medu i Fedu zrobię średnią - wtedy otrzymam średnią miedzy wykształceniem rodziców
#z kol Walc i Dalc zrobię średnią - średnią picia alkoholu w tygodniu
# i usunę kolumny Medu i Fedu, Walc i Dalc

In [None]:
data_student['F&Medu'] = data_student.apply(lambda row: row['Fedu']*row['Medu']/2, axis = 1)
data_student['alc'] = data_student.apply(lambda row: row['Walc']*row['Dalc']/2, axis = 1)
data_student.drop(columns='Fedu', inplace=True)
data_student.drop(columns='Medu', inplace=True)
data_student.drop(columns='Walc', inplace=True)
data_student.drop(columns='Dalc', inplace=True)

In [None]:
data_student.head()

In [None]:
# przesunąć kolumny ostatnie przed G3

# 6. Wykresy

In [None]:
# definiuję na nowo cat_cols, i num_cols
num_cols = ['age', 'F&Medu', 'traveltime', 'studytime', 'failures', 'famrel', 'freetime', 'goout',
            'alc', 'health', 'absences', 'G3']
cat_cols = ['school', 'sex', 'address', 'famsize', 'Pstatus', 'Mjob', 'Fjob', 'reason', 'guardian', 'schoolsup', 
            'famsup', 'paid', 'activities', 'nursery', 'romantic']

In [None]:
def generate_plots_and_tables_by_tagret(df: pd.DataFrame, target_column: str = "DefFlag",
                                        num_cols: list = [], cat_cols: list = []) -> None:
    """
    Generate plots of the 'target_column' column with other columns in a pandas dataframe.
    If a column is a string or factor, a bar plot with grouping by 'target_column' will be created.
    If a column is continuous, a histogram, boxplot, and scatter plot with grouping by 'target_column' will be created.
    """
    for column in cat_cols:
        print(column + ":")
        
        plt.figure(figsize=(15, 6))
            
        counts = df.groupby([column, target_column], group_keys=True).size()
        print(counts)
        counts_norm = counts.groupby(level=0, group_keys=False).apply(lambda x: 100 * x / x.sum())
        counts_norm = counts_norm.reset_index(name='percent')
        sns.barplot(x=column, y='percent', hue=target_column, data=counts_norm)
        plt.title(f"'G3' vs '{column}'")
        plt.show()
            
    for column in num_cols:
        
        plt.figure(figsize=(12, 6))
            
        plt.subplot(1, 2, 1)
        sns.histplot(x=column, hue=target_column, data=df, kde=True)
        plt.title(f"'G3' vs '{column}' (Histogram)")
            
        plt.subplot(1, 2, 2)
        sns.boxplot(x=target_column, y=column, data=df)
        plt.title(f"'G3' vs '{column}' (Boxplot)")
            
        plt.tight_layout()
        plt.show()

In [None]:

generate_plots_and_tables_by_tagret(data_student, 'G3', num_cols, cat_cols)

In [None]:
# jakie ja mam wnioski z tych wykresów???
# może podziele oceny na grupy ocen i wtedy lepiej to zobaczę

bins = pd.IntervalIndex.from_tuples([(data_student['G3'].min()-1, 10),(10, 14),(14, 18),(18, data_student['G3'].max()+1)])

x = pd.cut(data_student['G3'].to_list(), bins)
x.category = ['1', '2', '3', '4']

data_student['oceny'] = x

In [None]:
def generate_plots_and_tables_by_tagret(df: pd.DataFrame, target_column: str = "DefFlag",
                                        num_cols: list = [], cat_cols: list = []) -> None:
    """
    Generate plots of the 'target_column' column with other columns in a pandas dataframe.
    If a column is a string or factor, a bar plot with grouping by 'target_column' will be created.
    If a column is continuous, a histogram, boxplot, and scatter plot with grouping by 'target_column' will be created.
    """
    for column in cat_cols:
        print(column + ":")
        
        plt.figure(figsize=(5, 5))
            
        counts = df.groupby([column, target_column], group_keys=True).size()
        print(counts)
        counts_norm = counts.groupby(level=0, group_keys=False).apply(lambda x: 100 * x / x.sum())
        counts_norm = counts_norm.reset_index(name='percent')
        sns.barplot(x=column, y='percent', hue=target_column, data=counts_norm)
        plt.title(f"'oceny' vs '{column}'")
        plt.show()
            
    for column in num_cols:
        
        plt.figure(figsize=(16, 4))
            
        plt.subplot(1, 2, 1)
        sns.histplot(x=column, hue=target_column, data=df, kde=True)
        plt.title(f"'oceny' vs '{column}' (Histogram)")
            
        plt.subplot(1, 2, 2)
        sns.boxplot(x=target_column, y=column, data=df)
        plt.title(f"'oceny' vs '{column}' (Boxplot)")
            
        plt.tight_layout()
        plt.show()

In [None]:
generate_plots_and_tables_by_tagret(data_student, 'oceny', num_cols, cat_cols)

Te wykresy sa czytelniejsze - wnioski - tylko usunmy outliery - czy da się zrobić żby liczyół procentowy udział
szkoła - oceny - MS - ma więcej słabych ponad 60% niezaliczone, ale ma tez procentowy udział celujących ocen
płeć - więcej słabych w grupie dziewcząt
miejsce zamieszkania - więcej slabych w zamieszkaniu wiejskim - dojazd, dostęp do dodatkowych?
wielkość rodziny - słabiej ywpadaja duże rodzinr
status rodziny - rodzice mieszkający osobno lepiej wypadają
praca matki - najgorzej gdy jest w domu, może się to wiązac z wykształceniem
praca ojca - najlepiej gdy jest w domu
powód wybrania szkoły - dobrze gdy ze względu na reoutacje - świadomi uczniowie
opiekun - najgorzej gdy jest inny niż matka i ojciec
wparcie szkoły - lepiej wypadaja uczniowie bez wsparcia - może dlatego że szkoła prowadzi zajęcia wspomagające dla słabszych uczniów
wsparcie rodziny - nic
płatne zajęcia - dla słabszych dają
aktywności - nic
nursery, romantic - nic
age - starsi wiekowo raczej słabiej, pradopodobnie ze względu na powtarzzanie klas i ogólnie słabszość
wykształcenie rodziców - im wyższe tym lepsze oceny i miej ocen niezaliczających
failures - liczba niepowozeń, osoby wcześńiej niezdające w klasach teraz tez niezaliczają
relacje rodzinne - ?
alcohol - w grupie ocen najlepszych nie ma alco za dużo, ??
zdrowie - osoby z lepszymi ocenami - słabiej oceniają zdrowie, 


# 7. Normalizacja zmiennych

# Tworzenie obiektu skaler
scaler = MinMaxScaler()

# Dopasowanie skalera do danych i wykonanie transformacji
data_student_normalized1 = scaler.fit_transform(data_student[num_cols])
print(data_student_normalized1)

# 8. Kodowanie zmiennych kategorycznych

# inicjalizacja OneHotEncoder
encoder = OneHotEncoder()

# dopasowanie i transformacja danych
transformed_data = encoder.fit_transform(data_student[cat_cols])

# wyświetlenie wyników
print(transformed_data.toarray())

In [None]:
#pozmieniam zmienne objekt na category - jednak nie będę zmieniać
data_student.school = data_student.school.astype('category')
data_student.sex = data_student.sex.astype('category')
data_student.address = data_student.address.astype('category')
data_student.famsize = data_student.famsize.astype('category')
data_student.Pstatus = data_student.Pstatus.astype('category')
data_student.Mjob = data_student.Mjob.astype('category')
data_student.Fjob = data_student.Fjob.astype('category')
data_student.reason = data_student.reason.astype('category')
data_student.guardian = data_student.guardian.astype('category')
data_student.schoolsup = data_student.schoolsup.astype('category')
data_student.famsup = data_student.famsup.astype('category')
data_student.paid = data_student.paid.astype('category')
data_student.activities = data_student.activities.astype('category')
data_student.nursery = data_student.nursery.astype('category')
data_student.romantic = data_student.romantic.astype('category')

In [None]:
type(data_student)
data_student.shape
data_student.columns
data_student.info()

# 9. Tworzenie modeli


In [None]:
data_student.columns

In [None]:
data_student["oceny1"] = pd.cut(data_student["G3"],
                         [-1, 10, 21],
                         right=False, labels=["bad", "good"])
data_student["oceny1"].value_counts()

In [None]:
from sklearn.preprocessing import OrdinalEncoder

oe = OrdinalEncoder(categories = [['bad', 'good']],
                   handle_unknown = 'use_encoded_value',
                   unknown_value = np.NaN)

In [None]:
X = data_student.loc[:,['age', 'F&Medu', 'traveltime', 'studytime', 'failures', 'famrel', 'freetime', 'goout',
            'alc', 'health', 'absences']]
y = data_student["oceny1"]

In [None]:
oe.fit(np.asanyarray(y).reshape(-1, 1))
yk = oe.transform(np.asanyarray(y).reshape(-1, 1)).flatten()

In [None]:
X

In [None]:
idx_train, idx_test = sklearn.model_selection.train_test_split(np.arange(X.shape[0]),
                                                             test_size=0.2,
                                                             random_state=12345)
X_train, X_test = X.iloc[idx_train, :], X.iloc[idx_test, :]
y_train, y_test = y[idx_train], y[idx_test]
yk_train, yk_test = yk[idx_train], yk[idx_test]

X_train.shape, X_test.shape, y_train.shape, y_test.shape

In [None]:
data_student.oceny1.value_counts()

In [None]:
y_train.value_counts()

In [None]:
np.round((108/208)*100,1)

In [None]:
y_test.value_counts()

In [None]:
np.round((22/57)*100,1)

In [None]:
knn = sklearn.neighbors.KNeighborsClassifier()
knn.fit(X_train, y_train)

In [None]:
y_pred_train = knn.predict(X_train)
y_pred_test = knn.predict(X_test)
sklearn.metrics.accuracy_score(y_train, y_pred_train)


In [None]:
sklearn.metrics.accuracy_score(yk_test, yk_pred_test)

In [None]:
sklearn.metrics.confusion_matrix(y_test, y_pred_test)

In [None]:
y_test.value_counts()

In [None]:
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay, RocCurveDisplay

In [None]:
cm = confusion_matrix(y_test, y_pred_test, labels=knn.classes_)
disp = ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=knn.classes_)
disp.plot()
plt.show()