
Celem projektu jest analiza danych dotyczących udaru mózgu, znajdujących się w pliku `healthcare-dataset-stroke-data.csv`. Wyniki należy przedstawić w formie  raportu (RMarkdown, Jupyter, etc.) zawierającego kod programu jak i opisy dokonywanych decyzji. Analiza powinna zawierać co najmniej następujące punkty:

1. Czyszczenie danych (usuwanie/inputacja braków danych, naprawa błędów, transformacje danych, rozwiązanie problemu wartości odstających)
2. Eksploracyjna analiza danych
3. Zamodelowanie zmiennej `stroke` na podstawie pozostałych zmiennych. Minimum 3 modele.
4. Ewaluacja na zbiorze testowym (wybór modelu i metryk z uzasadnieniem)

Możliwe jest rozwiązaniem w języku R lub Python. Rozwiązania wysłać do 24.01.2022 na adres mailowy: michalmaj116@gmail.com z tytułem "studia podyplomowe"


# 1. Importy

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import sklearn
#from sklearn.impute import SimpleImputer
#from sklearn.impute import KNNImputer
from sklearn.preprocessing import OneHotEncoder
#from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import MinMaxScaler

#from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
#from sklearn.linear_model import LogisticRegression
#from sklearn.metrics import f1_score, roc_curve, auc

from imblearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
#from sklearn.model_selection import cross_val_score
from sklearn.model_selection import RepeatedStratifiedKFold, GridSearchCV
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.ensemble import BaggingClassifier
from imblearn.over_sampling import SMOTE

# 2. Wczytanie danych

In [4]:
data_stroke = pd.read_csv("data/student_data.csv", comment="#", sep=';')
data_stroke.head()

Unnamed: 0,Marital status,Application mode,Application order,Course,evening attendance,Previous qualification,Nacionality,Mother's qualification,Father's qualification,Mother's occupation,...,Curricular units 2nd sem (credited),Curricular units 2nd sem (enrolled),Curricular units 2nd sem (evaluations),Curricular units 2nd sem (approved),Curricular units 2nd sem (grade),Curricular units 2nd sem (without evaluations),Unemployment rate,Inflation rate,GDP,Output
0,1,8,5,2,1,1,1,13,10,6,...,0,0,0,0,0.0,0,10.8,1.4,1.74,Dropout
1,1,6,1,11,1,1,1,1,3,4,...,0,6,6,6,13.666667,0,13.9,-0.3,0.79,Graduate
2,1,1,5,5,1,1,1,22,27,10,...,0,6,0,0,0.0,0,10.8,1.4,1.74,Dropout
3,1,8,2,15,1,1,1,23,27,6,...,0,6,10,5,12.4,0,9.4,-0.8,-3.12,Graduate
4,2,12,1,3,0,1,1,22,28,10,...,0,6,6,6,13.0,0,13.9,-0.3,0.79,Graduate


# 3. Zrozumienie danych
###Zbiór danych

Streszczenie
zbiór danych utworzony przez instytucję szkolnictwa wyższego (pozyskany z kilku rozłącznych baz danych) dotyczący studentów zapisanych na różne stopnie licencjackie, takie jak agronomia, projektowanie, edukacja, pielęgniarstwo, dziennikarstwo, zarządzanie, opieka społeczna i technologie. Zbiór danych obejmuje informacje znane w momencie rekrutacji studenta (ścieżka akademicka, dane demograficzne i czynniki społeczno-ekonomiczne) oraz wyniki w nauce studentów na koniec pierwszego i drugiego semestru. Dane służą do tworzenia modeli klasyfikacyjnych pozwalających przewidzieć porzucenie nauki przez uczniów i ich sukcesy w nauce. Problem sformułowano jako zadanie klasyfikacyjne trzech kategorii, w którym występuje silna nierównowaga w kierunku jednej z klas.

Wstęp
Ten zbiór danych bada korelację między odsetkiem osób przedwcześnie kończących naukę a sukcesami uczniów w różnych środowiskach edukacyjnych. Zawiera kompleksowe informacje na temat demografii uczniów, wyników w nauce i czynników przyczyniających się do przypadków porzucania nauki. Zbiór danych ma na celu dostarczenie nauczycielom, decydentom i badaczom cennych informacji w celu ulepszenia strategii wspierania zatrzymywania uczniów i osiągnięć w nauce.

- Application mode: Zmienna kategoryczna wskazująca sposób stosowania (1 – kawaler 2 – żonaty 3 – wdowiec 4 – rozwiedziony 5 – związek faktyczny 6 – prawnie w separacji).

- Application order: Zmienna numeryczna wskazująca kolejność aplikacji.

- Course: Zmienna kategoryczna wskazująca wybrany kurs.

- evening attendance: Zmienna binarna wskazująca, czy dana osoba uczęszcza na zajęcia w ciągu dnia, czy wieczorem (1 dla dnia, 0 dla wieczoru).

- Previous qualification: Zmienna numeryczna wskazująca poziom poprzedniej kwalifikacji.

- Nationality: Zmienna kategoryczna wskazująca narodowość danej osoby.

- Mother's qualification: Zmienna liczbowa wskazująca poziom kwalifikacji matki.

- Father's qualification: Zmienna liczbowa wskazująca poziom kwalifikacji ojca.

- Mother's occupation: Zmienna kategoryczna wskazująca zawód matki.

- Father's occupation: Zmienna kategoryczna wskazująca zawód ojca.

- Displaced: Binary variable indicating whether the individual has been displaced (1 for displaced, 0 for not displaced).

- Educational special needs: Binary variable indicating whether the individual has educational special needs (1 for yes, 0 for no).

- Debtor: Binary variable indicating whether the individual is a debtor (1 for yes, 0 for no).

- Tuition fees up to date: Binary variable indicating whether the tuition fees are up to date (1 for yes, 0 for no).

- Gender: Binary variable indicating the gender of the individual (1 for male, 0 for female).

- Scholarship holder: Binary variable indicating whether the individual holds a scholarship (1 for yes, 0 for no).

- Age at enrollment: Numeric variable indicating the age of the individual at the time of enrollment.

- International: Binary variable indicating whether the individual is international (1 for yes, 0 for no).

- Curricular units 1st sem (credited): Numeric variable indicating the number of credited curricular units in the 1st semester.

- Curricular units 1st sem (enrolled): Numeric variable indicating the number of enrolled curricular units in the 1st semester.

- Curricular units 1st sem (evaluations): Numeric variable indicating the number of evaluations for curricular units in the 1st semester.

- Curricular units 1st sem (approved): Numeric variable indicating the number of approved curricular units in the 1st semester.

- Curricular units 1st sem (grade): Numeric variable indicating the average grade for curricular units in the 1st semester.

- Curricular units 1st sem (without evaluations): Numeric variable indicating the number of curricular units in the 1st semester without evaluations.

- Curricular units 2nd sem (credited): Numeric variable indicating the number of credited curricular units in the 2nd semester.

- Curricular units 2nd sem (enrolled): Numeric variable indicating the number of enrolled curricular units in the 2nd semester.

- Curricular units 2nd sem (evaluations): Numeric variable indicating the number of evaluations for curricular units in the 2nd semester.

- Curricular units 2nd sem (approved): Numeric variable indicating the number of approved curricular units in the 2nd semester.

- Curricular units 2nd sem (grade): Numeric variable indicating the average grade for curricular units in the 2nd semester.

- Curricular units 2nd sem (without evaluations): Numeric variable indicating the number of curricular units in the 2nd semester without evaluations.

- Unemployment rate: Numeric variable indicating the unemployment rate.

- Inflation rate: Numeric variable indicating the inflation rate.

- GDP: Numeric variable indicating the Gross Domestic Product.

- output: Categorical variable indicating the target variable (e.g., Dropout, Graduate, Enrolled).






- Zawód matki: 

- Zawód ojca: Zmienna kategoryczna wskazująca zawód ojca.

- Przesiedlony: Zmienna binarna wskazująca, czy dana osoba została wysiedlona (1 dla wysiedlonego, 0 dla niewysiedlonego).

- Specjalne potrzeby edukacyjne: Zmienna binarna wskazująca, czy dana osoba ma specjalne potrzeby edukacyjne (1 oznacza tak, 0 oznacza nie).

- Dłużnik : Zmienna binarna wskazująca, czy dana osoba jest dłużnikiem (1 oznacza tak, 0 oznacza nie).

- Aktualne opłaty za studia: Zmienna binarna wskazująca, czy opłaty za studia są aktualne (1 na tak, 0 na nie).

- Płeć: Zmienna binarna wskazująca płeć jednostki (1 dla mężczyzny, 0 dla kobiety).

- Posiadacz stypendium: Zmienna binarna wskazująca, czy dana osoba posiada stypendium (1 oznacza tak, 0 oznacza nie).

- Wiek w chwili rejestracji: Zmienna numeryczna wskazująca wiek danej osoby w momencie rejestracji.

- Międzynarodowy: Zmienna binarna wskazująca, czy dana osoba jest międzynarodowa (1 oznacza tak, 0 nie).

- Jednostki programowe 1 sem (zaliczenie): Zmienna liczbowa wskazująca liczbę zaliczonych jednostek programowych w 1 semestrze.

- Jednostki programowe I sem (zapisane): Zmienna liczbowa wskazująca liczbę zapisanych jednostek programowych w pierwszym semestrze.

- Jednostki programowe I sem. (oceny): Zmienna numeryczna określająca liczbę ocen z jednostek programowych w I semestrze.

- Jednostki programowe I sem (zatwierdzone): Zmienna liczbowa wskazująca liczbę zatwierdzonych jednostek programowych w pierwszym semestrze.

- Jednostki programowe sem. 1 (ocena): Zmienna liczbowa określająca średnią ocen z jednostek programowych w semestrze 1.

- Jednostki programowe I sem. (bez ocen): Zmienna numeryczna określająca liczbę jednostek programowych w I semestrze bez ocen.

- Jednostki programowe sem 2 (zaliczenie): Zmienna numeryczna określająca liczbę zaliczonych jednostek programowych w 2 semestrze.

- Jednostki programowe sem 2 (zapisane): Zmienna liczbowa wskazująca liczbę jednostek programowych zaliczonych w sem. 2.

- Jednostki programowe sem II (oceny): Zmienna numeryczna określająca liczbę ocen z jednostek programowych w semestrze II.

- Jednostki programowe sem. II (zatwierdzone): Zmienna liczbowa wskazująca liczbę zatwierdzonych jednostek programowych w semestrze II.

- Jednostki programowe sem II (ocena): Zmienna liczbowa określająca średnią ocen z jednostek programowych w semestrze II.

- Jednostki programowe sem 2 (bez ocen): Zmienna numeryczna określająca liczbę jednostek programowych w sem. 2 bez ocen.

- Stopa bezrobocia: Zmienna numeryczna wskazująca stopę bezrobocia.

- Stopa inflacji: Zmienna numeryczna wskazująca stopę inflacji.

- PKB: Zmienna liczbowa wskazująca Produkt Krajowy Brutto.

- wynik: Zmienna kategoryczna wskazująca zmienną docelową (np. Rezygnacja, Absolwent, Zapisany).
##### Dane dotyczące udaru mózgu.
**id** -numer pacjenta

**gender** - płeć

**age** - wiek w latach

**hypertension** - nadciśnienie (0/1) 
 
**heart_disease** - choroba serca (0/1)

**ever_married** - czy pacjent był zonaty/zamężny (yes/no)

**Residence_type** - miejsce zamieszkania - urban - miejski, rural - wiejski

**work_type** - typ pracy - 5 rodzajów - self-employed(samozatrudniony), Govt_job - praca rządowa

**avg_glucose_level** -średni poziom glukozy, nie ma jednostek i skali??? (wg. 	eAG (mg/dL) - może być do 300
    Normal range: less than 114 mg/dL
    Prediabetes range: greater than 114 mg/dL and less than 140 mg/dL
    Diabetes range: greater than 140 mg/dL
    
**bmi** - bmi

**smoking_status** -formerly smoked - wcześniej palący

**stroke** - udar - tak/nie, zmienna celu

In [None]:
type(data_stroke)
data_stroke.shape
data_stroke.columns
data_stroke.info()

In [None]:
#INFORMACJE O DANYCH
#rózne typy danych - trzeba pozmieniać
#BMI - barkuje 201 kolumn - ?? - trzeba zrobić coś na NaNami
#zmienić hypertension, heart_disease, do ever_maried, work_type, residence_type, smiking_status zobiektowych na kategoryczne


In [None]:
#pozmieniam zmienne objekt na category - jak to zrobić w jednej linijce???
data_stroke.gender = data_stroke.gender.astype('category')
data_stroke.hypertension = data_stroke.hypertension.astype('category')
data_stroke.heart_disease = data_stroke.heart_disease.astype('category')
data_stroke.ever_married = data_stroke.ever_married.astype('category')
data_stroke.work_type = data_stroke.work_type.astype('category')
data_stroke.Residence_type = data_stroke.Residence_type.astype('category')
data_stroke.smoking_status = data_stroke.smoking_status.astype('category')
data_stroke.stroke = data_stroke.stroke.astype('category')

In [None]:
#usunięcie kolumny ID - nic nie wnosi
data_stroke.drop('id', axis=1, inplace=True)

In [None]:
#szukanie braków danych
data_stroke_nan_index = data_stroke.index[data_stroke.isnull().any(axis=1)]
data_stroke.iloc[data_stroke_nan_index]

In [None]:
#usuwanie/imputacja braków danych - wszystkich obserwacji 5110 (100%), więc 201 to będzie niecałe 4%, 
#zacznę od usunięcia i zobaczę co dalej będzie
data_stroke.dropna(inplace=True)
data_stroke.info()

In [None]:
#imputer = KNNImputer(n_neighbors=5)
#data_stroke_imputed = imputer.fit_transform(data_stroke)

#imp = SimpleImputer(strategy='mean')
#data_stroke_imp = imp.fit_transform(data_stroke)

In [None]:
#poznaje kolejne kolumny nietypowe
data_stroke.groupby('gender').count()
#gender ma male, female ( w miarę równo rozłożone) i kolumne inne(1 odczyt)

In [None]:
data_stroke.drop(data_stroke[data_stroke['gender']=='Other'].index, inplace=True) ###tu usunąc tego other!!!
data_stroke.groupby('gender').count()

In [None]:
data_stroke.groupby('ever_married').count()
#kolumny yes, no(trochę nierówno 1727:3353)

In [None]:
data_stroke.groupby('work_type').count()
#5 rodzajów - govt job - praca rządowa,

In [None]:
data_stroke.groupby('Residence_type').count()
#tylko miejskie i wiejskie(równo ułożone)

In [None]:
data_stroke.groupby('smoking_status').count()
#4 rodzaje - w tym jeden - unknown

In [None]:
data_stroke.groupby('stroke').count()
#zmienna celu
#tu mamy dwa rodzaje - duża nierówność prawie 5000:250

In [None]:
#Przy klasyfikacji jednym z najwazniejszych pytań podczas eksploracyjnej analizy danych 
#jest zbalansowanie zmiennej zaleznej a raczej jego brak. 
#W przypadku niezbalansowanych danych dużo trudniej jest zbudować dobrze działający klasyfikator.

counts = data_stroke['stroke'].value_counts()
percentages = counts / counts.sum() * 100

plt.bar(percentages.index, percentages.values) # zmienić na yes/no poziomą wartość
plt.title('Stroke Column')
plt.xlabel('Stroke')
plt.ylabel('Percentage')
plt.show()
#zmienna niezbilansowana i co tu zrobić???

In [None]:
#badam zmienne numeryczne
data_stroke.describe()

# 4. Outliery 
wiek i glukoza wyglądają znośnie, BMI ma dziwne wyniki

poniżej 16 - wygłodzenie
16 - 16.99 - wychudzenie
17 - 18.49 - niedowagę
18.5 - 24.99 - wagę prawidłową
25.0 - 29.9 - nadwagę
30.0 - 34.99 - I stopień otyłości
35.0 - 39.99 - II stopień otyłości
powyżej 40.0 - otyłość skrajną


In [None]:
#Szukam outlierów metodą z_scores
data_stroke_imputed = pd.DataFrame(data_stroke, columns=['age', 'avg_glucose_level', 'bmi'])

means = np.mean(data_stroke_imputed, axis=0)
sds = np.std(data_stroke_imputed, axis=0)
z_scores = np.abs(data_stroke_imputed - means) / sds
outliers = np.where(z_scores > 3)

print(outliers)

In [None]:
data_stroke_imputed.iloc[outliers[0][outliers[1] == 2]]
data_stroke = data_stroke[data_stroke["bmi"] <= 52] #powyżej 60 to chyba niemożliwe 

In [None]:
num_cols = ['age', 'avg_glucose_level', 'bmi']

for col in num_cols:
    fig, (ax1, ax2) = plt.subplots(ncols=2, figsize=(10, 5))
    sns.histplot(data=data_stroke, x=col, hue='stroke', kde=True, ax=ax1)
    sns.boxplot(data=data_stroke, x='stroke', y=col, ax=ax2)
    fig.suptitle(f'{col} by stroke', fontsize=14)
    plt.show()

In [None]:
# Co ja tu widzę???
#wiek - wraz z wiekiem wzrasta ilość udarów - od 40, średnio 42+, pojeynczy wynik poniżej 20 (może się zdarzyć)
#glukoza - nie widzę szczególnego związku
#bmi - nie wiem co widać???

# 5. Korelacja

In [None]:
#Sprawdzam ewentualną korelację pomiędzy zmiennymi  numerycznymi
plt.figure(figsize = (12,12))
plt.title("Correlation between different features of the dataset", fontsize = 18, fontweight = 'bold')
sns.heatmap(data_stroke.corr(numeric_only = True), cmap = 'Greens_r', annot = True)
plt.xticks(fontsize=12, rotation = 90)
plt.yticks(fontsize=12, rotation = 90)
plt.legend(fontsize=12)

#korelacji nie ma
#czy da się zbadać korelcję z kategorycznymi???

# 6. Wykresy

In [None]:
def generate_plots_and_tables_by_tagret(df: pd.DataFrame, target_column: str = "DefFlag",
                                        numeric_cols: list = [], categorical_cols: list = []) -> None:
    """
    Generate plots of the 'target_column' column with other columns in a pandas dataframe.
    If a column is a string or factor, a bar plot with grouping by 'target_column' will be created.
    If a column is continuous, a histogram, boxplot, and scatter plot with grouping by 'target_column' will be created.
    """
    for column in categorical_cols:
        print(column + ":")
        
        plt.figure(figsize=(8, 6))
            
        counts = df.groupby([column, target_column], group_keys=True).size()
        print(counts)
        counts_norm = counts.groupby(level=0, group_keys=False).apply(lambda x: 100 * x / x.sum())
        counts_norm = counts_norm.reset_index(name='percent')
        sns.barplot(x=column, y='percent', hue=target_column, data=counts_norm)
        plt.title(f"'stroke' vs '{column}'")
        plt.show()
            
    for column in numeric_cols:
        
        plt.figure(figsize=(18, 6))
            
        plt.subplot(1, 2, 1)
        sns.histplot(x=column, hue=target_column, data=df, kde=True)
        plt.title(f"'stroke' vs '{column}' (Histogram)")
            
        plt.subplot(1, 2, 2)
        sns.boxplot(x=target_column, y=column, data=df)
        plt.title(f"'stroke' vs '{column}' (Boxplot)")
            
        plt.tight_layout()
        plt.show()

In [None]:
num_cols = ['age', 'avg_glucose_level', 'bmi']
cat_cols = ['gender', 'hypertension', 'heart_disease', 'ever_married', 'work_type', 'Residence_type', 'smoking_status']
generate_plots_and_tables_by_tagret(data_stroke, 'stroke', num_cols, cat_cols)

In [None]:
# jakie ja mam wnioski z tych wykresów???
#może źle je robię???
#nadciśnienie, choroby serca - ma jakiś wpływ
#never worked i children nie mają, największa ilośc udarów przy samozatrudnieniu 
#palenie ma wpływ

In [None]:
#object_columns = data_stroke.select_dtypes(include='object').columns.drop('stroke')

#for col in object_columns:
#    fig, ax = plt.subplots(nrows=1, ncols=2, figsize=(16, 6))
    
#    data_stroke.groupby(col)['stroke'].value_counts(normalize=False).unstack().plot(kind='bar', stacked=True, ax=ax[0])
#    ax[0].set_title(col + ' (Non-Normalized)')
#    ax[0].set_xlabel(col)
#    ax[0].set_ylabel('Count')

#    data_stroke.groupby(col)['stroke'].value_counts(normalize=True).unstack().plot(kind='bar', stacked=True, ax=ax[1])
#    ax[1].set_title(col + ' (Normalized)')
#    ax[1].set_xlabel(col)
#    ax[1].set_ylabel('Procent')

#    plt.show()

#coś mi tu nie idze, choc te byłyby lepsze

# 7. Normalizacja zmiennych

In [None]:
# Tworzenie obiektu skaler
scaler = MinMaxScaler()

# Dopasowanie skalera do danych i wykonanie transformacji
data_stroke_normalized1 = scaler.fit_transform(data_stroke[num_cols])
print(data_stroke_normalized1)

# 8. Kodowanie zmiennych kategorycznych

In [None]:
# inicjalizacja OneHotEncoder
encoder = OneHotEncoder()

# dopasowanie i transformacja danych
transformed_data = encoder.fit_transform(data_stroke[cat_cols])

# wyświetlenie wyników
print(transformed_data.toarray())

# 9. Tworzenie modeli


In [None]:
#wybór indeksów do zbioru treningowego i testowego (funkcja train_test_split)
X, y = data_stroke.drop(columns=['stroke'], axis=1), data_stroke['stroke']
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)

cat_ix = X.select_dtypes(include=['object', 'bool']).columns
num_ix = X.select_dtypes(include=['int64', 'float64']).columns

In [None]:
y_train.value_counts()

In [None]:
156/(156+3480)

In [None]:
y_test.value_counts()

In [None]:
52/(52+1161)

In [None]:
#podział na zbiorze testowym trochę odbiega od uczącego, ale do zaakceptowania

In [None]:
names = ['CART', 'BAG', 'RF', 'GBM']
models = [
    DecisionTreeClassifier(),
    BaggingClassifier(n_estimators=200),
    RandomForestClassifier(n_estimators=200),
    GradientBoostingClassifier(n_estimators=200)
]

In [None]:
results = list()
for i in range(len(names)):
    transformation_steps = [
        ('c', OneHotEncoder(handle_unknown='ignore'), cat_ix),
        ('n', MinMaxScaler(), num_ix)
    ]
    ct = ColumnTransformer(transformation_steps)
    pipeline = Pipeline(
        steps=[
            ('transform', ct),
            ('smote', SMOTE()),
            ('model', models[i])
        ])
    cv = RepeatedStratifiedKFold(n_splits=5, n_repeats=3, random_state=0)
    scores = cross_val_score(pipeline, X_train, y_train, scoring='f1', cv=cv, n_jobs=-1)
    results.append(scores)
    print('>%s %.3f (%.3f)' % (names[i], np.mean(scores), np.std(scores)))
plt.boxplot(results, labels=names, showmeans=True)
plt.show()

In [None]:
transformation_steps = [
    ('c', OneHotEncoder(handle_unknown='ignore'), cat_ix),
    ('n', MinMaxScaler(), num_ix)
]
ct = ColumnTransformer(transformation_steps)
pipeline = Pipeline(
    steps=[
        ('transform', ct),
        ('smote', SMOTE()),
        ('model', GradientBoostingClassifier())
    ])
cv = RepeatedStratifiedKFold(n_splits=5, n_repeats=3, random_state=0)
param_grid = {
    "model__n_estimators": [50, 100] 
}
grid_search = GridSearchCV(
    estimator=pipeline, param_grid=param_grid, cv=cv, scoring="f1_macro"
)
grid_search.fit(X_train, y_train)

In [None]:
best_estimator = grid_search.best_estimator_

y_pred = best_estimator.predict(X_test)

from sklearn.metrics import classification_report, confusion_matrix, roc_auc_score

print(classification_report(y_test, y_pred))
print(confusion_matrix(y_test, y_pred))
print('ROC AUC score:', roc_auc_score(y_test, y_pred))