# Predicción de derrame cerebral
### Objetivo
Predecir para una determinada persona, en base a determinadas características fisiológicas y sociales, la posibilidad de que tenga un derrame cerebral. 

In [25]:
import pandas as pd
import seaborn as sns

Cargar el dataset "Stroke Prediction". Se encuentra disponible el script `download_dataset.sh` para su descarga desde Kaggle.

In [None]:
df = pd.read_csv("healthcare-dataset-stroke-data.csv")
df.head()

### Transformación de los datos
Transformación de variables categóricas. Posible mediante **One-Hot encoding** dada que la cantidad de categorías es relativamente baja y con poca probabilidad de cambiar/extenderse en el futuro.

In [None]:
# Cathegoric variables transformation
print("Applying One-Hot encoding to:")
for label, to_drop in [
    ("gender", "Other"),
    ("ever_married", "No"),
    ("work_type", "children"),
    ("Residence_type", "Rural"),
    ("smoking_status", "Unknown"),
]:
    unique_values = df[label].unique()
    print(label + ":", unique_values)
    prefix = "is" if len(unique_values) > 2 else label
    one_hot = pd.get_dummies(data=df[label], prefix=prefix).drop(
        prefix + "_" + to_drop if prefix else to_drop, axis=1
    )
    df.drop(label, axis=1, inplace=True)
    df = df.join(one_hot)
df.head()

In [None]:
df.describe()

In [None]:
sns.countplot(df, x="stroke", hue="work_type")

In [None]:
sns.pairplot(df.drop(columns=["id"]), hue="stroke", diag_kind="hist")

In [None]:
sns.heatmap(df.drop(columns=["id"]).corr())