# Planteamiento

## Introducción

El *stroke* o accidente cerebrovascular (ACV) es una afección grave que ocurre cuando el flujo sanguíneo hacia una parte del cerebro se interrumpe, ya sea por un bloqueo (isquémico) o por la ruptura de un vaso sanguíneo (hemorrágico). Esta interrupción impide que el oxígeno y los nutrientes lleguen a las células cerebrales, lo que puede causar daño permanente o incluso la muerte.

## Problemas con los ACV

El stroke es una amenaza universal porque puede afectar a cualquier persona, independientemente de la edad o el estilo de vida. Factores como la hipertensión, el sedentarismo, la mala alimentación y el estrés aumentan el riesgo, pero incluso personas jóvenes y saludables pueden sufrirlo debido a predisposición genética o causas inesperadas como coágulos. Su alta prevalencia y la posibilidad de presentarse sin advertencias claras lo convierten en un problema de salud pública global

## Problema Orientado al curso

Debido a que, la enfermedad, puede afectar a diferentes personas, sin importar la situación o cuidados personales que tenga. Por ello, la data obtenida puede ser relevante para revelar patrones y puntos estrátegicos, para determinar las causas determinantes de los ACV.

## Problema con la data

Los datos obtenidos de Kaggle, por Federosiano, tienen algunos problemas, principalmente, los datos determinantes, son alfanuméricos, además, si la probabilidad de padecer de un ACV, hasta el momento, es científicamente aleatorio, puede resultar un problema al momento de analizar el comportamiento de los datos.

## Papers para la investigación

* https://www.elsevier.es/es-revista-revista-colombiana-cardiologia-203-articulo-factores-asociados-al-ataque-cerebrovascular-S012056331730061X

* https://www.revespcardiol.org/es-accidente-vascular-cerebralincidencia-mortalidad-factores-articulo-X0300893200093778

* https://www.redalyc.org/pdf/3684/368446344005.pdf

* https://www.nhlbi.nih.gov/es/investigaciones/accidente-cerebrovascular

* https://www.cdc.gov/stroke/es/risk-factors/factores-de-riesgo-de-accidente-cerebrovascular.html

# Carga de Datos

In [7]:
import pandas as pd

# Integrando url del repositorio, para implementar el DataSet
url = "https://raw.githubusercontent.com/AldoVasquez07/MDD_2025_A/refs/heads/main/DataSet/healthcare-dataset-stroke-data.csv"
df = pd.read_csv(url)

df

Unnamed: 0,id,gender,age,hypertension,heart_disease,ever_married,work_type,Residence_type,avg_glucose_level,bmi,smoking_status,stroke
0,9046,Male,67.0,0,1,Yes,Private,Urban,228.69,36.6,formerly smoked,1
1,51676,Female,61.0,0,0,Yes,Self-employed,Rural,202.21,,never smoked,1
2,31112,Male,80.0,0,1,Yes,Private,Rural,105.92,32.5,never smoked,1
3,60182,Female,49.0,0,0,Yes,Private,Urban,171.23,34.4,smokes,1
4,1665,Female,79.0,1,0,Yes,Self-employed,Rural,174.12,24.0,never smoked,1
...,...,...,...,...,...,...,...,...,...,...,...,...
5105,18234,Female,80.0,1,0,Yes,Private,Urban,83.75,,never smoked,0
5106,44873,Female,81.0,0,0,Yes,Self-employed,Urban,125.20,40.0,never smoked,0
5107,19723,Female,35.0,0,0,Yes,Self-employed,Rural,82.99,30.6,never smoked,0
5108,37544,Male,51.0,0,0,Yes,Private,Rural,166.29,25.6,formerly smoked,0


# Meta data

In [8]:
df.info()
df.size
df.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5110 entries, 0 to 5109
Data columns (total 12 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   id                 5110 non-null   int64  
 1   gender             5110 non-null   object 
 2   age                5110 non-null   float64
 3   hypertension       5110 non-null   int64  
 4   heart_disease      5110 non-null   int64  
 5   ever_married       5110 non-null   object 
 6   work_type          5110 non-null   object 
 7   Residence_type     5110 non-null   object 
 8   avg_glucose_level  5110 non-null   float64
 9   bmi                4909 non-null   float64
 10  smoking_status     5110 non-null   object 
 11  stroke             5110 non-null   int64  
dtypes: float64(3), int64(4), object(5)
memory usage: 479.2+ KB


Unnamed: 0,id,gender,age,hypertension,heart_disease,ever_married,work_type,Residence_type,avg_glucose_level,bmi,smoking_status,stroke
0,9046,Male,67.0,0,1,Yes,Private,Urban,228.69,36.6,formerly smoked,1
1,51676,Female,61.0,0,0,Yes,Self-employed,Rural,202.21,,never smoked,1
2,31112,Male,80.0,0,1,Yes,Private,Rural,105.92,32.5,never smoked,1
3,60182,Female,49.0,0,0,Yes,Private,Urban,171.23,34.4,smokes,1
4,1665,Female,79.0,1,0,Yes,Self-employed,Rural,174.12,24.0,never smoked,1


# Abstracción de datos relevantes

In [9]:
def save_in_set(conjunto, columna):
  for valor in columna:
    conjunto.append(valor)
  return set(conjunto)

print('Generos:', save_in_set([], df['gender']))
print('Casados alguna vez', save_in_set([], df['ever_married']))
print('Tipo de trabajo:', save_in_set([], df['work_type']))
print('Tipo de Residencia:', save_in_set([], df['Residence_type']))
print('Fumador status:', save_in_set([], df['smoking_status']))

Generos: {'Other', 'Male', 'Female'}
Casados alguna vez {'Yes', 'No'}
Tipo de trabajo: {'Never_worked', 'Self-employed', 'Govt_job', 'Private', 'children'}
Tipo de Residencia: {'Rural', 'Urban'}
Fumador status: {'never smoked', 'formerly smoked', 'smokes', 'Unknown'}


## Limpieza de Datos

In [10]:
gender = {
    'Female': 0,
    'Male': 1,
    'Other': 2
}

ever_married = {
    'No': 0,
    'Yes': 1
}

work_type = {
    'children': 0,
    'Govt_job': 1,
    'Never_worked': 2,
    'Private': 3,
    'Self-employed': 4
}

residence_type = {
    'Rural': 0,
    'Urban': 1
}

smoking_status = {
    'Unknown': 0,
    'never smoked': 1,
    'smokes': 2,
    'formerly smoked': 3
}

In [11]:
df2 = df.copy()

pd.set_option('future.no_silent_downcasting', True)

# Intercambiando columna por columna del df, reemplazando los valores con el diccionario correspondiente.
# Evitando la copia predeterminada, y determinando su valor, como entero.
df2['gender'] = df2['gender'].replace(gender).infer_objects(copy=False).astype(int)
df2['ever_married'] = df2['ever_married'].replace(ever_married).infer_objects(copy=False).astype(int)
df2['work_type'] = df2['work_type'].replace(work_type).infer_objects(copy=False).astype(int)
df2['Residence_type'] = df2['Residence_type'].replace(residence_type).infer_objects(copy=False).astype(int)
df2['smoking_status'] = df2['smoking_status'].replace(smoking_status).infer_objects(copy=False).astype(int)

# Reemplazando los valores Nan con la media
df2['bmi'] = df2['bmi'].fillna(round(df2['bmi'].mean(), 1))

In [12]:
df2

Unnamed: 0,id,gender,age,hypertension,heart_disease,ever_married,work_type,Residence_type,avg_glucose_level,bmi,smoking_status,stroke
0,9046,1,67.0,0,1,1,3,1,228.69,36.6,3,1
1,51676,0,61.0,0,0,1,4,0,202.21,28.9,1,1
2,31112,1,80.0,0,1,1,3,0,105.92,32.5,1,1
3,60182,0,49.0,0,0,1,3,1,171.23,34.4,2,1
4,1665,0,79.0,1,0,1,4,0,174.12,24.0,1,1
...,...,...,...,...,...,...,...,...,...,...,...,...
5105,18234,0,80.0,1,0,1,3,1,83.75,28.9,1,0
5106,44873,0,81.0,0,0,1,4,1,125.20,40.0,1,0
5107,19723,0,35.0,0,0,1,4,0,82.99,30.6,1,0
5108,37544,1,51.0,0,0,1,3,0,166.29,25.6,3,0
