# ¿ Que hacer con los valores nulos encontrados en un Dataset ?

Eventualmente, nos encontramos con datos nulos en un dataset. Existen diferentes formas de reemplazar estos datos para obtener un mejor análisis.

## ¿Por qué es importante la corrección de datos nulos en un dataset?
La presencia de valores nulos en un dataset representa un problema, ya que pueden generar modelos de machine learning poco confiables, provocar un análisis incorrecto o una mala predicción de datos. Tratar estos valores es fundamental para realizar un análisis correcto o, en su caso, crear modelos de machine learning óptimos.

## ¿Cómo resolverlo?
Específicamente, me gustaría abordar en este artículo qué tan óptimo es generar un modelo de regresión para predecir los datos faltantes dentro de un dataset.
Para ello, es importante evaluar correctamente el dataset, considerando sus variables, y así determinar si es posible utilizar un modelo de regresión para estimar los valores faltantes.

Como ejemplo, tomaremos el siguiente dataset:

Stroke prediction dataset 
Context
According to the World Health Organization (WHO) stroke is the 2nd leading cause of death globally, responsible for approximately 11% of total deaths.
This dataset is used to predict whether a patient is likely to get stroke based on the input parameters like gender, age, various diseases, and smoking status. Each row in the data provides relavant information about the patient.

Attribute Information
1) id: unique identifier
2) gender: "Male", "Female" or "Other"
3) age: age of the patient
4) hypertension: 0 if the patient doesn't have hypertension, 1 if the patient has hypertension
5) heart_disease: 0 if the patient doesn't have any heart diseases, 1 if the patient has a heart disease
6) ever_married: "No" or "Yes"
7) work_type: "children", "Govt_jov", "Never_worked", "Private" or "Self-employed"
8) Residence_type: "Rural" or "Urban"
9) avg_glucose_level: average glucose level in blood
10) bmi: body mass index
11) smoking_status: "formerly smoked", "never smoked", "smokes" or "Unknown"*
12) stroke: 1 if the patient had a stroke or 0 if not
*Note: "Unknown" in smoking_status means that the information is unavailable for this patient

Acknowledgements
(Confidential Source) - Use only for educational purposes
If you use this dataset in your research, please credit the author.





## Primero pasos 


In [6]:
import pandas as pd
import seaborn as sb
import matplotlib.pyplot as plt
import numpy as np



# df_healthcare = pd.read_csv('./drive/MyDrive/ML/healthcare-dataset-stroke-data.csv')

## Analisar valores nulos en variables 


In [None]:
df_healthcare.isnull().sum()


In [None]:
df_healthcare.describe()

Antes de continuar hagamos un analisis sobre el data set seleccionado.
Este conjunto de datos es útil para investigaciones y análisis enfocados en la predicción de accidentes cerebrovasculares mediante técnicas de aprendizaje automático. Al considerar factores como la edad, enfermedades preexistentes, hábitos de vida y características demográficas, puede apoyar estudios médicos y educativos sobre prevención de ACV.


Estás desarrollando un proyecto para evaluar la viabilidad de implementar un sistema de predicción basado en un modelo de regresión. Este sistema tendría como objetivo rellenar valores nulos en el dataset, analizando las demás variables y utilizando los registros completos para estimar los valores faltantes de forma precisa.

## Análisis y viabilidad del sistema:
Cantidad de valores nulos:
La utilidad del sistema depende directamente de cuántos valores nulos haya en el dataset y en qué columnas se encuentran. Si los valores nulos están concentrados en una o dos columnas clave (por ejemplo, bmi o avg_glucose_level), un modelo de regresión puede ser útil. Sin embargo, si hay muchos valores nulos dispersos, esto puede afectar negativamente la capacidad de generalización del modelo.
