## Exploración Inicial y Limpieza de Datos

In [None]:
# Importación de librerías necesarias
import pandas as pd
import numpy as np

# Carga del dataset
file_path = "data/diabetes.csv"
data = pd.read_csv(file_path)

# Mostrar las primeras filas del dataset
print("Primeras filas del dataset:")
print(data.head())

# Diccionario de datos
print("\nDescripción de las columnas:")
print("""
- Pregnancies: Número de embarazos.
- Glucose: Concentración de glucosa en plasma a las 2 horas en una prueba oral de tolerancia a la glucosa.
- BloodPressure: Presión arterial diastólica (mm Hg).
- SkinThickness: Espesor del pliegue cutáneo del tríceps (mm).
- Insulin: Niveles séricos de insulina a las 2 horas (mu U/ml).
- BMI: Índice de masa corporal (peso en kg / (altura en m)^2).
- DiabetesPedigreeFunction: Función de pedigrí de diabetes.
- Age: Edad (años).
- Outcome: Variable objetivo (1: diabetes, 0: no diabetes).
""")

# Identificación de valores duplicados
print("\nNúmero de registros duplicados:", data.duplicated().sum())
if data.duplicated().sum() > 0:
    data = data.drop_duplicates()
    print("Duplicados eliminados.")

# Verificación y ajuste de tipos de datos
print("\nTipos de datos antes de ajustes:")
print(data.dtypes)

# Convertir columnas a tipo numérico si es necesario (Ejemplo: asegurarnos de que no hay strings mal formateados)
data = data.apply(pd.to_numeric, errors='coerce')
print("\nTipos de datos después de ajustes:")
print(data.dtypes)

# Detección de valores faltantes
print("\nNúmero de valores faltantes por columna:")
print(data.isnull().sum())

# Manejo de valores faltantes (Imputación con la mediana)
data.fillna(data.median(), inplace=True)
print("\nRevisión después de manejar valores faltantes:")
print(data.isnull().sum())

# Guardar la versión limpia del dataset en la carpeta de data manipulada
cleaned_file_path = "data/manipulado/diabetes_cleaned.csv"
data.to_csv(cleaned_file_path, index=False)
print(f"\nDataset limpio guardado en {cleaned_file_path}")

Primeras filas del dataset:
   Pregnancies  Glucose  BloodPressure  SkinThickness  Insulin   BMI  \
0            6      148             72             35        0  33.6   
1            1       85             66             29        0  26.6   
2            8      183             64              0        0  23.3   
3            1       89             66             23       94  28.1   
4            0      137             40             35      168  43.1   

   DiabetesPedigreeFunction  Age  Outcome  
0                     0.627   50        1  
1                     0.351   31        0  
2                     0.672   32        1  
3                     0.167   21        0  
4                     2.288   33        1  

Descripción de las columnas:

- Pregnancies: Número de embarazos.
- Glucose: Concentración de glucosa en plasma a las 2 horas en una prueba oral de tolerancia a la glucosa.
- BloodPressure: Presión arterial diastólica (mm Hg).
- SkinThickness: Espesor del pliegue cutáneo de