- 1.  Explorando y normalizando datos de diabetes
    
    ### **Contexto:**
    
    Eres un científico de datos en un equipo de salud que investiga factores de riesgo para la diabetes. Te han entregado un conjunto de datos real que contiene información médica de pacientes, y tu tarea es analizarlo y normalizar algunas de sus variables clave para facilitar la detección de patrones.
    
    ### **Objetivos:**
    
    1. **Cargar el dataset** de [Kaggle: Diabetes Data Set](https://www.kaggle.com/datasets/mathchi/diabetes-data-set).
    2. **Calcular estadísticas descriptivas** para entender mejor los datos:
        - Media, mediana y desviación estándar de al menos tres columnas numéricas de tu elección.
    3. **Detectar valores atípicos** usando el rango intercuartílico (IQR).
    4. **Normalizar una de las variables** con Z-score y otra con Min-Max Scaling.
    5. **Clasificar los valores de glucosa** en categorías ("Bajo", "Normal", "Alto") aplicando una función personalizada.
    6. **Agrupar los pacientes por alguna variable categórica** y calcular el promedio de otra variable dentro de cada grupo.

In [None]:
import pandas as pd
import numpy as np
from scipy.stats import zscore
from sklearn.preprocessing import MinMaxScaler

# Cargamos el csv en un dataframe
df = pd.read_csv("diabetes.csv")

# Calculamos la media, mediana y desviación de tres columnas numéricas y las añadimos al dataframe como columnas nuevas
df["Glucose_mean"] = df["Glucose"].mean()
df["Glucose_median"] = df["Glucose"].median()
df["Glucose_std"] = df["Glucose"].std()

df["BloodPressure_mean"] = df["BloodPressure"].mean()
df["BloodPressure_median"] = df["BloodPressure"].median()
df["BloodPressure_std"] = df["BloodPressure"].std()

df["SkinThickness_mean"] = df["SkinThickness"].mean()
df["SkinThickness_median"] = df["SkinThickness"].median()
df["SkinThickness_std"] = df["SkinThickness"].std()

# Calculamos el rango intercuartílico (IQR) para la detección de posibles outlayers
df["iqr_indulin"] = df["Insulin"].quantile(0.75) - df["Insulin"].quantile(0.25)

# Aplicamos dos normalizaciones de datos; una con Z-Score y otra con Min-Max Scaling
# Z-Score
df["zscore_BMI"] = zscore(df["BMI"])
# Min-Max Scaling
scaler = MinMaxScaler() 
array_BMI = np.array(df["BMI"]).reshape(-1, 1) # Pasamos la columna a normalizar a un array de numpy en 2 dimensiones ya que la función que realiza la conversión solo acepta datos con estas características
df["minMaxScaler_BMI"] = scaler.fit_transform(array_BMI)

# Creamos una función personalizada para clasificar la glucosa y creamos una nueva columna aplicando la misma
def clasificar_glucosa(data):
    if data < 100:
        return "Bajo"
    elif data < 140:
        return "Normal"
    else:
        return "Alto"
df["Glucose_clasification"] = df["Glucose"].apply(clasificar_glucosa)

# Agrupamos por la columna Outcame (posee valores de 0 y 1) y calculamos el promedio de edad 
df["outcome_mean_age"] = df.groupby("Outcome")["Age"].transform("mean")

# Imprimimos el dataframe resultante
df

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome,Glucose_mean,...,BloodPressure_median,BloodPressure_std,SkinThickness_mean,SkinThickness_median,SkinThickness_std,iqr_indulin,zscore_BMI,minMaxScaler_BMI,Glucose_clasification,outcome_mean_age
0,6,148,72,35,0,33.6,0.627,50,1,120.894531,...,72.0,19.355807,20.536458,23.0,15.952218,127.25,0.204013,0.500745,Alto,37.067164
1,1,85,66,29,0,26.6,0.351,31,0,120.894531,...,72.0,19.355807,20.536458,23.0,15.952218,127.25,-0.684422,0.396423,Bajo,31.190000
2,8,183,64,0,0,23.3,0.672,32,1,120.894531,...,72.0,19.355807,20.536458,23.0,15.952218,127.25,-1.103255,0.347243,Alto,37.067164
3,1,89,66,23,94,28.1,0.167,21,0,120.894531,...,72.0,19.355807,20.536458,23.0,15.952218,127.25,-0.494043,0.418778,Bajo,31.190000
4,0,137,40,35,168,43.1,2.288,33,1,120.894531,...,72.0,19.355807,20.536458,23.0,15.952218,127.25,1.409746,0.642325,Normal,37.067164
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
763,10,101,76,48,180,32.9,0.171,63,0,120.894531,...,72.0,19.355807,20.536458,23.0,15.952218,127.25,0.115169,0.490313,Normal,31.190000
764,2,122,70,27,0,36.8,0.340,27,0,120.894531,...,72.0,19.355807,20.536458,23.0,15.952218,127.25,0.610154,0.548435,Normal,31.190000
765,5,121,72,23,112,26.2,0.245,30,0,120.894531,...,72.0,19.355807,20.536458,23.0,15.952218,127.25,-0.735190,0.390462,Normal,31.190000
766,1,126,60,0,0,30.1,0.349,47,1,120.894531,...,72.0,19.355807,20.536458,23.0,15.952218,127.25,-0.240205,0.448584,Normal,37.067164
