# Manipulación de datos (preprocesamiento)


**Ejercicio 1.** Descarga del aula virtual el dataset y crea un dataframe llamado df_diabetes para trabajar con el.  

In [2]:
import pandas as pd

# Ruta del archivo CSV
file_path = r'diabetes_prediction_dataset.csv'

# Cargar el archivo CSV en un DataFrame
df_diabetes = pd.read_csv(file_path)

# Mostrar las primeras filas para verificar que se cargó correctamente
df_diabetes.head()

Unnamed: 0,gender,age,hypertension,heart_disease,smoking_history,bmi,HbA1c_level,blood_glucose_level,diabetes
0,Female,80.0,0,1,never,25.19,6.6,140,0
1,Female,54.0,0,0,No Info,27.32,6.6,80,0
2,Male,28.0,0,0,never,27.32,5.7,158,0
3,Female,36.0,0,0,current,23.45,5.0,155,0
4,Male,76.0,1,1,current,20.14,4.8,155,0


**Ejercicio 2.** Obten una lista de todas las columnas que tiene.

In [2]:
# Obtener una lista de todas las columnas del DataFrame
columnas = df_diabetes.columns.tolist()

# Mostrar las columnas
print(columnas)


['gender', 'age', 'hypertension', 'heart_disease', 'smoking_history', 'bmi', 'HbA1c_level', 'blood_glucose_level', 'diabetes']


**Ejercicio 3.** Identifica qué columas con categóricas y cuales numéricas

In [3]:
# Identificar las columnas numéricas
columnas_numericas = df_diabetes.select_dtypes(include=['int64', 'float64']).columns.tolist()

# Identificar las columnas categóricas
columnas_categoricas = df_diabetes.select_dtypes(include=['object', 'category']).columns.tolist()

# Mostrar los resultados
print(f"Columnas numéricas: {columnas_numericas}")
print(f"Columnas categóricas: {columnas_categoricas}")


Columnas numéricas: ['age', 'hypertension', 'heart_disease', 'bmi', 'HbA1c_level', 'blood_glucose_level', 'diabetes']
Columnas categóricas: ['gender', 'smoking_history']


**Ejercicio 4.** De la lista de columnas categóricas identifica de qué tipo son: ordinales o nominales. 

In [None]:
# Ver las columnas categóricas
print(f"Columnas categóricas: {columnas_categoricas}")

# Revisar las categorías de cada columna categórica para identificar si son ordinales o nominales
for col in columnas_categoricas:
    print(f"Columna: {col}")
    print(f"Categorías: {df_diabetes[col].unique()}")

# Si, por ejemplo, columna1 tiene valores 'mujer', 'hombre' y columna2 tiene valores 'bajo', 'medio', 'alto', entonces:
    # columna1 sería nominal.
    # columna2 sería ordinal.


Columnas categóricas: ['gender', 'smoking_history']
Columna: gender
Categorías: ['Female' 'Male' 'Other']
Columna: smoking_history
Categorías: ['never' 'No Info' 'current' 'former' 'ever' 'not current']


**Ejercicio 5.** Estamos interesados en transformar las columnas categóricas a numéricas. Implementa dicha transformación teniendo en cuenta que 'smoking_history' es considerado como una variable categórica ordinal. 

In [7]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder

# Primero, identificamos las columnas categóricas
columnas_categoricas = df_diabetes.select_dtypes(include=['object', 'category']).columns.tolist()

# Creamos el objeto LabelEncoder para convertir variables ordinales a numéricas
label_encoder = LabelEncoder()

# Mapeo manual para la variable ordinal 'smoking_history' (ajusta los valores según el orden real)
# Ejemplo: {'never smoked': 0, 'previously smoked': 1, 'smokes': 2}
df_diabetes['smoking_history'] = df_diabetes['smoking_history'].map({
    'never smoked': 0,
    'previously smoked': 1,
    'smokes': 2
})

# Aplicamos One-Hot Encoding a las variables nominales
df_diabetes = pd.get_dummies(df_diabetes, columns=[col for col in columnas_categoricas if col != 'smoking_history'])

# Mostrar las primeras filas del DataFrame transformado
df_diabetes.head()

Unnamed: 0,age,hypertension,heart_disease,smoking_history,bmi,HbA1c_level,blood_glucose_level,diabetes,gender_Female,gender_Male,gender_Other
0,80.0,0,1,,25.19,6.6,140,0,True,False,False
1,54.0,0,0,,27.32,6.6,80,0,True,False,False
2,28.0,0,0,,27.32,5.7,158,0,False,True,False
3,36.0,0,0,,23.45,5.0,155,0,True,False,False
4,76.0,1,1,,20.14,4.8,155,0,False,True,False


**Ejercicio 6.** Elimina aquellas ocurrencias en las que el genero no sea ni femenino ni masculino. Antes de eliminarlas identifica qué porcentaje de todas las ocurrencias vas a eliminar. 

In [10]:
# Verificar todas las columnas del DataFrame
print(df_diabetes.columns)

# Filtrar las filas donde no hay valores de género asignados (es decir, todas las columnas de género son 0)
df_filtered = df_diabetes[(df_diabetes['gender_Female'] == 1) | 
                          (df_diabetes['gender_Male'] == 1) |
                          (df_diabetes['gender_Other'] == 1)]

# Calcular el porcentaje de ocurrencias eliminadas
porcentaje_eliminado = 100 * (len(df_diabetes) - len(df_filtered)) / len(df_diabetes)
print(f"Porcentaje de ocurrencias eliminadas: {porcentaje_eliminado:.2f}%")

# Eliminar las filas del dataframe original
df_diabetes = df_filtered

# Mostrar las primeras filas para comprobar el cambio
df_diabetes.head()



Index(['age', 'hypertension', 'heart_disease', 'smoking_history', 'bmi',
       'HbA1c_level', 'blood_glucose_level', 'diabetes', 'gender_Female',
       'gender_Male', 'gender_Other'],
      dtype='object')
Porcentaje de ocurrencias eliminadas: 0.00%


Unnamed: 0,age,hypertension,heart_disease,smoking_history,bmi,HbA1c_level,blood_glucose_level,diabetes,gender_Female,gender_Male,gender_Other
0,80.0,0,1,,25.19,6.6,140,0,True,False,False
1,54.0,0,0,,27.32,6.6,80,0,True,False,False
2,28.0,0,0,,27.32,5.7,158,0,False,True,False
3,36.0,0,0,,23.45,5.0,155,0,True,False,False
4,76.0,1,1,,20.14,4.8,155,0,False,True,False


**Ejercicio 7.** La columnas a predecir se llama diabetes, identifica qué valores diferentes toma. 

In [13]:
# Identificar los valores únicos de la columna 'diabetes'
valores_diabetes = df_diabetes['diabetes'].unique()

# Mostrar los valores únicos
print(valores_diabetes)

[0 1]


**Ejercicio 8.** Identifica si el dataset está balanceado de acuerdo al número de personas con género masculino y femenino. Consideraremos que está balanceado si ninguno de ellos supera el 60% del total de ocurrencias. **No hace falta que lo balancees.** 

In [14]:
# Calcular el número total de registros
total_registros = len(df_diabetes)

# Calcular el número de personas por género
num_femenino = df_diabetes['gender_Female'].sum()
num_masculino = df_diabetes['gender_Male'].sum()

# Calcular el porcentaje de cada género
porcentaje_femenino = (num_femenino / total_registros) * 100
porcentaje_masculino = (num_masculino / total_registros) * 100

# Verificar si alguno de los géneros supera el 60%
balanceado = porcentaje_femenino <= 60 and porcentaje_masculino <= 60

# Mostrar los resultados
print(f"Porcentaje de personas con género femenino: {porcentaje_femenino:.2f}%")
print(f"Porcentaje de personas con género masculino: {porcentaje_masculino:.2f}%")
print(f"¿Está el dataset balanceado? {'Sí' if balanceado else 'No'}")

Porcentaje de personas con género femenino: 58.55%
Porcentaje de personas con género masculino: 41.43%
¿Está el dataset balanceado? Sí


**Ejercicio 9.** Identifica si el dataset está balanceado de acuerdo a la variable a predecir. 

In [15]:
# Calcular el número total de registros
total_registros = len(df_diabetes)

# Calcular el número de personas con y sin diabetes
num_con_diabetes = df_diabetes['diabetes'].sum()
num_sin_diabetes = total_registros - num_con_diabetes

# Calcular el porcentaje de personas con y sin diabetes
porcentaje_con_diabetes = (num_con_diabetes / total_registros) * 100
porcentaje_sin_diabetes = (num_sin_diabetes / total_registros) * 100

# Verificar si alguno de los grupos supera el 60%
balanceado = porcentaje_con_diabetes <= 60 and porcentaje_sin_diabetes <= 60

# Mostrar los resultados
print(f"Porcentaje de personas con diabetes: {porcentaje_con_diabetes:.2f}%")
print(f"Porcentaje de personas sin diabetes: {porcentaje_sin_diabetes:.2f}%")
print(f"¿Está el dataset balanceado? {'Sí' if balanceado else 'No'}")

Porcentaje de personas con diabetes: 8.50%
Porcentaje de personas sin diabetes: 91.50%
¿Está el dataset balanceado? No


**Ejercicio 10.** Balancea el dataset de acuerdo a la variable a predecir. El balanceamiento lo debes hacer de tal forma que el número de ocurrencias sea un valor intermedio entre el que más tiene y el que menos. 

In [3]:
import pandas as pd
from sklearn.utils import resample

# Calcular el número de ocurrencias de cada clase en la variable 'diabetes'
num_con_diabetes = df_diabetes[df_diabetes['diabetes'] == 1]
num_sin_diabetes = df_diabetes[df_diabetes['diabetes'] == 0]

# Calcular el número intermedio entre el grupo con más ocurrencias y el grupo con menos
num_intermedio = (len(num_con_diabetes) + len(num_sin_diabetes)) // 2

# Realizar undersampling o oversampling según sea necesario
if len(num_con_diabetes) > len(num_sin_diabetes):
    # Hacer undersampling en el grupo mayoritario (con diabetes)
    num_con_diabetes = resample(num_con_diabetes, replace=False, n_samples=num_intermedio, random_state=42)
    # El grupo con diabetes ya está reducido a 'num_intermedio' registros
elif len(num_sin_diabetes) > len(num_con_diabetes):
    # Hacer oversampling en el grupo minoritario (sin diabetes)
    num_sin_diabetes = resample(num_sin_diabetes, replace=True, n_samples=num_intermedio, random_state=42)
    # El grupo sin diabetes ya está aumentado a 'num_intermedio' registros

# Combinar los dos grupos balanceados
df_balanceado = pd.concat([num_con_diabetes, num_sin_diabetes])

# Mostrar el nuevo balance
print(f"Nuevo número de registros con diabetes: {len(num_con_diabetes)}")
print(f"Nuevo número de registros sin diabetes: {len(num_sin_diabetes)}")
print(f"Total de registros balanceados: {len(df_balanceado)}")

Nuevo número de registros con diabetes: 8500
Nuevo número de registros sin diabetes: 50000
Total de registros balanceados: 58500


**Ejercicio 11.** Identifica aquellas columnas que tengan más del 3% de sus ocurrencias con valores nulos. 

In [4]:
# Calcular el porcentaje de valores nulos por columna
porcentaje_nulos = df_diabetes.isnull().mean() * 100

# Filtrar las columnas que tienen más del 3% de valores nulos
columnas_mas_3porciento_nulos = porcentaje_nulos[porcentaje_nulos > 3]

# Mostrar las columnas con más del 3% de valores nulos
print(columnas_mas_3porciento_nulos)

Series([], dtype: float64)


**Ejercicio 12.** Completa los valores nulos de la columna smoking_history con el valor 0. 

In [5]:
# Completar los valores nulos de la columna 'smoking_history' con el valor 0
df_diabetes['smoking_history'] = df_diabetes['smoking_history'].fillna(0)

# Verificar que se han completado los valores nulos
print(df_diabetes['smoking_history'].isnull().sum())  # Debería devolver 0 si no hay valores nulos

0


**Ejercicio 13.** Mostrar aquellas ocurrencias que la hipertension sea 0, que el bmi se encuentre entre 7 y 103, que el blood_glucose_level se encuentre entre 100 y 159, y que sea hombre de menos de 30 años que sufra de alguna enfermedad del corazón. 

OJO. Únicamente muestralas, no hace falta que modifiques el dataset.

In [10]:
# Filtrar las ocurrencias que cumplan con todas las condiciones
resultado = df_diabetes[
    (df_diabetes['hypertension'] == 0) & 
    (df_diabetes['bmi'] >= 7) & (df_diabetes['bmi'] <= 103) & 
    (df_diabetes['blood_glucose_level'] >= 100) & (df_diabetes['blood_glucose_level'] <= 159) & 
    (df_diabetes['gender'] == 'Male') & 
    (df_diabetes['age'] < 30) & 
    (df_diabetes['heart_disease'] == 1)
]

# Mostrar el resultado
print(resultado)

      gender   age  hypertension  heart_disease smoking_history    bmi  \
47089   Male  10.0             0              1         No Info  29.48   
67003   Male  27.0             0              1           never  26.61   
76293   Male  12.0             0              1         No Info  16.23   
89531   Male   2.0             0              1         No Info  27.42   

       HbA1c_level  blood_glucose_level  diabetes  
47089          6.0                  158         0  
67003          3.5                  130         0  
76293          4.5                  100         0  
89531          4.5                  100         0  


**Ejercicio 14**. Divide el dataset en 3 grupos, el primero será el conjunto de entrenamiento y tendrá el 75% de las ocurrencias, el segundo será el conjunto de test con un 15% de las ocurrencias y finalmente el último con un 10% será el conjunto de validación. 

In [11]:
from sklearn.model_selection import train_test_split

# Dividir el dataset en conjunto de entrenamiento (75%) y el resto (25%)
train_data, temp_data = train_test_split(df_diabetes, test_size=0.25, random_state=42)

# Dividir el "resto" (25%) en conjunto de test (15%) y validación (10%)
test_data, validation_data = train_test_split(temp_data, test_size=0.4, random_state=42)

# Verificar el tamaño de cada conjunto
print(f"Conjunto de entrenamiento: {train_data.shape[0]} ocurrencias")
print(f"Conjunto de test: {test_data.shape[0]} ocurrencias")
print(f"Conjunto de validación: {validation_data.shape[0]} ocurrencias")

Conjunto de entrenamiento: 75000 ocurrencias
Conjunto de test: 15000 ocurrencias
Conjunto de validación: 10000 ocurrencias


**Ejercicio 15**. Comprobar que los tamaños de los datasets concuerdan con el enunciado que he indicado anteriormente. 

In [12]:
# Calcular el total de ocurrencias en el dataset original
total_data = df_diabetes.shape[0]

# Calcular los tamaños de los conjuntos
train_size = train_data.shape[0]
test_size = test_data.shape[0]
validation_size = validation_data.shape[0]

# Calcular el porcentaje de cada conjunto
train_percentage = (train_size / total_data) * 100
test_percentage = (test_size / total_data) * 100
validation_percentage = (validation_size / total_data) * 100

# Mostrar los resultados
print(f"Tamaño total del dataset: {total_data} ocurrencias")
print(f"Tamaño del conjunto de entrenamiento: {train_size} ocurrencias ({train_percentage:.2f}%)")
print(f"Tamaño del conjunto de test: {test_size} ocurrencias ({test_percentage:.2f}%)")
print(f"Tamaño del conjunto de validación: {validation_size} ocurrencias ({validation_percentage:.2f}%)")


Tamaño total del dataset: 100000 ocurrencias
Tamaño del conjunto de entrenamiento: 75000 ocurrencias (75.00%)
Tamaño del conjunto de test: 15000 ocurrencias (15.00%)
Tamaño del conjunto de validación: 10000 ocurrencias (10.00%)
