# Manipulación de datos (preprocesamiento)


**Ejercicio 1.** Descarga del aula virtual el dataset y crea un dataframe llamado df_diabetes para trabajar con el.  

**Ejercicio 2.** Obten una lista de todas las columnas que tiene.

In [None]:
import pandas as pd

# Cargar los datos desde un archivo CSV
file_path = 'data.csv'
data = pd.read_csv(file_path)

# Obtener la lista de todas las columnas
columnas = data.columns.tolist()

# Imprimir la lista de columnas
print("Lista de columnas:", columnas)


**Ejercicio 3.** Identifica qué columas con categóricas y cuales numéricas

In [None]:
import pandas as pd

# Cargar los datos desde un archivo CSV
file_path = 'data.csv'
data = pd.read_csv(file_path)

# Identificar tipos de datos
tipos_de_datos = data.dtypes

# Separar columnas categóricas y numéricas
columnas_categoricas = tipos_de_datos[tipos_de_datos == 'object'].index.tolist()
columnas_numericas = tipos_de_datos[tipos_de_datos != 'object'].index.tolist()

# Imprimir las columnas categóricas y numéricas
print("Columnas categóricas:", columnas_categoricas)
print("Columnas numéricas:", columnas_numericas)


**Ejercicio 4.** De la lista de columnas categóricas identifica de qué tipo son: ordinales o nominales.

In [None]:
import pandas as pd

# Cargar los datos desde un archivo CSV
file_path = 'data.csv'
data = pd.read_csv(file_path)

# Identificar columnas categóricas (suponiendo que ya hemos hecho esto en el ejercicio anterior)
columnas_categoricas = data.select_dtypes(include=['object']).columns.tolist()

# Diccionario para almacenar el tipo de cada columna categórica
columnas_categoricas_tipos = {}

# Manualmente identificar si las columnas son nominales u ordinales
# Aquí se debe conocer el contexto de los datos, esto es solo un ejemplo
for col in columnas_categoricas:
    # Ejemplo de categorías ordinales
    if col in ['education_level', 'rating', 'experience_years']:
        columnas_categoricas_tipos[col] = 'ordinal'
    # Ejemplo de categorías nominales
    elif col in ['gender', 'color', 'country']:
        columnas_categoricas_tipos[col] = 'nominal'
    else:
        columnas_categoricas_tipos[col] = 'unknown'  # Si no estamos seguros, lo marcamos como desconocido

# Imprimir los resultados
for col, tipo in columnas_categoricas_tipos.items():
    print(f"Columna: {col}, Tipo: {tipo}")


**Ejercicio 5.** Estamos interesados en transformar las columnas categóricas a numéricas. Implementa dicha transformación teniendo en cuenta que 'smoking_history' es considerado como una variable categórica ordinal.

In [None]:
from sklearn.preprocessing import OneHotEncoder, OrdinalEncoder

# Crear el encoder para las columnas ordinales
ordinal_encoder = OrdinalEncoder()

# Aplicar el encoder a las columnas ordinales
data[columnas_ordinales] = ordinal_encoder.fit_transform(data[columnas_ordinales])

# Crear el encoder para las columnas nominales
onehot_encoder = OneHotEncoder(drop='first', sparse=False)

# Aplicar el encoder a las columnas nominales
encoded_nominales = onehot_encoder.fit_transform(data[columnas_nominales])

# Crear un DataFrame con las columnas codificadas
encoded_nominales_df = pd.DataFrame(encoded_nominales, columns=onehot_encoder.get_feature_names_out(columnas_nominales))

# Restablecer el índice para concatenar correctamente
data.reset_index(drop=True, inplace=True)
encoded_nominales_df.reset_index(drop=True, inplace=True)

# Concatenar los DataFrames original y codificado
data = pd.concat([data.drop(columns=columnas_nominales), encoded_nominales_df], axis=1)

# Imprimir el DataFrame transformado
print(data.head())


**Ejercicio 6.** Elimina aquellas ocurrencias en las que el genero no sea ni femenino ni masculino. Antes de eliminarlas identifica qué porcentaje de todas las ocurrencias vas a eliminar.

In [None]:
import pandas as pd

# Cargar los datos desde un archivo CSV
file_path = 'data.csv'
data = pd.read_csv(file_path)

# Mostrar las primeras filas del DataFrame para verificar
print(data.head())

# Identificar ocurrencias donde el género no es ni 'female' ni 'male'
invalid_gender_mask = ~data['gender'].isin(['female', 'male'])

# Calcular el porcentaje de ocurrencias a eliminar
num_invalid = invalid_gender_mask.sum()
total_rows = len(data)
percentage_invalid = (num_invalid / total_rows) * 100

print(f"Porcentaje de ocurrencias a eliminar: {percentage_invalid:.2f}%")

# Eliminar las filas con género inválido
data_cleaned = data[~invalid_gender_mask]

# Mostrar las primeras filas del DataFrame limpio para verificar
print(data_cleaned.head())
print(f"Total de filas después de la limpieza: {len(data_cleaned)}")


**Ejercicio 7.** La columnas a predecir se llama diabetes, identifica qué valores diferentes toma.

In [None]:
import pandas as pd

# Cargar los datos desde un archivo CSV
file_path = 'data.csv'
data = pd.read_csv(file_path)

# Identificar los valores únicos de la columna 'diabetes'
valores_unicos_diabetes = data['diabetes'].unique()

# Imprimir los valores únicos
print("Valores únicos de la columna 'diabetes':", valores_unicos_diabetes)


**Ejercicio 8.** Identifica si el dataset está balanceado de acuerdo al número de personas con género masculino y femenino. Consideraremos que está balanceado si ninguno de ellos supera el 60% del total de ocurrencias. **No hace falta que lo balancees.**

**Ejercicio 9.** Identifica si el dataset está balanceado de acuerdo a la variable a predecir.

**Ejercicio 10.** Balancea el dataset de acuerdo a la variable a predecir. El balanceamiento lo debes hacer de tal forma que el número de ocurrencias sea un valor intermedio entre el que más tiene y el que menos.

**Ejercicio 11.** Identifica aquellas columnas que tengan más del 3% de sus ocurrencias con valores nulos.

**Ejercicio 12.** Completa los valores nulos de la columna smoking_history con el valor 0.

**Ejercicio 13.** Mostrar aquellas ocurrencias que la hipertension sea 0, que el bmi se encuentre entre 7 y 103, que el blood_glucose_level se encuentre entre 100 y 159, y que sea hombre de menos de 30 años que sufra de alguna enfermedad del corazón.

OJO. Únicamente muestralas, no hace falta que modifiques el dataset.

**Ejercicio 14**. Divide el dataset en 3 grupos, el primero será el conjunto de entrenamiento y tendrá el 75% de las ocurrencias, el segundo será el conjunto de test con un 15% de las ocurrencias y finalmente el último con un 10% será el conjunto de validación.

**Ejercicio 15**. Comprobar que los tamaños de los datasets concuerdan con el enunciado que he indicado anteriormente.