## Carga de Librerías

In [None]:
# Manipulación de datos

import pandas as pd
from pathlib import Path
import numpy as np

# Gráficos

import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
import hvplot.pandas


# Preprocesamiento y modelado

from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.impute import KNNImputer
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix, precision_score, recall_score, f1_score, accuracy_score

## Importación de los Datos

In [None]:
# Importamos los datos necesarios

ruta_archivo = Path("../###/###.csv")

data_archivo = pd.read_csv(ruta_archivo)

In [None]:
# Transformación de datos categóricos a numéricos para una columna categórica

label_encoder = LabelEncoder()
columna_categorica_numerica = label_encoder.fit_transform(data_archivo["columna_categorica"])
data_archivo["columna_categorica"] = columna_categorica_numerica




# Transformación de datos categóricos a numéricos para varias columnas categóricas

labelencoder_categoricas = {}
for columna in data_archivo.columns:
    if data_archivo[columna].dtype == "object":
        labelencoder_categoricas[columna] = LabelEncoder()
        data_archivo[columna] = labelencoder_categoricas[columna].fit_transform(obesidad_datos[columna].astype(str))

data_archivo.head(10) 

In [None]:
# Comprobamos si faltan valores en el dataframe mediante distintas funciones

data_archivo.info()

data_archivo.isnull().sum()

In [None]:
# Eliminar filas / columnas con valores faltantes

data_archivo.dropna(axis=0, inplace=True) # Columnas

data_archivo.dropna(axis=1, inplace=True) # Filas

In [None]:
# Imputación de los datos

#Creamos y aplicamos el KNNImputer
imputador_knn = KNNImputer(n_neighbors=5)

# Realizar la imputación
datos_imputados = pd.DataFrame(imputador_knn.fit_transform(data_archivo), columns=data_archivo.columns)


datos_imputados.head(10)

In [None]:
# Comprobamos de nuevo los valores NaN

total_nan = datos_imputados.isna().sum().sum()

print(f"Número total de valores nulos: {total_nan}")

In [None]:
# Estandarización de los datos
scaler = StandardScaler() # Crea una instancia de StandardScaler

# Estandariza los datos utilizando la instancia de StandarScaler
data_standardized = scaler.fit_transform(datos_imputados)

# Muestra los datos estandarizados
data_standardized[10]

In [None]:
# Definimos la semilla aleatoria

random_seed = 0

In [None]:
# Primero comprobaremos los distintos componentes del PCA para luego elegir

pca = PCA()
datos.pca = pca.fit_transform(datos_imputados)

# Creamos una visualización de estos componentes principales

plt.figure(figsize=(10, 7))
x = range(1, len(pca.explained_variance_ratio_)+1)
y = pca.explained_variance_ratio.cumsum()
plt.plot(x, y, marker='o', linestyle='--')
plt.title('Varianza explicada por los componentes')
plt.xlabel('Número de componentes')
plt.ylabel('Varianza explicada acumulada')
plt.show()