# Clustering and PCA

### Mushroom Dataset

Podeis obtener el conjunto de datos en el siguiente enlace:

[Mushroom Dataset](https://www.kaggle.com/uciml/mushroom-classification)

Como podréis comprobar, hay muchas variables, todas ellas categóricas, por lo que exploraciones con scatterplot no nos serán útiles como en otros casos.

La variable a predecir ``class`` es binaria.


In [148]:
# Carga de librerías, las que hemos considerado básicas, añadid lo que queráis :)

import pandas as pd
import numpy as np
import seaborn as sns
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.decomposition import PCA

In [149]:
#Ruta para guardar las tablas y reportes
ruta='C:/4_F5/012_noSupervisado/Nat_noSupervisado/'

In [150]:
import pandas as pd
import os

def load_data(file_path):
    """
    Carga los datos del archivo CSV.

    Args:
        file_path (str): Ruta al archivo CSV.

    Returns:
        pd.DataFrame: DataFrame con los datos cargados o None si hay un error.
    """

    # Obtener la ruta absoluta del archivo para evitar problemas con rutas relativas
    abs_file_path = os.path.abspath(file_path)

    # Verificar si el archivo existe en la ruta especificada
    if not os.path.exists(abs_file_path):
        # Imprimir mensajes de error detallados si el archivo no existe
        print(f"Error: El archivo no existe en la ruta: {abs_file_path}")
        print(f"Directorio actual: {os.getcwd()}")  # Mostrar el directorio actual para ayudar a depurar
        print("Contenido del directorio:")
        try:
            # Intentar listar el contenido del directorio para ayudar a identificar el problema
            print(os.listdir(os.path.dirname(abs_file_path)))
        except FileNotFoundError:
            print("El directorio no existe.")  # Informar si el directorio tampoco existe
        return None  # Devolver None para indicar que la carga falló

    try:
        # Intentar cargar los datos utilizando pandas
        df = pd.read_csv(abs_file_path)
        print(f"Datos cargados exitosamente. Shape: {df.shape}")  # Confirmar la carga exitosa
        return df
    except Exception as e:
        # Capturar cualquier excepción que ocurra durante la carga e imprimir un mensaje de error
        print(f"Error al cargar los datos: {e}")
        return None



In [None]:
# Bloque de ejemplo de uso (solo se ejecuta si el script se ejecuta directamente)
if __name__ == "__main__":
    # Obtener la ruta al archivo CSV dentro de la estructura del proyecto
    #script_dir = os.path.dirname(os.path.abspath(__file__)) #sólo sirve cuando es .py porque la variable __file__ no está disponible porque no se está ejecutando un script de Python directamente.
    #project_root = os.path.dirname(os.path.dirname(script_dir))
    #data_path = os.path.join(project_root, "data", "mushrooms.csv") #(project_root,"carpeta","subcarpeta","archivo.csv")
    data_path = data_path = os.path.join(os.getcwd(), "data", "mushrooms.csv")

    print(f"Intentando cargar el archivo desde: {data_path}")


    # Llamar a la función load_data para cargar los datos
    
    df = load_data(data_path)
    if df is not None:
        # Imprimir las primeras filas del DataFrame si la carga fue exitosa
        print(df.head())
    else:
        # Imprimir un mensaje de error si la carga falló
        print("No se pudieron cargar los datos. Verifica la ruta del archivo y su existencia.")

### Leer conjunto de datos y primer vistazo

In [None]:
# Leer el csv y sacar por pantalla las cinco primeras filas.

def lectura_csv(df):
    return df.head()
print(lectura_csv(df))

La librería OS nos permite navegar entre los directorios del sistema

### Exploración de datos

In [None]:
# Descripción del conjunto de datos, estándard.


print(df.describe(include='object').T) # con el parámetro include='object' para obtener estadísticas descriptivas para las columnas categóricas.

In [None]:
# Información sobre el tipo de datos de cada feature.
df.info()

In [None]:
print(f'El número de filas del dataset es:\n{df.shape[0]:,}')

In [None]:

# Igual que otras veces, una linea, contar los nulos por variable.
def count_missing(df):
    missing_values = df.isnull().sum()
    if (missing_values == 0).all():
        return "El conteo por columna de valores 'missing' resulta 0. Es decir, no hay valores 'missing'"
    else:
        return missing_values

print(count_missing(df))

In [None]:
#---- Verifica si hay columnas duplicadas
duplicated_cols = df.columns[df.columns.duplicated()]

if len(duplicated_cols) > 0:
    print("Columnas duplicadas:", duplicated_cols)
else:
    print("No hay columnas duplicadas")

In [None]:
for col in df.columns:
    print(df[col].value_counts())

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt
# Crear una figura con múltiples subplots
fig, axs = plt.subplots(nrows=23, ncols=1, figsize=(8, 60))

# Iterar sobre cada variable y crear un gráfico de barras
for i, variable in enumerate(df.columns):
    sns.countplot(x=variable, data=df, ax=axs[i])
    axs[i].set_title(f'Distribución de {variable}')

# Ajustar el layout para que los títulos no se superpongan
plt.tight_layout()

# Mostrar el gráfico
plt.show()

In [None]:
#Considero que valores 'outliers' son aquellos que suponen un 1% del total de registros
for col in df.columns:
    print(df[col].value_counts())

#### Buscar valores extraños. Para ello, ver los valores únicos en cada feature

In [None]:
# Obtener un nuevo dataframe de dos columnas donde en la primera estén las features (features) y en la otra los valores únicos
# asociados (n_values).

values_unique=pd.DataFrame({'categories':df.nunique()})
print(values_unique)

#### Tratar aquellos valores que entendamos que sean nulos


In [162]:
# Imputaciones. Podéis quitar esos puntos (fila entera), imputar con la moda o dejar ese valor como una posibilidad más.

#### Mirad cuántos valores hay en cada feature, ¿Todas las features aportan información? Si alguna no aporta información, eliminadla

In [None]:
# Dejar por el camino si procede.
#Diluyo el df para que se expanda cada features según su categoría
melted_df = pd.melt(df, var_name='Features', value_name='Categories')
grouped_df = melted_df.groupby(['Features', 'Categories']).size().reset_index(name='count_values')

category_totals = grouped_df.groupby('Features')['count_values'].transform('sum')
#machaco la variable
grouped_df['ratio']=round((grouped_df['count_values'] / category_totals ),2)
print(grouped_df)

In [164]:
grouped_df.to_csv(ruta+'tables/df_grouped.csv')

In [None]:
#Voy a filtrar el dataframe agrupado para que --> ¿Qué hago con los ?
#count = (grouped_df['ratio'] < 0.01).sum()
under_one = grouped_df[grouped_df['ratio'] < 0.01]
print(f"Valores menores a 0.01 en la columna 'ratio': {(grouped_df['ratio'] < 0.01).sum()}")
print(under_one)

#### Separar entre variables predictoras y variables a predecir

In [None]:
# La variable que trata de predecir este conjunto de datos es 'class'.
# Por tanto la variable objetivo es 'y'
# las variables predictoras son las columnas son 'x'
y = df['class']
print(y.head())
x =df.drop(columns='class')

print(x.head())

In [None]:
########## Hago ingeniería de características?

In [168]:
##### Miro la correlación entre las variables predictoras para ello hay que codificar primero
corr_matrix = x.corr()
print(corr_matrix)

ValueError: could not convert string to float: 'x'

#### Codificar correctamente las variables categóricas a numéricas

In [None]:
# One Hot Encoder (una linea).


#### Train test split

In [None]:
# Os lo dejamos a todos igual
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)

## PCA

Es un conjunto de datos del que aún no hemos visto nada (no tenemos graficas) así que vamos a hacer algunas. Tenemos el problema de que son muchas variables, **PCA al rescate**: le pedimos que nos de dos dimensiones y las pintamos, sabemos que serán **aquellas que retengan más información**.

In [None]:
pca =       # metodo de sklearn
pca.fit(X_train)

# Representar en un scatterplot y poner en color las etiquetas de entrenamiento

Parece que está bastante separadito, parece que a ojo mucho se puede ver :)

Igualmente, vamos a entrenar un clasificador a ver qué tal lo hace antes de editar más

In [None]:
from sklearn.ensemble import RandomForestClassifier

# 1. Definir el clasificador y el número de estimadores
# 2. Entrenar en train
# 3. Calcular la precisión sobre test

Es un conjunto sencillo y Random Forest es muy bueno en su trabajo, Igualmente, vamos a ver qué tamaño tenemos de dataset:


In [None]:
X_train.shape

¿Muchas features no? Vamos a reducir las usando PCA.

In [None]:
n_features = # definir un rango de valores a probar
scores = []

for n in n_features:

    # Hacer PCA sobre X_train
    # 1. Definir PCA
    # 2. Aprender PCA sobre X_train

    # Entrenar Random Forest
    # 1. Definir el RF
    # 2. Entrenar clasificador

    # Guardar el score


sns.lineplot(x=n_features, y=scores)


Vale, estamos viendo que a partir de unas 10 features ya tenemos el score que queríamos y además hemos reducido las variables a un 10% de las que teníamos, incluso menos que las variables originales.

## Clustering

Viendo que el conjunto de datos es sencillito, podemos intentar hacer algo de clustering a ver qué información podemos obtener.

El primer paso va a ser importar la función de Kmeans de sklearn, y a partir de ahi, vamos a buscar el valor óptimo de clusters. Como hemos visto anteriormente, este valor lo obtenemos, por ejemplo, del codo de la gráfica que representa el total de las distancias de los puntos a los centros de los clusters asociados. Os dejo la página de la documentación de sklearn para que lo busquéis:

[K-Means on sklearn](https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html)

Con esto solo hay que ahora generar los modelos de kmeans, evaluar y pintar la gráfica para los valores de ``k`` que establezcais.




In [None]:
from sklearn.cluster import KMeans

scores = []
k_values = # definir un rango
for a in k_values:

    # Definir Kmeans y ajustar
    # Guardar la predicción

sns.lineplot(x=k_values, y=scores)

Con el valor que hayáis obtenido de la gráfica, podéis obtener una buena aproximación de Kmeans y con ello podemos pasar a explorar cómo de bien han separado la información los distintos clusters. Para ello, se va a hacer un ``catplot``, seaborn os lo hará solito. Con esto lo que se pretende ver es la distribución de la varaible a predecir en función del cluster que haya determinado Kmeans.

In [None]:
# Aprender Kmeans con el valor de K obtenido.

kmeans = # Definir y entrenar Kmeans.

# Preparar el catplot.


# Pintar.
ax = sns.catplot(col=, x=, data=, kind='count',col_wrap=4)

Vamos a ver qué tal queda esto pintado. Para ello, repetimos el scatterplot de antes pero usando como color el cluster asignado por kmeans.

In [None]:
# Entrenar PCA para representar.

# Usar un color por cada cluster.


¿Es bastante parecido no? No es tan bueno como el Random Forest, pero ha conseguido identificar bastante bien los distintos puntos del dataset sin utilizar las etiquetas. De hecho, el diagrama de factor que hemos visto antes muestra que solo un par de clusters son imprecisos. Si no hubieramos tenido etiquetas esta aproximacion nos hubiera ayudado mucho a clasificar los distintos tipos de hongos.