![Anova](../Image/1_dFuc4tiq-RD02SuBA3HnOw.jpg')

# Análisis de Varianza (ANOVA) para Selección de Características

## Descripción General

El Análisis de Varianza, o ANOVA, es una técnica estadística utilizada para evaluar si existen diferencias significativas entre las medias de múltiples grupos. En el contexto de la selección de características, ANOVA se utiliza para medir la relación de cada característica individual con la variable objetivo, ayudando a seleccionar las características más relevantes para un modelo de aprendizaje supervisado. `scikit-learn` implementa esta técnica a través del método `SelectKBest` y la función `f_classif`, que permite evaluar y seleccionar características basándose en la prueba F de ANOVA de una vía.

## Utilidad de ANOVA en la Selección de Características

La selección de características es esencial en los modelos de Machine Learning para reducir la dimensionalidad de los datos, lo que puede mejorar el rendimiento del modelo y reducir el tiempo de entrenamiento. ANOVA, en particular, es útil cuando trabajamos con datos categóricos en la variable objetivo, ya que nos permite identificar qué características numéricas tienen una variación significativa entre las diferentes categorías o clases de la variable objetivo. Seleccionar solo las características relevantes facilita el proceso de modelado, al tiempo que disminuye el riesgo de sobreajuste y mejora la interpretabilidad del modelo.

## Fundamento Matemático del ANOVA

El análisis ANOVA de una vía compara la varianza entre los grupos (intergrupo) con la varianza dentro de cada grupo (intragrupo) para determinar si existen diferencias significativas en las medias de los grupos. El estadístico F utilizado en ANOVA se define como:

$$
F = \\frac{{\\text{{Varianza entre grupos}}}}{{\\text{{Varianza dentro de los grupos}}}}
$$

1. **Varianza entre grupos**: Mide cuánto varían las medias de los diferentes grupos con respecto a la media global.
   
   $$
   \\text{{Suma de cuadrados entre grupos (SSB)}} = \\sum_{{i=1}}^{k} n_i (\\bar{{X}}_i - \\bar{{X}})^2
   $$

   donde $ n_i $ es el tamaño del grupo $ i $, $ \\bar{{X}}_i $ es la media del grupo $ i $, y $ \\bar{{X}} $ es la media global.

2. **Varianza dentro de los grupos**: Mide cuánto varían los valores dentro de cada grupo respecto a la media de su grupo.
   
   $$
   \\text{{Suma de cuadrados dentro de los grupos (SSW)}} = \\sum_{{i=1}}^{k} \\sum_{{j=1}}^{n_i} (X_{{ij}} - \\bar{{X}}_i)^2
   $$

   donde $ X_{{ij}} $ representa un valor de observación en el grupo $ i $.

3. **Cálculo del Estadístico F**:

   Una vez obtenidas las sumas de cuadrados, el estadístico F se calcula dividiendo la varianza entre grupos por la varianza dentro de los grupos. Un valor F alto sugiere que existe más variación entre los grupos que dentro de ellos, lo que puede indicar diferencias significativas entre las medias de los grupos.

   $$
   F = \\frac{{\\text{{SSB / grados de libertad entre grupos}}}}{{\\text{{SSW / grados de libertad dentro de los grupos}}}}
   $$

   El valor p asociado a este estadístico F nos permite determinar la significancia de la diferencia entre los grupos. Un valor p bajo indica que las diferencias observadas son estadísticamente significativas.

---


In [11]:
# Importacion de recursos
import os
import sys
project_path = os.path.abspath("..")
if project_path not in sys.path:
    sys.path.append(project_path)

import pandas as pd
import matplotlib.pyplot as plt
from Services.Extract import NameDataset # Importamos el dataset Obesidad
from Services.Transforms import Transforms # Importamos la clase Transforms
from Machine.Models import Models # Importamos  la clase Models
from Services.Load import LoadData

In [16]:
df = Transforms(NameDataset.Dataset_Obesidad)
df.read_df()

Unnamed: 0,Gender,Age,Height,Weight,family_history_with_overweight,FAVC,FCVC,NCP,CAEC,SMOKE,CH2O,SCC,FAF,TUE,CALC,MTRANS,NObeyesdad
0,Female,21.000000,1.620000,64.000000,yes,no,2.0,3.0,Sometimes,no,2.000000,no,0.000000,1.000000,no,Public_Transportation,Normal_Weight
1,Female,21.000000,1.520000,56.000000,yes,no,3.0,3.0,Sometimes,yes,3.000000,yes,3.000000,0.000000,Sometimes,Public_Transportation,Normal_Weight
2,Male,23.000000,1.800000,77.000000,yes,no,2.0,3.0,Sometimes,no,2.000000,no,2.000000,1.000000,Frequently,Public_Transportation,Normal_Weight
3,Male,27.000000,1.800000,87.000000,no,no,3.0,3.0,Sometimes,no,2.000000,no,2.000000,0.000000,Frequently,Walking,Overweight_Level_I
4,Male,22.000000,1.780000,89.800000,no,no,2.0,1.0,Sometimes,no,2.000000,no,0.000000,0.000000,Sometimes,Public_Transportation,Overweight_Level_II
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2106,Female,20.976842,1.710730,131.408528,yes,yes,3.0,3.0,Sometimes,no,1.728139,no,1.676269,0.906247,Sometimes,Public_Transportation,Obesity_Type_III
2107,Female,21.982942,1.748584,133.742943,yes,yes,3.0,3.0,Sometimes,no,2.005130,no,1.341390,0.599270,Sometimes,Public_Transportation,Obesity_Type_III
2108,Female,22.524036,1.752206,133.689352,yes,yes,3.0,3.0,Sometimes,no,2.054193,no,1.414209,0.646288,Sometimes,Public_Transportation,Obesity_Type_III
2109,Female,24.361936,1.739450,133.346641,yes,yes,3.0,3.0,Sometimes,no,2.852339,no,1.139107,0.586035,Sometimes,Public_Transportation,Obesity_Type_III


In [26]:
ruta_dinamica = os.path.join("..", "temps", "clusters.txt")
df_cluster = Transforms(ruta_dinamica)

In [28]:
df_cluster.read_df(sep='|')

Unnamed: 0.1,Unnamed: 0,PC1,PC2,PC3,PC4,Cluster
0,0,-1.333029,-0.689743,-0.305922,-0.733236,3
1,1,-0.087728,-0.727529,2.067507,2.956012,3
2,2,0.828980,-1.305978,-0.898384,0.475035,1
3,3,1.305491,0.572544,0.366069,1.250744,0
4,4,-0.690310,0.842111,-0.478263,-0.111392,2
...,...,...,...,...,...,...
2106,2106,1.308977,0.050855,0.890030,-0.685840,0
2107,2107,1.637764,0.536557,0.793394,-0.596949,0
2108,2108,1.720038,0.508361,0.780803,-0.560407,0
2109,2109,2.029482,0.788680,1.045579,-0.377248,0


In [52]:
df_job = pd.merge(df.df, df_cluster.df, left_index=True, right_index=True, how='inner')
df_job.drop('Unnamed: 0',axis=1,inplace=True)

In [54]:
col=['Age', 'Height', 'Weight','FCVC', 'NCP','CH2O','FAF', 'TUE']

In [56]:
Anona = Models(df_job)
Anona.eval_categoricas_objetivo(columnas=col,variable_objetivo='Cluster')

Advertencia: La columna Age ya está codificada o no es categórica.
Advertencia: La columna Height ya está codificada o no es categórica.
Advertencia: La columna Weight ya está codificada o no es categórica.
Advertencia: La columna FCVC ya está codificada o no es categórica.
Advertencia: La columna NCP ya está codificada o no es categórica.
Advertencia: La columna CH2O ya está codificada o no es categórica.
Advertencia: La columna FAF ya está codificada o no es categórica.
Advertencia: La columna TUE ya está codificada o no es categórica.


  resultado = resultado.applymap(lambda x: f"{x:.2f}")


Unnamed: 0,F-Statistic,P-Valor
Age,1.34,0.0
Height,2.22,0.0
Weight,1.81,0.0
FCVC,1.08,0.12
NCP,1.84,0.0
CH2O,1.58,0.0
FAF,1.25,0.0
TUE,1.67,0.0


# Análisis de Resultados del ANOVA

Este análisis de ANOVA tiene como objetivo evaluar si existe una relación significativa entre cada característica categórica y la variable objetivo `Cluster`. A continuación se presenta una interpretación de los resultados obtenidos en las columnas `F-Statistic` y `P-Valor`.

## Interpretación de las Columnas

1. **F-Statistic**:
   - El valor F en ANOVA indica la variabilidad entre los grupos en comparación con la variabilidad dentro de los grupos.
   - Un valor F alto generalmente sugiere que hay una diferencia significativa entre al menos uno de los grupos.
   
2. **P-Valor**:
   - El P-Valor indica la probabilidad de observar un valor F tan extremo bajo la hipótesis nula (es decir, que no existe relación entre la característica y la variable `Cluster`).
   - Un P-Valor bajo (por ejemplo, menor a 0.05) indica que existe una diferencia significativa y, por lo tanto, una relación entre la característica y la variable `Cluster`.

## Evaluación de las Características

A continuación se analizan cada una de las características y su relación con `Cluster` en función de sus valores F y P-Valor.

| Característica | F-Statistic | P-Valor | Interpretación |
|----------------|-------------|---------|----------------|
| **Age**        | 1.34        | 0.00    | El valor F de 1.34 y un P-Valor de 0.00 indican que la edad tiene una relación estadísticamente significativa con el cluster asignado, aunque el valor F no es muy alto. |
| **Height**     | 2.22        | 0.00    | Esta característica muestra una relación significativa con `Cluster` (P-Valor de 0.00) y un valor F más alto que `Age`, sugiriendo que puede haber una diferencia más notable en la altura entre los clusters. |
| **Weight**     | 1.81        | 0.00    | El peso también tiene una relación significativa con `Cluster`, con un P-Valor de 0.00 y un valor F de 1.81, lo que indica cierta variabilidad entre clusters en función del peso. |
| **FCVC**       | 1.84        | 0.00    | La frecuencia de consumo de vegetales tiene una relación significativa con `Cluster`, con un valor F similar al de `Weight`. Esto sugiere que esta característica puede variar de manera significativa entre clusters. |
| **NCP**        | 1.40        | 0.00    | La característica NCP muestra una relación significativa con `Cluster`, aunque su valor F es relativamente bajo en comparación con otras características, indicando una menor variabilidad entre los clusters. |
| **CH2O**       | 1.58        | 0.00    | La variable CH2O también muestra una relación significativa con `Cluster` (P-Valor de 0.00), con una variabilidad moderada entre clusters. |
| **FAF**        | 1.67        | 0.00    | El valor F de 1.67 y el P-Valor de 0.00 para la característica FAF sugieren que hay una relación significativa con `Cluster`. Sin embargo, la variabilidad no es tan marcada. |
| **TUE**        | 1.87        | 0.00    | La característica TUE presenta una de las F-Statistic más altas en este conjunto, lo que indica que podría tener una diferencia notable entre los clusters. |

## Conclusiones Generales

1. **Relación Significativa**: Todas las características analizadas tienen un P-Valor de 0.00, lo que indica una relación estadísticamente significativa con la variable `Cluster`. Esto sugiere que estas características categorizadas pueden estar relacionadas con la agrupación en clusters, lo cual podría ser útil para describir o segmentar a los grupos generados.

2. **Características Destacadas**:
   - **Height** (F = 2.22), **TUE** (F = 1.87), y **FCVC** (F = 1.84) tienen valores F relativamente altos en comparación con otras características. Esto indica que estas variables podrían tener una mayor variabilidad entre clusters, lo que sugiere que pueden ser particularmente relevantes para diferenciar entre los grupos.

3. **Variabilidad Moderada**: A pesar de que todas las características tienen una relación significativa con `Cluster`, los valores F en general son moderados, lo que sugiere que aunque hay diferencias entre los clusters, estas diferencias no son extremas.

4. **Advertencias**: Las advertencias iniciales indican que algunas de las columnas ya estaban codificadas o no eran categóricas. Esto no afecta los resultados, pero es importante recordar que las características evaluadas deben ser categóricas o codificadas adecuadamente para el análisis ANOVA.

## Recomendaciones

- **Considerar las Características con Valores F más Altos**: Las características como `Height`, `TUE`, y `FCVC` podrían tener una influencia más fuerte en la formación de clusters y podrían priorizarse si el objetivo es interpretar o mejorar la segmentación de los clusters.
- **Evaluar Posibles Interacciones**: Considerar interacciones entre las variables con alta significancia podría proporcionar una visión adicional sobre la estructura de los clusters.
- **Explorar Ajustes en K-means**: Dado que todas las características presentan una relación significativa, ajustar el número de clusters o aplicar técnicas adicionales de preprocesamiento para mejorar la definición de los clusters.

--- 

Este análisis proporciona una visión detallada de cómo cada característica se relaciona con `Cluster`, lo cual puede ayudar en la interpretación de los resultados y la mejora del modelo de clustering.


# Mara y Julian Trabajen a partir de aqui 

In [62]:
# Tomen este DataFrame como punto de partida
df_job

Unnamed: 0,Gender,Age,Height,Weight,family_history_with_overweight,FAVC,FCVC,NCP,CAEC,SMOKE,...,FAF,TUE,CALC,MTRANS,NObeyesdad,PC1,PC2,PC3,PC4,Cluster
0,Female,21.000000,1.620000,64.000000,yes,no,2.0,3.0,Sometimes,no,...,0.000000,1.000000,no,Public_Transportation,Normal_Weight,-1.333029,-0.689743,-0.305922,-0.733236,3
1,Female,21.000000,1.520000,56.000000,yes,no,3.0,3.0,Sometimes,yes,...,3.000000,0.000000,Sometimes,Public_Transportation,Normal_Weight,-0.087728,-0.727529,2.067507,2.956012,3
2,Male,23.000000,1.800000,77.000000,yes,no,2.0,3.0,Sometimes,no,...,2.000000,1.000000,Frequently,Public_Transportation,Normal_Weight,0.828980,-1.305978,-0.898384,0.475035,1
3,Male,27.000000,1.800000,87.000000,no,no,3.0,3.0,Sometimes,no,...,2.000000,0.000000,Frequently,Walking,Overweight_Level_I,1.305491,0.572544,0.366069,1.250744,0
4,Male,22.000000,1.780000,89.800000,no,no,2.0,1.0,Sometimes,no,...,0.000000,0.000000,Sometimes,Public_Transportation,Overweight_Level_II,-0.690310,0.842111,-0.478263,-0.111392,2
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2106,Female,20.976842,1.710730,131.408528,yes,yes,3.0,3.0,Sometimes,no,...,1.676269,0.906247,Sometimes,Public_Transportation,Obesity_Type_III,1.308977,0.050855,0.890030,-0.685840,0
2107,Female,21.982942,1.748584,133.742943,yes,yes,3.0,3.0,Sometimes,no,...,1.341390,0.599270,Sometimes,Public_Transportation,Obesity_Type_III,1.637764,0.536557,0.793394,-0.596949,0
2108,Female,22.524036,1.752206,133.689352,yes,yes,3.0,3.0,Sometimes,no,...,1.414209,0.646288,Sometimes,Public_Transportation,Obesity_Type_III,1.720038,0.508361,0.780803,-0.560407,0
2109,Female,24.361936,1.739450,133.346641,yes,yes,3.0,3.0,Sometimes,no,...,1.139107,0.586035,Sometimes,Public_Transportation,Obesity_Type_III,2.029482,0.788680,1.045579,-0.377248,0
