## 1. Análisis de componentes Principales

### 3.1. Estudie si es posible hacer transformaciones en las variables categóricas para incluirlas en el PCA, ¿valdrá la pena?

Transformaciones comunes para variables categóricas:
1.Codificación One-Hot (dummies):
   - Convierte cada categoría de una variable en una columna separada con valores binarios (0 o 1).
   - Ejemplo: Si tienes una variable "Color" con categorías "Rojo", "Verde" y "Azul", se crearán tres columnas: Color_Rojo, Color_Verde, Color_Azul.
   - Esto puede aumentar significativamente el número de características, lo cual podría dificultar la interpretación si el número de categorías es muy grande.

2.Codificación de etiquetas (Label Encoding):
   - Asigna un número único a cada categoría.
   - Ejemplo: Si "Rojo" = 1, "Verde" = 2, "Azul" = 3, la variable se convierte en una variable numérica.
   - Aunque esta es una opción más compacta, puede implicar que el modelo pueda interpretar las categorías como ordinales, 
     lo cual no es apropiado si no hay un orden natural entre las categorías.
3.Codificación Binaria:
   - Convierte las categorías a su representación binaria, lo cual puede ser útil si el número de categorías es grande y se desea mantener la información en un espacio más compacto.

¿Vale la pena hacer estas transformaciones?
   - Si las variables categóricas tienen un impacto significativo en la variabilidad de los datos, transformarlas puede proporcionar una representación más rica y útil para el PCA.

In [2]:
import pandas as pd

# Cargar tus datos
df = pd.read_csv('movies.csv')

# Codificación One-Hot
df_encoded = pd.get_dummies(df, drop_first=True)  # Elimina una categoría para evitar multicolinealidad

# Mostrar las primeras filas después de la codificación
print(df_encoded.head())


ModuleNotFoundError: No module named 'pandas'

### 3.2. Estudie si es conveniente hacer un Análisis de Componentes Principales. Recuerde que puede usar el índice KMO y el test de esfericidad de Bartlett.

El PCA es útil cuando se busca reducir la dimensionalidad sin perder una cantidad significativa de información. Para evaluar si es conveniente realizar PCA, se deben utilizar dos pruebas: el índice KMO (Kaiser-Meyer-Olkin) y el test de esfericidad de Bartlett.


1.Prueba de Esfericidad de Bartlett:
   - Se utiliza para verificar si las variables están correlacionadas lo suficiente como para realizar un análisis factorial (PCA).
   - Hipótesis nula: La matriz de correlación es una matriz identidad (lo que indica que no hay correlación significativa).
   - Si el valor p de la prueba es bajo (generalmente < 0.05), se puede proceder con PCA porque las variables están correlacionadas de manera significativa.

2.Índice KMO (Kaiser-Meyer-Olkin):
   - Mide la adecuación de la muestra para el análisis factorial.
   - El valor KMO varía entre 0 y 1, siendo:
        - Valor KMO cercano a 1 indica que los datos son adecuados para PCA.
        - Valor KMO menor que 0.5 indica que no es recomendable realizar PCA.



In [None]:
from scipy.stats import chi2
import numpy as np

def bartlett_test(df):
    correlation_matrix = df.corr()
    n = len(df)  # Número de observaciones
    p = df.shape[1]  # Número de variables
    
    # Calcular el estadístico de Bartlett
    t_squared = (n - 1 - (2 * p + 5) / 6) * np.log(np.linalg.det(correlation_matrix))
    bartlett_stat = (n - 1 - (2 * p + 5) / 6) * np.log(np.linalg.det(correlation_matrix))
    
    # Grados de libertad
    df_bartlett = (p * (p - 1)) / 2
    p_value = 1 - chi2.cdf(bartlett_stat, df_bartlett)
    
    return bartlett_stat, p_value

# Ejecutar la prueba de Bartlett
bartlett_stat, p_value = bartlett_test(df_encoded)
print(f'Estadístico de Bartlett: {bartlett_stat}')
print(f'Valor p de Bartlett: {p_value}')
