# Análisis de componentes principales (PCA)

Diferencias entre análisis de componentes principales (PCA) y análisis factorial (FA)
- Supuestos: PCA no asume ninguna estructura en los datos, FA supone que las variables observadas son indicativas de variables latentes.
- Interpretación: PCA se utiliza para reducir la dimensionalidad de los datos. FA reduce la dimensionalidad y además permite comprender la estructura subyacente en los datos.

In [2]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.decomposition import PCA

In [3]:
df = pd.read_excel('data/b15_jovenes.xlsx')
df.columns

Index(['Slowsongsorfastsongs', 'Dance', 'Folk', 'Country', 'Classicalmusic',
       'Musical', 'Pop', 'Rock', 'MetalorHardrock', 'Punk', 'HiphopRap',
       'ReggaeSka', 'SwingJazz', 'Rocknroll', 'Alternative', 'Latino',
       'TechnoTrance', 'Opera', 'Movies', 'Horror', 'Thriller', 'Comedy',
       'Romantic', 'Scifi', 'War', 'FantasyFairytales', 'Animated',
       'Documentary', 'Western', 'Action', 'Internetusage', 'Finances',
       'Shoppingcentres', 'Brandedclothing', 'Entertainmentspending',
       'Spendingonlooks', 'Spendingongadgets', 'Spendingonhealthyeating',
       'Age', 'Height', 'Weight', 'Numberofsiblings', 'GenderD', 'Education',
       'OnlyChildD', 'CityD', 'Houseblockofflats'],
      dtype='object')

In [4]:
movies = ['Horror', 'Thriller', 'Comedy', 'Romantic', 'Scifi', 'War', 
         'FantasyFairytales', 'Animated', 'Documentary', 'Western']
df = df[movies]

In [5]:
# Eliminar filas con valores faltantes
df = df.dropna()

## Procedimiento

In [8]:
pca = PCA(n_components=3)
pca.fit_transform(df)
# Obtener componentes
components_df = pd.DataFrame(pca.components_, columns=df.columns)
components_df.T

Unnamed: 0,0,1,2
Horror,0.448792,-0.070153,-0.666579
Thriller,0.402588,-0.067758,-0.354443
Comedy,-0.042608,-0.140444,-0.113432
Romantic,-0.305554,-0.287103,-0.150483
Scifi,0.387177,-0.247925,0.11759
War,0.46479,-0.161251,0.384667
FantasyFairytales,-0.212864,-0.581609,-0.057613
Animated,-0.14423,-0.617618,-0.095993
Documentary,0.128952,-0.242157,0.348419
Western,0.304388,-0.150018,0.314332


In [9]:
print("Varianza explicada por cada componente:")
print(pca.explained_variance_ratio_)

Varianza explicada por cada componente:
[0.24581772 0.18794803 0.15002601]
