# Análisis de Componentes Principales (PCA) en el dataset del Titanic

Este notebook muestra paso a paso cómo aplicar PCA al dataset del Titanic utilizando herramientas del ecosistema Python.

## 1. Importar librerías necesarias

Importamos las librerías que utilizaremos para manipulación de datos, visualización y análisis de componentes principales.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA

## 2. Cargar y explorar el dataset del Titanic

Cargamos el dataset del Titanic y exploramos su estructura para entender las variables disponibles.

In [None]:
# Puedes descargar el dataset desde: https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv
titanic = pd.read_csv('titanic.csv')

# Mostrar las primeras filas
titanic.head()

In [None]:
# Información general del dataset
titanic.info()

In [None]:
# Estadísticas descriptivas de las variables numéricas
titanic.describe()

## 3. Preprocesamiento de datos (limpieza y selección de variables)

Seleccionamos las variables relevantes, manejamos valores nulos y convertimos variables categóricas a numéricas.

In [None]:
# Seleccionamos variables numéricas y algunas categóricas relevantes
variables = ['Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 'Embarked', 'Survived']
df = titanic[variables].copy()

# Manejo de valores nulos
df['Age'].fillna(df['Age'].median(), inplace=True)
df['Embarked'].fillna(df['Embarked'].mode()[0], inplace=True)

# Conversión de variables categóricas a numéricas
df['Sex'] = df['Sex'].map({'male': 0, 'female': 1})
df = pd.get_dummies(df, columns=['Embarked'], drop_first=True)

df.head()

## 4. Estandarización de las variables

Estandarizamos las variables numéricas antes de aplicar PCA.

In [None]:
# Seleccionamos las variables para PCA (excluyendo la variable objetivo 'Survived')
features = df.drop('Survived', axis=1)

scaler = StandardScaler()
X_scaled = scaler.fit_transform(features)

## 5. Aplicar Análisis de Componentes Principales (PCA)

Aplicamos PCA para reducir la dimensionalidad de los datos estandarizados.

In [None]:
# Ajustamos PCA (n_components=None para obtener todos los componentes)
pca = PCA(n_components=None)
X_pca = pca.fit_transform(X_scaled)

## 6. Visualización de la varianza explicada

Graficamos la varianza explicada por cada componente principal para decidir cuántos componentes conservar.

In [None]:
plt.figure(figsize=(8,5))
plt.plot(np.cumsum(pca.explained_variance_ratio_), marker='o')
plt.xlabel('Número de componentes principales')
plt.ylabel('Varianza explicada acumulada')
plt.title('Varianza explicada por los componentes principales')
plt.grid(True)
plt.show()

## 7. Visualización de los datos proyectados en los componentes principales

Visualizamos los datos proyectados en los dos primeros componentes principales, diferenciando por la variable 'Survived'.

In [None]:
plt.figure(figsize=(8,6))
sns.scatterplot(
    x=X_pca[:,0], y=X_pca[:,1],
    hue=df['Survived'],
    palette='Set1',
    alpha=0.7
)
plt.xlabel('Componente Principal 1')
plt.ylabel('Componente Principal 2')
plt.title('Proyección de los datos en los dos primeros componentes principales')
plt.legend(title='Survived')
plt.show()

## 8. Interpretación de los componentes principales

Analizamos la contribución de las variables originales a cada componente principal.

In [None]:
# Mostramos la importancia (cargas) de cada variable en los dos primeros componentes
componentes = pd.DataFrame(
    pca.components_[:2],
    columns=features.columns,
    index=['PC1', 'PC2']
).T

componentes.plot(kind='bar', figsize=(10,6))
plt.title('Contribución de las variables a los dos primeros componentes principales')
plt.ylabel('Peso')
plt.xlabel('Variable original')
plt.grid(True)
plt.show()

componentes

**Conclusión:**  
El Análisis de Componentes Principales nos permite reducir la dimensionalidad del dataset del Titanic y visualizar patrones en los datos. Analizando las cargas de los componentes principales, podemos interpretar qué variables tienen mayor influencia en cada componente.