<a href="https://colab.research.google.com/github/bonillahermes/Data_Science_Projects/blob/main/EDA5.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Hermes Yate Bonilla
**Data Scientist**
---

**Contact:**
- **Email:** [bonillahermes@gmail.com](mailto:bonillahermes@gmail.com)
- **LinkedIn:** [linkedin.com/in/bonillahermes](https://www.linkedin.com/in/bonillahermes/)
- **GitHub:** [github.com/bonillahermes](https://github.com/bonillahermes)
- **Webpage:** [bonillahermes.com](https://bonillahermes.com/)
---

# Aplicación de la Estadística en Estudios de Urbanismo

Importación de librerías

In [None]:
pip install factor-analyzer

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, confusion_matrix
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler
from sklearn.impute import SimpleImputer
from sklearn.cluster import KMeans
from factor_analyzer import FactorAnalyzer

In [None]:
from google.colab import drive
drive.mount('/content/drive')


In [None]:
# Ruta al archivo XLSX en Google Drive (proporciona la ruta correcta)
archivo_xlsx = '/content/drive/My Drive/Bases/base.xlsx'

# Leer el archivo XLSX en un DataFrame de pandas
data = pd.read_excel(archivo_xlsx)


In [None]:
# Exploración inicial de los datos
print(data.head())  # Muestra las primeras filas del DataFrame
print(data.info())  # Muestra información sobre las columnas y los tipos de datos

La estructura de la base de datos es la siguiente:

**1. Demografía:**
   - **Dirección:** La dirección de los encuestados.
   - **Nivel de Educación:** El nivel educativo de los encuestados.
   - **Edad:** La edad de los encuestados.
   - **Género:** El género de los encuestados.
   - **Evaluación Financiera Personal:** La percepción financiera personal de los encuestados.
   - **Evaluación de Salud Personal:** La percepción de salud personal de los encuestados.
   - **Dificultades Financieras:** Si los encuestados experimentan dificultades financieras.
   - **Composición del Hogar:** Detalles sobre la composición del hogar de los encuestados.
   - **Tamaño del Hogar:** El tamaño del hogar de los encuestados.
   - **Tiempo en el Vecindario:** Cuánto tiempo han vivido en el vecindario.
   - **Comunidad Identificada:** Si los encuestados se identifican con una comunidad en particular.

**2. Atributos Ambientales Objetivos:**
   - **Origen del Vecindario:** El origen del vecindario de los encuestados.
   - **Tipo de Unidad:** El tipo de unidad de vivienda de los encuestados.

**3. Satisfacción Residencial:**
   - **Satisfacción con la Comunidad:** Nivel de satisfacción con la comunidad.
   - **Satisfacción con la Unidad (Vivienda):** Nivel de satisfacción con la unidad de vivienda.
   - **Satisfacción con el Vecindario:** Nivel de satisfacción con el vecindario.
   - **Satisfacción con Relaciones Personales:** Nivel de satisfacción con las relaciones personales.
   - **Satisfacción con el Equilibrio entre Trabajo y Vida Social:** Nivel de satisfacción con el equilibrio entre trabajo y vida social.
   - **Satisfacción con la Sensación de Seguridad:** Nivel de satisfacción con la sensación de seguridad.

**4. Sostenibilidad Social:**
   - **Político:** Factores políticos relacionados con la sostenibilidad social.
   - **Cultural:** Factores culturales relacionados con la sostenibilidad social.
   - **Ecológico:** Factores ecológicos relacionados con la sostenibilidad social.
   - **Económico:** Factores económicos relacionados con la sostenibilidad social.

**5. Calidad Percibida de la Residencia:**
   - **Espacial:** Percepción de aspectos espaciales del vecindario.
   - **Humano:** Percepción de aspectos humanos y sociales del vecindario.
   - **Funcional:** Percepción de la disponibilidad y calidad de servicios funcionales en el vecindario.
   - **Contextual:** Percepción de factores contextuales y de salud ambiental en el vecindario.
   - **Vinculación con el Vecindario:** Percepción de la vinculación de los residentes con el vecindario.



## Descripción Aspecto Demográfico

**Address**

La variable "D_Add" es categórica, relacionada con la dirección física de los participantes.

**Neighborhood origin**

La variable "OEA_NeOrig" es binaria, sin una pregunta asociada, y con valores de 0 para "Informal" y 1 para "Formal". Se menciona que esta variable está predefinida por el proceso de selección del sitio para objetivos de la investigación. Esta es la variable objetivo.

**Unit type**

La variable "OEA_UnType" es categórica, relacionada con la descripción del tipo de vivienda de los encuestados. Toma valores entre 1 a 3. Los valores representan [It is an apartment, It is a house, Other].


**Level of education**

La variable "D_LevEdu" es categórica, relacionada con el nivel educativo alcanzado, con valores desde 1 a 7 que van desde "No school" hasta "University Postgraduate".

**Age**

La variable "D_Age" es categórica, toma valores de 1 a 10 y cada número representa un intervalo de edad [16-19, 20-29, 30-39, 40-49, 50-59, 60-69, 70-79, 80-89, 90+].

**Gender**

La variable "D_Gen" es binaria, relacionada con el género de los encuestados. Los valores son 0 para "Male" y 1 para "Female".

**Financial self assessment**


La variable "D_FinSta" es categórica, relacionada con la situación financiera de los hogares de los encuestados. Toma valores de 1 a 4. Los valores van desde "Well-off" (Acomodado) hasta "Poverty stricken" (En situación de pobreza).

**Health self assessment**

La variable "D_HeaSta" como categórica, relacionada con la percepción de la salud de los encuestados en comparación con personas de la misma edad. Toma valores de 1 a 4. Los valores van desde "Generally good" (Generalmente buena) hasta "I don’t know" (No lo sé).

**Financial difficulties**

La variable "D_FinDiff" como binaria, relacionada con la falta de dinero para atención médica en los últimos doce meses. Los valores son 0 para "No" (No) y 1 para "Yes" (Sí).

**Household composition**

La variable "D_HouComp" es categórica, relacionada con la composición del hogar de los encuestados. Toma valores entre 1 a 7. Los valores van desde "Alone" (Solo) hasta "With extended family (including but going beyond parents and/or siblings)" (Con familiares extendidos, incluyendo pero yendo más allá de padres y/o hermanos).

**Household size**

La variable "D_HouSize" es categórica, relacionada con el tamaño del hogar de los encuestados (cantidad de personas en el hogar). Toma valores entre 1 y 9. Los valores van desde "1" hasta "More than 9" (Más de 9).


**Time in neighborhood**

La variable "D_TiNhood" es categórica, relacionada con la cantidad de años que los encuestados han vivido en su localidad actual. Toma valores entre 1 a 6. Los valores representan [Less than a year, 1-5 years, 6-10 years, 11-20 years, 21-50 years, More than 51 years].

**Identified community**

La variable "D_IdComm" como categórica, relacionada con la identificación de la comunidad principal de los encuestados. Toma valores entre 1 a 6. Los valores representan diferentes opciones de identificación, como "The place in which you live" (El lugar en el que vives) o "Your place of worship" (Tu lugar de culto).


In [None]:
# Variables de la categoría "Demografía"
demographics_variables = ['OEA_UnType', 'D_LevEdu', 'D_Age', 'D_Gen', 'D_FinSta', 'D_HeaSta', 'D_FinDiff', 'D_HouComp', 'D_HouSize', 'D_TiNhood', 'D_IdComm']

# Calcular estadísticas descriptivas
demographics_stats = data[demographics_variables].describe()

# Imprimir estadísticas descriptivas
print(demographics_stats)

In [None]:

# Crear gráficos para variables categóricas y binarias
for variable in ['OEA_NeOrig', 'OEA_UnType', 'D_Gen', 'D_FinSta', 'D_HeaSta', 'D_FinDiff']:
    plt.figure(figsize=(8, 5))
    data[variable].value_counts().plot(kind='pie', autopct='%1.1f%%', startangle=90)
    plt.title(f'Distribución de {variable}')
    plt.ylabel('')
    plt.show()

# Crear gráficos para variables numéricas
for variable in ['D_LevEdu', 'D_Age', 'D_IdComm', 'D_HouComp', 'D_HouSize', 'D_TiNhood']:
    plt.figure(figsize=(8, 5))
    sns.histplot(data=data, x=variable, kde=True)
    plt.title(f'Distribución de {variable}')
    plt.xlabel(variable)
    plt.ylabel('Frecuencia')
    plt.show()


In [None]:
# Variables de la categoría "Demografía" excluyendo 'OEA_UnType'
demographics_variables2 = ['OEA_NeOrig', 'D_LevEdu', 'D_Age', 'D_Gen', 'D_FinSta', 'D_HeaSta', 'D_FinDiff', 'D_HouComp', 'D_HouSize', 'D_TiNhood', 'D_IdComm']

# Calcular la matriz de correlación con el método de Spearman
correlation_matrix = data[demographics_variables2].corr(method='spearman')

# Crear la matriz de correlación como un mapa de calor
plt.figure(figsize=(12, 8))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', linewidths=0.5, fmt=".2f")
plt.title('Matriz de Correlación (Spearman) - Demografía')
plt.show()

In [None]:
from scipy.stats import kruskal
import scipy.stats as stats

# Crear una lista para almacenar los resultados
results = []

# Iterar sobre las variables de interés
variables_of_interest = ['D_LevEdu', 'D_Age', 'D_Gen', 'D_FinSta', 'D_HeaSta', 'D_FinDiff', 'D_HouComp', 'D_HouSize', 'D_TiNhood', 'D_IdComm']
for variable in variables_of_interest:
    # Filtrar las filas sin NA's en la variable actual
    data_filtered = data.dropna(subset=[variable])

    # Crear listas de datos para cada grupo definido por 'OEA_NeOrig'
    groups = [group[variable].values for name, group in data_filtered.groupby('OEA_NeOrig')]

    # Realizar la prueba Kruskal-Wallis para la variable actual
    statistic, p_value = stats.kruskal(*groups)

    # Almacenar los resultados en la lista
    results.append((variable, statistic, p_value))

# Imprimir los resultados
for variable, statistic, p_value in results:
    print(f'Variable {variable} - Kruskal-Wallis Statistic: {statistic}')
    print(f'Variable {variable} - p-value: {p_value}')


In [None]:
# Configurar el estilo de seaborn
sns.set_style("whitegrid")

# Iterar sobre las variables y crear boxplots separados
for variable in variables_of_interest:
    plt.figure(figsize=(8, 5))

    # Crear un boxplot con estilo elegante
    sns.boxplot(data=data, x='OEA_NeOrig', y=variable, palette="Set2", notch=True)

    plt.title(f'Boxplot de {variable} por grupos OEA_NeOrig')
    plt.xlabel('OEA_NeOrig')
    plt.ylabel(variable)
    plt.xticks(rotation=45)

    # Añadir líneas de estilo para un aspecto más profesional
    sns.despine(left=True, bottom=True)

    plt.show()



## Descripción Aspecto Satisfacción Residencial

El aspecto de satisfacción residencial está determinado por las siguientes variables:

**Satisfaction with community**

La variable "RS_SaCom" es ordinal, relacionada con el nivel de satisfacción de los encuestados al ser parte de su comunidad. Los valores van desde "Very Dissatisfied" (Muy insatisfecho) hasta "Very Satisfied" (Muy satisfecho), con valores numéricos del 1 al 5.

**Satisfaction with unit (dwelling unit)**

La variable "RS_SaUnit" es ordinal, relacionada con el nivel de satisfacción de los encuestados con el lugar donde viven (casa, apartamento, habitación). Los valores van desde "Very Dissatisfied" (Muy insatisfecho) hasta "Very Satisfied" (Muy satisfecho), con valores numéricos del 1 al 5.

**Satisfaction with neighborhood**

La variable "RS_SaNhood" es ordinal, relacionada con el nivel de satisfacción de los encuestados con el entorno donde viven (vecindario). Los valores van desde "Very Dissatisfied" (Muy insatisfecho) hasta "Very Satisfied" (Muy satisfecho), con valores numéricos del 1 al 5.


**Satisfaction with personal relationships**

La variable "RS_SaPeRe" es ordinal, relacionada con el nivel de satisfacción de los encuestados con sus relaciones personales, incluyendo familiares, amigos y vecinos. Los valores van desde "Very Dissatisfied" (Muy insatisfecho) hasta "Very Satisfied" (Muy satisfecho), con valores numéricos del 1 al 5.

**Satisfaction with work and social life balance**

La variable "RS_SaWoSoBa" es ordinal, relacionada con el nivel de satisfacción de los encuestados con el equilibrio entre su trabajo y su vida social. Los valores van desde "Very Dissatisfied" (Muy insatisfecho) hasta "Very Satisfied" (Muy satisfecho), con valores numéricos del 1 al 5.

**Satisfaction with feeling safe**

La variable "RS_SaSafe" es ordinal, relacionada con el nivel de satisfacción de los encuestados con la sensación de seguridad que experimentan en su vida diaria. Los valores van desde "Very Dissatisfied" (Muy insatisfecho) hasta "Very Satisfied" (Muy satisfecho), con valores numéricos del 1 al 5.


In [None]:
# Variables de interés
variables_rs = ['RS_SaCom', 'RS_SaUnit', 'RS_SaNhood', 'RS_SaPeRe', 'RS_SaWoSoBa', 'RS_SaSafe']

# Estadísticos descriptivos
descriptive_stats_rs = data[variables_rs].describe()
print(descriptive_stats_rs)

# Gráficos de distribución
for variable in variables_rs:
    plt.figure(figsize=(8, 5))
    sns.histplot(data=data, x=variable, kde=True)
    plt.title(f'Distribución de {variable}')
    plt.xlabel(variable)
    plt.ylabel('Frecuencia')
    plt.show()

# Matriz de correlación (incluyendo OEA_NeOrig)
variables_corr = variables_rs + ['OEA_NeOrig']
correlation_matrix_rs = data[variables_corr].corr(method='spearman')

# Gráfica de matriz de correlación
plt.figure(figsize=(10, 8))
sns.heatmap(correlation_matrix_rs, annot=True, cmap='coolwarm', fmt=".2f")
plt.title('Matriz de Correlación - Residential Satisfaction')
plt.show()

# Prueba Kruskal-Wallis agrupando por 'OEA_NeOrig'
for variable in variables_rs:
    statistic, p_value = stats.kruskal(*[group[variable] for name, group in data.groupby('OEA_NeOrig')], nan_policy='omit')
    print(f'Variable: {variable}')
    print(f'Kruskal-Wallis Statistic: {statistic}')
    print(f'p-value: {p_value}')
    print('---')

# Boxplot por grupos 'OEA_NeOrig'
for variable in variables_rs:
    plt.figure(figsize=(10, 6))
    sns.boxplot(data=data, x='OEA_NeOrig', y=variable, palette='Set2', notch=True)
    plt.title(f'Boxplot de {variable}')
    plt.xlabel('OEA_NeOrig')
    plt.ylabel(variable)
    plt.xticks(rotation=45)
    sns.despine(left=True, bottom=True)
    plt.show()


In [None]:
# Seleccionar las variables de satisfacción residencial
selected_cols = ['RS_SaCom', 'RS_SaUnit', 'RS_SaNhood', 'RS_SaPeRe', 'RS_SaWoSoBa', 'RS_SaSafe']
X = data[selected_cols]

# Crear un imputador que use la mediana para reemplazar los valores faltantes
imputer = SimpleImputer(strategy='median')

# Imputar valores faltantes en X
X_imputed = imputer.fit_transform(X)

# Normalizar los datos
scaler = StandardScaler()
X_normalized = scaler.fit_transform(X_imputed)

# Elegir el número óptimo de clústeres utilizando el método del codo
inertia = []
for i in range(1, 11):
    kmeans = KMeans(n_clusters=i, random_state=0)
    kmeans.fit(X_normalized)
    inertia.append(kmeans.inertia_)

# Graficar el método del codo
plt.figure(figsize=(8, 6))
plt.plot(range(1, 11), inertia, marker='o', linestyle='--')
plt.xlabel('Número de Clústeres')
plt.ylabel('Inertia')
plt.title('Gráfica de Codo')
plt.show()

# Basado en el gráfico del método del codo, se elige un número óptimo de clústeres
n_clusters = 2

# Aplicar K-Means con el número óptimo de clústeres
kmeans = KMeans(n_clusters=n_clusters, random_state=0)
clusters = kmeans.fit_predict(X_normalized)

# Reducir la dimensionalidad para visualizar en 2D usando PCA
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_normalized)

# Crear un DataFrame con los resultados del clustering
clustered_data = pd.DataFrame({'Cluster': clusters, 'PCA1': X_pca[:, 0], 'PCA2': X_pca[:, 1]})

# Graficar los resultados del clustering en 2D
plt.figure(figsize=(10, 8))
plt.scatter(clustered_data['PCA1'], clustered_data['PCA2'], c=clustered_data['Cluster'], cmap='viridis')
plt.xlabel('PCA1')
plt.ylabel('PCA2')
plt.title('Clustering')
plt.show()

In [None]:
# Añadimos esta información a tus datos originales.
data['Cluster'] = clusters

# Selecciona las características de satisfacción residencial
selected_cols = ['RS_SaCom', 'RS_SaUnit', 'RS_SaNhood', 'RS_SaPeRe', 'RS_SaWoSoBa', 'RS_SaSafe']

# Reinicia el índice de data
data = data.reset_index(drop=True)

# Calcula la media para cada característica dentro de cada cluster
cluster_means = data.groupby('Cluster')[selected_cols].mean()

# Calcula la mediana para cada característica dentro de cada cluster
cluster_medians = data.groupby('Cluster')[selected_cols].median()

# Muestra los resultados
print("Media de características por cluster:")
print(cluster_means)

print("\nMediana de características por cluster:")
print(cluster_medians)



In [None]:
# Selecciona las variables relevantes para el análisis
selected_cols = ['RS_SaCom', 'RS_SaUnit', 'RS_SaNhood', 'RS_SaPeRe', 'RS_SaWoSoBa', 'RS_SaSafe']
X = data[selected_cols]

# Imputa los valores faltantes con la mediana de cada variable
imputer = SimpleImputer(strategy='median')
X_imputed = imputer.fit_transform(X)

# Inicializa y ajusta el modelo de análisis factorial
n_factors = 5
fa = FactorAnalyzer(n_factors, rotation='varimax')
fa.fit(X_imputed)

# Calcula las cargas factoriales para cada variable
loadings = fa.loadings_

# Visualiza las cargas factoriales
plt.figure(figsize=(10, 6))
plt.bar(range(len(selected_cols)), loadings[:, 0], tick_label=selected_cols, label='Factor 1')
plt.bar(range(len(selected_cols)), loadings[:, 1], tick_label=selected_cols, label='Factor 2')
plt.xlabel('Variables')
plt.ylabel('Cargas Factoriales')
plt.title('Cargas Factoriales por Variable')
plt.legend()
plt.xticks(rotation=45)
plt.show()

# Obtiene la varianza explicada por cada factor
explained_variance = fa.get_factor_variance()
print("Varianza explicada por cada factor:", explained_variance)


In [None]:
# Crear un objeto FactorAnalyzer con 3 factores
fa = FactorAnalyzer(n_factors=2, rotation='Varimax')  # Puedes ajustar la rotación según sea necesario

# Ajustar el modelo de análisis factorial a tus datos
fa.fit(X)  # X es tu matriz de datos con las variables de satisfacción residencial

# Obtener las cargas factoriales
loadings = fa.loadings_

# Crear un DataFrame para visualizar las cargas factoriales
loadings_df = pd.DataFrame(loadings, index=X.columns, columns=['Factor 1', 'Factor 2'])

# Mostrar las cargas factoriales
print(loadings_df)


## Tercer Aspecto

In [None]:
# Selecciona las columnas relevantes desde 'D_LevEdu' hasta 'PRQ_Integrated'
selected_columns = data.loc[:, 'D_LevEdu':'PRQ_Integrated']

# Imputa los valores faltantes
imputer = SimpleImputer(strategy='median')  # Puedes cambiar la estrategia según tus necesidades
selected_columns_imputed = imputer.fit_transform(selected_columns)

# Estandariza los datos
scaler = StandardScaler()
selected_columns_std = scaler.fit_transform(selected_columns_imputed)

# Aplica PCA
pca = PCA(n_components=8)  # Puedes ajustar el número de componentes según tus necesidades
principal_components = pca.fit_transform(selected_columns_std)

In [None]:
# Accede a la información de los componentes
components = pca.components_  # Vectores de componentes principales
explained_variance = pca.explained_variance_  # Varianza explicada por cada componente
explained_variance_ratio = pca.explained_variance_ratio_  # Proporción de varianza explicada por cada componente

# Puedes imprimir o usar esta información según tus necesidades
print("Vectores de componentes principales:")
print(components)

print("\nVarianza explicada por cada componente:")
print(explained_variance)

print("\nProporción de varianza explicada por cada componente:")
print(explained_variance_ratio)

In [None]:
cov_matrix = np.cov(selected_columns_imputed, rowvar=False)

# Calcular los valores propios y vectores propios
eigenvalues, eigenvectors = np.linalg.eig(cov_matrix)

# Obtener los índices de los valores propios ordenados de mayor a menor
sorted_indices = np.argsort(eigenvalues)[::-1]

# Ordenar los valores propios y los vectores propios en función de los índices
sorted_eigenvalues = eigenvalues[sorted_indices]
sorted_eigenvectors = eigenvectors[:, sorted_indices]

# La matriz de carga es simplemente la matriz de vectores propios ordenados
loading_matrix = sorted_eigenvectors
loading_matrix

In [None]:
# Histogramas para variables de satisfacción
data[['RS_SaCom', 'RS_SaUnit', 'RS_SaNhood', 'RS_SaPeRe', 'RS_SaWoSoBa', 'RS_SaSafe']].hist(figsize=(12, 8))
plt.show()

In [None]:
# Análisis de correlación
correlation_matrix = data[['RS_SaCom', 'RS_SaUnit', 'RS_SaNhood', 'RS_SaPeRe', 'RS_SaWoSoBa', 'RS_SaSafe', 'OEA_NeOrig']].corr()

# Visualización de la matriz de correlación
import seaborn as sns
plt.figure(figsize=(10, 8))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt=".2f")
plt.show()


In [None]:
import statsmodels.api as sm
from statsmodels.formula.api import ols

# Realizar un ANOVA para la satisfacción comunitaria (RS_SaCom) en función del origen del barrio (OEA_NeOrig)
model = ols('RS_SaCom ~ C(OEA_NeOrig)', data=data).fit()
anova_table = sm.stats.anova_lm(model, typ=2)

# Imprimir la tabla ANOVA
print(anova_table)


In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# Cargar los datos desde el archivo Excel
data = pd.read_excel('base.xlsx')

# Lista de variables de satisfacción residencial
satisfaction_vars = ['RS_SaCom', 'RS_SaUnit', 'RS_SaNhood', 'RS_SaPeRe', 'RS_SaWoSoBa', 'RS_SaSafe']

# Crear un subplot para cada variable de satisfacción
plt.figure(figsize=(15, 10))
for i, var in enumerate(satisfaction_vars, 1):
    plt.subplot(2, 3, i)
    sns.boxplot(x='OEA_NeOrig', y=var, data=data)
    plt.title(f'Boxplot de {var} por Origen del Barrio')
    plt.xlabel('Origen del Barrio (OEA_NeOrig)')
    plt.ylabel(var)

# Ajustar la disposición de los subplots
plt.tight_layout()

# Mostrar el gráfico
plt.show()

In [None]:
import pandas as pd
from sklearn.preprocessing import StandardScaler
from sklearn.impute import SimpleImputer
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt

# Cargar tus datos desde el archivo base.xlsx
data = pd.read_excel('base.xlsx')

# Extraer las variables relevantes para el análisis de componentes principales
# En este caso, utilizaremos las variables de satisfacción residencial
residential_satisfaction_vars = [
    'RS_SaCom', 'RS_SaUnit', 'RS_SaNhood',
    'RS_SaPeRe', 'RS_SaWoSoBa', 'RS_SaSafe'
]

X = data[residential_satisfaction_vars]

# Imputar valores faltantes con la media de la columna
imputer = SimpleImputer(strategy='mean')
X_imputed = imputer.fit_transform(X)

# Escalar los datos para que tengan media cero y varianza unitaria
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X_imputed)

# Realizar el PCA
pca = PCA()
principal_components = pca.fit_transform(X_scaled)

# Crear un DataFrame para los componentes principales
components_df = pd.DataFrame(data=principal_components, columns=[f'PC{i+1}' for i in range(X_scaled.shape[1])])

# Agregar la variable objetivo OEA_NeOrig
components_df['OEA_NeOrig'] = data['OEA_NeOrig']

# Visualizar la varianza explicada por cada componente principal
explained_variance_ratio = pca.explained_variance_ratio_
plt.bar(range(1, len(explained_variance_ratio) + 1), explained_variance_ratio)
plt.xlabel('Componente Principal')
plt.ylabel('Varianza Explicada')
plt.title('Varianza Explicada por Componente Principal')
plt.show()

# Mostrar estadísticas del PCA
print("Varianza explicada por cada componente principal:")
for i, ratio in enumerate(explained_variance_ratio, 1):
    print(f"PC{i}: {ratio:.4f}")



In [None]:
# Obtener los cargos de características de los componentes principales
componentes = pca.components_

# Crear un DataFrame para visualizar los cargos
cargas_df = pd.DataFrame(componentes, columns=X.columns)

# Ver los cargos de características para cada componente principal
print(cargas_df)
