<a href="https://colab.research.google.com/github/bonillahermes/Data_Science_Projects/blob/main/AnalisisMultivariado.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Hermes Yate Bonilla
**Data Scientist**
---

**Contact:**
- **Email:** [bonillahermes@gmail.com](mailto:bonillahermes@gmail.com)
- **LinkedIn:** [linkedin.com/in/bonillahermes](https://www.linkedin.com/in/bonillahermes/)
- **GitHub:** [github.com/bonillahermes](https://github.com/bonillahermes)
- **Webpage:** [bonillahermes.com](https://bonillahermes.com/)
---

# Análisis Multivariado

In [None]:
from google.colab import drive

# Monta tu Google Drive
drive.mount('/content/drive')

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import scipy.stats as stats
import matplotlib.pyplot as plt
import plotly.express as px
from scipy.stats import shapiro

In [None]:
# Ruta del archivo Excel en tu Google Drive
ruta_archivo = '/content/drive/MyDrive/Bases/BaseImputada.xlsx'

# Cargar el archivo Excel en un DataFrame de Pandas
df = pd.read_excel(ruta_archivo)

# Mostrar las primeras filas para entender la estructura
df.head()

# Análisis Descriptivo

## Resumen

En el estudio realizado con 137 participantes, se observa una edad promedio de aproximadamente 23.77 años, con un rango que va desde los 17 hasta los 47 años. La distribución de género muestra una mayor proporción de participantes femeninos (66.42%). La mayoría de los encuestados pertenecen a los estratos socioeconómicos medio-bajos, con un 52.55% en el estrato 2 y un 33.58% en el estrato 3. Además, un significativo 66.42% de los participantes está trabajando actualmente y un abrumador 95.62% son estudiantes universitarios. En términos políticos y religiosos, la mayoría no se identifica con ningún movimiento político (97.08%) y un 56.20% no profesa ninguna religión.

En cuanto a la participación cívica, un 78.83% de los encuestados votó en las últimas elecciones. Estos datos reflejan una población joven, principalmente estudiantil, con una participación activa en el ámbito laboral y una inclinación hacia la participación electoral. A su vez, muestran una tendencia a no identificarse con movimientos políticos específicos y una inclinación menor hacia la afiliación religiosa. Este perfil demográfico y de comportamiento proporciona una comprensión valiosa del grupo estudiado, siendo de interés para investigaciones centradas en jóvenes adultos en contextos urbanos y educativos.


In [None]:
# Análisis descriptivo para la variable 'Edad' (P108)
desc_edad = df['P108'].describe()

# Frecuencias para las variables categóricas
desc_genero = df['P109'].value_counts(normalize=True)  # Proporción de cada categoría
desc_estrato = df['P110'].value_counts(normalize=True)
desc_trabajando = df['P111'].value_counts(normalize=True)
desc_estudiante_universitario = df['P112'].value_counts(normalize=True)
desc_voto = df['P113'].value_counts(normalize=True)
desc_movimiento_politico = df['P114'].value_counts(normalize=True)
desc_religion = df['P116'].value_counts(normalize=True)

# Imprimir los resultados
print('Descripción de Edad (P108):')
print(desc_edad)

print('\nGénero (P109):')
print(desc_genero)

print('\nEstrato Socio-Económico (P110):')
print(desc_estrato)

print('\n¿Se encuentra trabajando en este momento? (P111):')
print(desc_trabajando)

print('\n¿Es estudiante universitario? (P112):')
print(desc_estudiante_universitario)

print('\n¿Votó en las últimas elecciones? (P113):')
print(desc_voto)

print('\n¿Pertenece a algún movimiento político? (P114):')
print(desc_movimiento_politico)

print('\n¿Profesa alguna religión? (P116):')
print(desc_religion)


In [None]:
# Análisis descriptivo y gráficas para la variable Edad (P108)
plt.figure(figsize=(12, 6))

# Histograma para la variable 'Edad'
plt.subplot(1, 2, 1)
sns.histplot(df['P108'], kde=True)
plt.title('Distribución de Edad')
plt.xlabel('Edad')
plt.ylabel('Frecuencia')

# Boxplot para la variable 'Edad'
plt.subplot(1, 2, 2)
sns.boxplot(y=df['P108'])
plt.title('Boxplot de Edad')
plt.ylabel('Edad')

# Mostrar las gráficas
plt.tight_layout()
plt.show()



In [None]:
import matplotlib.pyplot as plt

# Datos de las variables cualitativas
genero = [66.42, 33.58]  # Femenino, Masculino
estrato = [52.55, 33.58, 7.30, 5.84, 0.73]  # Estrato 2, 3, 1, 4, 5
trabajando = [66.42, 33.58]  # Sí, No
estudiante = [95.62, 4.38]  # Sí, No
voto = [78.83, 21.17]  # Sí, No
movimiento_politico = [97.08, 2.92]  # No, Sí
religion = [56.20, 43.80]  # No, Sí

# Etiquetas para las gráficas
labels_genero = ['Femenino', 'Masculino']
labels_estrato = ['Estrato 2', 'Estrato 3', 'Estrato 1', 'Estrato 4', 'Estrato 5']
labels_si_no = ['Sí', 'No']

# Creación de gráficos de barras con porcentajes
fig, axs = plt.subplots(7, figsize=(10, 25))

# Función para crear un gráfico de barras con porcentajes
def crear_grafico_barras(data, labels, title, ax):
    bars = ax.bar(labels, data)
    ax.set_title(title)
    for bar in bars:
        yval = bar.get_height()
        ax.text(bar.get_x() + bar.get_width()/2, yval, round(yval, 2), va='bottom')  # Agregar el porcentaje en la barra

# Generar gráficos de barras para cada variable
crear_grafico_barras(genero, labels_genero, 'Género', axs[0])
crear_grafico_barras(estrato, labels_estrato, 'Estrato Socio-Económico', axs[1])
crear_grafico_barras(trabajando, labels_si_no, 'Trabajando', axs[2])
crear_grafico_barras(estudiante, labels_si_no, 'Estudiante Universitario', axs[3])
crear_grafico_barras(voto, labels_si_no, 'Votó en últimas elecciones', axs[4])
crear_grafico_barras(movimiento_politico, labels_si_no, 'Pertenece a movimiento político', axs[5])
crear_grafico_barras(religion, labels_si_no, 'Profesa religión', axs[6])

plt.tight_layout()
plt.show()



# Validaciones

La evaluación de la confiabilidad de las escalas a través del alfa de Cronbach revela una variabilidad significativa en la coherencia interna entre las distintas dimensiones analizadas. Las escalas que evalúan 'Activismo Político en Internet', 'Actitud hacia el rol de la participación en línea' y 'Publicación de opiniones en la red' demuestran una alta fiabilidad, con alfas superiores a 0.90, superando ampliamente el umbral de 0.80 considerado adecuado para una buena fiabilidad. La 'Autoeficacia' y 'Ruptura del liderazgo político' también presentan una fiabilidad robusta, con alfas de 0.8320 y 0.8605 respectivamente. Por otro lado, la escala de 'Participación Ciudadana' muestra una fiabilidad cuestionable con un alfa de 0.5425, lo que indica la necesidad de revisión o ajuste de los ítems para mejorar su consistencia interna. Las dimensiones 'Anomia social', 'Ruptura del Tejido social', 'Presencia en comunidades digitales universitarias' y 'Apoyo a propuestas virtuales de cambio' exhiben alfas que oscilan entre 0.6423 y 0.7959, sugiriendo que, aunque son aceptables, podrían beneficiarse de una revisión para optimizar la confiabilidad de la escala.

In [None]:
# Función para calcular el alfa de Cronbach
def cronbach_alpha(df):
    k = df.shape[1]  # Número de ítems
    item_var_sum = df.var(axis=0, ddof=1).sum()  # Suma de varianzas de los ítems
    total_var = df.sum(axis=1).var(ddof=1)  # Varianza total de las puntuaciones sumadas
    return (k / (k - 1)) * (1 - (item_var_sum / total_var))


# Diccionario de categorías y sus respectivas variables
variables_por_clasificacion = {
    'Participación Ciudadana': ['P129', 'P130', 'P131', 'P132', 'P133', 'P134', 'P135', 'P136'],
    'Autoeficacia': ['P140', 'P141', 'P142', 'P143', 'P144', 'P145', 'P146', 'P147'],
    'Anomia social': ['P148', 'P149', 'P150', 'P151', 'P152', 'P153', 'P154', 'P155'],
    'Ruptura del Tejido social': ['P156', 'P157', 'P158', 'P159'],
    'Ruptura del liderazgo político': ['P160', 'P161', 'P162', 'P163'],
    'Activismo Político en Internet': ['P164', 'P165', 'P166', 'P167', 'P168', 'P169'],
    'Actitud hacia el rol de la participación en línea': ['P170', 'P171', 'P172', 'P173', 'P174', 'P175'],
    'Presencia en comunidades digitales universitarias': ['P176', 'P177', 'P178', 'P179'],
    'Apoyo a propuestas virtuales de cambio': ['P180', 'P181', 'P182', 'P183'],
    'Publicación de opiniones en la red': ['P184', 'P185', 'P186', 'P187', 'P188']
}

# Calculamos el alfa de Cronbach para cada clasificación de variables
alfa_cronbach_por_clasificacion = {}
for clasificacion, items in variables_por_clasificacion.items():
    df_clasificacion = df[items]
    alfa_cronbach_por_clasificacion[clasificacion] = cronbach_alpha(df_clasificacion)

# Mostramos los resultados
for clasificacion, alfa in alfa_cronbach_por_clasificacion.items():
    print(f"Alfa de Cronbach para {clasificacion}: {alfa}")





# Técnicas de Reducción de Dimensiones

In [None]:
# Seleccionar solo las columnas desde 'P124' hasta 'P188'
df_subconjunto = df.loc[:, 'P124':'P188']

# Mostrar las primeras filas del subconjunto para entender la estructura
print(df_subconjunto.head())

# PCA

In [None]:
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler
import matplotlib.pyplot as plt

# Preprocesamiento: Normalizar los datos del subconjunto
scaler = StandardScaler()
df_subconjunto_scaled = scaler.fit_transform(df_subconjunto)

# Aplicar PCA
pca = PCA(n_components=6) # Puedes ajustar el número de componentes
principalComponents = pca.fit_transform(df_subconjunto_scaled)

# Crear un DataFrame para visualizar los resultados del PCA
pca_df = pd.DataFrame(data=principalComponents, columns=['Componente Principal 1', 'Componente Principal 2', 'Componente Principal 3', 'Componente Principal 4', 'Componente Principal 5', 'Componente Principal 6'])

# Varianza explicada por cada componente
print("Varianza explicada por cada componente:")
print(pca.explained_variance_ratio_)


In [None]:
from scipy import stats

# Prueba de Shapiro-Wilk para cada componente principal
for i in range(principalComponents.shape[1]):
    shapiro_test = stats.shapiro(principalComponents[:, i])
    print(f'Shapiro-Wilk Test for Principal Component {i+1}:', shapiro_test)


In [None]:
# Convertir 'principalComponents' a un DataFrame
principal_components_df = pd.DataFrame(principalComponents, columns=[f'Componente Principal {i+1}' for i in range(principalComponents.shape[1])])

# Unir 'principal_components_df' con el DataFrame original 'df'
df_final = pd.concat([df, principal_components_df], axis=1)

# Ahora 'df_final' contiene tanto los datos originales como los componentes principales
# Puedes guardar este DataFrame en un nuevo archivo si es necesario
#df_final.to_csv('tu_dataframe_con_componentes.csv', index=False)


In [None]:
df_final.head()

In [None]:
from scipy.stats import ttest_ind

# Inicializamos un diccionario para almacenar los resultados de las pruebas t
t_test_results = {}

# Realizamos la prueba t para cada componente principal
for i in range(1, 7):  # Asumimos que hay 6 componentes principales
    # Separar los grupos por género
    group1 = df_final[df_final['P109'] == 0][f'Componente Principal {i}']
    group2 = df_final[df_final['P109'] == 1][f'Componente Principal {i}']

    # Realizar la prueba t (Welch's t-test)
    t_stat, p_val = ttest_ind(group1, group2, equal_var=False)

    # Almacenar los resultados en el diccionario
    t_test_results[f'Componente Principal {i}'] = {'t-statistic': t_stat, 'p-value': p_val}

# Convertir el diccionario de resultados en un DataFrame para visualizarlo mejor
t_test_results_df = pd.DataFrame(t_test_results).T

# Mostrar los resultados
print(t_test_results_df)


In [None]:
# Inicializamos un diccionario para almacenar los resultados de las pruebas t
t_test_results = {}

# Realizamos la prueba t para cada componente principal
for i in range(1, 7):  # Asumimos que hay 6 componentes principales
    # Separar los grupos por trabajo
    group1 = df_final[df_final['P111'] == 0][f'Componente Principal {i}']
    group2 = df_final[df_final['P111'] == 1][f'Componente Principal {i}']

    # Realizar la prueba t (Welch's t-test)
    t_stat, p_val = ttest_ind(group1, group2, equal_var=False)

    # Almacenar los resultados en el diccionario
    t_test_results[f'Componente Principal {i}'] = {'t-statistic': t_stat, 'p-value': p_val}

# Convertir el diccionario de resultados en un DataFrame para visualizarlo mejor
t_test_results_df = pd.DataFrame(t_test_results).T

# Mostrar los resultados
print(t_test_results_df)


In [None]:
# Inicializamos un diccionario para almacenar los resultados de las pruebas t
t_test_results = {}

# Realizamos la prueba t para cada componente principal
for i in range(1, 7):  # Asumimos que hay 6 componentes principales
    # Separar los grupos por participación en las votaciones
    group1 = df_final[df_final['P113'] == 0][f'Componente Principal {i}']
    group2 = df_final[df_final['P113'] == 1][f'Componente Principal {i}']

    # Realizar la prueba t (Welch's t-test)
    t_stat, p_val = ttest_ind(group1, group2, equal_var=False)

    # Almacenar los resultados en el diccionario
    t_test_results[f'Componente Principal {i}'] = {'t-statistic': t_stat, 'p-value': p_val}

# Convertir el diccionario de resultados en un DataFrame para visualizarlo mejor
t_test_results_df = pd.DataFrame(t_test_results).T

# Mostrar los resultados
print(t_test_results_df)


In [None]:
# Inicializamos un diccionario para almacenar los resultados de las pruebas t
t_test_results = {}

# Realizamos la prueba t para cada componente principal
for i in range(1, 7):  # Asumimos que hay 6 componentes principales
    # Separar los grupos por si profesa alguna religión
    group1 = df_final[df_final['P116'] == 0][f'Componente Principal {i}']
    group2 = df_final[df_final['P116'] == 1][f'Componente Principal {i}']

    # Realizar la prueba t (Welch's t-test)
    t_stat, p_val = ttest_ind(group1, group2, equal_var=False)

    # Almacenar los resultados en el diccionario
    t_test_results[f'Componente Principal {i}'] = {'t-statistic': t_stat, 'p-value': p_val}

# Convertir el diccionario de resultados en un DataFrame para visualizarlo mejor
t_test_results_df = pd.DataFrame(t_test_results).T

# Mostrar los resultados
print(t_test_results_df)

# Análisis Factorial

In [None]:
pip install factor-analyzer


In [None]:
from factor_analyzer import FactorAnalyzer
import matplotlib.pyplot as plt


# Normalización de los datos
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
df_scaled = scaler.fit_transform(df_subconjunto)

# Crear un objeto de análisis factorial y realizar el ajuste
fa = FactorAnalyzer(rotation=None, n_factors=df_subconjunto.shape[1])
fa.fit(df_subconjunto)

# Comprobar la cantidad óptima de factores
# El criterio de Kaiser sugiere conservar factores con autovalores > 1
ev, v = fa.get_eigenvalues()
plt.scatter(range(1, df_subconjunto.shape[1]+1), ev)
plt.plot(range(1, df_subconjunto.shape[1]+1), ev)
plt.title('Scree Plot')
plt.xlabel('Factores')
plt.ylabel('Autovalor')
plt.grid()
plt.show()


In [None]:
# Decidir sobre el número de factores a retener
n = 6  # Ajustar este valor según el Scree Plot u otros criterios
fa = FactorAnalyzer(rotation="varimax", n_factors=n)
fa.fit(df_subconjunto)

# Obtener la varianza explicada por cada factor
variance, proportional_variance, cumulative_variance = fa.get_factor_variance()
print("Varianza total explicada:\n", cumulative_variance)

In [None]:
# Ajustar el análisis factorial con rotación Varimax
fa = FactorAnalyzer(rotation="varimax", n_factors=6)  # Ajusta el número de factores según tu elección
fa.fit(df_subconjunto)

# Obtener la varianza explicada por cada factor después de la rotación
variance, proportional_variance, cumulative_variance = fa.get_factor_variance()
print("Varianza total explicada con rotación Varimax:\n", cumulative_variance)


In [None]:
# Obtener las cargas factoriales (loadings)
loadings = fa.loadings_

# Crear un DataFrame para facilitar la visualización de las cargas factoriales
loadings_df = pd.DataFrame(loadings, index=df_subconjunto.columns, columns=[f'Factor {i+1}' for i in range(n)])

# Si quieres identificar las variables más significativas para cada factor,
# puedes buscar las cargas más altas (absolutas) para cada factor
for i in range(n):
    print(f"\nVariables con mayor carga en Factor {i+1}:")
    factor_loadings = loadings_df.iloc[:, i]
    # Puedes ajustar el umbral para tu caso específico, por ejemplo, 0.4, 0.5, 0.6 etc.
    significant_vars = factor_loadings[abs(factor_loadings) > 0.6]
    print(significant_vars.sort_values(ascending=False))


## Perfiles de Factores

### Factor 1: Expresión y Activismo en Línea
- **Preguntas Asociadas**: P181, P188, P187, P147, P184, P185, P182, P143, P141, P135.
- **Interpretación**: Este factor refleja una tendencia al activismo digital y a la expresión de opiniones políticas a través de internet. Las personas con altas cargas en este factor probablemente participen activamente en la firma de peticiones, el debate de temas políticos y la manifestación de sus opiniones en línea.

### Factor 2: Compromiso Político Activo en Línea
- **Preguntas Asociadas**: P160, P164, P167, P166, P169, P163, P161, P168, P162.
- **Interpretación**: Las cargas altas aquí sugieren un compromiso directo y activo en la política y el voluntariado digital, como trabajar para partidos políticos, organizar y firmar peticiones en línea, y la participación en grupos de discusión políticos.

### Factor 3: Percepción de la Influencia Digital
- **Preguntas Asociadas**: P170, P172, P173, P174, P175.
- **Interpretación**: Este factor captura la creencia en la eficacia de la participación y el activismo en línea. Indica que la gente ve el internet como una herramienta poderosa para el cambio social y político y para desafiar las estructuras de poder existentes.

### Factor 4: Opiniones sobre la Gobernanza
- **Preguntas Asociadas**: P155, P154, P156, P157, P158.
- **Interpretación**: Aquí se concentran las opiniones sobre la efectividad y justicia del gobierno. Aquellos con altas cargas en este factor probablemente perciban al gobierno como justo, eficiente y preocupado por el bienestar de la población.

### Factor 5: Desconfianza a la política
- **Preguntas Asociadas**: P149, P150, P151, P152.
- **Interpretación**: Este factor parece relacionarse con una perspectiva cínica y desconfiada hacia la sociedad y la moralidad. Implica una creencia de que el auto-interés prevalece y que la honestidad no siempre es la mejor política.

### Factor 6: Aversión a la Política
- **Preguntas Asociadas**: P125, P126, P127, P124.
- **Interpretación**: Indica una tendencia a evitar la política, ya sea por falta de interés o por una preferencia por no involucrarse en conversaciones políticas, posiblemente para evitar conflictos o por una visión de la política como poco útil.


In [None]:
plt.figure(figsize=(12, 9))
ax = sns.heatmap(loadings, cmap='viridis', center=0, annot=True, fmt=".2f",
                 linewidths=.5, cbar_kws={"shrink": .5})

plt.title('Mapa de Calor de las Cargas Factoriales de los Componentes Principales')
plt.xlabel('Componente Principal')
plt.ylabel('Variable Original')

# Rotar las etiquetas del eje x para mejor legibilidad
plt.xticks(rotation=45, ha='right')

# Ajustar el tamaño de la letra de las marcas en los ejes para una mejor legibilidad
plt.xticks(fontsize=10)
plt.yticks(fontsize=10)

# Mostrar la figura ajustada
plt.tight_layout() # Ajusta automáticamente los parámetros de la subtrama
plt.show()

# Cluster

In [None]:
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
from sklearn.preprocessing import StandardScaler

# Normalizar los datos antes de aplicar K-Means
scaler = StandardScaler()
df_subconjunto_scaled = scaler.fit_transform(df_subconjunto)

# Método del codo para encontrar el número óptimo de clusters
wcss = []  # Suma de cuadrados intra-cluster
for i in range(1, 11):  # Prueba con varios números de clusters, por ejemplo, de 1 a 10
    kmeans = KMeans(n_clusters=i, init='k-means++', max_iter=300, n_init=10, random_state=0)
    kmeans.fit(df_subconjunto_scaled)
    wcss.append(kmeans.inertia_)

# Visualizar el método del codo
plt.figure(figsize=(10, 8))
plt.plot(range(1, 11), wcss)
plt.title('Método del Codo')
plt.xlabel('Número de clusters')
plt.ylabel('WCSS')  # Suma de cuadrados dentro del cluster
plt.show()


In [None]:
# Asegúrate de que sea una copia independiente para evitar el SettingWithCopyWarning
df_subconjunto = df_subconjunto.copy()

# Ajustar K-Means al DataFrame
optimal_clusters = 4  # o el número de clusters que decidiste basándote en el método del codo
kmeans = KMeans(n_clusters=optimal_clusters, init='k-means++', max_iter=300, n_init=10, random_state=0)
cluster_labels = kmeans.fit_predict(df_subconjunto_scaled)

# Utiliza .loc para evitar el SettingWithCopyWarning al añadir la columna de clusters
df_subconjunto.loc[:, 'Cluster'] = cluster_labels

# Visualizar los clusters
print(df_subconjunto.head())



In [None]:
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt
import seaborn as sns

# Supongamos que ya has normalizado y aplicado K-Means a tus datos como se mostró en ejemplos anteriores

# Aplicar PCA para reducir la dimensionalidad para visualización
pca = PCA(n_components=2)  # Usamos 2 para facilitar la visualización 2D
principal_components = pca.fit_transform(df_subconjunto_scaled)

# Crear un nuevo DataFrame para los componentes principales
pca_df = pd.DataFrame(data=principal_components, columns=['Componente Principal 1', 'Componente Principal 2'])

# Añadir las etiquetas de clusters al DataFrame de PCA para visualizar
pca_df['Cluster'] = cluster_labels

# Graficar los clusters
plt.figure(figsize=(10, 8))
sns.scatterplot(x='Componente Principal 1', y='Componente Principal 2', data=pca_df, hue='Cluster', palette='viridis', alpha=0.7)
plt.title('Visualización de Clusters')
plt.legend()
plt.show()


In [None]:
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D

# Asumiendo que 'df_subconjunto_scaled' son tus datos escalados y 'cluster_labels' las etiquetas de tus clusters

# Aplicar PCA para reducir a 3 componentes para visualización 3D
pca = PCA(n_components=3)
principal_components_3d = pca.fit_transform(df_subconjunto_scaled)

# Crear un nuevo DataFrame para los componentes principales
pca_df_3d = pd.DataFrame(data=principal_components_3d, columns=['Componente Principal 1', 'Componente Principal 2', 'Componente Principal 3'])

# Añadir las etiquetas de clusters al DataFrame de PCA para visualizar
pca_df_3d['Cluster'] = cluster_labels

# Graficar los clusters en 3D
fig = plt.figure(figsize=(10, 8))
ax = fig.add_subplot(111, projection='3d')
scatter = ax.scatter(pca_df_3d['Componente Principal 1'], pca_df_3d['Componente Principal 2'], pca_df_3d['Componente Principal 3'],
                     c=pca_df_3d['Cluster'], cmap='viridis', label=pca_df_3d['Cluster'].unique())

# Leyenda con los colores de los clusters
legend1 = ax.legend(*scatter.legend_elements(), title="Clusters")
ax.add_artist(legend1)

# Títulos de los ejes
ax.set_xlabel('Componente Principal 1')
ax.set_ylabel('Componente Principal 2')
ax.set_zlabel('Componente Principal 3')
plt.title('Visualización 3D de Clusters')
plt.show()


In [None]:
from sklearn.cluster import KMeans

# Aplicar K-Means al DataFrame con los componentes principales
kmeans = KMeans(n_clusters=4, random_state=0)  # Ajustar n_clusters según tu elección
cluster_labels = kmeans.fit_predict(principalComponents)

# Añadir las etiquetas de clusters al DataFrame de PCA
pca_df['Cluster'] = cluster_labels

# Calcular los centros de los clusters
cluster_centers = kmeans.cluster_centers_
centers_df = pd.DataFrame(cluster_centers, columns=pca_df.columns[:-1])

# Imprimir los centros de los clusters
print("Centros de los clusters:")
print(centers_df)

# Calcular estadísticas descriptivas para cada cluster y cada componente principal
for i in range(kmeans.n_clusters):
    print(f"\nEstadísticas descriptivas del Cluster {i}:")
    cluster_data = pca_df[pca_df['Cluster'] == i]
    print(cluster_data.describe().iloc[1:,:-1])  # iloc[1:, :-1] para excluir el conteo y la columna de cluster



## Centros de los Clusters
Los centros de los clusters representan el "corazón" de cada grupo en el espacio de componentes principales. Estos puntos centrales indican la posición media de los clusters en cada dimensión del PCA.

```plaintext
| Componente | Cluster 0 | Cluster 1 | Cluster 2 | Cluster 3 |
|------------|-----------|-----------|-----------|-----------|
| CP1        |    4.23   |   -3.17   |    1.15   |   -3.20   |
| CP2        |   -1.46   |   -2.30   |    1.80   |    2.71   |
| CP3        |    0.29   |   -0.21   |   -0.43   |    0.57   |
| CP4        |    0.81   |   -0.83   |   -0.77   |    1.27   |
| CP5        |   -0.04   |   -0.23   |    0.20   |    0.09   |
| CP6        |   -0.08   |    0.46   |    0.12   |   -0.76   |


## Interpretación de las Estadísticas Descriptivas de los Clusters

La interpretación de los clusters se basa en los seis componentes principales obtenidos del análisis PCA, que reflejan diferentes dimensiones de actitudes y comportamientos relacionados con la política y la participación social y digital.

### Cluster 0: Altamente Influido por el Primer Componente Principal
- **Componente Principal 1 (CP1)**: Este cluster tiene una media significativamente alta en CP1, lo que sugiere una fuerte influencia de las actitudes y comportamientos capturados por este componente. Podría indicar una tendencia hacia la participación activa y el compromiso político o social.
- **Componente Principal 2 (CP2)**: Con una media negativa, este cluster parece diferir en aspectos capturados por el segundo componente, que podría estar relacionado con formas de participación menos directas o tradicionales.

### Cluster 1: Caracterizado por Valores Negativos en CP1 y CP2
- **CP1 y CP2**: Los valores medios negativos en estos componentes sugieren características opuestas al Cluster 0. Esto podría reflejar un grupo menos activo o comprometido con las formas de participación política o social destacadas en CP1 y CP2.
- **Alta Variabilidad en CP3 y CP4**: Indica una diversidad de opiniones o comportamientos relacionados con las dimensiones subyacentes de estos componentes.

### Cluster 2: Tendencia Positiva en CP2 y CP5
- **CP2**: Una media positiva en CP2 sugiere características similares al Cluster 1 pero con una orientación distinta, posiblemente reflejando una forma diferente de interacción o compromiso.
- **CP5**: Con valores medios más altos, este cluster podría estar más influenciado por aspectos relacionados con la comunicación digital o la participación en plataformas en línea.

### Cluster 3: Distinción en CP2 y CP4
- **CP2 y CP4**: Con medias positivas altas, este cluster se distingue claramente en estos componentes. Podría indicar un grupo con un enfoque particular en ciertas formas de participación política o social, o actitudes específicas hacia la gobernanza y la política.
- **Variabilidad en CP3**: La alta desviación estándar sugiere una amplia gama de comportamientos o actitudes en esta dimensión.

Estos perfiles de clusters proporcionan una comprensión profunda de cómo se agrupan los encuestados en términos de sus actitudes y comportamientos políticos y sociales. La interpretación de cada cluster ofrece pistas sobre las diferentes maneras en que las personas se relacionan con el entorno político y social, especialmente en el contexto de la era digital.



# Sumas por ITEM

In [None]:
# Definir los ítems y las variables asociadas según la imagen proporcionada
items = {
    'Participación Ciudadana': ['P129', 'P130', 'P131', 'P132', 'P133', 'P134', 'P135', 'P136', 'P140', 'P141', 'P142', 'P143'],
    'Autoeficacia': ['P144', 'P145', 'P146', 'P147'],
    'Anomia social': ['P148', 'P149', 'P150', 'P151', 'P152', 'P153'],
    'Activismo político en Internet': ['P160', 'P161', 'P162', 'P163', 'P164', 'P165', 'P166', 'P167', 'P168', 'P169'],
    'Actitud hacia el rol de la participación en línea': ['P170', 'P171', 'P172', 'P173', 'P174', 'P175'],
    'Presencia en comunidades digitales universitarias': ['P176', 'P177', 'P178', 'P179'],
    'Apoyo a propuestas virtuales de cambio': ['P180', 'P181', 'P182'],
    'Publicación de opiniones en la red': ['P184', 'P185', 'P186', 'P187', 'P188']
}

# Crear un diccionario para almacenar los conteos por ítem
conteos_por_item = {item: df[variables].apply(pd.Series.value_counts, axis=0).fillna(0).astype(int).sum(axis=1)
                    for item, variables in items.items()}

# Convertir el diccionario a DataFrame para una mejor visualización
conteos_por_item_df = pd.DataFrame(conteos_por_item)

# Asegurarse de que todas las posibles respuestas estén representadas
conteos_por_item_df = conteos_por_item_df.reindex([1, 2, 3, 4, 5]).fillna(0).astype(int)

# Mostrar el DataFrame de conteos
conteos_por_item_df


In [None]:
# Configurar las visualizaciones para que aparezcan en línea (específico de los cuadernos de Jupyter)
%matplotlib inline

# Iterar sobre cada columna (ítem) en el DataFrame 'conteos_por_item_df' y crear un diagrama de barras
for item in conteos_por_item_df.columns:
    conteos_por_item_df[item].plot(kind='bar', figsize=(10, 6))

    # Configurar título y etiquetas de los ejes
    plt.title(f'Frecuencias de Respuestas para el Ítem: {item}')
    plt.xlabel('Categorías de Respuestas')
    plt.ylabel('Frecuencia')
    plt.xticks(rotation=0)  # Mantener las etiquetas de los ejes x horizontales

    # Mostrar la gráfica
    plt.show()

In [None]:
# Clasificación de las variables por ítem según la información proporcionada
clasificacion_items = {
    'Participación Ciudadana': ['P129', 'P130', 'P131', 'P132', 'P133', 'P134', 'P135', 'P136', 'P140', 'P141', 'P142', 'P143'],
    'Autoeficacia': ['P144', 'P145', 'P146', 'P147'],
    'Anomia social': ['P148', 'P149', 'P150', 'P151', 'P152', 'P153'],
    'Activismo político en Internet': ['P160', 'P161', 'P162', 'P163', 'P164', 'P165', 'P166', 'P167', 'P168', 'P169'],
    'Actitud hacia el rol de la participación en línea': ['P170', 'P171', 'P172', 'P173', 'P174', 'P175'],
    'Presencia en comunidades digitales universitarias': ['P176', 'P177', 'P178', 'P179'],
    'Apoyo a propuestas virtuales de cambio': ['P180', 'P181', 'P182'],
    'Publicación de opiniones en la red': ['P184', 'P185', 'P186', 'P187', 'P188']
}

# Crear un nuevo DataFrame para las sumas de las variables por ítem
df_sumas = pd.DataFrame()

# Calcular las sumas de las variables por ítem y agregarlas al nuevo DataFrame 'df_sumas'
for item, variables in clasificacion_items.items():
    df_sumas[item] = df[variables].sum(axis=1)

In [None]:
import matplotlib.pyplot as plt

# Generar un histograma para cada ítem (columna) en el DataFrame 'df_sumas'
for column in df_sumas.columns:
    plt.figure()  # Crear una nueva figura para cada histograma
    df_sumas[column].hist(bins=15)  # Puedes ajustar el número de bins según sea necesario
    plt.title(f'Histograma de {column}')
    plt.xlabel('Suma')
    plt.ylabel('Frecuencia')
    plt.grid(False)  # Desactivar la cuadrícula para un estilo más limpio
    plt.show()  # Mostrar el histograma
