In [None]:
# Importación de librerías necesarias
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cluster import KMeans
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.metrics import silhouette_score
from sklearn.decomposition import PCA

In [None]:
# Configuración de visualización
%matplotlib inline
plt.style.use('ggplot')

In [None]:
#Introducción
print("Título del Proyecto: Caracterización de opiniones en redes sociales durante la pandemia COVID-19 en Chile")
print("Integrantes del Grupo: Guillermo Fuentes, Exequiel González, Andrea Saldaña")


In [None]:
# Resumen ejecutivo del proyecto
#En este proyecto de ciencia de datos, se abordará la caracterización de opiniones 
#expresadas en las redes sociales durante el período de la pandemia de COVID-19 en 
#Chile, utilizando un conjunto de datos originales que contiene tweets emitidos entre 
#octubre de 2019 y noviembre de 2020. El objetivo principal es analizar y entender las 
#opiniones de la población chilena sobre eventos y políticas relacionadas con la 
#pandemia.

In [None]:
# Documentación y metodología
# Descripción de cómo se recolectaron los datos, cómo se están preprocesando y cómo se planea modelar y analizar los datos.

In [None]:
# Preprocesamiento de datos
# Carga del conjunto de datos y preprocesamiento inicial.
tweets_df = pd.read_csv('/path/to/your/csv/Clean_Tweets_01_2.csv')
# Eliminación de ruido y normalización del texto.
# [Aquí incluirías el código para la limpieza adicional de datos si es necesario]

In [None]:
# Representación de los tweets (TF-IDF)
# Transformación del texto de los tweets a una forma numérica usando TF-IDF.
tfidf_vectorizer = TfidfVectorizer()
tfidf_matrix = tfidf_vectorizer.fit_transform(tweets_df['clean_tweet'])
# [El código asume que 'clean_tweet' es la columna con los tweets preprocesados]

In [None]:
# Identificación de grupos de opiniones (K-Means)
# Cálculo de la similitud del coseno entre tweets para la identificación de grupos de opiniones.
cosine_sim_matrix = cosine_similarity(tfidf_matrix)

In [None]:
# Uso de K-Means para agrupar tweets similares basados en la similitud del coseno.
num_clusters = 5  # Número de clústeres elegido basado en el método del codo o la silueta.
kmeans = KMeans(n_clusters=num_clusters, random_state=42)
kmeans.fit(tfidf_matrix)
tweets_df['cluster'] = kmeans.labels_

In [None]:
# Análisis de resultados
# Evaluación de los clústeres usando la métrica de la silueta.
silhouette_avg = silhouette_score(tfidf_matrix, tweets_df['cluster'])
print(f"Silhouette Coefficient: {silhouette_avg}")

In [None]:
# Visualizaciones de soporte para el análisis
# Reducción de dimensionalidad para la visualización de clústeres.
pca = PCA(n_components=2)
pca_result = pca.fit_transform(tfidf_matrix.toarray())
tweets_df['x'] = pca_result[:,0]
tweets_df['y'] = pca_result[:,1]

In [None]:
# Gráfico de dispersión de los clústeres.
plt.figure(figsize=(10,10))
plt.scatter(tweets_df['x'], tweets_df['y'], c=tweets_df['cluster'], cmap='viridis', alpha=0.5)
plt.title('Visualización de Clústeres con PCA')
plt.xlabel('Componente Principal 1')
plt.ylabel('Componente Principal 2')
plt.colorbar()
plt.show()

In [None]:
# Resumen ejecutivo y avance de objetivos
#En este proyecto de ciencia de datos, se abordará la caracterización de opiniones 
#expresadas en las redes sociales durante el período de la pandemia de COVID-19 en 
#Chile, utilizando un conjunto de datos originales que contiene tweets emitidos entre 
#octubre de 2019 y noviembre de 2020. El objetivo principal es analizar y entender las 
#opiniones de la población chilena sobre eventos y políticas relacionadas con la 
#pandemia.

In [None]:
# Conclusión y próximos pasos
# [Resumir los hallazgos principales y discutir los próximos pasos del proyecto]