<br>
<br>

### Proyecto: An√°lisis de emociones

##### ![1) Definici√≥n del objetivo:](https://github.com/chetincho/ds_Prediccion_de_enfermedades/blob/main/img/Definici%C3%B3n%20del%20objetivo.jpg?raw=true)

El objetivo de este proyecto es clasificar autom√°ticamente la polaridad del sentimiento (positivo, negativo o neutro) de tweets relacionados con el √°mbito pol√≠tico. Esto se lograr√° mediante la aplicaci√≥n de un l√©xico de palabras predefinidas (positivas y negativas) para cada tweet.

##### ![2) Contexto comercial:](https://github.com/chetincho/ds_Prediccion_de_enfermedades/blob/main/img/Contexto%20comercial.jpg?raw=true)

En el √°mbito pol√≠tico y social actual, la opini√≥n p√∫blica expresada en redes sociales como Twitter (ahora X) juega un papel crucial. Los tweets representan un vasto repositorio de datos que, si se analizan correctamente, pueden ofrecer insights valiosos sobre la percepci√≥n ciudadana, la reacci√≥n a pol√≠ticas o figuras p√∫blicas, y la identificaci√≥n de tendencias emocionales emergentes. Para partidos pol√≠ticos, analistas de medios, periodistas o investigadores sociales, comprender el sentimiento detr√°s de estas interacciones digitales es esencial para:

1. Monitorear la reputaci√≥n: Evaluar c√≥mo son percibidas ciertas figuras, partidos o iniciativas.
2. Identificar temas clave: Descubrir qu√© aspectos generan las reacciones m√°s polarizadas.
3. Predecir tendencias: Anticipar posibles cambios en el apoyo o la oposici√≥n a determinadas ideas.
4. Evaluar el impacto de campa√±as: Medir la respuesta emocional a comunicaciones o eventos.

Sin un enfoque sistem√°tico, esta informaci√≥n permanece oculta o es dif√≠cil de cuantificar, limitando la capacidad de tomar decisiones informadas.

##### ![3) Problema comercial:](https://github.com/chetincho/ds_Prediccion_de_enfermedades/blob/main/img/Problema%20comercial.jpg?raw=true)

Actualmente, no existe un m√©todo eficiente y escalable para analizar y cuantificar la polaridad de los miles de tweets pol√≠ticos generados diariamente en espa√±ol. El an√°lisis manual es inviable debido al volumen de datos, y las herramientas gen√©ricas de an√°lisis de sentimiento a menudo carecen de la especificidad o la precisi√≥n necesaria para capturar los matices del discurso pol√≠tico en espa√±ol, especialmente en un contexto tan din√°mico y cargado emocionalmente.<br>

Esto lleva a los siguientes desaf√≠os:
- Falta de conocimiento estrat√©gico: Las organizaciones no pueden comprender r√°pidamente el pulso emocional de la ciudadan√≠a frente a eventos pol√≠ticos clave.
- Ineficiencia operativa: Se pierden horas de trabajo en intentos manuales de clasificar datos, o se recurre a an√°lisis superficiales.
- Oportunidades perdidas: No se identifican tendencias emergentes o cambios bruscos en el sentimiento que podr√≠an informar decisiones estrat√©gicas o comunicaciones.

Este proyecto busca resolver estos problemas proporcionando una soluci√≥n automatizada y cuantificable para el an√°lisis de sentimiento, permitiendo una comprensi√≥n m√°s profunda y r√°pida del panorama emocional pol√≠tico.<br>

##### ![Librer√≠as utilizadas:](https://github.com/chetincho/ds_Prediccion_de_enfermedades/blob/main/img/Librerias%20utilizadas.jpg?raw=true)

In [47]:
import pandas as pd

# Importamos el m√≥dulo re de Python el cual nos permite utilizar expresiones regulares.
import re

# Importamos la librer√≠a nltk, una de las bibliotecas m√°s comunes y robustas en Python
# utilizadas para la eliminaci√≥n de stopwords
import nltk
from nltk.corpus import stopwords # Importamos las stopwords

# Librerias de Lematizaci√≥n
import spacy # Importamos spaCy

# Utilizamos la librer√≠a TfidfVectorizer para la vectorizaci√≥n del corpus
from sklearn.feature_extraction.text import TfidfVectorizer

##### ![4) Data Acquisition:](https://github.com/chetincho/ds_Prediccion_de_enfermedades/blob/main/img/Data%20Acquisition.jpg?raw=true)

Este dataset fue construido mediante un proceso de web scraping de perfiles de Twitter (ahora X) de diversos dirigentes pol√≠ticos en Argentina, abarcando el per√≠odo desde noviembre de 2024 hasta junio de 2025.<br>
<br>
Para el an√°lisis presente, nos hemos focalizado exclusivamente en los tweets publicados por el presidente Javier Milei.<br>

In [48]:
# Origen de los datos
url_dataset="https://raw.githubusercontent.com/chetincho/Analisis_de_Sentimientos/refs/heads/main/dataset/dataset.txt"

# Carga del dataframe
df = pd.read_csv(url_dataset, sep='|')

# Seteamos el √≠ndice del dataframe para que comience en 1
df.set_index(pd.Index(range(1, len(df) + 1)), inplace=True)

# Seteamos pandas para mostrar todas las columnas
pd.set_option('display.max_columns', None)

##### ![5) Exploratory Data Analysis (EDA):](https://github.com/chetincho/ds_Prediccion_de_enfermedades/blob/main/img/Exploratory%20Data%20Analysis.jpg?raw=true)

üóíÔ∏è ¬øCu√°l es la cantidad de filas y columnas que componen el dataframe?

In [49]:
filas, columnas = df.shape
print(f"‚úÖ Total de Filas = {filas}")
print(f"‚úÖ Total de Columnas = {columnas}")

‚úÖ Total de Filas = 3316
‚úÖ Total de Columnas = 19


üóíÔ∏è ¬øCu√°les son las columnas o atributos que lo componen?

In [50]:
# Utilizo el m√©todo .tolist() para convertir las columnas en una lista
print(f"Este dataframe est√° compuesto por las siguientes columnas:")
columnas = df.columns.tolist()
for columna in columnas:
    print(f"üìÅ {columna}")

Este dataframe est√° compuesto por las siguientes columnas:
üìÅ Usuario X
üìÅ ID
üìÅ Text
üìÅ Language
üìÅ Type
üìÅ Author Name
üìÅ Author Username
üìÅ View Count
üìÅ Bookmark Count
üìÅ Favorite Count
üìÅ Retweet Count
üìÅ Reply Count
üìÅ Quote Count
üìÅ Created At
üìÅ Source
üìÅ Hashtags
üìÅ URLs
üìÅ Media Type
üìÅ Media URLs


üóíÔ∏è ¬øHay valores nulos?

In [51]:
print(f"‚ÑπÔ∏è Total de valores nulos detectados: {sum(df.isnull().sum())} valores")

‚ÑπÔ∏è Total de valores nulos detectados: 9753 valores


üóíÔ∏è ¬øCu√°les son los atributos que contienen valores nulos?, ¬øalguno de dichos atributos son cr√≠ticos para el an√°lisis?

In [52]:
print("‚ÑπÔ∏è Valores nulos por columna:")
print(df.isnull().sum())

‚ÑπÔ∏è Valores nulos por columna:
Usuario X             0
ID                    0
Text                  0
Language              0
Type                  0
Author Name           0
Author Username       0
View Count            0
Bookmark Count        0
Favorite Count        0
Retweet Count         0
Reply Count           0
Quote Count           0
Created At            0
Source                0
Hashtags           3103
URLs               2774
Media Type         1938
Media URLs         1938
dtype: int64


üëç No se detectan atributos claves para el an√°lisis que contengan valores nulos

üóíÔ∏è ¬øCu√°les son los tipos de dato de cada columna?

In [53]:
print(f"Tipo de Dato por Columna:")
for columna, tipo in df.dtypes.items():
    print(f"üîç {columna}: {tipo}")

Tipo de Dato por Columna:
üîç Usuario X: object
üîç ID: int64
üîç Text: object
üîç Language: object
üîç Type: object
üîç Author Name: object
üîç Author Username: object
üîç View Count: int64
üîç Bookmark Count: int64
üîç Favorite Count: int64
üîç Retweet Count: int64
üîç Reply Count: int64
üîç Quote Count: int64
üîç Created At: object
üîç Source: object
üîç Hashtags: object
üîç URLs: object
üîç Media Type: object
üîç Media URLs: object


‚ö†Ô∏è Se observa que el atributo ‚ÄúCreated At‚Äù fue almacenado en el dataframe como de tipo ‚Äúobject‚Äù cuando en realidad es de tipo datetime. Se procede con la correcci√≥n de tipo.

In [54]:
# Realizamos la correcci√≥n del tipo de dato para la columna ‚ÄúCreated At‚Äù
df['Created At'] = pd.to_datetime(df['Created At'])

# Verificamos el nuevo tipo de dato para la columna ‚ÄúCreated At‚Äù
print(f"üîç El nuevo tipo de dato es: {df['Created At'].dtype}")

üîç El nuevo tipo de dato es: datetime64[ns]


In [55]:
print(f"üîç Resumen de los tipos de datos que componen el dataframe:")
resumen_tipos_datos = df.dtypes.value_counts()
print(resumen_tipos_datos)

üîç Resumen de los tipos de datos que componen el dataframe:
object            11
int64              7
datetime64[ns]     1
Name: count, dtype: int64


üóíÔ∏è Veamos una peque√±a muestra del dataframe, exploramos las primeras y √∫ltimas filas.

In [56]:
print("Esta es una muestra de los datos contenidos en el dataframe:")
print("üóÇÔ∏è PRIMEROS 10 REGISTROS")
print("=========================")
df.head(10)

Esta es una muestra de los datos contenidos en el dataframe:
üóÇÔ∏è PRIMEROS 10 REGISTROS


Unnamed: 0,Usuario X,ID,Text,Language,Type,Author Name,Author Username,View Count,Bookmark Count,Favorite Count,Retweet Count,Reply Count,Quote Count,Created At,Source,Hashtags,URLs,Media Type,Media URLs
1,JMilei,1888684208325075281,VIVA LA LIBERTAD CARAJO https://t.co/7As233e2PO,es,Tweet,Javier Milei,JMilei,47514,2,623,94,189,3,2025-02-09 17:19:39,Twitter for Android,,https://www.instagram.com/reel/DF3X1fDJBBZ/?ig...,,
2,JMilei,1888636220445511716,TREMENDA MASTERCLAS del PROFE @jlespert al bru...,es,Tweet,Javier Milei,JMilei,1648346,297,17418,2500,1278,193,2025-02-09 14:08:58,Twitter for Android,,,,
3,JMilei,1888632601813885362,Cre√≠ que a mis 63 a√±os ya lo hab√≠a visto todo ...,es,Quoted,Jos√© Luis Espert,jlespert,1217423,451,13667,2269,847,137,2025-02-09 13:54:36,Twitter Web App,,,,
4,JMilei,1888440655422136478,NO APTO PARA SOCIALISTAS,es,Tweet,Javier Milei,JMilei,632983,1291,18885,4333,1142,139,2025-02-09 01:11:52,Twitter for Android,,,,
5,JMilei,1888340973530554371,¬øPor qu√© el libertarismo no tiene nada que ver...,es,Quoted,Fundaci√≥n Faro Argentina,fundfaro,951653,1568,8537,3154,383,233,2025-02-08 18:35:46,Twitter Web App,,,video,https://video.twimg.com/amplify_video/18883361...
6,JMilei,1888428020718862373,FEN√ìMENO BARRIAL,es,Tweet,Javier Milei,JMilei,406762,167,13241,1835,535,50,2025-02-09 00:21:40,Twitter for Android,,,,
7,JMilei,1888412358025838681,"ELON: I'M A BIG FAN OF MILEI ""He's doing fanta...",en,Quoted,Mario Nawfal,MarioNawfal,987028,188,4671,765,152,63,2025-02-08 23:19:25,Twitter Web App,,,video,https://video.twimg.com/ext_tw_video/188841227...
8,JMilei,1888389829567598645,VIVA LA LIBERTAD CARAJO https://t.co/nJzjio1dOU,es,Tweet,Javier Milei,JMilei,38314,2,499,70,82,6,2025-02-08 21:49:54,Twitter for Android,,https://www.instagram.com/p/DF1SDIaJdsl/?igsh=...,,
9,JMilei,1888329760608002243,FEN√ìMENO BARRIAL,es,Tweet,Javier Milei,JMilei,223230,24,6192,661,435,43,2025-02-08 17:51:13,Twitter for Android,,,,
10,JMilei,1888320882088518008,Essential for general prosperity,ca,Quoted,Elon Musk,elonmusk,15328834,1640,99078,11470,2045,285,2025-02-08 17:15:56,Twitter for iPhone,,,,


In [57]:
print("üóÇÔ∏è √öLTIMOS 10 REGISTROS")
print("========================")
df.tail(10)

üóÇÔ∏è √öLTIMOS 10 REGISTROS


Unnamed: 0,Usuario X,ID,Text,Language,Type,Author Name,Author Username,View Count,Bookmark Count,Favorite Count,Retweet Count,Reply Count,Quote Count,Created At,Source,Hashtags,URLs,Media Type,Media URLs
3307,JMilei,1941571022471430363,FEN√ìMENO MUNDIAL https://t.co/cc5SJcEndu,es,Retweet,Ave Miller,gorrasdeljavo,39217,53,202,6,1356,16,2025-07-05 15:52:59,TweetDeck Web App,,,photo,https://pbs.twimg.com/media/GvHYgKgWsAAeeuC.jpg
3308,JMilei,1941533892848283918,Javier Milei dar√° un discurso en la inauguraci...,es,Retweet,Marina,Marinabiagettii,47770,46,44,3,278,0,2025-07-05 13:25:26,Twitter for Android,,,photo,https://pbs.twimg.com/media/GvG2yUcXUAAkusP.jpg
3309,JMilei,1941568307213255061,AURA https://t.co/coWTQo2nwc,eu,Retweet,SheIby,TommyShelby_30,27647,17,112,4,903,7,2025-07-05 15:42:11,Twitter for iPhone,,,photo,https://pbs.twimg.com/media/GvHWFTkXsAAqjNl.jpg
3310,JMilei,1941555643237994589,El Presidente Javier Milei junto al Primer Min...,es,Retweet,Oficina del Presidente,OPRArgentina,196324,101,429,17,3485,30,2025-07-05 14:51:52,Twitter for Android,,,photo,https://pbs.twimg.com/media/GvHKkRJXsAA3MCG.jpg
3311,JMilei,1941558663933722848,"FOTAAAAZAAAAA!!! üáÆüá≥üá¶üá∑ ""Coincidimos en que el c...",es,Retweet,Marina,Marinabiagettii,34258,29,107,1,761,8,2025-07-05 15:03:52,Twitter for Android,,,photo,https://pbs.twimg.com/media/GvHNUJMWMAAFd85.jpg
3312,JMilei,1941520940799754296,üá¶üá∑üáÆüá≥ El presidente Javier Milei recibi√≥ en Ca...,es,Retweet,La Derecha Diario,laderechadiario,47473,62,181,23,1080,20,2025-07-05 12:33:58,Twitter for Android,,,video,https://video.twimg.com/amplify_video/19415001...
3313,JMilei,1941525477694505458,üá¶üá∑ü§ùüáÆüá≥Se viene tremendo acuerdo con la India! @...,es,Retweet,Agarra la Pala,agarra_pala,52514,88,203,10,1961,9,2025-07-05 12:52:00,Twitter Web App,,,photo,https://pbs.twimg.com/media/GvGuYQfW4AALF3s.jpg
3314,JMilei,1941332000205582752,JAVIER CUMPLE ‚úÖÔ∏è üá¶üá∑üî• Qu√© lindo ver como se cum...,es,Retweet,Teresa Christina C.ü¶Åüíúüá¶üá∑,Tcristina77,28680,12,105,1,579,18,2025-07-05 00:03:11,Twitter for Android,,,video,https://video.twimg.com/ext_tw_video/194133197...
3315,JMilei,1941524058048430524,El abrazo de Javier Milei y el Primer Ministro...,es,Retweet,Marina,Marinabiagettii,28364,11,65,1,504,3,2025-07-05 12:46:21,Twitter for Android,,,photo,https://pbs.twimg.com/media/GvGt150XMAAfFws.jpg
3316,JMilei,1941555939162865911,"Y mientras tanto, en la mayor√≠a de los medios ...",es,Retweet,ùôèùôßùô§ùô£ùôòùô§,tronco,64183,111,339,3,2098,7,2025-07-05 14:53:02,Twitter for iPhone,,,,


Selecci√≥n de tweets:<br>
- Dirigentes seleccionados (Author Username = ): JMilei <br>
- Type = Tweet <br>
- Fecha desde/hasta: completo <br>

In [58]:
condicion_username = df['Author Username'] == 'JMilei'
condicion_type = df['Type'] == 'Tweet'

# Creo un nuevo dataframe con la data filtrada
df_sentimientos = df[condicion_username & condicion_type].copy()

üóíÔ∏è Veamos una peque√±a muestra del nuevo dataframe, exploramos las primeras filas.

In [59]:
print("Esta es una muestra de los datos contenidos en el dataframe:")
print("üóÇÔ∏è PRIMEROS 10 REGISTROS")
print("=========================")
df_sentimientos.head(10)

Esta es una muestra de los datos contenidos en el dataframe:
üóÇÔ∏è PRIMEROS 10 REGISTROS


Unnamed: 0,Usuario X,ID,Text,Language,Type,Author Name,Author Username,View Count,Bookmark Count,Favorite Count,Retweet Count,Reply Count,Quote Count,Created At,Source,Hashtags,URLs,Media Type,Media URLs
1,JMilei,1888684208325075281,VIVA LA LIBERTAD CARAJO https://t.co/7As233e2PO,es,Tweet,Javier Milei,JMilei,47514,2,623,94,189,3,2025-02-09 17:19:39,Twitter for Android,,https://www.instagram.com/reel/DF3X1fDJBBZ/?ig...,,
2,JMilei,1888636220445511716,TREMENDA MASTERCLAS del PROFE @jlespert al bru...,es,Tweet,Javier Milei,JMilei,1648346,297,17418,2500,1278,193,2025-02-09 14:08:58,Twitter for Android,,,,
4,JMilei,1888440655422136478,NO APTO PARA SOCIALISTAS,es,Tweet,Javier Milei,JMilei,632983,1291,18885,4333,1142,139,2025-02-09 01:11:52,Twitter for Android,,,,
6,JMilei,1888428020718862373,FEN√ìMENO BARRIAL,es,Tweet,Javier Milei,JMilei,406762,167,13241,1835,535,50,2025-02-09 00:21:40,Twitter for Android,,,,
8,JMilei,1888389829567598645,VIVA LA LIBERTAD CARAJO https://t.co/nJzjio1dOU,es,Tweet,Javier Milei,JMilei,38314,2,499,70,82,6,2025-02-08 21:49:54,Twitter for Android,,https://www.instagram.com/p/DF1SDIaJdsl/?igsh=...,,
9,JMilei,1888329760608002243,FEN√ìMENO BARRIAL,es,Tweet,Javier Milei,JMilei,223230,24,6192,661,435,43,2025-02-08 17:51:13,Twitter for Android,,,,
11,JMilei,1888298020938330160,Ac√° podemos observar c√≥mo la basura de Brancat...,es,Tweet,Javier Milei,JMilei,4043267,2325,86470,13471,4399,721,2025-02-08 15:45:05,Twitter for Android,,,,
13,JMilei,1888287507558592575,BRILLANTE,es,Tweet,Javier Milei,JMilei,224010,27,5044,671,387,15,2025-02-08 15:03:19,Twitter for Android,,,,
15,JMilei,1887999293224542433,https://t.co/znZUzFRxn0,zxx,Tweet,Javier Milei,JMilei,89044,30,4832,754,497,47,2025-02-07 19:58:03,Twitter for Android,,https://www.infobae.com/politica/2025/02/07/ja...,,
16,JMilei,1887948597679055312,AQU√ç MI OPINI√ìN SOBRE EL TIPO DE CAMBIO Y LOS ...,es,Tweet,Javier Milei,JMilei,1785801,725,12808,2570,1184,252,2025-02-07 16:36:36,Twitter for Android,,https://www.lanacion.com.ar/opinion/opinion-at...,,


##### ![6) Data Wrangling / Data Munging:](https://github.com/chetincho/ds_Prediccion_de_enfermedades/blob/main/img/Data%20Wrangling%20Munging.jpg?raw=true)

A continuacion vamos a proceder con los siguientes pasos claves para la preparaci√≥n de los datos: <br>
<br>
`1. Limpieza del Texto:` Vamos a eliminar el posible ruido que contenga el atributo Text, campo que almacena el texto puro del twit publicado por el referente pol√≠tico. En este caso la limpieza busca eliminar: enlaces, menciones, hashtags, caracteres especiales, emojis, etc.<br>
üóíÔ∏èArgumento: Limpiar el texto es crucial para que el modelo de an√°lisis de sentimientos pueda realizar una correcta interpretaci√≥n.<br>

Esto incluye tareas como:
- Eliminar URLs
- Eliminar menciones (@usuario)
- Eliminar hashtags (#hashtag)
- Eliminar signos de puntuaci√≥n y caracteres especiales (a menos que sean relevantes para el sentimiento, como !)
- Convertir el texto a min√∫sculas
- Eliminar stopwords (palabras comunes que no aportan significado, como "el", "la", "un", etc.)
- Lematizaci√≥n (reducir palabras a su ra√≠z, por ejemplo, "corriendo" a "correr").

Tarea 1: Eliminar URL's<br>
Los tweets a menudo contienen enlaces a sitios web o im√°genes los cuales no aportan valor al an√°lisis de sentimiento y pueden incluso confundir el modelo.

In [60]:
def eliminar_urls(text):
    # Utilizamos expresiones regulares para encontrar URLs
    # Buscamos los siguientes patrones como http://, https://, www., o cualquier terminaci√≥n de dominio (.com, .org, .net, etc.)
    url_pattern = re.compile(r'https?://\S+|www\.\S+|\S+\.(com|org|net|gov|edu|info|io|co|ar|es)[/\w.-]*')
    return url_pattern.sub(r'', text)

# Aplicamos la funci√≥n a la columna 'Text' y creamos una nueva columna llamada "Texto_Limpio"
df_sentimientos['Texto_Limpio'] = df_sentimientos['Text'].apply(eliminar_urls)

üóíÔ∏è Mostramos los primeros 20 registros para confirmar la correcta limpieza de los datos.

In [61]:
print(df_sentimientos[['Text', 'Texto_Limpio']].head(20))

                                                 Text  \
1     VIVA LA LIBERTAD CARAJO https://t.co/7As233e2PO   
2   TREMENDA MASTERCLAS del PROFE @jlespert al bru...   
4                            NO APTO PARA SOCIALISTAS   
6                                    FEN√ìMENO BARRIAL   
8     VIVA LA LIBERTAD CARAJO https://t.co/nJzjio1dOU   
9                                    FEN√ìMENO BARRIAL   
11  Ac√° podemos observar c√≥mo la basura de Brancat...   
13                                          BRILLANTE   
15                            https://t.co/znZUzFRxn0   
16  AQU√ç MI OPINI√ìN SOBRE EL TIPO DE CAMBIO Y LOS ...   
17    VIVA LA LIBERTAD CARAJO https://t.co/eIMvBa2nmc   
18  VIVA LA LIBERTAD CARAJO CC: @Nikgaturro https:...   
19  FEN√ìMENO BARRIAL Este comentario le caer√° muy ...   
20  FEN√ìMENO BARRIAL VIVA LA LIBERTAD CARAJO https...   
21    VIVA LA LIBERTAD CARAJO https://t.co/RUXTtO7OZd   
22                                         IMPERDIBLE   
24    VIVA LA LIBERTAD

Tarea 2: Eliminar menciones<br>
Estas menciones son importantes para la interacci√≥n en la plataforma pero generalmente no contribuyen al sentimiento general del tweet y pueden contribuir a generar ruido durante el an√°lisis.

In [62]:
def eliminar_menciones(text):
    # Utilizamos expresiones regulares para encontrar las menciones
    # En este caso la expresi√≥n regular cominezan con '@' seguido de palabras o n√∫meros
    menciones_pattern = re.compile(r'@\w+')
    return menciones_pattern.sub(r'', text)

# Aplicamos la funci√≥n a la columna 'Texto_Limpio' pisando el contenido anterior
df_sentimientos['Texto_Limpio'] = df_sentimientos['Texto_Limpio'].apply(eliminar_menciones)

üóíÔ∏è Mostramos los primeros 20 registros para confirmar la correcta limpieza de los datos.

In [63]:
print(df_sentimientos[['Text', 'Texto_Limpio']].head(20))

                                                 Text  \
1     VIVA LA LIBERTAD CARAJO https://t.co/7As233e2PO   
2   TREMENDA MASTERCLAS del PROFE @jlespert al bru...   
4                            NO APTO PARA SOCIALISTAS   
6                                    FEN√ìMENO BARRIAL   
8     VIVA LA LIBERTAD CARAJO https://t.co/nJzjio1dOU   
9                                    FEN√ìMENO BARRIAL   
11  Ac√° podemos observar c√≥mo la basura de Brancat...   
13                                          BRILLANTE   
15                            https://t.co/znZUzFRxn0   
16  AQU√ç MI OPINI√ìN SOBRE EL TIPO DE CAMBIO Y LOS ...   
17    VIVA LA LIBERTAD CARAJO https://t.co/eIMvBa2nmc   
18  VIVA LA LIBERTAD CARAJO CC: @Nikgaturro https:...   
19  FEN√ìMENO BARRIAL Este comentario le caer√° muy ...   
20  FEN√ìMENO BARRIAL VIVA LA LIBERTAD CARAJO https...   
21    VIVA LA LIBERTAD CARAJO https://t.co/RUXTtO7OZd   
22                                         IMPERDIBLE   
24    VIVA LA LIBERTAD

Tarea 3: Eliminar hashtags<br>
Los hashtags son elementos estructurales de Twitter que suelen agrupar temas, pero su presencia en el texto puede no ser √∫til para un an√°lisis de sentimiento.

In [64]:
def eliminar_hashtags(text):
    # Utilizamos expresiones regulares para encontrar los hashtags
    # En este caso la expresi√≥n regular cominezan con '#' seguido de palabras o n√∫meros
    hashtag_pattern = re.compile(r'#\w+')
    return hashtag_pattern.sub(r'', text)

# Aplicamos la funci√≥n a la columna 'Texto_Limpio' pisando el contenido anterior
df_sentimientos['Texto_Limpio'] = df_sentimientos['Texto_Limpio'].apply(eliminar_hashtags)

üóíÔ∏è Mostramos una selecci√≥n de filas donde sabemos que hay un hashtag.

In [65]:
# Ajustar el seteo de pandas para que se muestre el contenido de toda la fila y no lo trunque
pd.set_option('display.max_colwidth', None)

# mostramos un extracto donde sabemos que hay un #
print(df_sentimientos[['Text', 'Texto_Limpio']].loc[610:650])

# Devolvemos este seteo a los valores por defecto.
pd.set_option('display.max_colwidth', 50)

                                                                                                                                                                                                                                                                                      Text  \
611                                                                                                                                                                                                                                                                       FEN√ìMENO BARRIAL   
613                                                                                                                                                                                                                                                                       FEN√ìMENO BARRIAL   
615                                                                                                                                         

Tarea 4: Eliminar signos de puntuaci√≥n y caracteres especiales<br>
Al tratearse de un an√°lisis de texto en espa√±ol es crucial conservar las √± y las tildes (√°, √©, √≠, √≥, √∫, √º) junto con el s√≠mbolo de exclamaci√≥n (!)

In [66]:
def eliminar_caracteres_especiales(text):
    # 'a-zA-Z' cubre las letras b√°sicas.
    # '0-9' cubre los n√∫meros.
    # '\s' cubre los espacios en blanco.
    # '!' conserva el signo de exclamaci√≥n.
    # '√±√ë√°√Å√©√â√≠√ç√≥√ì√∫√ö√º√ú' cubren los caracteres espec√≠ficos del espa√±ol.
    texto_limpio = re.sub(r'[^a-zA-Z0-9\s!√±√ë√°√Å√©√â√≠√ç√≥√ì√∫√ö√º√ú]', '', text)
    return texto_limpio

# Aplicamos la funci√≥n a la columna 'Texto_Limpio' pisando el contenido anterior
df_sentimientos['Texto_Limpio'] = df_sentimientos['Texto_Limpio'].apply(eliminar_caracteres_especiales)

üóíÔ∏è Mostramos una selecci√≥n de filas donde sabemos que hay caracteres especiales.

In [67]:
# Ajustar el seteo de pandas para que se muestre el contenido de toda la fila y no lo trunque
pd.set_option('display.max_colwidth', None)

# mostramos un extracto donde sabemos que hay un #
print(df_sentimientos[['Text', 'Texto_Limpio']].loc[610:650])

# Devolvemos este seteo a los valores por defecto.
pd.set_option('display.max_colwidth', 50)

                                                                                                                                                                                                                                                                                      Text  \
611                                                                                                                                                                                                                                                                       FEN√ìMENO BARRIAL   
613                                                                                                                                                                                                                                                                       FEN√ìMENO BARRIAL   
615                                                                                                                                         

Paso 5: Convertir el texto a min√∫sculas<br>
Motivos por los cuales la conversi√≥n a min√∫sculas es fundamental en cualquier Procesamiento de Lenguaje Natural (PLN).<br>
<br>

- `Normalizaci√≥n:` Trata de igual manera palabras con diferente capitalizaci√≥n (ej. "Libertad", "libertad", "LIBERTAD"). Esto es esencial para que un modelo de an√°lisis de sentimientos no las vea como entidades distintas.

- `Reducci√≥n de Vocabulario:` Disminuye el tama√±o del vocabulario, lo que conlleva una mejora en el rendimiento y la eficiencia de los modelos. Por ejemplo, en lugar de tener "Libertad", "LIBERTAD" y "libertaD", solo tendremos "libertad".

- `Consistencia:` Asegura que las comparaciones y el conteo de palabras sean consistentes en todo el dataset.

In [68]:
def convertir_a_minusculas(text):
    return text.lower()

# Aplicamos la funci√≥n a la columna 'Texto_Limpio' pisando el contenido anterior
df_sentimientos['Texto_Limpio'] = df_sentimientos['Texto_Limpio'].apply(convertir_a_minusculas)

üóíÔ∏è Mostramos una selecci√≥n de filas donde sabemos que hay may√∫sculas.

In [69]:
# Ajustar el seteo de pandas para que se muestre el contenido de toda la fila y no lo trunque
pd.set_option('display.max_colwidth', None)

# mostramos un extracto donde sabemos que hay un #
print(df_sentimientos[['Text', 'Texto_Limpio']].loc[610:650])

# Devolvemos este seteo a los valores por defecto.
pd.set_option('display.max_colwidth', 50)

                                                                                                                                                                                                                                                                                      Text  \
611                                                                                                                                                                                                                                                                       FEN√ìMENO BARRIAL   
613                                                                                                                                                                                                                                                                       FEN√ìMENO BARRIAL   
615                                                                                                                                         

Paso 6: Eliminar stopwords<br>
- Fundamentos:<br>
La eliminaci√≥n de stopwords es un paso cr√≠tico en el preprocesamiento de texto referido a tareas de an√°lisis de sentimientos. Las stopwords son palabras muy comunes en un idioma que, por lo general, no aportan un significado sem√°ntico relevante para el an√°lisis. Entre las stopwords encontramos: `art√≠culos` (el, la, un), `preposiciones` (de, en, para), `conjunciones` (y, o), `pronombres` (yo, t√∫), y `verbos auxiliares`, entre otras.<br>
<br>
- ¬øPor qu√© es importante este paso?<br>
    1. `Reducci√≥n de Ruido:` Estas palabras aparecen con alt√≠sima frecuencia en casi cualquier texto, pero no suelen llevar la carga sem√°ntica principal del mensaje. Por ejemplo, en la frase "La pel√≠cula es muy buena para ver el s√°bado", las palabras clave que indican el sentimiento son `"muy"` y `"buena"`. "La", "es", "para", "ver", "el", "s√°bado" son stopwords o palabras de bajo valor que simplemente estructuran la oraci√≥n. Eliminarlas reduce el "ruido" que podr√≠a distraer al modelo.<br>
    <br>
    2. `Optimizaci√≥n del Rendimiento:` Al remover las stopwords, se reduce significativamente el n√∫mero total de palabras en tu conjunto de datos. Esto tiene dos beneficios directos:<br>
    <br>
        - `Menor dimensionalidad:` Cuando transformas un texto en representaciones num√©ricas (como vectores de palabras), tener menos palabras √∫nicas reduce la cantidad de dimensiones, lo que puede acelerar el entrenamiento de los modelos y hacerlos m√°s eficientes computacionalmente.<br>
        - `Menor uso de memoria:` Un vocabulario m√°s peque√±o requiere menos memoria tanto en el almacenamiento como durante el procesamiento.<br>
    <br>
    3. `Mejora de la Precisi√≥n del Modelo:` Al centrar el an√°lisis en las palabras que realmente transmiten significado, los modelos de an√°lisis de sentimientos pueden identificar patrones m√°s claros y relevantes. Si las stopwords permanecen, podr√≠an ser falsamente consideradas como caracter√≠sticas importantes debido a su alta frecuencia, diluyendo el peso de las palabras que s√≠ son significativas para el sentimiento. En un an√°lisis de sentimiento, queremos que el modelo aprenda de palabras como "incre√≠ble", "terrible", "feliz", "triste", y no de "el", "a", "de".

In [70]:
# Programaci√≥n defensiva #
# Con este bloque try-except nos aseguramos que si aun no se descargaron las stopwords se descarguen automaticamente la primera vez que ejecutemos el script.
# ---------------------- #

try:
    # Carga en la variable stopwords_ES la lista de stopwords para el idioma espa√±ol.
    # Esta variable es de tipo set (conjunto).
    stopwords_ES = stopwords.words('spanish')
except LookupError:
    # En caso de error procede con la descarga de las listas de stopwords
    nltk.download('stopwords')
    stopwords_ES = stopwords.words('spanish')

In [71]:
def quitar_stopwords(text):
    
    # Paso 1: Tokenizamos el texto para separar las palabras
    palabras = text.split()
    
    # Paso 2: Filtramos las palabras que no est√°n en nuestra lista de stopwords
    palabras_filtradas = [palabra 
                                for palabra in palabras
                                    if palabra not in stopwords_ES
                         ]
    # Unimos las palabras en una cadena
    return ' '.join(palabras_filtradas)


# Aplicamos la funci√≥n a la columna 'Texto_Limpio' pisando el contenido anterior
df_sentimientos['Texto_Limpio'] = df_sentimientos['Texto_Limpio'].apply(quitar_stopwords)

üóíÔ∏è Mostramos una selecci√≥n de filas donde sabemos que hay stopwords.

In [72]:
# Ajustar el seteo de pandas para que se muestre el contenido de toda la fila y no lo trunque
pd.set_option('display.max_colwidth', None)

# mostramos un extracto donde sabemos que hay un #
print(df_sentimientos[['Text', 'Texto_Limpio']].loc[610:650])

# Devolvemos este seteo a los valores por defecto.
pd.set_option('display.max_colwidth', 50)

                                                                                                                                                                                                                                                                                      Text  \
611                                                                                                                                                                                                                                                                       FEN√ìMENO BARRIAL   
613                                                                                                                                                                                                                                                                       FEN√ìMENO BARRIAL   
615                                                                                                                                         

- Texto previo a la remoci√≥n de `stopwords`<br>
644  .@rolandogps operador inmundo parece `que` `no` `has` entendido `las` condiciones. Ten√©s `que` hacerlo `en` `tu` programa pidiendo disculpas `y` admitir `que` `has` mentido `de` modo intencionado. `Al` mismo tiempo vos `y` `tu` grupo deber√°n donar $ 5M . CIAO! CC: @FOPEA h√°ganse cargo `porque` uds. apa√±an.
<br>
<br>
- Texto final luego de la remocion de `stopwords`<br>
644  operador inmundo parece entendido condiciones ten√©s hacerlo programa pidiendo disculpas admitir mentido modo intencionado mismo tiempo vos grupo deber√°n donar 5m ciao! cc h√°ganse cargo uds apa√±an

Paso 7: Lematizaci√≥n<br>
<br>
- `Qu√© es:` Es el proceso por el cual se reduce las palabras a su forma base can√≥nica o lema, es decir, la forma en la cual encontrar√≠amos la palabra en un diccionario. Esta t√©cnica demanda conocer el idioma desde el punto de vista morfol√≥gico y parte del habla de la palabra.<br>
<br>
- `C√≥mo funciona:` Esta t√©cnica utiliza diccionarios y an√°lisis morfol√≥gico para transformar la palabra a su lema correcto. Por ejemplo, reconoce que "corriendo", "corr√≠", "correr√©" provienen del verbo "correr".<br>
<br>
- `Ventajas:` Produce palabras reales y gramaticalmente correctas, lo que puede ser beneficioso para la interpretabilidad y para modelos que dependen de significados l√©xicos.<br>
<br>
- `Desventajas:` Es un proceso lento y computacionalmente costoso, ya que requiere m√°s recursos (diccionarios, reglas gramaticales).<br>
<br>
- `Ejemplos:`<br>
        - corriendo -> correr<br>
        - correr -> correr<br>
        - corro -> correr<br>
        - belleza -> belleza<br>
        - universal -> universal<br>
        - universidad -> universidad<br>
<br>
- `¬øPor qu√© este paso es importante?`<br>
La lematizaci√≥n es fundamental en PLN por las siguientes razones:<br>
<br>
    1. `Normalizaci√≥n Adicional:` Estamos dando un paso mas, no nos limitamos √∫nicamente a la conversi√≥n a min√∫sculas y la eliminaci√≥n de stopwords. Consolidan diferentes formas flexivas de una misma palabra en una √∫nica forma base.<br>
    2. `Mejora la Precisi√≥n del Modelo:` Al agrupar estas variantes, el modelo de an√°lisis de sentimientos puede reconocer que todas se refieren al mismo concepto. Esto evita que el modelo trate "bueno", "buenas", "buena", "buenos" como cuatro palabras distintas que deben aprender a clasificar, y en su lugar, aprende del lema "bueno", concentrando la "fuerza" de todas esas apariciones en un solo token.<br>
    3. `Reducci√≥n de Dimensionalidad del Vocabulario:` Esto se asimila a la eliminaci√≥n de stopwords, pero a un nivel m√°s granular, este paso reduce a√∫n m√°s el n√∫mero total de palabras √∫nicas en el corpus. Un vocabulario m√°s compacto significa menos caracter√≠sticas para los modelos de aprendizaje autom√°tico, lo que puede conducir a:<br>
        - Entrenamiento m√°s r√°pido: Menos par√°metros para ajustar.<br>
        - Menor riesgo de sobreajuste (overfitting): Los modelos se vuelven m√°s generalizables al centrarse en los conceptos centrales y no en las inflexiones gramaticales.<br>
        - Menor demanda de memoria.
<br>
- Implementaci√≥n de SpaCy: En la terminal correr estos comandos:<br>
    - `pip install spacy`  : Instala la librer√≠a spaCy.<br>
    - `python -m spacy download es_core_news_sm`  : Descarga el modelo de lenguaje espa√±ol.<br>

In [73]:
# Programaci√≥n defensiva #
# Cargamos el modelo de lenguaje espa√±ol de spaCy, esto se hace solo una vez.
try:
    nlp = spacy.load("es_core_news_sm")

    # IMPORTANTE:
    # ===========
    # Luego de analizar los resultados considerar la implementacion de este modelo:
    # nlp = spacy.load("es_core_news_md")

except OSError:
    print("El modelo 'es_core_news_sm' no est√° instalado. Ejecutar en la terminal: python -m spacy download es_core_news_sm")
    exit()

In [74]:
def lematizacion(text):
    if pd.isna(text): return text
    doc = nlp(text)
    lemmas = [token.lemma_ for token in doc if not token.is_space]
    return ' '.join(lemmas)

# Aplicamos la funci√≥n a la columna 'Texto_Limpio' pisando el contenido anterior
df_sentimientos['Texto_Limpio'] = df_sentimientos['Texto_Limpio'].apply(lematizacion)

üóíÔ∏è Mostramos una selecci√≥n de filas para verificar la lematizaci√≥n.

In [75]:
# Ajustar el seteo de pandas para que se muestre el contenido de toda la fila y no lo trunque
pd.set_option('display.max_colwidth', None)

# mostramos un extracto donde sabemos que hay un #
print(df_sentimientos[['Text', 'Texto_Limpio']].loc[610:650])

# Devolvemos este seteo a los valores por defecto.
pd.set_option('display.max_colwidth', 50)

                                                                                                                                                                                                                                                                                      Text  \
611                                                                                                                                                                                                                                                                       FEN√ìMENO BARRIAL   
613                                                                                                                                                                                                                                                                       FEN√ìMENO BARRIAL   
615                                                                                                                                         

- Texto previo a la `lematizacion`<br>
638  FEN√ìMENO BARRIAL `MANDRILES` `traten` de superar su estrepitoso fracaso porque en su defecto `van` a vivir `llorando`...
<br>
<br>
- Texto final luego de la `lematizacion`<br>
638  fen√≥meno barrial mandril tratar superar estrepitoso fracaso defecto ir vivir llorar

##### ![Selecci√≥n y entrenamiento del modelo:](https://github.com/chetincho/ds_Prediccion_de_enfermedades/blob/main/img/Selecci%C3%B3n%20y%20entrenamiento%20del%20modelo%20fundamentos.jpg?raw=true)

Es importante mencionar que no contamos con datos etiquetados previamente, es decir, no sabemos de antemano si un tweet es positivo, negativo o neutro es por ello que si no tenemos etiquetas, no podemos entrenar un modelo para aprender a clasificar tweets bas√°ndose en ejemplos de sentimientos conocidos.<br>
<br>
Debito a esto es que utilizaremos un an√°lisis de sentimiento basado en l√©xicos:<br>
-  ¬øC√≥mo funciona? Utiliza un diccionario de sentimientos (o "l√©xico") predefinido, donde cada palabra tiene una puntuaci√≥n de polaridad (ej., "excelente" = +1, "malo" = -1, "mesa" = 0). El algoritmo recorre el texto, busca estas palabras en el diccionario y suma sus puntuaciones para determinar la polaridad general del tweet.
- Ventajas: No requiere datos etiquetados, es relativamente f√°cil de implementar y es interpretable (puedes ver qu√© palabras contribuyen al sentimiento).
- Desventajas: La precisi√≥n depende en gran medida de la calidad y exhaustividad del l√©xico para tu dominio (tweets en espa√±ol sobre pol√≠tica/econom√≠a). Puede tener dificultades con la iron√≠a, el sarcasmo, las negaciones complejas o el contexto.
<br>
<br>
Pasos a seguir:
1. Obtener un L√©xico de Sentimientos en Espa√±ol: Buscaremos un archivo (t√≠picamente .txt o .csv) que contenga palabras en espa√±ol y su puntuaci√≥n de polaridad.
2. Cargar y Procesar el L√©xico: Leeremos este archivo en Python y lo convertiremos en una estructura de datos f√°cil de consultar.
3. Aplicar el L√©xico a los Tweets normalizados: Para cada tweet en Texto_Limpio, iteraremos sobre sus palabras (ya lematizadas y sin stopwords) y sumaremos las puntuaciones de las palabras encontradas en el l√©xico.
4. Asignar Polaridad: Basado en la puntuaci√≥n total de cada tweet, asignaremos una polaridad:

üóíÔ∏è Paso 1: Obtenemos el l√©xico

In [76]:
# Url's con los listasdos de palabras positivas y negativas
url_palabras_positivas="https://raw.githubusercontent.com/chetincho/Analisis_de_Sentimientos/refs/heads/main/dataset/positive_words_es.txt"
url_palabras_negativas="https://raw.githubusercontent.com/chetincho/Analisis_de_Sentimientos/refs/heads/main/dataset/negative_words_es.txt"

# Creamos dos dataframe: 
#     - uno con el listado de palabras positivas (con polaridad 1)...
#     - y otro con el listado de palabras negativas (con polaridad -1)
df_palabras_positivas = pd.read_csv(url_palabras_positivas, header=None)
df_palabras_positivas.columns = ['palabra'] # Renombramos la columna
df_palabras_positivas['polaridad'] = 1 # Asignamos la polaridad

df_palabras_negativas = pd.read_csv(url_palabras_negativas, header=None)
df_palabras_negativas.columns = ['palabra'] # Renombramos la columna
df_palabras_negativas['polaridad'] = -1 # Asignamos la polaridad

df_lexico = pd.concat([df_palabras_positivas, df_palabras_negativas]).reset_index(drop=True)

In [77]:
df_lexico.head()

Unnamed: 0,palabra,polaridad
0,como,1
1,gran,1
2,mayor,1
3,nuevo,1
4,general,1


In [78]:
df_lexico.tail()

Unnamed: 0,palabra,polaridad
2803,hundirse,-1
2804,aver√≠a,-1
2805,dolencia,-1
2806,arduo,-1
2807,sabotear,-1


Para optimizar los procesos de b√∫squeda creamos una variable de tipo diccionario y almacenamos en ella el l√©xico.

In [79]:
lexico_dict = df_lexico.set_index('palabra')['polaridad'].to_dict()

In [None]:
def calcular_score_y_polaridad(tweet_text, lexico_dict):

    if not isinstance(tweet_text, str):
        return 0, 'Neutro' # Retorna score 0 y polaridad 'Neutro' para valores no-string


    palabras = tweet_text.split()
    score = 0

    for palabra in palabras:
        score += lexico_dict.get(palabra, 0) # Suma la polaridad de cada palabra encontrada

        if lexico_dict.get(palabra, 0)==0:
            print(palabra)


    polaridad = 'Neutro'

    if score > 0:
        polaridad = 'Positivo'
    elif score < 0:
        polaridad = 'Negativo'

    return score, polaridad

# Aplicar la funci√≥n a la columna 'Texto_Limpio' de df_sentimientos
# La funci√≥n .apply() con `result_type='expand'` permite retornar m√∫ltiples columnas
df_sentimientos[['Score_Tweet', 'Polaridad_Tweet']] = df_sentimientos['Texto_Limpio'].apply(
    lambda x: calcular_score_y_polaridad(x, lexico_dict)
).apply(pd.Series) # .apply(pd.Series) es necesario si las tuplas tienen m√°s de un elemento para expandirlas

carajo
tremendo
mastercla
profe
may√∫sculo
toca
as√≠
rey
mida
convertir
tocar
rev√©s
sovi√©tico
llamar
rey
sadim
toca
convertir
excremento
ciao
!
apto
socialista
fen√≥meno
barrial
carajo
fen√≥meno
barrial
ac√°
poder
observar
c√≥mo
brancatelli
lionel
messi
jugador
f√∫tbol
historia
argentino
dado
infinidad
argentino
solo
hecho
recibir
camiseta
firmado
kirchnerismo
secto
enfermar
poder
llegar
punto
historio
s√≥lo
sumar
pelea
enfermizo
poder
poder
aceptar
argentino
dar
espalda
poder
aceptar
enfermo
poder
odar
envidia
caracter√≠stica
zurdo
hijo
puto
pa√≠s
terminado
avanzar
poder
hacer
√©l
carajo
!
!
!
aqu√≠
opini√≥n
tipo
cambio
econochanta
cambiario
disco
rayado
economistas
carajo
carajo
cc
fen√≥meno
barrial
comentario
libertarado
nivel
purismos
inalcanzable
menos
corto
plazo
fen√≥meno
barrial
carajo
carajo
imperdible
carajo
si
seguir
abonar
tipo
teor√≠a
conspirativa
temo
quedar
calvo
tsunami
ch√°n
fen√≥meno
barrial
principio
aqu√≠
much√≠simos
c√≥mplice
pandemiar
mirar
ir
salir
as√≠
ver√°s


In [82]:
df_sentimientos.head(100)

Unnamed: 0,Usuario X,ID,Text,Language,Type,Author Name,Author Username,View Count,Bookmark Count,Favorite Count,Retweet Count,Reply Count,Quote Count,Created At,Source,Hashtags,URLs,Media Type,Media URLs,Texto_Limpio,Score_Tweet,Polaridad_Tweet
1,JMilei,1888684208325075281,VIVA LA LIBERTAD CARAJO https://t.co/7As233e2PO,es,Tweet,Javier Milei,JMilei,47514,2,623,94,189,3,2025-02-09 17:19:39,Twitter for Android,,https://www.instagram.com/reel/DF3X1fDJBBZ/?ig...,,,vivo libertad carajo,2,Positivo
2,JMilei,1888636220445511716,TREMENDA MASTERCLAS del PROFE @jlespert al bru...,es,Tweet,Javier Milei,JMilei,1648346,297,17418,2500,1278,193,2025-02-09 14:08:58,Twitter for Android,,,,,tremendo mastercla profe bruto may√∫sculo destr...,-2,Negativo
4,JMilei,1888440655422136478,NO APTO PARA SOCIALISTAS,es,Tweet,Javier Milei,JMilei,632983,1291,18885,4333,1142,139,2025-02-09 01:11:52,Twitter for Android,,,,,apto socialista,0,Neutro
6,JMilei,1888428020718862373,FEN√ìMENO BARRIAL,es,Tweet,Javier Milei,JMilei,406762,167,13241,1835,535,50,2025-02-09 00:21:40,Twitter for Android,,,,,fen√≥meno barrial,0,Neutro
8,JMilei,1888389829567598645,VIVA LA LIBERTAD CARAJO https://t.co/nJzjio1dOU,es,Tweet,Javier Milei,JMilei,38314,2,499,70,82,6,2025-02-08 21:49:54,Twitter for Android,,https://www.instagram.com/p/DF1SDIaJdsl/?igsh=...,,,vivo libertad carajo,2,Positivo
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
165,JMilei,1883984816439456057,FEN√ìMENO BARRIAL,es,Tweet,Javier Milei,JMilei,115359,114,6457,860,230,14,2025-01-27 18:05:57,Twitter for Android,,,,,fen√≥meno barrial,0,Neutro
167,JMilei,1883976570731388932,ESTO ES IDEOLOG√çA DE G√âNERO,es,Tweet,Javier Milei,JMilei,4063575,4184,93080,18363,6205,1264,2025-01-27 17:33:11,Twitter for Android,,,,,ideolog√≠a g√©nero,0,Neutro
169,JMilei,1883920044616474807,DESHONESTO INTELECTUALMENTE Si as√≠ corrompe la...,es,Tweet,Javier Milei,JMilei,591032,369,15076,2979,823,111,2025-01-27 13:48:34,Twitter for Android,,,,,deshonesto intelectualmente si as√≠ corromper v...,-2,Negativo
171,JMilei,1883600157872431380,DE FALACIAS Y ALGO M√ÅS Hace unos d√≠as nos para...,es,Tweet,Javier Milei,JMilei,5123185,1697,55410,11263,5542,1943,2025-01-26 16:37:27,Twitter for Android,,,,,falacia hacer d√≠a parar estrado foro davo deci...,-3,Negativo


Exportamos los resultados a un Excel para un primer analisis ocular

In [83]:
nombre_archivo_excel = 'tweets_politicos_analizados.xlsx'

df_sentimientos.to_excel(nombre_archivo_excel, index=False)

print(f"DataFrame exportado exitosamente a '{nombre_archivo_excel}'")

DataFrame exportado exitosamente a 'tweets_politicos_analizados.xlsx'


##### ![Primeras conclusiones:](https://github.com/chetincho/ds_Prediccion_de_enfermedades/blob/main/img/Primeras%20conclusiones.jpg?raw=true)

<br>
<br>
<br>
<br>
<br>
<br>


##### ![Conclusiones finales:](https://github.com/chetincho/ds_Prediccion_de_enfermedades/blob/main/img/Conclusiones%20finales.jpg?raw=true)

<br>
<br>
<br>
<br>
<br>
<br>