<a href="https://colab.research.google.com/github/restrepo/twitter/blob/main/classify.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Análisis de sentimientos de Twitter con Python
* https://platzi.com/tutoriales/1874-python-lenguaje-natural/5654-realiza-un-analisis-de-sentimiento-en-3-pasos-con-python/
    * Ejemplo https://twitter.com/whaleandjaguar_?lang=en
* https://towardsdatascience.com/my-absolute-go-to-for-sentiment-analysis-textblob-3ac3a11d524
* https://www.justintodata.com/twitter-sentiment-analysis-python/
* https://www.pluralsight.com/guides/building-a-twitter-sentiment-analysis-in-python

### 1) Descargar tweets

In [1]:
%pylab inline

Populating the interactive namespace from numpy and matplotlib


In [2]:
import pandas as pd
pd.set_option('display.max_colwidth',500)

In [6]:
df=pd.read_json('https://raw.githubusercontent.com/restrepo/twitter/main/tweets_df.json')

In [7]:
df.shape

(5000, 10)

In [None]:
df.drop_duplicates(subset='text').shape

(2384, 10)

### Cree un nuevo clasificador
Vamos 
https://textblob.readthedocs.io/en/dev/classifiers.html#classifiers

* A favor del Paro → `'fav'`
* En contra del Paro→ `'con'`
* Informativo or neutro → `'neu'`
* Spam → `'spa'`

Para crear los conjutos de datos para training y para test debemos clasisificar un conjunto suficientemente grande de textos de tweets en las dos categorias en números similares para cada una de las dos categorias

Crearemos un algoritmo que nos permite clasificar algunos tweets del DataFrame en una nueva columna `'label'`, la cual tendrá un valor nulo cuando el tweet no este clasificado. Una vez un tweet sea clasificado, se añadirá a una lista de similaridad y sólo se clasificarán nuevos tweets que no sean similares a los previamente clasificados.  Para ello se usará el método `extractOne` del módulo `process` de `fuzzywuzzy` con scorer `fuzz.ratio` basado en la distancia Levenshtein entre dos textos.

In [None]:
from fuzzywuzzy import process
from fuzzywuzzy import  fuzz

In [None]:
n_train=50
n_test=75
n_traintest=n_train+n_test
df['label']=None
ii=0
similarity=[]
df=df.sample(df.shape[0])
for i in df.index:
    print("="*80)
    tweet=df.loc[i,'text']
    if similarity:
        if process.extractOne(tweet,similarity,scorer=fuzz.ratio)[-1]<90:
            similarity.append(tweet)
            posneg=input(f"{tweet}: https://twitter.com/twitter/status/{df.loc[i,'id']}\n → f/c/n/s para 'a favor'/'en contra'/'neutro'/'spam' or <Enter> para continuar:\n")
            if posneg=='c':
                posneg='con'
            elif posneg=='f':
                posneg='fav'
            elif posneg=='n':
                posneg='neu'
            elif posneg=='s':
                posneg='spa'
            else:
                continue
            df.loc[i,'label']=posneg
            ii=ii+1
    else:
        similarity.append(tweet)

    if ii==n_traintest:
        break

Select the train/test filtered DataFrame

In [None]:
tmp=df[~df['label'].isna()].reset_index(drop=True)

In [None]:
tmp.shape

(143, 11)

In [None]:
tmp[:3]

Unnamed: 0,user_name,user_location,user_description,user_verified,date,text,hashtags,source,id,original_id,label
0,Sandra Suarez - opiniones personales,,,False,2021-05-22 10:16:48,"RT @CapitnColombia: Por su presente, por su futuro, Construiremos un nuevo país. PRIMERA LINEA Y CAPITAN COLOMBIA!. \n[ 📸Diego Cortes ]\n#par…",,Twitter for Android,1396047383784529920,1.395886e+18,fav
1,@marioperico4,,abajotwitter,False,2021-05-22 10:16:41,RT @martinquinco: @jflafaurie @UNPColombia Desbloqueo de vías ya!\n#NoMasParo \n#NoMasBloqueos \n#YoApoyoALaFuerzaPublica,"[NoMasParo, NoMasBloqueos, YoApoyoALaFuerzaPublica]",Twitter for Android,1396047356123041792,1.395756e+18,con
2,Mauro Gabriel Escalona Quiroz,,"Antiuribista 100% y 24/7, por que Colombia merece vivir en paz. Venceremos al tirano!!",False,2021-05-22 10:16:36,RT @Contagioradio1: #Bogotá Chicos de la guardia comunitaria primera línea en el portal de la resistencia protegiendo a la comunidad #ParoN…,[Bogotá],Twitter for Android,1396047336439259136,1.395937e+18,fav


In [None]:
tmp.shape

(143, 11)

In [None]:
import nltk
from nltk.corpus import stopwords
nltk.download('stopwords')
import re
stop_words=['rt',':']+stopwords.words('spanish')
def preprocess_tweet_text(tweet):
    tweet=tweet.lower()
    # Remove urls
    tweet = re.sub(r"http\S+|www\S+|https\S+", '', tweet, re.UNICODE ,flags=re.MULTILINE)
    # Remove user @ references and '#' from tweet
    tweet = re.sub(r'\@\w+|\#','', tweet)
    # Remove punctuations
    #tweet = tweet.translate(str.maketrans('', '', string.punctuation))
    # Remove stopwords
    tweet_tokens = tweet.replace("  "," ").split()
    filtered_words = [w for w in tweet_tokens if not w in stop_words]
    
    #ps = PorterStemmer()
    #stemmed_words = [ps.stem(w) for w in filtered_words]
    #lemmatizer = WordNetLemmatizer()
    #lemma_words = [lemmatizer.lemmatize(w, pos='a') for w in stemmed_words]
    
    return " ".join(filtered_words)

[nltk_data] Downloading package stopwords to
[nltk_data]     /home/restrepo/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [None]:
tweet=tmp.loc[0,'text']

In [None]:
preprocess_tweet_text(tweet)

'presente, futuro, construiremos nuevo país. primera linea capitan colombia!. [ 📸diego cortes ] par…'

In [None]:
UNNNECESSARY=True
if not UNNNECESSARY:
    tmp['text']=tmp['text'].apply(preprocess_tweet_text)

In [None]:
RELOAD=True
train=pd.read_json('train.json')
test=pd.read_json('test.json')

In [None]:
train=tmp[:n_train][['text','label']].reset_index(drop=True)

In [None]:
from textblob.classifiers import NaiveBayesClassifier

In [None]:
import nltk
nltk.download('punkt')  

[nltk_data] Downloading package punkt to /home/restrepo/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [None]:
cl = NaiveBayesClassifier(  
    [ (d.get('text'),d.get('label')) for d in train.to_dict(orient='records')]  )

In [None]:
test=tmp[n_train:][['text','label']].reset_index(drop=True)

In [None]:
SAVE=False
if SAVE:
    train.to_json('train.json',orient='records')
    test.to_json('train.json',orient='records')

In [None]:
fulltest=test.copy()
fulltest['test']=fulltest['text'].apply(cl.classify)

In [None]:
fulltest[['text','label','test']][:3]

Unnamed: 0,text,label,test
0,grupo whatsapp: cambio ventas cuentas frefire comprar vender cuentas frefire... | cali amigos cali amigas cali amistad cali conocer gente cali gamers games videojuegos juegos jugadores gaming juegos online jugar online ps4 p...,spa,con
1,"bueno, ya‼️ paro‼️ ya‼️ más... paronacional21m nomasparo cidhencolombia bloqueomental …",con,con
2,"paronacional | ""hay infiltrados aprovechan manifestaciones cometer actos delictivos"": cgt detall…",con,con


In [None]:
cl.accuracy( [ (d.get('text'),d.get('label')) for d in test.to_dict(orient='records')] )

0.7674418604651163

In [None]:
fulltest['prob']=fulltest['text'].apply(lambda t:   
                                cl.prob_classify( t ).prob(   cl.classify( t  )  ) ).round(2)

In [None]:
fulltest

Unnamed: 0,text,label,test
0,grupo whatsapp: cambio ventas cuentas frefire comprar vender cuentas frefire... | cali amigos cali amigas cali amistad cali conocer gente cali gamers games videojuegos juegos jugadores gaming juegos online jugar online ps4 p...,spa,con
1,"bueno, ya‼️ paro‼️ ya‼️ más... paronacional21m nomasparo cidhencolombia bloqueomental …",con,con
2,"paronacional | ""hay infiltrados aprovechan manifestaciones cometer actos delictivos"": cgt detall…",con,con
3,noticias tonito actual situación colombia medios comunicación cumplen papel fundamental mucha…,neu,fav
4,"nomasparo nomasbloqueos si destruyen pequeñas, medianas grandes empresas empleo.",con,con
5,"exito calipso fuerte operaciones policía nacional, ahi atacan manifestantes. aun gaseando barrios vecinos esmad disparando primeras lineas sector. paronacional exitocalipso soscali",fav,fav
6,"¿qué hacer caso detención arbitraria?constitución colombia.art30.quien estuviere privado libertad, creyere estarlo ilegalmente, derecho invocar cualquier autoridad judicial hábeas corpus colombiaenalertaroja habeascorpus cali ddhhcolombia",fav,fav
7,valiente pueblo colombia debería tener alzar voz armas gases lacrimógenos. firmas unidas pueden hacer represión violencia policial manifiestan paronacional acabe 🇨🇴 📜🖊➡,fav,fav
8,"alaire ""aquí obligación ambas partes, usar diálogo tan bloqueando obl…",neu,fav
9,"echan plomo, puede ser. calman, civiles armamos enfrentamos tú. nomasparo nomaspetro nomasterrorismo",con,con


Aplicar al DataFrame Completo

In [None]:
df['test']=df['text'].apply(cl.classify)
df['prob']=df['text'].apply(lambda t:   
                                cl.prob_classify( t ).prob(   cl.classify( t  )  ) ).round(2)

In [None]:
dfp=df.drop_duplicates('text').reset_index(drop=True)

In [None]:
dfp[['text','test','prob']].sample(10)

Unnamed: 0,text,test,prob
1408,"#ParoNacional\n#1deMayo\n#EsmadAsesinos\n#ReformaTributaria\n#ParoNacional1M\n#DuquePareLaViolencia\n#Bogota\n#UribeDioLaOrden\n#SOSColombiaDDHH\n#ATENCION\n#DDHH\n Bogotá, Colombia. Paro Nacional - Asamblea informativa de maestros I.E.D... https://t.co/mQalO9k2xQ a través de @YouTube",fav,0.65
689,RT @teleSURtv: #Colombia 🇨🇴 | Ciudadanos denunciaron este martes que el #Esmad de la Policía reprimió la noche del lunes a las personas que…,fav,0.59
1954,@IvanCepedaCast El derecho a la protesta entierra los demás derechos ciudadanos en #Colombia! El pueblo es sometido por la dictadura de bloqueos y vandalismo! #UribeTieneLaRazon #PetroNuncaSeraPresidente #PetroSeHaceODIAR,fav,0.8
1157,#Buenaventura #BuenaventuraResiste #SOSBuenaventura \nEXPLOSIÓN PETARDOS \nRESISTENCIA \n#UribeDioLaOrden #ElParoNOPara\n #ColombiaResiste #ColombiaSOS #SOSOCOLOMBIA #PrimeraLinea #GraciasPrimeraLinea #SOSColombiaDDDHH #ParoNacional17M #ParoNacional https://t.co/3AA00H1OVk,con,0.65
71,RT @MafeCarrascal: ¿Y mañana sábado?¿Monumento a Los Héroes en Bogotá? #ParoNacional,con,0.93
2255,@petrogustavo #NoMasParo #PetroEsUnHampon #PETRO DESTRUYE A COLOMBIA https://t.co/dpc2tZCder,con,1.0
1678,TRAIGA MENOR QUE SE LLEVARON AYER \nPIDA PERDON X LAS VIOLACIONES A LA MUJER \n#PortalAmericas RESISTE SIN NEGOCIACIONES #Colombia #Bogotá #bogotáenalertaroja #BogotáResiste\n#PrimeraLinea #GraciasPrimeraLinea #ParoNacional18M #ParoNacional18M #ParoNacional #ElParoNOPara https://t.co/4BR1i4KYAa,con,0.83
514,"#Rusia rechaza declaraciones del Ministro de Defensa, Diego Molano de #Colombia, quien aseguró que, en un ejercicio de ciberseguridad, durante las protestas han salido 102 noticias falsas para desacreditar a la policía. #ParoNacional\n\nhttps://t.co/1S3fAuOnOi",fav,0.99
1701,Se me acaban las esperanzas... #NoMasParo #NoMasBloqueos #Rechazo #VandalismoPuroYDuro https://t.co/QCvB3o61Ar,con,1.0
104,"RT @CesarJerezM: Esta mañana fue encontrada la cabeza de un muchacho en un contenedor de basura del Colegio Alfonso López, cerca al @almac…",fav,0.97


In [None]:
dfp.groupby('test')['test'].count()

test
con    1193
fav    1191
Name: test, dtype: int64

Sin quitar RT

In [None]:
df.groupby('test')['test'].count()

test
con    4008
fav    5992
Name: test, dtype: int64