<div style="width: 100%; clear: both;">
<div style="float: left; width: 50%;">
<img src="http://www.uoc.edu/portal/_resources/common/imatges/marca_UOC/UOC_Masterbrand.jpg", align="left">
</div>
<div style="float: right; width: 50%;">
    <p style="margin: 0; padding-top: 22px; text-align:right;"><b>Treball de Final de Màster </b></p>
<p style="margin: 0; text-align:right;"><b>ANÀLISI DEL DIA MUNDIAL DE LES MALALTIES MINORITÀRIES (Font de dades: TWITTER)</b>.</p>
</div>
</div>
<div style="width:100%;">&nbsp;</div>


# PAC 3: Disseny i Implementació del TFM.


# GENERACIÓ DEL DATASET DE DADES
<p style="color:#0000FF">
En aquest Jupyter Notebook, veurem com generar el dataset de dades final, a partir de dades prèviament captades a Twitter i emmagatzemades a
una base de dades documental MongoDB.
El procés de generació del dataset i preprocessament dels tuits captats, implica la gestió de les traduccions del seu idioma d'origen a l'anglès i la neteja
del text, detecció d'emojis i la seva normalització, així com l'obtenció de camps d'interès per la modelització, organitzant-los de manera tabular i 
un generant una còpia a disc en format Excel.
</p>

<div style="text-align:right">
    <span style="font-family:calibri;font-size:8;color:white; background-color:Crimson; text-align:right; margin-left: 0.5cm;padding:0.3cm"> Autor: </span>
    <span style="font-family:calibri;font-size:8;color:white; background-color:RoyalBlue; text-align:center;  margin-right: 0.5cm; padding:0.3cm"><b> Joaquim de Dalmases Juanet </b></span>
</div>

<p style="color:#0000FF">
    Partim de la suposició de l'existència d'una base de dades MongoDB on ja tenim totes les dades a modelar.
</p>
<p style="color:#0000FF">
    El procés que cal implementar consisteix a connectar a la base de dades i mitjançant una consulta i generar un format de dataset per modelar.
    En el cas dels tuits en anglès, ja tindríem el dataset, si no, cal diferenciar entre els tuits en castellà i la resta d'idiomes.
    El procés de traducció s'ha separat de la generació del dataset, ja que es pot fer de manera independent i cadascú escollir el mètode que consideri més adient.
    Un primer bloc està constituït pels tuits d'un idioma diferent de l'anglès i el castellà. Els tuits en castellà pel seu volum considerable, han necessitat un segon bloc, i finalment els tuits en anglès formen part d'un tercer bloc de gestió. L'objectiu ha estat generar un corpus de text en anglès per modelitzar. Part d'aquesta etapa de preprocessament de les dades comprèn el càlcul de la polaritat ia subjectivitat del text, els emojis continguts a cada tuit, així com l'extracció d'elements de context que ens permetran enriquir el procés d'anàlisi del text com hashtags, mencions i dades quantitatives com el nombre de seguidors ('followers'), amics ('friens') de l'emisor del tuit.
</p>

In [1]:
# Llibreries utilitzades
from pymongo import MongoClient
import pandas as pd
import numpy as np
import nltk
#nltk.download()
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize, sent_tokenize, TweetTokenizer
from nltk.stem import LancasterStemmer, PorterStemmer
from datetime import datetime
from datetime import timedelta  
import string
import re, collections
import time
from textblob import TextBlob
import codecs
import json

#import warnings
#warnings.filterwarnings('ignore')

In [2]:
# En aquest apartat definim els paràmetres globals per tal de llegir la base de dades 
# i generar el dataset de tuits que utilitzarem en la pipeline del processament de tuits.

# Connexió a la base de dades MongoDB (usem les llibreria pymongo per python).

# Utilitzem un servidor local i el port estandard 27017.
client = MongoClient('mongodb://localhost:27017/?readPreference=primary&appname=py&ssl=false')

# Base de dades: El nom de la base de dades és 'DM_MM2020' (Dia Mundial Malalties Minoritaries 2020)
bbdd="DM_MM2020"
# La col·leció on guardem els documents és: 'Twitter'.
coleccio="Twitter"

# Cal conservar format.
DATA_INICI_PERIODE = "13/02/2020"
DATA_FINAL_PEIODE = "30/03/2020"


# Si el servidor de dades no fos local podríem tenir les següents opcions:
# A) Una opció professional basada en cloud o núvol amb ossibilitat de disposar un clúster:
#    Ex:  mongodb+srv://m220project:m220password@mflix-rsmx1.mongodb.net/test?authSource=admin&
#                       replicaSet=mflix-shard-0&readPreference=primary&appname=MongoDB%20Compass&ssl=true
#
# B) Utilitzar una màquina virtual habilitada per algun port específic:
#    Ex: mongodb://localhost:7017/?replicaSet=&readPreference=primary&appname=MongoDB%20Compass&ssl=false


In [3]:
RE_EMOJI = re.compile("["
        u"\U0001F600-\U0001F64F"  # emoticons
        u"\U0001F300-\U0001F5FF"  # simbols i pictogrames
        u"\U0001F680-\U0001F6FF"  # simbols de transport i senyalització/icones
        u"\U0001F1E0-\U0001F1FF"  # flags (iOS)
        u"\U00002500-\U00002BEF"  # caràcters xinesos
        u"\U00002702-\U000027B0"
        u"\U00002702-\U000027B0"
        u"\U000024C2-\U0001F251"
        u"\U0001f926-\U0001f937"
        u"\U00010000-\U0010ffff"
        u"\u2640-\u2642" 
        u"\u2600-\u2B55"
        u"\u200d"
        u"\u23cf"
        u"\u23e9"
        u"\u231a"
        u"\ufe0f"  # dingbats
        u"\u3030"
        u"\uf7e2"
                      "]+", re.UNICODE)
# Extreiem els emojis/emoticons del text del tuit.
def cerca_emojis(text):
    return RE_EMOJI.findall(text)

# Extreiem la data del tuit.
def obte_dataHora(tuit):
    return datetime.strptime(tuit['created_at'], "%a %b %d %H:%M:%S +0000 %Y")

# Extreiem els hashtags.
def obte_hashtags(tuit):
    return [marca['text'] for marca in tuit['entities']['hashtags']]

#Extreu mencions (referències a usuari).
def obte_mencions(tweet):
    return [m['screen_name'] for m in tweet['entities']['user_mentions']]

def NetejaNorm(text_o,idioma='english', stem=0, meta=0):
    text=""
    text_normalitzat =""
    # Calculem tokens
    tweet_tokenizer = TweetTokenizer()
    tokens = tweet_tokenizer.tokenize(text_o)
    # Crea un element anomenat 'stemmer' que selecciona l'arrel comuna de la paraula.
    # evitant al text diverses formes d'una mateixa paraula. 
    # Ex: cantar és 'stem' o troncal de cantat, cantada, cantaria
    if stem==0:
        stemmer = LancasterStemmer()
    else:
        stemmer = PorterStemmer() # Opció menys agressiva i més antiga.
    # Processa cada token del text i aplica totes les regles de netejat
    # i finalment aplica steamming per obtenir el text normalitzat.
    for elem in tokens:
        # Estandaritzem el tex a minúscules.
        elem=elem.lower()
        # Processem sempre i quan no sigui una 'stopword'.
        if elem  not in stopwords.words(idioma):
            # Elimina URL's
            text_net=re.sub(r"\w+:\/{2}[\d\w-]+(\.[\d\w-]+)*(?:(?:\/[^\s/]*))*", '',elem,flags=re.UNICODE)
            text_net=text_net.replace("https","")
            text_net=text_net.replace("http","")
            if len(text_net)>1:
                # Eliminem la informació de context:
                if meta==0:
                    # Elimina hashtags
                    text_net=re.sub(r'#([^\s]+)', "", text_net)
                    # Elimina referencies a usuari
                    text_net=re.sub(r'@([^\s]+)', "", text_net)
                if len(text_net)>1:
                    # Obté text alfanumeric (substitueix tot caràcter que no és alfanumèric per "")
                    text_net = re.sub('([^\w\'+]|[0-9]+)',' ',text_net).strip()
                    if len(text_net)>1:
                        # Neteja caracteres en blanc, marques 'rt'
                        text_net = re.sub('[\t\n\r\f\v]+','', text_net)
                        if len(text_net)>1:
                            text_net = re.sub(r' +',' ', text_net,flags=re.UNICODE)
                            # cadenes repetitives de caràcters
                            text_net=re.sub(r"([A-Za-z])\1+", r'\1\1',text_net,flags=re.UNICODE)
                            if len(text_net)>1:
                                if text_net.startswith("rt"):
                                    text_net = text_net.replace('rt','',1)
                                if len(text_net)>1:
                                    # En paraules apostrofades ens quedem amb la part no apostrofada.
                                    text_net = text_net.split("'")[0]
                                    # Filtrem les paraules d'un sol caràcter residuals.
                                    # Reconstruim usant dues llistes, el text del tuit netejat
                                    # i el text normalitzat.
                                    if len(text_net)>1:
                                        if text=="":
                                            text = text_net
                                            text_normalitzat = stemmer.stem(text_net)
                                        else:
                                            text = text + " " + text_net
                                            # Cerquem l'arrel o paurala base en cada mot del text detectat.
                                            text_normalitzat = text_normalitzat + " " + stemmer.stem(text_net)      
    # Si el tuit en el procés de neteja queda buit 
    # el representem per un caràcter en blanc per compatibilitat al exportar a fitxer excel.
    if len(text)==0: 
        text = " "
        text_normalitzat = " "
    ftext=text+'@'+text_normalitzat
    return ftext

In [4]:
def generaDataset_origenDM_MM2020(bd, colec, cli, idiomes, dataI="13/02/2020", dataF="30/03/2020"):
    # Paràmetres d'entrada: Data inicial i data final del periode de temps
    # per el qual volem  extreure tots els tuits de la base de dades.

    # Data Inicial.
    DataI=dataI
    # Data Final.
    DataF=dataF

    # Configuracions dels codis de formats de data i hora per dates.
    #"%a (nom dia semana, tres lletres) %b (nom mes 3 lletres) 
    # %d (dia en digits)    %H:%M:%S (Hores, minuts, segons) +0000 %Y (any 4 digits)"

    # Conversions a format data, de la data inicial i final.
    di=datetime.strptime(DataI, "%d/%m/%Y")
    df=datetime.strptime(DataF, "%d/%m/%Y")
    # Calcula el nombre de dies comprés en el periode de dates indicat a 'DataI' i 'DataF'
    periode=(df-di)
    # 'time_start0' instant de temps inicial per comptabilitzar tot el temps
    # total de processament del periode complet.
    time_start0 = time.time()
    # La variable 'primer' controla que en un dia existeixin tuits corresponents a la consulta que realitzarem a la base de dades.
    primer=True
    # Registra el temps total de processament.
    total=0
    if idiomes=={"lang":{"$not":{"$in":["es","en","und"]}}}: idioma="Altres"
    elif idiomes=={"lang":{"$in":["es"]}}: idioma="es"
    else: idioma="en"
    # La llibreria NLTK, necessita configurar les stop words, (per defecte suposarem anglès)
    if idioma=="es":
        stopWordsIdioma="spanish"
    else:
        stopWordsIdioma="english"
    # La variable t (unitat:dies) identifica numericament a cada dia del periode de dies definit.
    # Ens a serveix per calcular cada data en referència a la data inicial.
    for t in range(periode.days+1):
        # 'time_start' instant de temps d'inici per cada dia. Ens permetrà calcular 
        # el temps empreat per processar tots els tuits de cada dia.
        time_start = time.time()
        # 'dt' conté la data actual en procés.
        dt=di + timedelta(days=t)
        # 'data' valor de data per realitzar la consulta i obtenir tots els tuits d'un dia en la variable 'filter'
        data=dt.strftime("%a %b %d")
        # 'label' Etiqueta text per imprimir en la sortida per pantalla de línia d'informació dinàmica
        # que es mostra quan s'executa el codi.
        label=dt.strftime("%a %b %d %Y")
        print(label)
        # Inicialització de la variable 'm' que registra el nombre de tuits per cada dia.
        m=0
        # Cal definir els paràmetres 'filter' i 'project' per implementar la consulta 
        # amb el mètode Find. 
        # En aquest cas només usarem "filter":
        # Ex:
        #     filter={"created_at":{"$regex":data}, "lang":idioma} #, "lang":idioma

        # En aquest bucle, anem obtenint en cada pas els tuits d'un dia del periode definit que no 
        # estan escrits en idioma anglès ni castellà o no tenen un alor indefinit en el camp 'lang'.
        # El camp 'lang' en el 'Tweet object' de l'API de Twitter representa l'idioma.
        # Ex: filter={"$and":[{"created_at":{"$regex":data}},{"lang":{"$not":{"$in":["es","en","und"]}}}]}

        filter={"$and":[{"created_at":{"$regex":data}},idiomes]}
        # Executem la consulta a la base de dades MongoDB.
        # Obtenim un cursor amb la llista de documents coincidents del dia en procés i l'idioma indicat.
        result=cli[bd][colec].find(filter=filter)

        # Generem un pandas DataFrame (llibreria 'pandas' ens permet definir dades tabulars) amb la resposta obtinguda.
        df = pd.DataFrame.from_records(result)
        # En cas d'obtenir un nombre de tuits major a zero (files del DataFrame > 0), comencem el seu processament:
        if df.shape[0]>0:
            # Llista on guardarem tots els textos de tuit netejats 
            # és el que anomenem 'Tokenització'. El procés de tokenització obté unitats d'informació significativa del text.
            textClean=[]
            # Llista amb els textos originals: 2 cassos: extended tweet/ normal tweet
            text_original = []
            # Llista amb els textos de tuits normalitzats.
            textNorm=[]
            # Fraccionem les dates, a 'diaSem' guardem el nom del dia de la semana.
            diaSem=[]
            # A 'dia','mes' i 'yy' guardem: el digit del dia, el digit del mes i els 4 digits del any. 
            dia=[]
            mes=[]
            yy=[]
            # A 'hora', 'minuts', 'segons' guardem el digit de l'hora en format 24h, 
            # els digits dels minuts i els dels segons.
            hora=[]
            minuts=[]
            segs=[]
            # A 'hashtags' tots els hashtags inclossos en cada tuit.
            hashtags=[]
            # A 'mentions' totes les mencions a usuari inclossos en cada tuit: format '@identificador_text'.
            user_mentions=[]
            # El nom d'usuari (username, camp 'name' al 'tweet object'), tot i que no l'utilitzarem per privacitat de dades.
            user_names=[]
            # El id text, ('string') a mode d'identificador de l'autor del tuit. El camp screen_name no l'hem registrat.
            user_idstr=[]
            # Llista on anirem guardant el nombre d'amics de l'autor (usuari) del tuit.
            user_friends_c=[]
            # Llista on anirem guardant el nombre de seguidors ('followers') de l'autor (usuari) del tuit.
            user_followers_c=[]
            # usuaris en llista de l'autor de cada tuit.
            user_listed_c=[]
            # La polaritat i la subjectivitat es deixen definides per quan puguin ser calculades.
            # polaritat calculada segons el text netejat de cad tuit (usant la llibreria 'textlob').
            polarity=[]
            # Subjectivitat calculada segons el text de cada tuit (usant la llibreria 'textlob').
            subjectivity=[]
            # Llista de mojis
            emojis_list = []

            result.rewind()
            # Bloc de codi per processar el tuit i omplir totes les llistes amb les dades
            # que després s'usaran per construir el dataset que es vol generar per modelar.
            # La variable 'm' controla quants tuits processem.
            m=0
            # La variable 'k' controla cada 'Tweet Object' contingut al cusor 'result',  resultat de la consulta.
            for k in result:
                m = m + 1
                # Aplicar el 'Cleaning' o netejat del text del tuit. Aquest codi es versàtil per els tres cassos definits
                # segons el valor de la variable 'idioma' i el valor de la variable 'filter' en la consulta
                # els cassos: tuits en anglès, castellà i en 'altres' idiomes (cas que ens ocupa).             
                # text original del tuit
                if k['truncated']:
                    text_o = k['extended_tweet']['full_text']
                else:
                    text_o = k['text']
                if text_o.startswith("https://"):
                    text_o = " " + text_o
                text_original.append(text_o)            
                # Data text del tuit en tipus 'Date', util per extreure les dades posteriors.
                data_t = obte_dataHora(k)
                diaSem.append(data_t.strftime("%A"))
                dia.append(int(data_t.strftime("%d")))
                mes.append(int(data_t.strftime("%m")))
                yy.append(int(data_t.strftime("%Y")))
                hora.append(int(data_t.strftime("%H")))
                minuts.append(int(data_t.strftime("%M")))
                segs.append(int(data_t.strftime("%S")))
                # Extracció de tota la informació de context de cada tuit.
                hashtags.append(obte_hashtags(k))
                user_mentions.append(obte_mencions(k))
                user_names.append(k['user']['name']) 
                user_idstr.append(k['user']['id_str'])
                user_friends_c.append(k['user']['friends_count'])
                user_followers_c.append(k['user']['followers_count'])
                user_listed_c.append(k['user']['listed_count'])

            # Si tenim tuits processats, m serà major que 0.     
            if m>0:
                # Generem un dataframe imatge del dataset que volem generar amb tota la informació recopilada.
                df1 = pd.DataFrame({"_id":df._id,"created_at":df.created_at, "text":text_original,"text_net":None,'text_Norm':None, \
                                    'diaSem':diaSem,'dia':dia,'mes':mes,'yy':yy,'hora':hora,'minuts':minuts,'segs':segs, \
                                    'hashtags':hashtags,'user_mentions':user_mentions,'user_name':user_names,'user_idstr':user_idstr, \
                                    'user_friends_c':user_friends_c,'user_followers_c':user_followers_c,'user_listed_c':user_listed_c, \
                                    'retweet_count':df.retweet_count,'lang':df.lang, 'polarity': None, 'subjectivity': None, \
                                    'emojis':None})
            # primer=True significa que és el primer dia amb tuits i que disposem d'un dataframe (df1) 
            # amb dades per acumular al dataframe final (df2) que està buit.
            if primer and m>0:
                df2=df1
                primer=False
            # disposem de tuits acumulats i cal afegir els del dia en procés.
            elif primer==False and m>0:
                frames=[df2,df1]
                # Afegim les files del dataframe 'df1' al 'df2'
                df2=pd.concat(frames)
            # Encara no disposem de tuits.
            else:
                print("No existeixen tuits aquest periode: {}.".format(label))
        # 'temps' registra el temps parcial diari de processament de tuits.
        temps=(time.time()-time_start)/60
        print("#Tuits processats:",m,"\n Durada: ",int(temps) if temps>0 else 0,"minut/s ", \
              int((temps-int(temps))*60),"segons.")
        t=t+1
    # Exportem tot el processament realitzat i guardat a 'df2' a un fitxer de notació:
    # DM_MM2020_Twitter_13-02-2020_30-03-2020_altres.xlsx o bé informem de que no se'n disposa.
    if primer==False:
        fitxerExportacio = '{}_{}_{}_{}.xlsx'.format(bbdd,coleccio,(DataI+"_"+DataF).replace("/","-"),idioma)
        # Generem un index per identificar els tuits.
        df2=df2.reset_index(drop=True)
        df2['n']=df2.index+1
        df2.to_excel(fitxerExportacio,index=0)
        total=(time.time()-time_start0)/60
        print("Exportat al fitxer",fitxerExportacio, \
              "\nProcessament finalitzat!\n Durada Final: ",int(total) if total>0 else 0,"minut/s ", \
              int((total-int(total))*60),"segons.")
    else:
        print("No existeixen tuits aquest periode: {}.".format(DataI + " a " + DataF))
    
    return df2

In [5]:
# Generem el dataset del periode complet dels tuits amb idioma diferent d'anglès, castellà i no definit:

i={"lang":{"$not":{"$in":["es","en","und"]}}}
df2=generaDataset_origenDM_MM2020(bbdd, coleccio, client, idiomes=i, dataI="13/02/2020", dataF="30/03/2020")

Thu Feb 13 2020
#Tuits processats: 2 
 Durada:  0 minut/s  1 segons.
Fri Feb 14 2020
#Tuits processats: 1 
 Durada:  0 minut/s  0 segons.
Sat Feb 15 2020
#Tuits processats: 0 
 Durada:  0 minut/s  0 segons.
Sun Feb 16 2020
#Tuits processats: 0 
 Durada:  0 minut/s  0 segons.
Mon Feb 17 2020
#Tuits processats: 1 
 Durada:  0 minut/s  0 segons.
Tue Feb 18 2020
#Tuits processats: 0 
 Durada:  0 minut/s  0 segons.
Wed Feb 19 2020
#Tuits processats: 79 
 Durada:  0 minut/s  0 segons.
Thu Feb 20 2020
#Tuits processats: 160 
 Durada:  0 minut/s  0 segons.
Fri Feb 21 2020
#Tuits processats: 141 
 Durada:  0 minut/s  0 segons.
Sat Feb 22 2020
#Tuits processats: 82 
 Durada:  0 minut/s  0 segons.
Sun Feb 23 2020
#Tuits processats: 70 
 Durada:  0 minut/s  0 segons.
Mon Feb 24 2020
#Tuits processats: 189 
 Durada:  0 minut/s  0 segons.
Tue Feb 25 2020
#Tuits processats: 403 
 Durada:  0 minut/s  0 segons.
Wed Feb 26 2020
#Tuits processats: 363 
 Durada:  0 minut/s  0 segons.
Thu Feb 27 2020
#Tuit

In [6]:
# Mostrem l'estructura del dataframe calculat
print(df2.columns)
print(df2.shape)

Index(['_id', 'created_at', 'text', 'text_net', 'text_Norm', 'diaSem', 'dia',
       'mes', 'yy', 'hora', 'minuts', 'segs', 'hashtags', 'user_mentions',
       'user_name', 'user_idstr', 'user_friends_c', 'user_followers_c',
       'user_listed_c', 'retweet_count', 'lang', 'polarity', 'subjectivity',
       'emojis', 'n'],
      dtype='object')
(9195, 25)


In [7]:
d2 = df2.filter(["n","text","lang"])
# 'langs' conté tots els codis corresponents als idiomes diferents d'anglès i castellà 
#  dels tuits capturats en el periode d'estudi.
codis = d2["lang"]
codis = codis.drop_duplicates()
#df2.drop_duplicates(subset = ["created_at","user_idstr", "text"], keep = False, inplace = True)
codis.sort_values(inplace=True)
langs=list(codis)
#langs = ["ar","bg","ca","cs","cy","da","de","el","et","eu","fa","fi","fr","hi","ht","hu", \
#       "in","it","iw","ja","ko","lt","lv","nl","no","pl","pt","ro","ru","sl","sr","sv", \
#       "te","tl","tr","uk","vi","zh"]


<p style="color:#0000FF">
   Generem per cada idioma el fitxer excel amb els tuits en aquest idioma.<br>
   Cal tenir cura de que el nom de les columnes sigui curt ja que les traduccions no els haurien de poder canviar, i així no tenir problemes al fusionar tots els arxius.<br>
</p>

In [8]:
for k in range(len(langs)):
    dt = d2[d2.lang==langs[k]].copy()
    dt.filter(["n","text"]).to_excel("altres_"+langs[k]+".xlsx",index=0)
l=list(dt)
l=[]

<p style="color:#0000FF">
Els fitxers generats tenen la notació: "altres_XX.xlsx" on XX és el codi estàndar de l'idioma.
El codi de llenguatge es pot formatar com a ISO 639-1 alpha-2 (en), ISO 639-3 alpha-3 (msa) o 
ISO 639-1 alpha-2 combinat amb una localització ISO 3166-1 alfa-2 (zh -tw).
Aquests fitxers en el cas del bloc 'ALTRES' séràn traduits manualment perquè la detecció
automàtica no sempre és acurada i ens assegurem una bona traducció.
</p>
<p style="color:#0000FF">
Per tant, ara suposem que ja tenim uns excels amb notació: "altres_XX_traduit.xlsx" i procedim a fusionar-los generant una
    exportació intermitja al fitxer excel amb notació "Altres_traduits_Final.xlsx", corresponent als idiomes diferents a l'anglès i castellà.
</p>

In [9]:
# file_ini emmagatzema la fusió de totes les traduccions.
file_ini=pd.read_excel('Altres_' + langs[0] + '_traduit.xlsx')
for k in range(1,len(langs)):
    file_seg=pd.read_excel('Altres_' + langs[k] + '_traduit.xlsx')
    if not np.all(file_seg.columns==["n","text"]):
        print(langs[k])
    file_ini=file_ini.append(file_seg,ignore_index=True)

file_ini=file_ini.sort_values(['n'])
file_ini.to_excel("Altres_traduits_Final.xlsx",index=0)


In [10]:
# Construim un join per columna 'n' per tal d'alinear en el dataset
# les traducions de cada idioma amb els seus textos de tuit originals.
dataset_altres_idiomes = pd.merge(df2, file_ini, on='n', how='inner')

In [11]:
# Un cop fet el join eliminem la columna 'n' i obtenim el dataset d'aquest bloc de tuits.
dataset_altres_idiomes=dataset_altres_idiomes.loc[:, dataset_altres_idiomes.columns != 'n']

In [12]:
# Eliminem duplicats
num=df2.shape[0]
time_start = time.time()
df2.drop_duplicates(subset = ["created_at","user_idstr", "text"], keep = 'first', inplace = True) 
temps=(time.time()-time_start)/60
print("#Tuits processats:",num, "\n#Tuits duplicats:",num-df2.shape[0],"\n#Tuits finals:",df2.shape[0], \
      "\n Durada: ",int(temps) if temps>0 else 0,"minut/s ", \
      int((temps-int(temps))*60),"segons.")
dataset_altres_idiomes.shape

#Tuits processats: 9195 
#Tuits duplicats: 0 
#Tuits finals: 9195 
 Durada:  0 minut/s  0 segons.


(9195, 25)

In [13]:
# On per cada tuit, el camp "text_x" és el texte original i "text_y" és el trauït a l'anglès.
dataset_altres_idiomes.head(1)


Unnamed: 0,_id,created_at,text_x,text_net,text_Norm,diaSem,dia,mes,yy,hora,...,user_idstr,user_friends_c,user_followers_c,user_listed_c,retweet_count,lang,polarity,subjectivity,emojis,text_y
0,5e78e8104e54db2148d197d0,Thu Feb 13 12:46:37 +0000 2020,RT @diputadospan: Conferencia de prensa #Enfer...,,,Thursday,13,2,2020,12,...,766788351928176640,477,219,2,0,pt,,,,RT @diputadospan: Press conference #Enfermedad...


In [14]:
# Calculem el dataset per els tuits en castellà
# Processem el tuits per generar el dataset segons el periode complet:
i={"lang":{"$in":["es"]}}
df_es = generaDataset_origenDM_MM2020(bbdd, coleccio, client, idiomes=i, dataI="13/02/2020", dataF="30/03/2020")

Thu Feb 13 2020
#Tuits processats: 1217 
 Durada:  0 minut/s  0 segons.
Fri Feb 14 2020
#Tuits processats: 282 
 Durada:  0 minut/s  0 segons.
Sat Feb 15 2020
#Tuits processats: 243 
 Durada:  0 minut/s  0 segons.
Sun Feb 16 2020
#Tuits processats: 159 
 Durada:  0 minut/s  0 segons.
Mon Feb 17 2020
#Tuits processats: 218 
 Durada:  0 minut/s  0 segons.
Tue Feb 18 2020
#Tuits processats: 69 
 Durada:  0 minut/s  0 segons.
Wed Feb 19 2020
#Tuits processats: 281 
 Durada:  0 minut/s  0 segons.
Thu Feb 20 2020
#Tuits processats: 356 
 Durada:  0 minut/s  0 segons.
Fri Feb 21 2020
#Tuits processats: 658 
 Durada:  0 minut/s  0 segons.
Sat Feb 22 2020
#Tuits processats: 324 
 Durada:  0 minut/s  0 segons.
Sun Feb 23 2020
#Tuits processats: 350 
 Durada:  0 minut/s  0 segons.
Mon Feb 24 2020
#Tuits processats: 676 
 Durada:  0 minut/s  0 segons.
Tue Feb 25 2020
#Tuits processats: 625 
 Durada:  0 minut/s  0 segons.
Wed Feb 26 2020
#Tuits processats: 865 
 Durada:  0 minut/s  0 segons.
Thu Fe

<p style="color:#0000FF">
En aquest punt del procés, hem guardat en format Excel tots els tuits en castellà, que cal traduir a l'anglès.<br>
Es poden usar els marges gratuits dels traductors com: Google Translator, IBM Watson (IBM Cloud: servei Language Transaltion), Apertium, Yandex etc... o bé un servei de pagament.
<br> A continuació, suposem que tenim un fitxer resultat de traduir el fitxer generat 'DM_MM2020_Twitter_13-02-2020_30-03-2020_es.xlsx', amb nom '<b>Es_traduits_Final.xlsx</b>'<br>
En el nostre cas hem utilitzat IBM Watson i IBM Cloud, fent servir un servei de pagament anomenat '<b>Language Translator</b>' on pel primer 1.000.000 de mots la traducció és gratuita. <br>Generem l'arxiu del dataset final per aquests tuits. 
</p>

In [15]:
# Definim la capçalera de manera que més tard, podem afegir els registres del bloc 'Altres'
df_es = df_es.loc[:, df_es.columns != 'n']
df_es.columns=['_id', 'created_at', 'text_x', 'text_net', 'text_Norm', 'diaSem', 'dia','mes', 'yy', 'hora', 'minuts', 'segs', \
             'hashtags', 'user_mentions', 'user_name', 'user_idstr', 'user_friends_c', 'user_followers_c', 'user_listed_c', \
             'retweet_count', 'lang', 'polarity', 'subjectivity','emojis']


In [16]:
# Llegim el fitxer creat apart amb les traduccions.
df_es_traduit = pd.read_excel("Es_traduits_Final.xlsx")
df_es_traduit.shape

(37676, 1)

In [17]:
# Afegim la columna de les traduccions al camp 'text_y'
df_es['text_y']=df_es_traduit['text']

In [18]:
# Eliminem duplicats
num=df_es.shape[0]
time_start = time.time()
df_es.drop_duplicates(subset = ["created_at","user_idstr", "text_x"], keep = 'first', inplace = True) 
temps=(time.time()-time_start)/60
print("#Tuits processats:",num, "\n#Tuits duplicats:",num-df_es.shape[0],"\n#Tuits final:",df_es.shape[0],"\n Durada: ",int(temps) if temps>0 else 0,"minut/s ", \
      int((temps-int(temps))*60),"segons.")

#Tuits processats: 37676 
#Tuits duplicats: 5 
#Tuits final: 37671 
 Durada:  0 minut/s  0 segons.


In [19]:
# Fusionem els tuits en castellà traduits amb els traduits de diferents idiomes.
df_es_altres = df_es.append(dataset_altres_idiomes,ignore_index=True)
df_es_altres.reset_index(drop=True)
df_es_altres.shape

(46866, 25)

<p style="color:#0000FF">
    Finalment només ens queda afegir tots els tuits que estan en anglès i que no cal traduir.<br>
    Un cop generat el dataset final, calcularem la polaritat i la subjectivitat sobre tot el dataset final.
</p>

In [20]:
# Obtenim els tuits originalment en anglès 
i={"lang":{"$in":["en"]}}
df_en = generaDataset_origenDM_MM2020(bbdd, coleccio, client, idiomes=i, dataI="13/02/2020", dataF="30/03/2020")

Thu Feb 13 2020
#Tuits processats: 4 
 Durada:  0 minut/s  0 segons.
Fri Feb 14 2020
#Tuits processats: 1 
 Durada:  0 minut/s  0 segons.
Sat Feb 15 2020
#Tuits processats: 2 
 Durada:  0 minut/s  0 segons.
Sun Feb 16 2020
#Tuits processats: 4 
 Durada:  0 minut/s  0 segons.
Mon Feb 17 2020
#Tuits processats: 1 
 Durada:  0 minut/s  0 segons.
Tue Feb 18 2020
#Tuits processats: 2 
 Durada:  0 minut/s  0 segons.
Wed Feb 19 2020
#Tuits processats: 473 
 Durada:  0 minut/s  0 segons.
Thu Feb 20 2020
#Tuits processats: 471 
 Durada:  0 minut/s  0 segons.
Fri Feb 21 2020
#Tuits processats: 672 
 Durada:  0 minut/s  0 segons.
Sat Feb 22 2020
#Tuits processats: 539 
 Durada:  0 minut/s  0 segons.
Sun Feb 23 2020
#Tuits processats: 374 
 Durada:  0 minut/s  0 segons.
Mon Feb 24 2020
#Tuits processats: 1356 
 Durada:  0 minut/s  0 segons.
Tue Feb 25 2020
#Tuits processats: 1574 
 Durada:  0 minut/s  0 segons.
Wed Feb 26 2020
#Tuits processats: 1587 
 Durada:  0 minut/s  0 segons.
Thu Feb 27 2020

In [21]:
# Eliminem duplicats
num=df_en.shape[0]
time_start = time.time()
df_en.drop_duplicates(subset = ["created_at","user_idstr", "text"], keep = 'first', inplace = True) 
temps=(time.time()-time_start)/60
print("#Tuits processats:",num, "\n#Tuits duplicats:",num-df_en.shape[0],"\n#Tuits final:",df_en.shape[0],"\n Durada: ",int(temps) if temps>0 else 0,"minut/s ", \
      int((temps-int(temps))*60),"segons.")

#Tuits processats: 51571 
#Tuits duplicats: 4 
#Tuits final: 51567 
 Durada:  0 minut/s  0 segons.


In [22]:
# Configurem les columnes amb el dataset actual i els afegim 
# per obtenir el dataset final.
df_en = df_en.loc[:, df_en.columns != 'n']
df_en.columns=['_id', 'created_at', 'text_x', 'text_net', 'text_Norm', 'diaSem', 'dia','mes', 'yy', 'hora', 'minuts', 'segs', \
             'hashtags', 'user_mentions', 'user_name', 'user_idstr', 'user_friends_c', 'user_followers_c', 'user_listed_c', \
             'retweet_count', 'lang', 'polarity', 'subjectivity','emojis']
# Afegim la columna del text en anglès dels tuits el camp 'text_x', uniformitat i disposar en la columna text_y tots els tuits en anglès.
df_en['text_y']=df_en['text_x']

In [23]:
# Fusionem els tuits en casellà traduits i els traduits de diferents idiomes amb els originals en anglès.
dataset_final = df_es_altres.append(df_en,ignore_index=True)
dataset_final = dataset_final.sort_values(by=['_id'])
dataset_final = dataset_final.reset_index(drop=True)
dataset_final.shape

(98433, 25)

<p style="color:#0000FF">
    Per implementar la fase de processament del dataset, calculem 5 camps:
    <ol style="color:#0000FF">
        <li>El camp <b>text_net</b>, amb el text netejat.</li>
        <li>El camp <b>text_Norm</b>, amb el text del tuit normalitzat: operació de 'Stemming'.</li>
        <li>El camp <b>emojis</b> amb els emojis extrets del tuit.</li>
        <li>Un camp amb la <b>polaritat</b> del text de cada tuit.<br>
        La propietat 'sentiment' d'un objecte 'texblob', retorna una estructura de dades, <b>Sentiment (polaritat, subjectivitat)</b>. La puntuació de <b>polaritat</b> és un nombre decimal dins del rang [-1,0, 1.0]. Un valor -1.0 indica una polaritat negativa, un valor 0 neutral i un valor 1.0 una polaritat positiva o a favor del contingut del tuit. 
        </li>
        <li>Un camp amb la <b>subjectivitat</b> del text cada tuit.<br>
        La <b>subjectivitat</b> és un nombre decimal dins del rang [0.0, 1.0] on 0.0 és gens objectiu i 1.0 és totalment subjectiu.
        </li>
     </ol>
</p>

In [24]:
def depuraTextTuit(dataset,idioma):
# Funció que aplica sobre tots els tuits traduits, les regles de
# netejat del text i normalització. A més a més per l'anàlisi de
# sentiment, calcula la polaritat i la subjectivitat del text.

    textClean=[]
    textNorm=[]
    emojis=[]
    polarity = []
    subjectivity = []

    # Processat de tots els tuits del dataset
    # Mostrant seguiment per pantalla, dia a dia.
    time_start0 = time.time()
    time_start = time.time()
    m=1 ; dia=0
    for row in dataset.iterrows():
        text = row[1]['text_y']
        # Eliminem parts del text que no ens aporten significat
        # Elimina stopwords, hashtags i referències a usuaris.
        # Normalitzem el text, per reduir la diversitat de paraules al tuit.
        Netejat = NetejaNorm(text, idioma)
        # Obtenim el text netejat (abans del caràcter @) 
        # i el normalitzat (després del caràcter @)
        Netejat=Netejat.split('@')
        textClean.append(Netejat[0])
        # Calcula els emojis continguts al text.
        emojis.append(cerca_emojis(text))
        textNorm.append(Netejat[1])
        # Utilitzem la llibreria 'textblob' per calcular
        # Polaritat i Subjectivitat.
        polarity.append(TextBlob(row[1]['text_y']).sentiment.polarity)
        subjectivity.append(TextBlob(row[1]['text_y']).sentiment.subjectivity)
        if m!=1:
            if row[1]['dia']!=dia:
                temps=(time.time()-time_start)/60
                print("Data: {}/{}/{}".format(dia,mes,yy),"\n#Tuits processats:", \
                      m-1,"\n Durada: ", \
                      int(temps) if temps>0 else 0,"minut/s ", int((temps-int(temps))*60), \
                      "segons.")
                m=1
                time_start = time.time()
        dia=row[1]['dia'] ; mes=row[1]['mes'] ; yy=row[1]['yy']
        m=m+1
    # Temps parcial diari.
    temps=(time.time()-time_start)/60
    print("Data: {}/{}/{}".format(dia,mes,yy),"\n#Tuits processats:",m,"\n Durada: ", \
          int(temps) if temps>0 else 0,"minut/s ", \
          int((temps-int(temps))*60),"segons.")
    # Temps total
    temps=(time.time()-time_start0)/60
    print("#Total de tuits processats:",dataset.shape[0],"\n Durada: ",int(temps) if temps>0 else 0, \
          "minut/s ", \
          int((temps-int(temps))*60),"segons.")
    
    df_net_norm=pd.DataFrame({'text_net':textClean,'text_Norm':textNorm,'emojis':emojis, \
                              'polarity':polarity,'subjectivity':subjectivity})
    
    return df_net_norm

In [25]:
df_depurat = depuraTextTuit(dataset_final,'english')

Data: 13/2/2020 
#Tuits processats: 1223 
 Durada:  0 minut/s  8 segons.
Data: 14/2/2020 
#Tuits processats: 284 
 Durada:  0 minut/s  1 segons.
Data: 15/2/2020 
#Tuits processats: 245 
 Durada:  0 minut/s  1 segons.
Data: 16/2/2020 
#Tuits processats: 163 
 Durada:  0 minut/s  1 segons.
Data: 17/2/2020 
#Tuits processats: 220 
 Durada:  0 minut/s  1 segons.
Data: 18/2/2020 
#Tuits processats: 71 
 Durada:  0 minut/s  0 segons.
Data: 19/2/2020 
#Tuits processats: 833 
 Durada:  0 minut/s  6 segons.
Data: 20/2/2020 
#Tuits processats: 987 
 Durada:  0 minut/s  7 segons.
Data: 21/2/2020 
#Tuits processats: 1471 
 Durada:  0 minut/s  11 segons.
Data: 22/2/2020 
#Tuits processats: 945 
 Durada:  0 minut/s  7 segons.
Data: 23/2/2020 
#Tuits processats: 794 
 Durada:  0 minut/s  6 segons.
Data: 24/2/2020 
#Tuits processats: 2221 
 Durada:  0 minut/s  17 segons.
Data: 25/2/2020 
#Tuits processats: 2602 
 Durada:  0 minut/s  19 segons.
Data: 26/2/2020 
#Tuits processats: 2815 
 Durada:  0 minu

In [26]:
# Actualizació del dataset final
dataset_final.update(df_depurat)

In [28]:
# Exportació a disc en format Excel/csv/Pickle
dataset_final.to_excel("DMMM_dataset_Final.xlsx",index=0)
dataset_final.to_csv("DMMM_dataset_Final.csv", index = False, header=True)
dataset_final.to_pickle("DMMM_dataset_Final.pkl")
dataset_final.shape

(98433, 25)

In [29]:
dataset_final.head()

Unnamed: 0,_id,created_at,text_x,text_net,text_Norm,diaSem,dia,mes,yy,hora,...,user_idstr,user_friends_c,user_followers_c,user_listed_c,retweet_count,lang,polarity,subjectivity,emojis,text_y
0,5e78e80f4e54db2148d19749,Thu Feb 13 09:58:19 +0000 2020,RT @FEDER_ONG: Las 29 obras ganadoras del conc...,winning works photographic contest form travel...,win work photograph contest form travel exhibi...,Thursday,13,2,2020,9,...,4054806561,8,3,0,0,es,0.5,0.75,[],RT @FEDER_ONG: The 29 winning works of the pho...
1,5e78e80f4e54db2148d1974a,Thu Feb 13 10:01:01 +0000 2020,"📌 Esta tarde, a partir de las 21:00h, nuevo #C...",afternoon starting new centered,afternoon start new cent,Thursday,13,2,2020,10,...,64270216,853,2104,31,0,es,0.0681818,0.277273,[📌],"📌 This afternoon, starting at 21 :00h, new #Cr..."
2,5e78e80f4e54db2148d1974b,Thu Feb 13 10:01:31 +0000 2020,"RT @FEDER_ONG: Gracias a Emilio Butragueño, Da...",thanks emilio butragueño david de maria soleda...,thank emilio butragueño david de mar soledad g...,Thursday,13,2,2020,10,...,233031604,446,648,9,0,es,0.2,0.2,[],"RT @FEDER_ONG: Thanks to Emilio Butragueño, Da..."
3,5e78e80f4e54db2148d1974c,Thu Feb 13 10:01:38 +0000 2020,Va a quedar tan bonito @nh487 ...\n\n#FebreroR...,going look beautiful,going look beauty,Thursday,13,2,2020,10,...,237839609,11718,19380,682,0,es,0.85,1.0,[],It's going to look so beautiful.\n\n#FebreroRa...
4,5e78e80f4e54db2148d1974d,Thu Feb 13 10:02:02 +0000 2020,RT @ERdivulga: todo un honor tener a @PastorAl...,honor collaborating teaching subject physiopat...,hon collab teach subject physiopatholog,Thursday,13,2,2020,10,...,3002280588,236,123,0,0,es,-0.166667,0.333333,[],RT @ERdivulga: it is an honor to have @PastorA...
