# Será que podemos comparar ideologias políticas a partir de tweets?

ideologia: conjunto de convicções filosóficas, sociais, políticas etc. de um indivíduo ou grupo de indivíduos.

Comparações:
    - análise gráfica comparativa da frequência de palavras ou relacionadas a tópicos: 
        religião, educação, orientação sexual, identidade de gênero, economia, saúde, porte de armas, combate a pobreza
            ex: Quantidade de tweets do Bolsonaro falando sobre drogas é muito maior que a do Lula, que mostra maior favor a política anti-drogas
            (Buscar se a quantidade de palavras segue a mesma tendência)

    - Comparação percentual entre palavras específicas em relação ao total

In [123]:
# Imports section
import re
import pandas as pd
import unicodedata as uni

In [124]:
def get_data():
    # Open json files and read into dataframes
    with open('dataset/jairbolsonaro.json','r') as file_01:
        df_01=pd.read_json(file_01)
    with open('dataset/LulaOficial.json','r') as file_02:
        df_02=pd.read_json(file_02)
    # rename columns inplace
    df_01.rename(columns={'full_text':'Bolsonaro'}, inplace=True)
    df_02.rename(columns={'full_text':'Lula'}, inplace=True)
    # concatenate dataframes into one dataframe
    cols=[df_01['Bolsonaro'], df_02['Lula']]
    dataframe=pd.concat(cols,axis=1)

    return dataframe

In [129]:
def clean(tweet):
    '''Normalizes every word, removes links, hashtags, numbers, mentions, pontuation, emogis and removes stopwords from a single tweet and returns a list with the remaining words'''
    # input as single tweet string
    # output as list of string words
    stopwords=('de', 'a', 'pra', 'fazer','estar','lula','none', 'o', 'que', 'd','e', 'do', 'da', 'em', 'um', 'nao', 'para', 'e', 'com', 'uma', 'os', 'no', 'se', 'na', 'por', 'mais', 'as', 'dos', 'como', 'mas', 'foi', 'ao', 'ele', 'das', 'tem', 'seu', 'sua', 'ou', 'ser', 'quando', 'muito', 'ha', 'nos', 'ja', 'esta', 'eu', 'também', 'so', 'pelo', 'pela', 'ate', 'isso', 'ela', 'entre', 'era', 'depois', 'sem', 'mesmo', 'aos', 'ter', 'seus', 'quem', 'nas', 'me', 'esse', 'eles', 'estao', 'voce', 'tinha', 'foram', 'essa', 'num', 'nem', 'suas', 'meu', 'minha', 'numa', 'pelos', 'elas', 'havia', 'seja', 'qual', 'sera', 'tenho', 'lhe', 'deles', 'essas', 'esses', 'pelas', 'este', 'fosse', 'dele', 'tu', 'te', 'voces', 'vos', 'lhes', 'meus', 'minhas', 'teu', 'tua', 'teus', 'tuas', 'nosso', 'nossa', 'nossos', 'nossas', 'dela', 'delas', 'esta', 'estes', 'estas', 'aquele', 'aquela', 'aqueles', 'aquelas', 'isto', 'aquilo', 'estou', 'esta', 'estamos', 'estao', 'estive', 'esteve', 'estivemos', 'estiveram', 'estava', 'estavamos', 'estavam', 'estivera', 'estiveramos', 'esteja', 'estejamos', 'estejam', 'estivesse', 'estivessemos', 'estivessem', 'estiver', 'estivermos', 'estiverem', 'hei', 'ha', 'havemos', 'hao', 'houve', 'houvemos', 'houveram', 'houvera', 'houveramos', 'haja', 'hajamos', 'hajam', 'houvesse', 'houvessemos', 'houvessem', 'houver', 'houvermos', 'houverem', 'houverei', 'houvera', 'houveremos', 'houverao', 'houveria', 'houveriamos', 'houveriam', 'sou', 'somos', 'sao', 'era', 'eramos', 'eram', 'fui', 'foi', 'fomos', 'foram', 'fora', 'foramos', 'seja', 'sejamos', 'sejam', 'fosse', 'fossemos', 'fossem', 'for', 'formos', 'forem', 'serei', 'sera', 'seremos', 'serao', 'seria', 'seriamos', 'seriam', 'tenho', 'tem', 'temos', 'tem', 'tinha', 'tinhamos', 'tinham', 'tive', 'teve', 'tivemos', 'tiveram', 'tivera', 'tiveramos', 'tenha', 'tenhamos', 'tenham', 'tivesse', 'tivessemos', 'tivessem', 'tiver', 'tivermos', 'tiverem', 'terei', 'tera', 'teremos', 'terao', 'teria', 'teriamos', 'teriam')
    if type(tweet) != str:
        tweet='none'
    # normalize text and make all letters lowercase
    tweet = uni.normalize('NFD', tweet).encode('ASCII', 'ignore').decode('utf-8').lower()
    
    # remove links
    url_pattern=r'(?i)\b((?:https?://|www\d{0,3}[.]|[a-z0-9.\-]+[.][a-z]{2,4}/)(?:[^\s()<>]+|\(([^\s()<>]+|(\([^\s()<>]+\)))*\))+(?:\(([^\s()<>]+|(\([^\s()<>]+\)))*\)|[^\s`!()\[\]{};:\'\".,<>?«»“”‘’]))'
    
    # remove hashtags
    tags_pattern=r'\#([a-zA-Z0-9_]{1,50})'
    
    # remove mentions
    mentions_pattern=r'\@([a-zA-Z0-9_]{1,50})'    
    
    # remove ponctuation, emogis and numbers and making sure there's only words in the output
    rest_pattern=r'[^\w\s]+|\d+'
    
    # apply all patterns deleting all matched objects
    # patterns = [url_pattern,tags_pattern,mentions_pattern,rest_pattern]
    # for pattern in patterns:
    #     tweet = re.sub(pattern,'',tweet)

    patterns=re.compile('|'.join([url_pattern,tags_pattern,mentions_pattern,rest_pattern]))

    tweet = re.sub(patterns,'',tweet)

    clean_tweet=[word for word in tweet.split() if word not in stopwords]
    
    return clean_tweet

In [126]:
def count_words(tweets):
    '''Count the ocurrence of key words in the tweets'''
    # input as list of tweets

    words={}
    # selected_words=[]
    for tweet in tweets:
        for word in clean(tweet):
            if word in words.keys() and type(word)==str:
                words[word] += 1
            else:
                words[word] = 1
                
    # Filter the words into a list based on a minimum number of ocurrences
    # for word, ocurrence in words.items():
    #     if ocurrence >= min:
    #         selected_words.append(word)

    # return selected_words
    return sorted(words.items(),key= lambda x:x[1], reverse=True)

In [127]:
data = get_data()
b_data = data['Bolsonaro'].to_numpy()
l_data = data['Lula'].to_numpy()

[('pais', 1734),
 ('brasil', 1492),
 ('povo', 1332),
 ('presidente', 933),
 ('gente', 925),
 ('pra', 844),
 ('vai', 717),
 ('agora', 711),
 ('governo', 653),
 ('pt', 637),
 ('porque', 635),
 ('anos', 634),
 ('hoje', 613),
 ('vivo', 600),
 ('dia', 593),
 ('ricardo', 577),
 ('contra', 557),
 ('stuckert', 543),
 ('aqui', 538),
 ('sobre', 532),
 ('candidato', 519),
 ('vamos', 478),
 ('pessoas', 477),
 ('haddad', 470),
 ('todos', 469),
 ('pode', 461),
 ('quero', 433),
 ('expresidente', 430),
 ('politica', 420),
 ('brasileiro', 414),
 ('educacao', 407),
 ('fala', 403),
 ('dilma', 397),
 ('democracia', 383),
 ('mundo', 383),
 ('visita', 373),
 ('foto', 358),
 ('pobre', 357),
 ('curitiba', 344),
 ('voltar', 324),
 ('vida', 320),
 ('paulo', 316),
 ('entrevista', 315),
 ('ato', 312),
 ('nunca', 309),
 ('melhor', 309),
 ('rio', 307),
 ('todo', 301),
 ('durante', 300),
 ('grande', 297),
 ('moro', 296),
 ('vou', 295),
 ('milhoes', 285),
 ('estado', 283),
 ('direito', 280),
 ('fernando', 279),
 ('ve