In [1]:
import os
import re
import pandas as pd

In [74]:
folder = '/home/blackmamba/code/pbragamiranda/presidential-speeches-scraper/bolsonaro_data/csv_data/' 

df = pd.DataFrame(columns = ['date', 'title', 'speech'])

with os.scandir(folder) as it:
    for entry in it:
        if entry.name.endswith(".csv") and entry.is_file():
            df_temp = pd.read_csv(f'{folder}{entry.name}', sep='|', parse_dates=['date'])
            df_temp['speech']= df_temp['speech'].astype(str)
            df_temp['title']= df_temp['title'].astype(str)
            df = pd.concat([df, df_temp], ignore_index=True)
             

    

In [75]:
df.dtypes

date      datetime64[ns]
title             object
speech            object
dtype: object

In [76]:
df.shape

(371, 3)

In [88]:
df.iloc[0,2][ 0 : 200 ]

'\xa0\nprezado amigo \nprezado irmão  benjamin netanyahu \n\xa0\nhá dois anos estive em israel  visitei o rio jordão  por coincidência meu nome também é messias  senti me emocionado naquele momento  aceitei o ch'

In [77]:
lower_alpha = lambda x: x.lower()
df['speech'] = df.speech.map(lower_alpha)

In [78]:
import string

punc_re = lambda x: re.sub('[%s]' % re.escape(string.punctuation), ' ', x)
df['speech'] = df.speech.map(punc_re)

df.head()

Unnamed: 0,date,title,speech
0,2019-03-31 14:17:00,"Discurso do Presidente da República, Jair Bols...",\nprezado amigo \nprezado irmão benjamin net...
1,2019-07-23 19:20:00,"Discurso do Presidente da República, Jair Bols...",\nbrasília df 23 de julho de 2019\nmeus senho...
2,2019-08-27 18:01:00,"Fala do Presidente da República, Jair Bolsonar...",palácio do planalto 27 de agosto de 2019\n \n...
3,2019-06-21 16:42:00,"Pronunciamento do Presidente da República, Jai...",palácio do planalto 21 de junho de 2019\n \n ...
4,2019-05-24 15:30:00,"Discurso do Presidente da República, Jair Bols...",recife pe 24 de maio de 2019\n \n \n \né uma ...


In [79]:
# tokenization reviews
import nltk
nltk.download('punkt')
from nltk.tokenize import word_tokenize

df['tokens'] = df.speech.map(word_tokenize)
df.head()

[nltk_data] Downloading package punkt to /home/blackmamba/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


Unnamed: 0,date,title,speech,tokens
0,2019-03-31 14:17:00,"Discurso do Presidente da República, Jair Bols...",\nprezado amigo \nprezado irmão benjamin net...,"[prezado, amigo, prezado, irmão, benjamin, net..."
1,2019-07-23 19:20:00,"Discurso do Presidente da República, Jair Bols...",\nbrasília df 23 de julho de 2019\nmeus senho...,"[brasília, df, 23, de, julho, de, 2019, meus, ..."
2,2019-08-27 18:01:00,"Fala do Presidente da República, Jair Bolsonar...",palácio do planalto 27 de agosto de 2019\n \n...,"[palácio, do, planalto, 27, de, agosto, de, 20..."
3,2019-06-21 16:42:00,"Pronunciamento do Presidente da República, Jai...",palácio do planalto 21 de junho de 2019\n \n ...,"[palácio, do, planalto, 21, de, junho, de, 201..."
4,2019-05-24 15:30:00,"Discurso do Presidente da República, Jair Bols...",recife pe 24 de maio de 2019\n \n \n \né uma ...,"[recife, pe, 24, de, maio, de, 2019, é, uma, s..."


In [84]:
# creating a list combining all tokens
word_list = sum(df.tokens.tolist(), [])
print(len(word_list))
word_list[:10]

343204


['prezado',
 'amigo',
 'prezado',
 'irmão',
 'benjamin',
 'netanyahu',
 'há',
 'dois',
 'anos',
 'estive']

In [86]:
# finding the most commun words

from collections import Counter

# converting the list in a dictionary with values count
word_counts = Counter(word_list)

# reverting the key / values in the dictionary to be able to sort
word_counts = list(zip(word_counts.values(), word_counts.keys()))

# sorting the list by count
word_counts = sorted(word_counts, reverse=True)

# print
word_counts[:10]

[(12032, 'que'),
 (11144, 'de'),
 (10902, 'o'),
 (10424, 'a'),
 (9524, 'e'),
 (5670, 'do'),
 (4949, 'é'),
 (4894, 'para'),
 (4696, 'não'),
 (4010, 'um')]

In [87]:
# Removing the stop words
from nltk.corpus import stopwords
nltk.download("stopwords")

stop_words = stopwords.words('portuguese')

stop_lambda = lambda x: [y for y in x if y not in stop_words]
df['tokens_stop'] = df.tokens.apply(stop_lambda)
df.head()

[nltk_data] Downloading package stopwords to
[nltk_data]     /home/blackmamba/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


Unnamed: 0,date,title,speech,tokens,tokens_stop
0,2019-03-31 14:17:00,"Discurso do Presidente da República, Jair Bols...",\nprezado amigo \nprezado irmão benjamin net...,"[prezado, amigo, prezado, irmão, benjamin, net...","[prezado, amigo, prezado, irmão, benjamin, net..."
1,2019-07-23 19:20:00,"Discurso do Presidente da República, Jair Bols...",\nbrasília df 23 de julho de 2019\nmeus senho...,"[brasília, df, 23, de, julho, de, 2019, meus, ...","[brasília, df, 23, julho, 2019, senhores, senh..."
2,2019-08-27 18:01:00,"Fala do Presidente da República, Jair Bolsonar...",palácio do planalto 27 de agosto de 2019\n \n...,"[palácio, do, planalto, 27, de, agosto, de, 20...","[palácio, planalto, 27, agosto, 2019, senhores..."
3,2019-06-21 16:42:00,"Pronunciamento do Presidente da República, Jai...",palácio do planalto 21 de junho de 2019\n \n ...,"[palácio, do, planalto, 21, de, junho, de, 201...","[palácio, planalto, 21, junho, 2019, bom, dia,..."
4,2019-05-24 15:30:00,"Discurso do Presidente da República, Jair Bols...",recife pe 24 de maio de 2019\n \n \n \né uma ...,"[recife, pe, 24, de, maio, de, 2019, é, uma, s...","[recife, pe, 24, maio, 2019, satisfação, volta..."
