In [1]:
# Bibliotecas utilizadas no projeto

import pandas as pd
import numpy as np
import nltk
#nltk.download('stopwords')
from nltk.corpus import stopwords
from nltk.tokenize import RegexpTokenizer



In [2]:
# Import dos dados que serão analisados

df = pd.read_excel(r"data\dados_funks.xlsx", usecols=['Nº da ficha:', 'Título da música:', 'Canal:',
       'Nº de visualizações:', 'Nº de inscritos:', 'Data de publicação', 'MC:','DJ:', 'Duração:', 
       'Estado:', 'Cidade:','Transcrição:'])

### Análise exploratória

In [3]:
df.head(3)

Unnamed: 0,Nº da ficha:,Título da música:,Canal:,Nº de visualizações:,Nº de inscritos:,Data de publicação,MC:,DJ:,Duração:,Estado:,Cidade:,Transcrição:
0,1,Pela 1 vez juntos :: MC`S. Menor do Chapa e Ma...,Roda de Funk Original,240937.0,695998.0,2014-04-28 00:00:00,Menor do Chapa e Mazinho,,11:01:00,Rio de Janeiro,Rio de Janeiro,1.\tMC Novinha: - Nós somos PCM porque temos d...
1,2,Mc sadrak Papo reto bonde dos 40 pedrinhas,lucas Sousa,95042.0,892.0,2014-08-01 00:00:00,Sadrak,,02:50:00,Maranhão,São Luís,Se for falar que é cv no jura nao pode mais\n\...
2,3,Bonde dos 40 :::: Mc Sadrak ((Sonho de Liberda...,Conexão B.40,3938.0,3400.0,2016-05-26 00:00:00,Sadrak,não informado,03:39:00,Maranhão,São Luís,Só soldado preparado no Jacaré\n\nChamada jorn...


In [4]:
df.shape

(120, 12)

In [5]:
df['texto'] = df['Transcrição:']

### Limpeza dos dados

In [6]:
# Eliminação de tabulação escape lines
df['texto'].replace(r'\r+|\n+|\t+',' ', regex=True, inplace=True)

# Conversão do texto para letras minúsculas
df['texto'] = df['texto'].str.lower()

# Eliminação de caracteres especiais
df['texto'] = df['texto'].str.replace('\W', ' ', regex=True)

# Eliminação dos números
df['texto'] = df['texto'].str.replace('\d+', '', regex=True)

# Eliminação de espaços vazios
df['texto'] = df['texto'].str.replace('  ',' ')


In [7]:
df.loc[:,['Transcrição:', 'texto']].head()

Unnamed: 0,Transcrição:,texto
0,1.\tMC Novinha: - Nós somos PCM porque temos d...,mc novinha nós somos pcm porque temos dispos...
1,Se for falar que é cv no jura nao pode mais\n\...,se for falar que é cv no jura nao pode mais v...
2,Só soldado preparado no Jacaré\n\nChamada jorn...,só soldado preparado no jacaré chamada jornalí...
3,1.\tMas sai da frente aí seus verme\n2.\tQue o...,mas sai da frente aí seus verme que o bonde ...
4,Embratel é Primeiro Comando\n1.\tO de cinza br...,embratel é primeiro comando o de cinza brotou...


### Processamento do texto

In [8]:
# Tokenização 
regexp = RegexpTokenizer('\w+')
df['tokens']=df['texto'].apply(regexp.tokenize)

In [9]:
df['tokens'].head()

0    [mc, novinha, nós, somos, pcm, porque, temos, ...
1    [se, for, falar, que, é, cv, no, jura, nao, po...
2    [só, soldado, preparado, no, jacaré, chamada, ...
3    [mas, sai, da, frente, aí, seus, verme, que, o...
4    [embratel, é, primeiro, comando, o, de, cinza,...
Name: tokens, dtype: object

In [10]:
# Verificação das stopwords listadas para o idioma português
print(stopwords.words('portuguese'))

['a', 'à', 'ao', 'aos', 'aquela', 'aquelas', 'aquele', 'aqueles', 'aquilo', 'as', 'às', 'até', 'com', 'como', 'da', 'das', 'de', 'dela', 'delas', 'dele', 'deles', 'depois', 'do', 'dos', 'e', 'é', 'ela', 'elas', 'ele', 'eles', 'em', 'entre', 'era', 'eram', 'éramos', 'essa', 'essas', 'esse', 'esses', 'esta', 'está', 'estamos', 'estão', 'estar', 'estas', 'estava', 'estavam', 'estávamos', 'este', 'esteja', 'estejam', 'estejamos', 'estes', 'esteve', 'estive', 'estivemos', 'estiver', 'estivera', 'estiveram', 'estivéramos', 'estiverem', 'estivermos', 'estivesse', 'estivessem', 'estivéssemos', 'estou', 'eu', 'foi', 'fomos', 'for', 'fora', 'foram', 'fôramos', 'forem', 'formos', 'fosse', 'fossem', 'fôssemos', 'fui', 'há', 'haja', 'hajam', 'hajamos', 'hão', 'havemos', 'haver', 'hei', 'houve', 'houvemos', 'houver', 'houvera', 'houverá', 'houveram', 'houvéramos', 'houverão', 'houverei', 'houverem', 'houveremos', 'houveria', 'houveriam', 'houveríamos', 'houvermos', 'houvesse', 'houvessem', 'houvésse

In [11]:
# Eliminação das stopwords
port_stopwords = stopwords.words('portuguese')
df['tokens'] = df['tokens'].apply(lambda x: [item for item in x if item not in port_stopwords])

In [12]:
df.loc[:,['Transcrição:', 'texto','tokens']].head()

Unnamed: 0,Transcrição:,texto,tokens
0,1.\tMC Novinha: - Nós somos PCM porque temos d...,mc novinha nós somos pcm porque temos dispos...,"[mc, novinha, pcm, porque, disposição, pcm, po..."
1,Se for falar que é cv no jura nao pode mais\n\...,se for falar que é cv no jura nao pode mais v...,"[falar, cv, jura, nao, pode, vou, dá, papo, ma..."
2,Só soldado preparado no Jacaré\n\nChamada jorn...,só soldado preparado no jacaré chamada jornalí...,"[soldado, preparado, jacaré, chamada, jornalís..."
3,1.\tMas sai da frente aí seus verme\n2.\tQue o...,mas sai da frente aí seus verme que o bonde ...,"[sai, frente, aí, verme, bonde, vai, passar, a..."
4,Embratel é Primeiro Comando\n1.\tO de cinza br...,embratel é primeiro comando o de cinza brotou...,"[embratel, primeiro, comando, cinza, brotou, l..."


### Referências para adaptar

In [None]:
# It returns a regular Python list
english_stopwords = stopwords.words('english')

# Add a list of words
english_stopwords.extend(['food', 'meal', 'eat'])

# Add a single word
english_stopwords.append('plate')

# Remove a single word
english_stopwords.remove('not')
stopwords = nltk.corpus.stopwords.words("english")

# Extend the list with your own custom stopwords
my_stopwords = ['https']
stopwords.extend(my_stopwords)

In [13]:
#from collections import Counter
#wd = pd.DataFrame(Counter(df['Transcrição:'].split()).most_common(200), columns=['Transcrição:'])
#df.apply(lambda x: pd.value_counts(x.split(" "))).sum(axis = 0)

In [None]:
from wordcloud import WordCloud, STOPWORDS, ImageColorGenerator

# Choose a character
df = df[df['name']  == "cersei"]
# Make all words lowercase and add them to an array
words = ''
for i in df.line.values:
    words += '{} '.format(i.lower())
# Create a pandas dataframe with the word and its frequency
wd = pd.DataFrame(Counter(words.split()).most_common(200), columns=['word', 'frequency'])
# Convert the dataframe to a dictionary
data = dict(zip(wd['word'].tolist(), wd['frequency'].tolist()))

wc = WordCloud(background_color='white',
               stopwords=STOPWORDS,
               max_words=200).generate_from_frequencies(data)
plt.imshow(wc, interpolation='bilinear')
plt.show()

In [None]:
import squarify
df = df.groupby(['name','sex', 'color'])['words'].sum().reset_index()

x1=pd.Series(df['name'])
x2=pd.Series(df['words'])
x3=pd.Series(df['color'])
x2=x2.tolist()
x1=x1.tolist()
x3=x3.tolist()

squarify.plot(
sizes=x2, 
label=x1, 
color =x3,
alpha=.7,
bar_kwargs=dict(linewidth=1, edgecolor="#222222"))
plt.show()