In [49]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import tqdm
import re
import scipy.stats as st
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

In [50]:
dataset = pd.read_csv("teste.csv", parse_dates=["date"])
dataset.info

<bound method DataFrame.info of       Unnamed: 0 artist_name                  title                    album  \
0              0      Slow J               Às Vezes  The Art Of Slowing Down   
1              1      Slow J               Serenata  The Art Of Slowing Down   
2              2      Slow J                 Comida  The Art Of Slowing Down   
3              3      Slow J             Cristalina       The Free Food Tape   
4              4      Slow J               Vida Boa  The Art Of Slowing Down   
...          ...         ...                    ...                      ...   
2107          82       Bispo  Intro (Passo a Passo)  Passo a Passo [Mixtape]   
2108          83       Bispo                 Saldos  Passo a Passo [Mixtape]   
2109          84       Bispo                 Por Aí  Passo a Passo [Mixtape]   
2110          85       Bispo        Preto No Branco  Passo a Passo [Mixtape]   
2111          86       Bispo               Sem Rumo       Recomeço [Mixtape]   

       

In [51]:
dataset.drop('Unnamed: 0', axis = 1, inplace = True)
dataset.isna().sum()

artist_name       0
title             0
album             0
lyrics         1068
date            556
url               0
dtype: int64

In [52]:
dataset['lyrics'] = dataset['lyrics'].fillna(value='')

def remove_punct(s):
    new_lyr = re.sub(r'[^\w\s]', '', s).lower()
    new_lyr = re.sub(r'[\n]', ' ', new_lyr).lower()
    return new_lyr

dataset.lyrics = dataset.lyrics.apply(remove_punct)

In [53]:
#lyrics length
dataset["lyrics_len"] = [len(x) for x in dataset["lyrics"]]

In [54]:
# remover stopwords

stopwords_pt = nltk.corpus.stopwords.words('portuguese')
stopwords_pt.append("porque")
dataset['no_stopwords'] = dataset.apply(lambda x : ' '.join([word for word in x['lyrics'].split(' ') if word not in stopwords_pt]), axis = 1)

In [55]:
dataset['tokens'] = dataset['no_stopwords'].apply(nltk.word_tokenize)
dataset

Unnamed: 0,artist_name,title,album,lyrics,date,url,lyrics_len,no_stopwords,tokens
0,Slow J,Às Vezes,The Art Of Slowing Down,às vezes dói mas eu escondo desde que eu apren...,2017-03-17,https://genius.com/Slow-j-as-vezes-lyrics,2129,vezes dói escondo desde aprendi homens fortes ...,"[vezes, dói, escondo, desde, aprendi, homens, ..."
1,Slow J,Serenata,The Art Of Slowing Down,,2016-05-15,https://genius.com/Slow-j-serenata-lyrics,0,,[]
2,Slow J,Comida,The Art Of Slowing Down,eu tou tão longe da verdade pura dura à procur...,2015-12-31,https://genius.com/Slow-j-comida-lyrics,4487,tou tão longe verdade pura dura procura sanida...,"[tou, tão, longe, verdade, pura, dura, procura..."
3,Slow J,Cristalina,The Free Food Tape,,2015-11-19,https://genius.com/Slow-j-cristalina-lyrics,0,,[]
4,Slow J,Vida Boa,The Art Of Slowing Down,não quero uma boa vida eu quero uma vida boa n...,2016-05-27,https://genius.com/Slow-j-vida-boa-lyrics,1732,quero boa vida quero vida boa nada sina diz es...,"[quero, boa, vida, quero, vida, boa, nada, sin..."
...,...,...,...,...,...,...,...,...,...
2107,Bispo,Intro (Passo a Passo),Passo a Passo [Mixtape],,2013-08-23,https://genius.com/Bispo-intro-passo-a-passo-a...,0,,[]
2108,Bispo,Saldos,Passo a Passo [Mixtape],,2013-08-23,https://genius.com/Bispo-saldos-lyrics,0,,[]
2109,Bispo,Por Aí,Passo a Passo [Mixtape],então qual é ó desaparecido já à bués que um g...,2013-08-23,https://genius.com/Bispo-por-ai-lyrics,1849,então ó desaparecido bués gajo via então é man...,"[então, ó, desaparecido, bués, gajo, via, entã..."
2110,Bispo,Preto No Branco,Passo a Passo [Mixtape],,2013-08-23,https://genius.com/Bispo-preto-no-branco-lyrics,0,,[]


In [56]:
dicionario = pd.read_csv("dicionario_limpo.csv")
dicionario

Unnamed: 0.1,Unnamed: 0,term,description,level,synonym,scale
0,1,abafa-palhinha,&bullet; homossexual masculino passivo,calão carroceiro,arrombado; paneleiro; larilas; lelé; bicha; b...,3
1,4,abananado,"admirado, aturdido e sem palavras",coloquial,estupefacto; azuratado; aturdido; embasbacado...,1
2,11,à beça,em grande quantidade,coloquial,,1
3,13,abichanado,&bullet; homossexual masculino passivo,calão,arrombado; paneleiro; larilas; lelé; bicha; b...,2
4,20,abono de família,"órgão sexual masculino, pénis, pênis",coloquial,,1
...,...,...,...,...,...,...
715,6508,xarro,,coloquial,cavalo; heroína; charro,1
716,6511,xibungo,&bullet; homossexual masculino passivo,calão carroceiro,arrombado; paneleiro; larilas; lelé; bicha; b...,3
717,6512,xilindró,cadeia,coloquial,pildra; choça; prisão; prisa; calabouço; masm...,1
718,6518,xulo,é um:,calão carroceiro,none,3


In [57]:
#finding matches for swear words

lyrics_sets = dataset["tokens"]
swear_words = list(dicionario["term"])
scores = pd.Series(dicionario.scale.values,index=dicionario.term).to_dict()
score_data = []
swear_words_by_song = []

for lyrics in lyrics_sets:
  total_swear_score = 0
  swear_words_in_lyrics = [token for token in lyrics if token in swear_words]

  for swear in swear_words_in_lyrics:
      total_swear_score += scores.get(swear)

  swear_words_by_song.append(swear_words_in_lyrics)
  score_data.append(total_swear_score)

dataset["swears"] = swear_words_by_song
dataset["score"] = score_data

In [58]:
mean_by_artist = dataset.groupby('artist_name')['score'].mean()
mean_by_artist

artist_name
5-30                      4.181818
9 Miller                  7.733333
Agir                      2.258621
Bispo                     4.609195
Boss AC                   2.229885
Carlão (PacMan)           1.514286
Chico da Tina             5.269231
Classe Crua               1.941176
Conjunto Corona           2.181818
Cálculo                   2.120000
Da Weasel                 2.397260
Dealema                   2.302632
Dillaz                    3.776316
Estraca                   2.310345
Força Suprema             1.970588
Fínix MG                  6.789474
GROGNation                4.712329
Gson                      0.666667
Holly Hood                2.714286
Jimmy P                   1.851351
John Kander               0.056338
Kappa Jotta               2.595238
Keso                      3.613636
LON3R JOHNY               1.405797
Mike El Nite              4.593750
NGA                       4.949153
Papillon                  2.500000
Phoenix RDC               4.919355
Piruka  

In [59]:
#filtering misogynistic terms

lady_parts = dicionario[dicionario['description'].str.contains('órgão sexual feminino', na=False)]
men_parts = dicionario[dicionario['description'].str.contains('órgão sexual masculino', na=False)]
women_rude = dicionario[dicionario['synonym'].str.contains('prostituta', na=False)]
oral_sex = dicionario[dicionario['description'].str.contains('sexo oral', na=False)]
anal_sex = dicionario[dicionario['description'].str.contains('sexo anal', na=False)]
semen = dicionario[dicionario['description'].str.contains('esperma', na=False)]



In [60]:
dicionario_misoginia = pd.concat([lady_parts, women_rude, men_parts, semen, oral_sex], ignore_index= True)
dicionario_misoginia

Unnamed: 0.1,Unnamed: 0,term,description,level,synonym,scale
0,525,boceta,órgão sexual feminino,calão carroceiro,cona; pipi; pito; pitaço; pirona; rata; vagin...,3
1,977,cona,órgão sexual feminino,calão muito carroceiro,pipi; pito; pitaço; pirona; rata; vagina; nin...,4
2,978,conaça,órgão sexual feminino,calão muito carroceiro,cona; pipi; pito; pitaço; pirona; rata; vagin...,4
3,1106,crica,órgão sexual feminino,calão muito carroceiro,cona; pipi; pito; pitaço; pirona; rata; vagin...,4
4,1957,entrefolhos,órgão sexual feminino,calão,cona; pipi; pito; pitaço; pirona; rata; vagin...,2
...,...,...,...,...,...,...
75,2585,fazer um bico,&bullet; sexo oral masculino,calão estupidamente carroceiro,fazer um broche; fazer um bobó; mamada; chupa...,5
76,2586,fazer um bobó,&bullet; sexo oral masculino,calão muito carroceiro,fazer um broche; mamada; chupa-me a pichota; ...,4
77,2589,fazer um broche,&bullet; sexo oral masculino,calão estupidamente carroceiro,fazer um bobó; mamada; chupa-me a pichota; fa...,5
78,2631,felácio,&bullet; sexo oral masculino,calão,fazer um broche; fazer um bobó; mamada; chupa...,2


In [61]:
#dicionario[dicionario['description'].str.contains('insulto a árbitro', na=False)]

In [62]:
lyrics_sets = dataset["tokens"]
misogynistic_words = list(dicionario_misoginia["term"])

misogyny_score = pd.Series(dicionario_misoginia.scale.values,index=dicionario_misoginia.term).to_dict()
misogyny_score_data = []
misogynistic_words_by_song = []

for lyrics in lyrics_sets:
  total_misogynistic_score = 0
  misogynistic_words_in_lyrics = [token for token in lyrics if token in misogynistic_words]

  for swear in misogynistic_words_in_lyrics:
      total_misogynistic_score += misogyny_score.get(swear)

  misogynistic_words_by_song.append(misogynistic_words_in_lyrics)
  misogyny_score_data.append(total_misogynistic_score)

dataset["misogynistic_swears"] = misogynistic_words_by_song
dataset["misogynistic_score"] = misogyny_score_data

In [68]:
#dataset.to_csv("teste_completo.csv")
mysogynistic_mean_by_artist = dataset.groupby('artist_name')['misogynistic_score'].mean()
mysogynistic_mean_by_artist

artist_name
5-30                     1.727273
9 Miller                 2.333333
Agir                     0.034483
Bispo                    0.229885
Boss AC                  0.655172
Carlão (PacMan)          0.114286
Chico da Tina            1.038462
Classe Crua              0.352941
Conjunto Corona          0.490909
Cálculo                  0.120000
Da Weasel                0.273973
Dealema                  0.434211
Dillaz                   0.631579
Estraca                  0.379310
Força Suprema            0.147059
Fínix MG                 1.052632
GROGNation               0.821918
Gson                     0.000000
Holly Hood               0.214286
Jimmy P                  0.229730
John Kander              0.000000
Kappa Jotta              0.142857
Keso                     0.363636
LON3R JOHNY              0.000000
Mike El Nite             0.687500
NGA                      0.610169
Papillon                 0.400000
Phoenix RDC              1.137097
Piruka                   0.067797
Pl

In [64]:
# correlating misogyny with swearing
dataset['score'].corr(dataset["misogynistic_score"])

0.6240593489987758

In [82]:
#describing swearing and misogyny scores

columns_of_interest = ['score', 'misogynistic_score']
two_columns_of_data = dataset[columns_of_interest]
two_columns_of_data.describe()

Unnamed: 0,score,misogynistic_score
count,2112.0,2112.0
mean,3.196023,0.511837
std,6.800704,2.722583
min,0.0,0.0
25%,0.0,0.0
50%,0.0,0.0
75%,3.0,0.0
max,78.0,66.0


In [83]:
#describing misogyny per artist

misogyny_score_chart = pd.DataFrame()

misogyny_score_chart["pontuação média"] = dataset.groupby(["artist_name"])["misogynistic_score"].mean()
misogyny_score_chart["pontuação mínima"] = dataset.groupby(["artist_name"])["misogynistic_score"].min()
misogyny_score_chart["pontuação máxima"] = dataset.groupby(["artist_name"])["misogynistic_score"].max()
#misogyny_score_chart.to_csv("misogyny_score_chart.csv")
misogyny_score_chart

Unnamed: 0_level_0,pontuação média,pontuação mínima,pontuação máxima
artist_name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
5-30,1.727273,0,12
9 Miller,2.333333,0,12
Agir,0.034483,0,2
Bispo,0.229885,0,6
Boss AC,0.655172,0,36
Carlão (PacMan),0.114286,0,2
Chico da Tina,1.038462,0,15
Classe Crua,0.352941,0,3
Conjunto Corona,0.490909,0,15
Cálculo,0.12,0,3


In [65]:
dataset.to_csv("dataset.csv")