In [1]:
import pandas as pd
import re
import spacy

import nltk
nltk.download('stopwords')

from franc_lib import lexical


normalizer = lexical.Preprocessing()

[nltk_data] Downloading package stopwords to
[nltk_data]     /home/igorecarvalho/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [2]:
dataframe = pd.read_csv('dados.csv')

In [3]:
text = dataframe[dataframe['Unnamed: 0'] == 2]['text']

In [4]:
# ([^rs])  - Qualquer letra que não r ou s
# (?=\1+)  - Que se repita uma vez ou mais
# |(rr)    - Ou dois r's
# (?=r+)   - Que tenham mais r's à frente
# |(ss)    - Ou dois s's
# (?=s+)   - Que tenham mais s's à frente
regex = r"([^rs])(?=\1+)|(rr)(?=r+)|(ss)(?=s+)"

def remove_username(tweet):
    return re.sub('@[^\s]+',' ',tweet)

def remove_end_of_line(tweet):
    return tweet.replace('\n', ' ').replace('RT', ' ')

def remove_duplicate_letters(tweet):
    tweet = re.sub(regex, '', tweet, 0)
    return tweet

In [5]:
dataframe.head()

Unnamed: 0.1,Unnamed: 0,id,text
0,0,1142208313532342274,Nossa putaria é quase um poema
1,1,1142208269513089024,ManooooKKKKKKKKK apareceu aqueles vídeos de li...
2,2,1142208264861626370,@felipesimoncini É putaria né ? Aqui no dique ...
3,3,1142208231558864896,acabei de fazer um Tinder pra minha tia e fale...
4,4,1142208138520776704,RT @MiiEDB: Queria viver um romance porém esta...


In [6]:
def normalize(tweet):
    tweet = remove_username(tweet)
    tweet = remove_end_of_line(tweet)
    tweet = remove_duplicate_letters(tweet)
    tweet = normalizer.lowercase(tweet)
    tweet = normalizer.remove_punctuation(tweet)
    tokens = normalizer.tokenize_words(tweet)
#     tokens = [token for token in tokens if token not in english_stopwords]
    return ' '.join(tokens)

In [7]:
dataframe['normalize'] = dataframe['text'].apply(normalize)

In [8]:
dataframe.head()

Unnamed: 0.1,Unnamed: 0,id,text,normalize
0,0,1142208313532342274,Nossa putaria é quase um poema,nossa putaria é quase um poema
1,1,1142208269513089024,ManooooKKKKKKKKK apareceu aqueles vídeos de li...,manok apareceu aqueles vídeos de ligações do b...
2,2,1142208264861626370,@felipesimoncini É putaria né ? Aqui no dique ...,é putaria né aqui no dique é frenquentar nos a...
3,3,1142208231558864896,acabei de fazer um Tinder pra minha tia e fale...,acabei de fazer um tinder pra minha tia e fale...
4,4,1142208138520776704,RT @MiiEDB: Queria viver um romance porém esta...,queria viver um romance porém estamos no sécul...


In [9]:
hate_certeiras = [
    'feminazi','gayzista', 'viadismo', 'homossexualismo', 'viadagem', 'gayzismo', 'favelado',
    'gayzinho', 'sapatona', 'sapatão', 'bixa', 'verme', 'negrice', 'negrisse', 'negraiada','abortistas',
    'rameira', 'crioula', 'crioulas', 'crioulos', 'crioulo','tições', 'sangues ruins', 'bambis', 'boiola',
    'bichona', 'biba', 'traveco', 'viadinho', 'bichinha'
]

hate_verbo = [
    'matar', 'exterminar', 'odiar', 'queimar', 'atirar', 'esfaquear', 'bater', 'apanhar', 'roubar',
    'estuprar', 'ser', 'comer',
]

hate_adj = [
    'safado','imbecil', 'imbecis', 'cachaceiro', 'babaca', 'idiota', 'puta', 'puto', 'arrombado','arrombada',
    'canalha', 'vagabundo', 'vagabunda','burra', 'burro', 'maldito', 'maldita', 'neguim', 'neguinho', 
    'favelados', 'faveladas', 'favelada', 'maconheiro', 'maconhero', 'viado', 'viadinho', 'bichinha', 'lixo'
]

hate_words = [
    'putaria','bosta','cuzao', 'fdp', 'filho da puta',
    'merda', 'escroto', 'transfobia', 'gordo', 'canalha',
    'ditadura','gorda'
]

In [10]:
# Modelo ja baixado
# import subprocess
# command = "python3 -m spacy download pt_core_news_sm".split()
# subprocess.call(command)

nlp = spacy.load('models/pt_core_news_sm-2.1.0')

def tag(tweet):
    for hate in hate_certeiras:
        if hate in tweet:
            return 'hate'
    
    doc = nlp(tweet)
    
    for token in doc:
        if token.pos_ in ['VERB', 'AUX', 'DET', 'NOUN']:
            if token.lemma_ in hate_verbo:
                for hate in hate_adj:
                    if hate in tweet:
                        return 'hate'
                for hate in hate_words:
                    if hate in tweet:
                        return 'hate'
            elif token.lemma_ in hate_adj:
                return 'hate'
    return '-'

In [11]:
dataframe['tag'] = dataframe['normalize'].apply(tag)

In [12]:
dataframe.head(100)

Unnamed: 0.1,Unnamed: 0,id,text,normalize,tag
0,0,1142208313532342274,Nossa putaria é quase um poema,nossa putaria é quase um poema,hate
1,1,1142208269513089024,ManooooKKKKKKKKK apareceu aqueles vídeos de li...,manok apareceu aqueles vídeos de ligações do b...,hate
2,2,1142208264861626370,@felipesimoncini É putaria né ? Aqui no dique ...,é putaria né aqui no dique é frenquentar nos a...,hate
3,3,1142208231558864896,acabei de fazer um Tinder pra minha tia e fale...,acabei de fazer um tinder pra minha tia e fale...,-
4,4,1142208138520776704,RT @MiiEDB: Queria viver um romance porém esta...,queria viver um romance porém estamos no sécul...,-
5,5,1142208053938458624,@jairbolsonaro @EderMauroPA BOTAFOGO QUERENDO ...,botafogo querendo mudar o regimento para se pe...,-
6,6,1142208016080670720,RT @lucilia_ferraz: Minha mãe tá aqui na festa...,minha mãe tá aqui na festa dela falando putari...,-
7,7,1142207999030771712,Todo gringo que está disposto a empreender dev...,todo gringo que está disposto a emprender deve...,-
8,8,1142207991350996994,Essa bicha de Rosa 100% tentando ser uma mulhe...,essa bicha de rosa 10 tentando ser uma mulher ...,hate
9,9,1142207977346293766,@EderMauroPA BOTAFOGO QUERENDO MUDAR O REGIMEN...,botafogo querendo mudar o regimento para se pe...,-


In [13]:
dataframe.groupby('tag').count()

Unnamed: 0_level_0,Unnamed: 0,id,text,normalize
tag,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
-,47880,47880,47880,47880
hate,37301,37301,37301,37301


In [14]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [15]:
train_reviews = dataframe['normalize'].values.tolist()
train_classes = []

for value in dataframe['tag'].values.tolist():
    train_classes.append(0 if value == 'hate' else 1)

transformer = TfidfVectorizer()
transformer.fit(train_reviews)
X = transformer.transform(train_reviews)

In [16]:
from sklearn.linear_model import LogisticRegression

In [17]:
classifier_lr = LogisticRegression(n_jobs=4)
classifier_lr.fit(X, train_classes)

  " = {}.".format(effective_n_jobs(self.n_jobs)))


LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
                   intercept_scaling=1, l1_ratio=None, max_iter=100,
                   multi_class='warn', n_jobs=3, penalty='l2',
                   random_state=None, solver='warn', tol=0.0001, verbose=0,
                   warm_start=False)

In [25]:
#sentence = "MORTTEEE AOS VIADOS!! bichiiiiiiiiiiiiiiiiiiiinhas"
sentence = "bicinha escroto, precisa morrer"
instance = transformer.transform([normalize(sentence)])
classifier_lr.predict(instance)

array([1])