### Realizar regresión Logistica, random forest, extra* -> red neuronal-> traducir textos a español.[REPETIR EN ESPAÑOL.]

> [ HIPÓTESIS ] La traducción afecta al rendimiento del clasificador?

Usar modelo transformer -> ingles a español **Tutorial 7**.


## 8 de enero!

### Basado en Automated Hate Speech Detection and the Problem of Offensive Language

[https://data.world/thomasrdavidson/hate-speech-and-offensive-language](https://data.world/thomasrdavidson/hate-speech-and-offensive-language)

Disclaimer WARNING: The data, lexicons, and notebooks all contain content that is racist, sexist, homophobic, and offensive in many other ways.

### Data Guide

The data are stored as a CSV, each data file contains 5 columns:

**count** = number of CrowdFlower users who coded each tweet (min is 3, sometimes more users coded a tweet when judgments were determined to be unreliable by CF).

**hate_speech** = number of CF users who judged the tweet to be hate speech.

**offensive_language** = number of CF users who judged the tweet to be offensive.

**neither** = number of CF users who judged the tweet to be neither offensive nor non-offensive.

**class** = class label for majority of CF users.
0 - hate speech,
1 - offensive language,
2 - neither



In [None]:
import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)

from sklearn import preprocessing
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn import metrics 
from sklearn.metrics import confusion_matrix
from sklearn.metrics import classification_report
from sklearn import tree
from sklearn.ensemble import RandomForestClassifier
import matplotlib.pyplot as plt
%matplotlib inline

In [None]:
#abrir el dataset
d = pd.read_csv("hate1.csv",header=None)
#Eliminamos 1° columna y fila innecesarias
if len(d.columns)> 6:
    d = d.drop(d.columns[0], 1)
    d = d.iloc[1:]
d.head()

In [None]:
d.info() # database no nulo y balanceado, en primera instancia.

#### Cambiamos de posición la columna que clasifica el mensaje al final y reetiquetamos.

In [None]:
d = d[[1,2,3,4,6,5]]
d.columns=['count', 'hate_speech', 'offensive_language', 'neiter', 'message', 'class']
d

#### Contamos las clases

In [None]:
count_classes = d['class'].value_counts()
count_classes

# Análisis de sentimientos

In [None]:
import pandas as pd

from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer
from sklearn.base import TransformerMixin
from sklearn.pipeline import Pipeline

import spacy
import string
from spacy.lang.en.stop_words import STOP_WORDS
from spacy.lang.en import English

### Preprocesamiento léxico  con N-gramas (estadístico)

> **spacy_tokenizer** generará un vector de palabras dividido

> **bow_vector** vectorizará las palabras de a dos (N-gramos) según su relevancia

> **tfidf_vector** transforma los textos en vectores para tener los pesos TF-IDF de cada palabra en cada documento

In [None]:
# Create our list of punctuation marks
punctuations = string.punctuation

# Create our list of stopwords
stop_words=""

# Load English tokenizer, tagger, parser, NER and word vectors
parser = English()

# Creating our tokenizer function
def spacy_tokenizer(sentence):
    # Creating our token object, which is used to create documents with linguistic annotations.
    mytokens = parser(sentence)

    # Lemmatizing each token and converting each token into lowercase
    mytokens = [ word.lemma_.lower().strip() if word.lemma_ != "-PRON-" else word.lower_ for word in mytokens ]

    # Removing stop words
    mytokens = [ word for word in mytokens if word not in stop_words and word not in punctuations ]

    # return preprocessed list of tokens
    return mytokens

In [None]:
bow_vector = CountVectorizer(tokenizer = spacy_tokenizer, ngram_range=(1,1))
bow_vector

In [None]:
tfidf_vector = TfidfVectorizer(tokenizer = spacy_tokenizer)

### Partición de dataset

In [None]:
X = d['message'] # tweets 
y = d['class']   # clasificación
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = .45, random_state=25)

# Entrenamiento de dataset


## Regresión Logística

In [None]:

# Logistic Regression Classifier
from sklearn.linear_model import LogisticRegression
modelLR = LogisticRegression(solver='lbfgs', max_iter=1000) # parámetros para evitar errores de iteración

# Create pipeline using Bag of Words
pipe = Pipeline([('preprocessing', bow_vector),
                 ('regression-ML', modelLR)])

# model generation
pipe.fit(X_train,y_train)

#### Evaluación del modelo

Podemos evaluar el rendimiento de nuestro modelo usando el módulo de métricas de scikit-learn. Ahora que hemos entrenado nuestro modelo, pondremos nuestros datos de prueba a disposición para hacer predicciones. Luego usaremos varias funciones del módulo de métricas para ver la exactitud, precisión y recall de nuestro modelo.

In [None]:

from sklearn import metrics
# Predicting with a test dataset
predicted = pipe.predict(X_test)
print(predicted)

# Model Accuracy
print("Logistic Regression Accuracy:",metrics.accuracy_score(y_test, predicted))
print("Logistic Regression Precision:",metrics.precision_score(y_test, predicted, average='micro'))
print("Logistic Regression Recall:",metrics.recall_score(y_test, predicted, average='micro'))

In [None]:
#Evaluación del rendimiento del clasificador
from sklearn.metrics import confusion_matrix
confusion_matrix = confusion_matrix(y_test, predicted)
print(confusion_matrix)
#Print de la matriz de confusión
from sklearn.metrics import classification_report
print(classification_report(y_test, predicted))

In [None]:

def printNMostInformative(vectorizer, model, N):
    feature_names = vectorizer.get_feature_names()
    coefs_with_fns = sorted(zip(model.coef_[0], feature_names))
    topClass1 = coefs_with_fns[:N]
    topClass2 = coefs_with_fns[:-(N + 1):-1]
    print("Class 1 best: ")
    for feat in topClass1:
        print(feat)
    print("Class 2 best: ")
    for feat in topClass2:
        print(feat)

In [None]:

printNMostInformative(bow_vector, modelLR, 20)

### Limitaciones de los modelos de lenguaje N-Grama

1) Un modelo de lenguaje N-Grama con un valor N mayor es más preciso pero genera problemas de computación.

2) Los modelos N-gramas son representaciones escasa/ingenua del lenguaje. Solo consideran la forma de las palabras y no su significado/semántica

Para mejorar estas limitaciones:

Word Embedding (proyección semántica de las palabras a través de vectores): Word2Vec, GLoVe

Modelos de lenguaje neuronales: BERT, GPT-2, GPT-3

# Word Embedding

### Def:
El concepto de word embedding se refiere a un conjunto de técnicas utilizadas para aprender representaciones matemáticas, tipicamente vectores, de cada palabra.

Una de las técnicas más populares es Word2Vec propuesto por un equipo de investigación de Google en 2013 (Efficient Estimation of Word Representations in Vector Space [Mikolov et al., 2013]).

Alternativas populares son GloVe (propuesta por la Universidad de Stanford en 2014) y FastText (propuesta por Facebook en 2016), que extende Word2Vec para considerar de mejor manera las palabras con errores ortográficas.

Se empleará el algoritmo **CBOW** para vectorizar las probabilidades de los textos de pertenecer a ciertas clases de palabras, empleando **word2vec** de Gensim

In [None]:
X = d['message']
X

In [None]:
from gensim.models import word2vec
#sentences = word2vec.Text8Corpus(X) 