## Procesamiento de Lenguaje Natural con Python

### Profesor: Jos√© Incio, Ph.D
#### Departamento de Ciencias Sociales - Sociolog√≠a
- correo: jincio@pucp.pe
- web: www.joseincio.com

# An√°lisis de Sentimiento (parte 1)

- En la clase de hoy trabajaremos estrategias para el an√°lisis de
sentimiento.
- El an√°lisis de sentimiento es parte de una estrategia m√°s grande: Clasificaci√≥n de documentos!
- El an√°lisis de sentimientos es el proceso automatizado de etiquetar datos seg√∫n su sentimiento, como positivo, negativo y neutral.
- El an√°lisis de sentimientos permite a las empresas analizar datos a gran escala, detectar informaci√≥n y automatizar procesos.
- Pero no son las √∫nicas categor√≠as que queremos trabajar. Tambi√©n puede ser: Alegre, triste..
- o üò≠ , üò©, üòÇ

- La idea es poder crear una dimensi√≥n que extraemos de la lectura del texto!
- Tambi√©n se puede entender como extraer una dimensi√≥n latente!
- Agregar una columna a tu base de datos!
- Esta informaci√≥n la puedes usar como variable dependiente o independiente!
- Qu√© explica el tono del texto.. o el tono del texto explica ..

## Formas de realizar el sentimental an√°lisis.

Hay tres principales formas de realizar el an√°lisis de texto.

In [None]:
from google.colab import drive
import os
import re
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import nltk
from nltk.corpus import stopwords
nltk.download('stopwords')

In [None]:
drive.mount("/content/drive", force_remount=True)

In [None]:
os.chdir("/content/drive/MyDrive/QLAB_2023")

### Vayamos desde algo sumamente simple como una definici√≥n manual de palabras positivas y negativas, y un conteo simple de estas en el texto.

In [None]:
# Definir una funci√≥n para calcular el puntaje de sentimiento de un texto
def puntaje_sentimiento(texto, palabras_positivas, palabras_negativas):
    # Dividir el texto en palabras
    palabras = texto.split()
    # Inicializar el puntaje de sentimiento
    puntaje = 0
    # Recorrer las palabras en el texto
    for palabra in palabras:
        # Verificar si la palabra est√° en el diccionario de palabras positivas
        if palabra in palabras_positivas:
            # Aumentar el puntaje de sentimiento en 1
            puntaje += 1
        # Verificar si la palabra est√° en el diccionario de palabras negativas
        elif palabra in palabras_negativas:
            # Disminuir el puntaje de sentimiento en 1
            puntaje -= 1
    # Devolver el puntaje de sentimiento
    return puntaje


In [None]:
# Definir una lista de palabras positivas
palabras_positivas = ['bueno', 'genial', 'excelente', 'incre√≠ble', 'impresionante']
# Definir una lista de palabras negativas
palabras_negativas = ['malo', 'terrible', 'horrible', 'horroroso', 'peor']

# Texto de ejemplo
texto = "La pel√≠cula fue incre√≠ble e impresionante"
# Calcular el puntaje de sentimiento del texto
puntaje = puntaje_sentimiento(texto, palabras_positivas, palabras_negativas)
# Imprimir el puntaje de sentimiento
print(f"El puntaje de sentimiento del texto es: {puntaje}")

Aqu√≠ importamos una lista predeterminada de palabras negativas...
Puedes encontrarla [aqu√≠:](https://gist.github.com/mkulakowski2/4289441#file-negative-words-txt)

In [None]:
with open(file="./negative-words.txt", mode="r",encoding='ISO-8859-1') as f:
        Boooo = f.readlines()
Boooo[0:31]

In [None]:
#lets test out how to clean this up
#preamble has first characater as ";", use that to filter with a list comprehension
#clear blank lines too "\n"
# will also clear "\n" with str.strip at the same time
boolimpio = [ii.strip() for ii in Boooo if ii[0] != ";" and ii[0] !="\n"]
boolimpio[0:31]

In [None]:
def readInSentimentList(loc="./negative-words.txt", commentCharacter=";"):
    with open(file=loc, mode="r", encoding='ISO-8859-1') as f:
        temp = f.readlines()
    out = [ii.strip() for ii in temp if ii[0] != commentCharacter and ii[0] !="\n"]
    return out

Tambi√©n podemos incluir la lista de palabras positivas...puedes encontrarla [aqu√≠](https://gist.github.com/mkulakowski2/4289437?permalink_comment_id=4029583)

In [None]:
negList = readInSentimentList()
posList = readInSentimentList(loc="./positive-words.txt")
print("Number of negative words in list:{}\nNumber of positive words in list:{}".format(len(negList),len(posList)))

In [None]:
testDoc0 = "This is the best class I have ever taken. It is terrific. I would give the instructor an oustanding rating."
testDoc1 = "This is an ok class, but it is really meh. The use of emojis is a little boring. I would give the instructor a so-so rating. It could have been worse, it could have been better."
testDoc2 = "This is a class that should never have been taught. It is an affront. The worst I have taken. Just terrible. I would give the instructor a very bad rating."


In [None]:
def cleanPunctNotHyphen(doc):
    return re.sub(r'[",",".",":",";","'",'"']','', doc)

def tokenize(doc):
    return doc.split()

def lowerCase(list):
    return [word.lower() for word in list]

def cleanUpSteps(doc):
    return lowerCase(tokenize(cleanPunctNotHyphen(doc)))

test = cleanUpSteps(testDoc0)

Armamos un diccionario de las palabras existentes en nuestro texto:

In [None]:
def makeTFDictionary(cleanDoc):
    docTermDictionary = {}
    for word in cleanDoc:
        if word in docTermDictionary.keys():
            docTermDictionary[word] += 1
        else:
            docTermDictionary[word] = 1
    return docTermDictionary
makeTFDictionary(cleanUpSteps(testDoc0))

Una forma m√°s simple y r√°pida de limpiar varios textos al mismo tiempo utilizando list comprehension

In [None]:
cleanTestDoc0, cleanTestDoc1, cleanTestDoc2 = [makeTFDictionary(cleanUpSteps(doc)) for doc in [testDoc0, testDoc1, testDoc2]]
list(cleanTestDoc0.keys())

Al haber transformado cada documento en diccionarios podemos acceder a su total de t√©rminos mediante la enumeraci√≥n de las llaves:

In [None]:
allWords =  set(list(cleanTestDoc0.keys())+list(cleanTestDoc1.keys())+list(cleanTestDoc2.keys())+negList+posList)
V = len(allWords)
V

Creamos una funci√≥n de identificaci√≥n de palabras positivas, negativas y "neutras" (que no se identifican como ningun grupo)

In [None]:
v1 = np.empty((V,1))

def makeA(allWords=allWords, posList=posList,negList=negList):
    '''
    make the A matrix
    allWords -- list of all words in vocab (unique)
    posList  -- list of positive words
    negList  -- list of negative words
    '''
    A = np.empty((2,len(allWords)))
    for ii,word in enumerate(allWords):
        if word in posList:
            A[:,ii] = 1,0
        elif word in negList:
            A[:,ii] = 0,1
        else:
            A[:,ii] = 0,0
    return(A)

def makeV1(docDict, allWords=allWords):
    v1 = np.empty((len(allWords),1))
    for ii,word in enumerate(allWords):
        if word in docDict.keys():
            v1[ii,0] = docDict[word]
        else:
            v1[ii,0] = 0
    return v1

In [None]:
#lets run it
myA = makeA()
myV1 = makeV1(cleanTestDoc1)
myS = myA@myV1

In [None]:
del myV1, myS
def calcSentFromCleanDocs(cleanDoc,A, allWords=allWords, posList=posList,negList=negList):
    myA = makeA(allWords=allWords, posList=posList,negList=negList)
    myV1 = makeV1(cleanDoc)
    myS = myA@myV1
    return myS
calcSentFromCleanDocs(cleanTestDoc0,myA)

In [None]:
s0,s1,s2 = [calcSentFromCleanDocs(cleanDoc,myA) for cleanDoc in [cleanTestDoc0, cleanTestDoc1, cleanTestDoc2]]
print(s0,s1, s2, sep="\n\n")

In [None]:
def makeMy2Axes(xlim=(-2,2),ylim=(-2,2), xlabel="x", ylabel="y"):
    plt.plot([],[])
    plt.xlim(xlim[0],xlim[1])
    plt.ylim(ylim[0],ylim[1])
    ax = plt.gca()
    ax.spines['left'].set_position('zero')
    ax.spines['bottom'].set_position('zero')
    ax.spines['right'].set_color('none')
    ax.spines['top'].set_color('none')
    ax.xaxis.set_label_coords(1,.4)
    ax.xaxis.set_label_text(xlabel)
    ax.yaxis.set_label_coords(.4,1)
    ax.yaxis.set_label_text(ylabel)

def make2DVector(tail=(0,0),head=(1,0), color="b", lw=1):
    plt.arrow(tail[0],tail[1],
              head[0]-tail[0], head[1]-tail[1],
              head_width=.1,
              length_includes_head=True,
              color=color,
              lw=lw)

In [None]:
makeMy2Axes(xlim=(-4,4),ylim=(-4,4), xlabel="positive", ylabel="negative")
make2DVector(head=s0.reshape(2,),color="g", lw=4)
make2DVector(head=s1.reshape(2,), color="k", lw=4 )
make2DVector(head=s2.reshape(2,), color="r", lw=4 )
plt.annotate(text="s_0, pos", color="g", xy=(2,.25) )
plt.annotate(text="s_1, middling", color="k", xy=(1.15,2.15))
plt.annotate(text="s_2, neg", color="r", xy=(0.25,4));

# An√°lisis supervisado

- Usando diccionarios
- Usando t√©cnicas de machine learning - preclasificaci√≥n

VAMOS CON LA INTUICI√ìN GENERAL

## El texto en aprendizaje supervisado

A veces los documentos est√°n relacionados con metadatos

- doc 1: ["Esta clase es genial", üëç]
- doc 2: ["Esta clase es la peor que he tomado", üëé]
- doc 3: ["no esta mal, maso menos", üëç]

IDEA

$y_{i} = f(x_{i})$, para algunas observaciones $i \in N$;

observamos (almenos para algunas) $y_{i}$ y lo asociamos con vectoress/caracter√≠sticas $x_{i}$

Pero no **observamos** $f(\cdot)$.

Queremos aprender una funci√≥n √∫til $f(\cdot) \rightarrow \hat{f}(\cdot)$

Comparemos con t√©cnicas NO supervisadas.. como TOPIC ANALYSIS

- La idea, lo que buscamos es que reducir la dimensionalidad de los datos.

Solo observamos $x$

Imponemos una estructura $f(\cdot)$, para realizar transformaciones (axes, clusters, topics, etc)

$X = UV'$, donde minizamos  $|X-UV'|$, est√° sujeto a algunas condiciones <- estructura!!!!

üòâ Sociologs

# An√°lisis de Sentimiento (parte 2)

- Jugando con diccionarios!
- Regresamos a nuestro ejemplo juguete, esta es una soluci√≥n de Chat GPT podr√≠a plantear:

In [None]:
def analisis_de_sentimientos(texto, positivo, negativo):
  """
  Realiza un an√°lisis de sentimientos en un texto dado utilizando un diccionario de palabras positivas y negativas.

  Args:
    texto: El texto a analizar.
    positivo: Un diccionario de palabras positivas.
    negativo: Un diccionario de palabras negativas.

  Devuelve:
    Una tuple de tres flotantes: la proporci√≥n de palabras que son negativas, la proporci√≥n de palabras que son positivas y la proporci√≥n de palabras que son neutras.
  """

  # Convertir el texto en una lista de palabras.
  texto=texto.lower()
  palabras = texto.split()

  # Contar el n√∫mero de palabras positivas, negativas y neutras.
  contador_positivo = 0
  contador_negativo = 0
  contador_neutro = 0
  for palabra in palabras:
    if palabra in positivo:
      contador_positivo += 1
    elif palabra in negativo:
      contador_negativo += 1
    else:
      contador_neutro += 1

  # Calcular las proporciones de palabras positivas, negativas y neutras.
  prop_positiva = contador_positivo / len(palabras)
  prop_negativa = contador_negativo / len(palabras)
  prop_neutra = contador_neutro / len(palabras)

  # Devolver las proporciones.
  return prop_positiva, prop_negativa, prop_neutra

In [None]:
positivo = {"bueno", "genial", "asombroso", "fant√°stico"}
negativo = {"malo", "terrible", "horrible", "horrible"}

texto = "El domingo fu√≠ a ver la sirenita con mi sobrina, Sebast√≠an fue mi personaje preferido. Estuvo bueno"

prop_positiva, prop_negativa, prop_neutra = analisis_de_sentimientos(texto, positivo, negativo)

print(f"Proporci√≥n positiva: {prop_positiva:.2f}")
print(f"Proporci√≥n negativa: {prop_negativa:.2f}")
print(f"Proporci√≥n neutra: {prop_neutra:.2f}")

Podemos plantear una opci√≥n m√°s compleja...

## Usando VADER

![](https://cdn.shopify.com/s/files/1/0057/8630/4600/products/cb3ed9d77d7748489c9ced65cdaf118fxl_1200x1200.jpg?v=1671679083)

No es por Lord Vader..
- V: Valence
- A: Aware
- D: Dictionary
- E: sEntiment
- R: Reasoner

Obvio que es por Vader!

In [None]:
import nltk
nltk.download('vader_lexicon') #
from nltk.sentiment.vader import SentimentIntensityAnalyzer
sid = SentimentIntensityAnalyzer()

In [None]:
text="No entiendo bien lo que est√° pasando, pero me siento mal"

In [None]:
sid.polarity_scores(text)

- Vader es un diccionario.
- Pero no solo de palabras, incluye frases tambi√©n!
- Y acr√≥nimos como LOL, WTF, ROFL, MDJK
- Este diccionario fue codificado por HUMANOS, donde cada elemento pod√≠a estar en una escala de "-4 Extremadamente negativo a 4 Extremadamente positivo"
- El dccionario tiene algo de 7500 tokens. Lo que no est√° en estas listas tiene un puntaje de 0!

- Para calcular el 'compound' score Vader suma todos los puntajes y los normaliza de -1 a 1

- Usa la funci√≥n:

$$
\frac{x}{\sqrt{x^2+\alpha}}
$$

Vader entrega el porcentaje de palabras negativas, positivas y neutrales

Una ventaja es que Vader es computacionalmente econ√≥mico

### Problema: SOLO FUNCIONA EN INGLES!!

In [None]:
!pip install googletrans

In [None]:
#IMPORTANTE: Esto es si es que les sale el error que el 'group' no existe.. entonces tienes que correr esto y reiniciar el runtime
!pip uninstall googletrans
!pip install googletrans==3.1.0a0

In [None]:
from googletrans import Translator, constants
from pprint import pprint
translator = Translator()

In [None]:
ejemplo=("Hace frio y estoy lejos de casa")
translation = translator.translate(ejemplo)
print(f"{translation.origin} ({translation.src}) --> {translation.text} ({translation.dest})")

### Translator es un API!!!

In [None]:
Tweet1="Hace Frio y esto lejos de casa"
Tweet2="Hace tiempo que estoy sentado sobre esta piedra"
Tweet3="y yo me pregunto para que sirven las guerras"
documentos=[Tweet1,Tweet2, Tweet3]

In [None]:
translations = translator.translate(documentos)

In [None]:
translations

In [None]:
documentos1=[]
for translation in translations:
  documentos1.append(translation.text)

In [None]:
documentos1

Ya con el texto traducido podemos aplicar la clasificaci√≥n

In [None]:
for i in documentos1:
  print(sid.polarity_scores(i))

In [None]:
Creep=["But Im a creep", "I'm a weirdo", "What the hell am I doin' here?","I don't belong here","I don't care if it hurts"]

In [None]:
for i in Creep:
  print(sid.polarity_scores(i))

# Modelos entrenados / Machine Learning

Machine Learning es un tipo de Inteligencia Artificial (IA) que le permite a la computadora aprender en base a los patrones de la data sin que se le haya programado explicitamente para eso.

- El aprendizaje autom√°tico utiliza algoritmos para aprender patrones en los datos y hacer predicciones sobre nuevos datos. En el an√°lisis de texto, estos algoritmos pueden ser entrenados para reconocer caracter√≠sticas como la polaridad del sentimiento, las entidades mencionadas y las relaciones entre ellas.

### Ejemplos de aplicaciones
- An√°lisis de sentimientos: determinar si un texto expresa una opini√≥n positiva, negativa o neutral.
- Extracci√≥n de entidades: identificar y extraer entidades como personas, lugares y organizaciones mencionadas en un texto.
- Clasificaci√≥n de contenido: clasificar textos en categor√≠as predefinidas, como noticias, deportes o pol√≠tica.

## Retos del Machine Learning con texto

- La dimensionalidad de los datos.
- La ambiguedad del texto.
- Necesitas muchos datos para poder entrenar a la m√°quina.

## Modelos m√°s comunes

- **Suported Vector Machine:** se suele utilizar para an√°lisis de clasificaci√≥n de dos grupos. El SVM trabaja encontrando el hiperplano que mejor separa las clases en los datos de entrenamiento. Puede ser utilizado para la detecci√≥n de im√°genes!
- **Naivee Bayes Algorithm:** Est√° basado en el teorema de Bayes! y usa probabilidades para cada clase como elementos independientes. Es uno de los algoritmos m√°s simples pero es SUPER poderoso. Puede usarse para una clasificaci√≥n dicot√≥mica, o multinomial.
- **Regresi√≥n Log√≠stica:** La de toda la vida.
- **Random Forest:** Es muy bueno para datos con mucha dimensionalidad, ayuda a mejorar la precisi√≥n y evitando el overfitting. Es un modelo que utiliza m√∫tiples arboles de decisi√≥n tomando como output el consenso el mejor "arbol" para resolver el problema.


In [None]:
!pip install accelerate==0.20.1

In [None]:
!pip install pysentimiento

In [None]:
from pysentimiento import create_analyzer

In [None]:
analyzer = create_analyzer(task="sentiment", lang="es")

In [None]:
analyzer.predict("Esta es la peor clase que he tomado en mi carrera universitaria, falta poco para que ya no tenga que ver al profesor")

In [None]:
analyzer.predict("Messi es un gran jugador, adem√°s de humilde!")

Los modelos de pysentimiento son modelos entrenados usando TASS, SEMEval, y LINCE data sets.

Nosotros vamos a entrenar nuestros modelos usando TASS

# An√°lisis de sentimiento con Machine Learning (parte 3)

- Si tenemos datos y parte de ellos est√°n clasificados entonces podemos usar esos datos para entrenar nuestros algoritmos.
- El problema es que necesitamos una gran cantidad de datos clasificados.

### Segunda opci√≥n

- Recurrimos a OTROS corpus ya clasificados! para entrenar nuestro algoritmo.
- Entrenar con un corpus distinto al que tenemos puede ser √∫til, sin embargo tenemos que tener en cuenta que al no ser el mismo proceso generador de datos estamos agregando un ruido y erorr a nuestro proceso.
- Entonces:
  - El corpus de entrenamiento debe ser lo m√°s cercano posible al 'target'
  - La estrcutura del corpus tambi√©n. (poes√≠a con prosa)
  - Los usos y reglas de los corpues debe ser similares (tweets vs documentos legales)


![](https://th.bing.com/th/id/R.b7d5882804fa02dfb037e1a57c87605e?rik=Qz38o9OHxYLcwA&pid=ImgRaw&r=0)

Algo muy importante.

El objetivo no es que el algoritmo MEMORICE los datos!
El objetivo es que se pueda GENERALIZAR el aprendizaje!



## Overfitting & Underperformance

- Hay dos desaf√≠os importantes en el aprendizaje supervisado

**Overfitting**: confundir el ruido con la se√±al
  - probablemente sea un problema: con modelos muy complicados y aquellos que no usan conocimientos previos (**regularizaci√≥n**)
  - consecuencia: tu modelo se ve genial en la muestra, pero no fuera de ella (¬°que era el punto!)
  - preocupaci√≥n: ¬ømiraste fuera de la muestra?
Sure! Here's the translation to Spanish:

**Underperformance**: confundir la se√±al con el ruido
  - probablemente sea un problema: con modelos muy simples y aquellos que usan conocimientos previos no √∫tiles
  - consecuencia: tu modelo se ve peor de lo que podr√≠a en la muestra y fuera de ella
  - preocupaci√≥n: ¬øcomparaste con otros modelos?


### Pasos

- 1) Dividir nuestra data en dos: entrenamiento y validaci√≥n.
- 2) La selecci√≥n debe ser aleatoria!
- 3) Una vez con el set de entrenamiento entrenamos nuestros algoritmos
- 4) Con el set de validaci√≥n medimos y evaluamos el mejor modelo!


## Entrenemos nuestro modelo

Usaremos la data de [TASS](http://tass.sepln.org/tass_data/download.php)



In [None]:
import xml.etree.ElementTree as et
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.decomposition import NMF
from sklearn.manifold import TSNE
from sklearn.naive_bayes import MultinomialNB
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score
import seaborn as sns
from sklearn.pipeline import Pipeline
from nltk.stem.snowball import SnowballStemmer
from sklearn.model_selection import GridSearchCV
from joblib import dump
from joblib import load

In [None]:
os.listdir("./TASS/")

In [None]:
file="./TASS/general-train-tagged.xml"
xtree = et.parse(file)
xroot = xtree.getroot()

In [None]:
xroot[0]

In [None]:
xroot[1].find("content").text

In [None]:
df_cols = ["tweet","sentiment"]
rows = []
for node in xroot:
    s_tweet = node.find("content").text
    s_pv= node.findall("sentiments")
    value=[]
    for item in s_pv:
        test=item.findall("polarity")
        value.append(test[0].find("value").text)
    rows.append({"tweet": s_tweet, "sentiment": value})

In [None]:
TASS = pd.DataFrame(rows, columns = df_cols)
TASS.applymap(lambda x: x[0] if isinstance(x, list) else x)

In [None]:
TASS.sentiment=TASS.sentiment.astype(str)
print(TASS["sentiment"].value_counts())


In [None]:
TASS=TASS[TASS["sentiment"]!="['NONE']"].copy().reset_index()
TASS["sentiment"]=TASS["sentiment"].replace("['P+']", 2)
TASS["sentiment"]=TASS["sentiment"].replace("['NEU']", 1)
TASS["sentiment"]=TASS["sentiment"].replace("['N']", 0)
TASS["sentiment"]=TASS["sentiment"].replace("['N+']", 0)
TASS["sentiment"]=TASS["sentiment"].replace("['P']", 2)
print(TASS.shape)
print(TASS["sentiment"].value_counts())

In [None]:
TASS.shape

In [None]:
TASS.head()

### Limpiamos nuestro texto!

In [None]:
def clean_accents(tweet):
    tweet = re.sub(r"[√†√°√¢√£√§√•]", "a", tweet)
    tweet = re.sub(r"√ß", "c", tweet)
    tweet = re.sub(r"[√®√©√™√´]", "e", tweet)
    tweet = re.sub(r"[√¨√≠√Æ√Ø]", "i", tweet)
    tweet = re.sub(r"[√≤√≥√¥√µ√∂]", "o", tweet)
    tweet = re.sub(r"[√π√∫√ª√º]", "u", tweet)
    tweet = re.sub(r"[√Ω√ø]", "y", tweet)

    return tweet

f1 = lambda x: re.sub('[,\.!?:/@"]', ' ', x)
f2 = lambda x: str(x).lower()
f3 = lambda x: ' '.join(w for w in x.split() if not w in stop)
f4 = lambda x: ' '.join(w for w in x.split() if len(w)>3)

In [None]:
def tokenize(text):
    return text.split()

def tokenize_snowball(text):
    return [snowballStemmer.stem(word) for word in text.split()]

In [None]:
stop= stopwords.words("spanish")
stop=stop+['https', 'RT', 't', 'co','htp']
print(stop)

In [None]:
TASS['tweet']=TASS['tweet'].str.replace('\n', ' ')

In [None]:
TASS['text_clean'] = TASS['tweet'].str.replace('\(', " ", regex=True).str.replace('\)', " ", regex=True)

In [None]:
TASS['text_clean'] = TASS['text_clean'].str.replace('[\)\[\]‚Äê#@]', " ", regex=True)

In [None]:
TASS['text_clean'] =TASS['text_clean'].apply(f1).apply(f2).apply(f3).apply(f4).apply(clean_accents)

In [None]:
TASS[['tweet','text_clean']]

### Ahora dividamos nuestros datos, en entranamiento y en testeo

In [None]:
trainingSize=0.65

In [None]:
muestra=round(TASS.shape[0]*trainingSize,0)
muestra=int(muestra)
muestra

In [None]:

np.random.seed(14)
chosen_id = np.random.choice(TASS.shape[0], replace = False, size = muestra)


In [None]:
training=TASS.iloc[chosen_id]
print(training.shape)
print(training.head())

In [None]:
test=TASS.iloc[~TASS.index.isin(chosen_id)].reset_index()
print(test.shape)
print(test.head())

In [None]:
Y_train=training['sentiment']
X_train=training['text_clean']
Y_test=test['sentiment']
X_test=test['text_clean']

In [None]:
X_train

### Entrenamos el modelo luego de vectorizarlo

In [None]:
vectorizer = CountVectorizer()
X_train = vectorizer.fit_transform(X_train)

In [None]:
X_test = vectorizer.transform(X_test)

In [None]:
# Naive Bayes classifier
clf = MultinomialNB()
clf.fit(X_train, Y_train)

 ## ¬øEs un buen modelo?


- TP: True positive, $y_{i}=1, \hat{y}_{i}=1$
- TN: True negative, $y_{i}=0, \hat{y}_{i}=0$
- FP: False positive, $y_{i}=0, \hat{y}_{i}=1$
- FN: False negative, $y_{i}=1, \hat{y}_{i}=0$

Error = $\frac{FP+FN}{FP+FN+TP+TN}$

Accuracy = $\frac{TP+TN}{FP+FN+TP+TN} = 1-ERR$

False Positive Rate (FPR) $= \frac{FP}{FP+TN} = \frac{FP}{N} $, es el ratio de todos los falsos positivos con respecto al total de  (firmes) casos negativos

True Positive Rate (FPR) $= \frac{TP}{TP+FN} = \frac{TP}{P} $, Ratio de los "positivos" con respecto al total de (firmes) casos positivos

### Hacemos la prueba en los datos de testeo

In [None]:
y_pred = clf.predict(X_test)

In [None]:
# create a confusion matrix
cm = confusion_matrix(Y_test, y_pred)

# plot the confusion matrix
sns.heatmap(cm, annot=True, fmt='d')
plt.xlabel('Predicted')
plt.ylabel('True')
plt.show()

In [None]:
print(accuracy_score(Y_test, y_pred))

In [None]:
accuracy = (y_pred == Y_test).mean()
accuracy

#### Mejoro el modelo si no limpiaba el texto?

In [None]:
Y_train=training['sentiment']
X_train=training['tweet']
Y_test=test['sentiment']
X_test=test['tweet']

In [None]:
vectorizer = CountVectorizer()
X_train = vectorizer.fit_transform(X_train)
X_test = vectorizer.transform(X_test)
# Naive Bayes classifier
clf = MultinomialNB()
clf.fit(X_train, Y_train)
y_pred = clf.predict(X_test)
print(accuracy_score(Y_test, y_pred))

![](https://th.bing.com/th/id/R.1d818c3182310c0796f35341eba6daea?rik=SfLqibvDyxo2hQ&riu=http%3a%2f%2fwww.relatably.com%2fm%2fimg%2fsurprised-memes%2fmaxresdefault.jpg&ehk=Fmu8SAT8P4bQA8Nmi2BcB3u94whbyjqBHeWi%2bw1YL34%3d&risl=&pid=ImgRaw&r=0)

Que pasaba si usaba otro Vectorizer! TDIF en lugar de COUNT!


In [None]:
Y_train=training['sentiment']
X_train=training['text_clean']
Y_test=test['sentiment']
X_test=test['text_clean']

In [None]:
vectorizer = TfidfVectorizer()
X_train = vectorizer.fit_transform(X_train)
X_test = vectorizer.transform(X_test)
# Naive Bayes classifier
clf = MultinomialNB()
clf.fit(X_train, Y_train)
y_pred = clf.predict(X_test)
print(accuracy_score(Y_test, y_pred))

In [None]:
dir(clf)

vamos a su [p√°gina](https://scikit-learn.org/stable/modules/generated/sklearn.naive_bayes.MultinomialNB.html)

In [None]:
# Naive Bayes classifier
clf = MultinomialNB(alpha=0.5)
clf.fit(X_train, Y_train)
y_pred = clf.predict(X_test)
print(accuracy_score(Y_test, y_pred))

In [None]:
dir(vectorizer)

Vamos a su [p√°gina](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html)

In [None]:
Y_train=training['sentiment']
X_train=training['text_clean']
Y_test=test['sentiment']
X_test=test['text_clean']
vectorizer = TfidfVectorizer(ngram_range=(1,2))
X_train = vectorizer.fit_transform(X_train)
X_test = vectorizer.transform(X_test)
# Naive Bayes classifier
clf = MultinomialNB(alpha=0.5)
clf.fit(X_train, Y_train)
y_pred = clf.predict(X_test)
print(accuracy_score(Y_test, y_pred))

In [None]:
Y_train=training['sentiment']
X_train=training['tweet']
Y_test=test['sentiment']
X_test=test['tweet']
vectorizer = TfidfVectorizer(ngram_range=(1,2))
X_train = vectorizer.fit_transform(X_train)
X_test = vectorizer.transform(X_test)
# Naive Bayes classifier
clf = MultinomialNB(alpha=0.5)
clf.fit(X_train, Y_train)
y_pred = clf.predict(X_test)
print(accuracy_score(Y_test, y_pred))

In [None]:
Y_train=training['sentiment']
X_train=training['text_clean']
Y_test=test['sentiment']
X_test=test['text_clean']
pipeline = Pipeline([("vect", TfidfVectorizer()),("clf", MultinomialNB())])

params = [{"vect__ngram_range": [(1,1), (1,2)],
              "vect__stop_words": [None],
              "vect__tokenizer": [tokenize,
                                  tokenize_snowball],
              "clf__alpha": [0.01, 0.1, 0.5, 1.0, 3.0, 10.0]}]

grid = GridSearchCV(estimator=pipeline, param_grid = params ,scoring='accuracy', cv=5, verbose=1, n_jobs=4)
grid.fit(X_train,Y_train)
model1 = grid.best_estimator_
predictions_nbm= model1.predict(X_test)

print(accuracy_score(Y_test, predictions_nbm))

In [None]:
print("Best parameter set: {}".format(grid.best_params_))

In [None]:
dump(model1, './naive_bayesM.joblib')

### Podemos intentar usarlo con unos datos fuera de su tema!

In [None]:
os.listdir("./TASS/")

In [None]:
file="./TASS/politics-test-tagged.xml"
xtree = et.parse(file)
xroot = xtree.getroot()

In [None]:
df_cols = ["tweet","sentiment"]
rows = []
for node in xroot:
    s_tweet = node.find("content").text
    s_pv= node.findall("sentiments")
    value=[]
    for item in s_pv:
        test=item.findall("polarity")
        value.append(test[0].find("value").text)
    rows.append({"tweet": s_tweet, "sentiment": value})

In [None]:
TASS2 = pd.DataFrame(rows, columns = df_cols)
TASS2.applymap(lambda x: x[0] if isinstance(x, list) else x)

In [None]:
TASS2.sentiment=TASS2.sentiment.astype(str)
print(TASS2["sentiment"].value_counts())

In [None]:
TASS3=TASS2[TASS2["sentiment"]!="['NONE']"].reset_index()

In [None]:
print(TASS3["sentiment"].value_counts())

In [None]:
TASS3["sentiment"]=TASS3["sentiment"].replace("['NEU']", 1)
TASS3["sentiment"]=TASS3["sentiment"].replace("['N']", 0)
TASS3["sentiment"]=TASS3["sentiment"].replace("['P']", 2)

In [None]:
print(TASS3["sentiment"].value_counts())

In [None]:
TASS3['tweet']=TASS3['tweet'].str.replace('\n', ' ')

In [None]:
TASS3['text_clean'] = TASS3['tweet'].str.replace('\(', " ", regex=True).str.replace('\)', " ", regex=True)

In [None]:
TASS3['text_clean'] = TASS3['text_clean'].str.replace('[\)\[\]‚Äê#@]', " ", regex=True)

In [None]:
TASS3['text_clean'] =TASS3['text_clean'].apply(f1).apply(f2).apply(f3).apply(f4).apply(clean_accents)

In [None]:
TASS3[['tweet','text_clean']]

### Realizamos la prueba

In [None]:
Y_test=TASS3['sentiment']
X_test=TASS3['text_clean']

In [None]:
Y_test

In [None]:
myModelo=load('./naive_bayesM.joblib')

In [None]:
predictions_nbm= myModelo.predict(X_test)

In [None]:
predictions_nbm

In [None]:
print(accuracy_score(Y_test, predictions_nbm))