# **Procesamiento del Lenguaje Natural**
## *Práctica 7 - Aprendizaje supervisado*

## Objetivos

*   Utilizar clasificadores de aprendizaje supervisado y aplicarlos en una colección, haciendo uso de la librería Sklearn de Python.


### Aprendizaje supervisado

El aprendizaje supervisado ​​son un conjunto de técnicas que permite realizar predicciones futuras basadas en comportamientos o características analizadas en datos históricos etiquetados.

Una etiqueta no es más que la salida que ha mostrado el conjunto de datos para datos históricos, ya conocidos.


#### 1. Funcionamiento

Para comprender el funcionamiento del aprendizaje supervisado se acudirá a un ejemplo donde tenemos un conjunto de datos etiquetados a priori: 1 manzana, 2 cítricos, 3 sandias y 4 plátanos. A este conjunto de datos le extraemos sus características en vectores (Tf-Idf u otros tipos) y con esto entrenamos el algoritmo de aprendizaje automático. 

El algoritmo nos genera un modelo el que podemos proporcionarle nuevos conjuntos de datos y que este nos clasifique los nuevos elementos (nunca antes vistos) con lo que ha aprendido en la fase de entrenamiento. 


<img src="https://www.diegocalvo.es/wp-content/uploads/2019/03/aprendizaje_supervisado.png" width="800" height="500" />




<img src="https://www.diegocalvo.es/wp-content/uploads/2019/03/clasificaci%C3%B3n_de_aprendizaje_supervisado.png" width="400" height="300" />

#### 2. Regresión

La regresión tiene como objetivo predecir valores continuos a partir de datos históricos etiquetados.

Un ejemplo de este método es la estimación de gasto de un cliente en función de su renta y número de hijos.

Los tipos de algoritmos de regresión incluyen:
* Regresión lineal
* Regresión polinomial
* Vectores de soporte regresión
* Árboles de decisión regresión
* Bosques aleatorios regresión



#### 3. Clasificación

Tiene como objetivo clasificar en grupos atendiendo a datos históricos etiquetados.

Un ejemplo de este método es la estimación clasificar frutas en función del color forma, textura...



<img src="https://www.diegocalvo.es/wp-content/uploads/2019/03/clasificaci%C3%B3n.png" width="280" height="200" />



Los tipos de algoritmos de clasificación incluyen:
* Regresión logística
* Vecinos más cercanos
* Máquinas de vectores de soportes
* Árboles de decisión clasificación
* Bosques aleatorios clasificación


#### Ejemplo

Ejemplo de Máquinas de vectores de soportes (SVM) en Python:

1)  Añadimos las librerías necesarias


In [None]:
from sklearn import svm

2) Añadimos los textos en una lista de Python:

In [None]:
documents = ["This little kitty came to play when I was eating at a restaurant.",
             "Merley has the best squooshy kitten belly.",
             "Google Translate app is incredible.",
             "If you open 100 tab in google you get a smiley face.",
             "Best cat photo I've ever taken.",
             "Climbing ninja cat.",
             "Impressed with google map feedback.",
             "Key promoter extension for Google Chrome."]


3) Añadimos las etiquetas o clases a cada documento, debemos tener en cuenta la posición en el vector:


In [None]:
tags = ["cat", "cat", "google", "google", "cat", "cat", "google", "google"]

De esta manera el documento de la primera posición documents[0] tendrá la etiqueta en la primera posición tags[0], y así consecutivamente.

4) Extraemos las características usando TF-IDF:

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(documents)

5) Creamos y entrenamos el modelo SVM con los parámetros por defecto, tened en cuenta que para entrenar necesitamos las etiquetas de cada documento:


In [None]:
model = svm.SVC()
model.fit(X, tags)

6) Predecir qué grupo (cat o google) sería el adecuado para nuestro nuevo texto:


In [None]:
text = ["My chrome browser to open."]
Y = vectorizer.transform(text)
prediction = model.predict(Y)
print(text, prediction)
text = ["Drago's cat is cute."]
Y = vectorizer.transform(text)
prediction = model.predict(Y)
print(text, prediction)

['My chrome browser to open.'] ['google']
["Drago's cat is cute."] ['cat']


## Tutoriales

Tutorial sobre SVM: https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html

Tutorial sobre Tf-Idf: https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html

## Ejercicio

El resultado de esta práctica deberá entregarse en PLATEA y tiene como límite de entrega las **23:59 horas del día 29 de abril de 2023**. Se entregará este mismo notebook de extensión *.ipynb* y se renombrará de la siguiente forma: pr7_usuario1_usuario2.ipynb. Sustituye "usuario1" y "usuario2" por el alias de vuestro correo.

Utiliza el corpus **Gender** disponible en la carpeta “Material complementario” de PLATEA para crear un modelo supervisado.

Puedes elegir el método de clasificación que desees. 

El corpus Gender tiene dos etiquetas disponibles F (female) y M (male). Trataremos de predecir si un texto está escrito por una mujer o un hombre.

Para ello, procesa el texto de cada documento de la colección:
* Tokeniza el texto.
* Elimina palabras vacías.
* Reduce las palabras a su raíz.
* Cambia el texto a minúscula.

Posteriormente, utiliza el método visto en clase de Tf-Idf sobre los documentos ya procesados y entrena el modelo que hayas elegido.

Predice el posible género de estos textos que encontrarás en los ficheros de texto: predic_gender1.txt, predic_gender2.txt y predic_gender3.txt. Estos ficheros los encontrarás en la carpeta “Material complementario” de Docencia Virtual.

**NOTA**: es importante procesar los textos que queremos predecir de la misma manera que hemos procesado todos los documentos de la colección para que el modelo puedan encontrar las mismas palabras.


**Autores de la práctica:** Juan Bautista Muñoz Ruiz jbmr0001@red.ujaen.es Marco Antonio Carrión Soriano macs0021@red.ujaen.es


In [None]:
from google.colab import drive  #Montamos el drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [None]:
import os #Abrimos la carpeta
path = os.chdir("/content/drive/MyDrive/PLN/P7")
os.getcwd()

'/content/drive/MyDrive/PLN/P7'

In [None]:
def getCodificacion(texto): #Función para calcular el encoding con la libreria chardet
  import chardet

  with open(texto, 'rb') as f:
    resultado = chardet.detect(f.read())

  return resultado['encoding']

In [None]:
########################CARGA DE DATOS##########################
import os 
import glob   #Lectura y procesado de los archivos
import chardet
import openpyxl
import csv
import pandas as pd
path = os.chdir("/content/drive/MyDrive/PLN/P7")
os.getcwd()

mapa ={}
listaPredic = []
listaCorpus = []
mapa["Predic"]=listaPredic
mapa["Corpus"]=listaCorpus
for filename in glob.glob('predic*.txt'):  #Lectura de todos los archivos txt
  with open(os.path.join(os.getcwd(), filename), 'r') as f:
    # Calculamos el encoding del archivo con libería chardet
    codificacion=getCodificacion(filename)
    fichero = open(f.name,encoding=codificacion) # Leemos el archivo en su codificación
    print("Leído "+filename)
    mapa["Predic"].append(fichero.read())
  f.close()
for filename in glob.glob('*.xlsx'):  #Lectura de todos los archivos xlsx
  with open(os.path.join(os.getcwd(), filename), 'r') as f:
    print(filename)
    archivo = pd.read_excel(filename) #Convertimos el xlsx a casv
    archivo.to_csv (r'Corpus.csv', index = None, header=True)
  f.close()
    


Leído predic_gender1.txt
Leído predic_gender3.txt
Leído predic_gender2.txt
gender_corpus.xlsx


In [None]:
import spacy.cli # Cargamos spacy
spacy.cli.download("en_core_web_sm")

import en_core_web_sm
nlp = en_core_web_sm.load()

[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('en_core_web_sm')


In [None]:
textos=[]
etiquetas=[]
def calcularPosicion(cadena,texto): #Función para encontrar todas las posiciones de una cadena en el texto
  posiciones=[]
  posicion = texto.find(cadena)
  while posicion != -1:  # Hasta que no llegamos a la última posición encontrada
      posiciones.append(posicion) #Guardamos posición
      posicion=posicion+1
      posicion = texto.find(cadena, posicion) # Buscamos la cadena empezando desde la posición ya incrementada
  return posiciones

def almacenarTextos(texto,vectorPosiciones): #Función para ir cortando el texto según un vector de posiciones
  aux=texto.replace("Unnamed",",")
  texto=aux
  for i in range(len(vectorPosiciones)):
    if i == 0:  #Si es la primera posicion
      inicio = 0
    else:
      inicio = vectorPosiciones[i-1]
    
    fin = vectorPosiciones[i]+2 # +2 Para poder comprobar qué etiqueta tiene
    #print(texto[inicio:fin])
    t=texto[inicio:fin]  # Nos quedamos con la parte del texto entre incio y fin
    nuevoT=t.replace(",","")  #Quitamos , del csv
    #nlp(t)
    #print("nlp")
    textos.append(nuevoT)
      
posicionesM = []  #Vector con la todas las posiciones en la que aparece ",M,"
posicionesF = [] #Vector con la todas las posiciones en la que aparece ",F,"
with open("Corpus.csv", "r") as file:
    texto = file.read()
    ultimo=0
    posicionesM=calcularPosicion(",M,",texto)
    posicionesF=calcularPosicion(",F,",texto)
file.close()
lista=posicionesM+posicionesF  #Sumamos las dos listas y la ordenamos para tener los índices de donde acaba y empieza cada texto correctos
lista.sort()
almacenarTextos(texto,lista)

for elemento in lista:  #Asignamos cada etiqueta a su texto
  etiquetas.append(texto[elemento+1]) #En la posición elemento+1 encontramos la etiqueta de cada texto
print("Fin de cada texto",lista)
print("Etiqueta",etiquetas)
print("Número de textos:",len(textos))

with open('textosCortados.txt', 'w') as f:
    for texto in textos:
      f.write(str(texto))
      f.write("\n")
      f.write("-----------------------")
      f.write("\n")
      f.write("-----------------------")
      f.write("\n")
    f.close()

Fin de cada texto [956, 237363, 259740, 277252, 294771, 312332, 331661, 349691, 367203, 384714, 403957, 427123, 444278, 461521, 479514, 497506, 514684, 535842, 555956, 579545, 598186, 619759, 637276, 654685, 671951, 690398, 707813, 724708, 742035, 759758, 777102, 795578, 813985, 832629, 850806, 868260, 887052, 904573, 925139, 942138, 959433, 976794, 994994, 1012463, 1029729, 1047236, 1065356, 1082750, 1100989, 1122257, 1139662, 1157338, 1175404, 1194338, 1214491, 1231849, 1250861, 1268179, 1286789, 1304285, 1321897, 1339972, 1358968, 1377779, 1398645, 1416166, 1434138, 1453825, 1471641, 1492413, 1511440, 1533014, 1550857, 1569794, 1589816, 1609191, 1626555, 1644291, 1663611, 1681415, 1699630, 1720405, 1737810, 1755757, 1773577, 1792526, 1809910, 1828274, 1846404, 1863912, 1884471, 1902879, 1927420, 1944769, 1964218, 1982837, 2000361, 2018683, 2037755, 2055243, 2075078, 2092649, 2111041, 2129862, 2147785, 2165250, 2185249, 2202582, 2221485, 2252581, 2273182, 2291740, 2309057, 2326591, 2

In [None]:
textosProcesados=[]
numTexto=0
for texto in textos:
  print("procesando texto:",numTexto,end=" ")
  if numTexto%400==0:
    print("\n")
  procesado=nlp(texto)
  tokens=[]
  for token in procesado:
    if token.text.isalpha() and not token.is_stop: #Quitamos signos de puntuación y stop words
      if token.text != "M" and token.text !="F": #Quitamos etiqueta
        tokens.append(token.lemma_.lower()) #Reducimos a la raiz cada palabra y la pasamos a minúscula
      
  numTexto=numTexto+1
  textosProcesados.append(" ".join(tokens))

with open('textosProcesados.txt', 'w') as f:
    for texto in textosProcesados:
      f.write(str(texto))
      f.write("\n")
      f.write("-----------------------")
      f.write("\n")
      f.write("-----------------------")
      f.write("\n")
    f.close()

print(textosProcesados)


procesando texto: 0 

procesando texto: 1 procesando texto: 2 procesando texto: 3 procesando texto: 4 procesando texto: 5 procesando texto: 6 procesando texto: 7 procesando texto: 8 procesando texto: 9 procesando texto: 10 procesando texto: 11 procesando texto: 12 procesando texto: 13 procesando texto: 14 procesando texto: 15 procesando texto: 16 procesando texto: 17 procesando texto: 18 procesando texto: 19 procesando texto: 20 procesando texto: 21 procesando texto: 22 procesando texto: 23 procesando texto: 24 procesando texto: 25 procesando texto: 26 procesando texto: 27 procesando texto: 28 procesando texto: 29 procesando texto: 30 procesando texto: 31 procesando texto: 32 procesando texto: 33 procesando texto: 34 procesando texto: 35 procesando texto: 36 procesando texto: 37 procesando texto: 38 procesando texto: 39 procesando texto: 40 procesando texto: 41 procesando texto: 42 procesando texto: 43 procesando texto: 44 procesando texto: 45 procesando texto: 46 procesando texto: 47 

IOPub data rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_data_rate_limit`.

Current values:
NotebookApp.iopub_data_rate_limit=1000000.0 (bytes/sec)
NotebookApp.rate_limit_window=3.0 (secs)



In [None]:
print(len(textosProcesados))
print(len(etiquetas))


2934
2934


In [None]:
textos_prueba=[]
for texto in mapa["Predic"]:
    procesado=nlp(texto)
    tokens=[]
    for token in procesado:
      if token.text.isalpha() and not token.is_stop:
          tokens.append(token.lemma_.lower())
    textos_prueba.append(" ".join(tokens))

for texto in textos_prueba:
  print("\n",texto)


 tomorrow special envoy malaria united nations announce special social media envoy group use power social medium year raise awareness malaria control african country special envoy know figure social web broadcast medium include mashable pete cashmore join group pledge social action tweet facebook facebook post month year start world malaria day april year see malaria use twitter cause hope tweet post social action inspire motivate social medium audience support malaria control un goal provide endemic african country malaria control intervention end work aim near zero death malaria happy un enlist power social medium fight malaria disease kill million people year world malaria death occur sub saharan africa universal bed net coverage un choose prevention tool fight disease deliver million insecticidal mosquito net cover nearly million people

 presidential campaign joe biden democratic nominee vice president say patriotic people pay taxis interview abc good morning america pay taxis le

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(textosProcesados)

In [None]:
modelo = svm.SVC()
modelo.fit(X, etiquetas)

In [None]:
for string in textos_prueba:
    Y = vectorizer.transform([string])
    prediction = modelo.predict(Y)
    print(string,"\n",prediction)

tomorrow special envoy malaria united nations announce special social media envoy group use power social medium year raise awareness malaria control african country special envoy know figure social web broadcast medium include mashable pete cashmore join group pledge social action tweet facebook facebook post month year start world malaria day april year see malaria use twitter cause hope tweet post social action inspire motivate social medium audience support malaria control un goal provide endemic african country malaria control intervention end work aim near zero death malaria happy un enlist power social medium fight malaria disease kill million people year world malaria death occur sub saharan africa universal bed net coverage un choose prevention tool fight disease deliver million insecticidal mosquito net cover nearly million people 
 ['M']
presidential campaign joe biden democratic nominee vice president say patriotic people pay taxis interview abc good morning america pay taxi

todos los textos devuelven la salida "M". Para comprobar que es correcto y que es posible obtener la salida F introduzco en el modelo un texto del corpus clasificado como F, en caso de que dé M, algo no estaría funcionando correctamente

In [None]:
Y = vectorizer.transform(["After college and getting settled in a new job I decided that it was time for a new chapter in life. So I moved into my very own place. Yes 23 and just moving out. I knew this would be a very difficult move because I had never even stayed overnight away from home but maybe 3 times. Boy was I right! So I called in for reinforcements. Jodi and Kristy to save the day. We all needed to get away for our own reasons so this was the perfect time. We would watch Tom Cruise movies and eat popcorn until we got sick. Painting the house was a damn good time considering that none of us was 100% sure of what was going on. Thank God  for family. Who knows what that place would have looked like. After the newest wore off and everybody got into something else, there I was all alone again. I still had family but I needed someone. So I had lost some weight and was feeling pretty good about myself so I called up Jodi and told her we needed to get together. She had been through a divorce recently so she was ready."])
prediction = modelo.predict(Y)
print(string,"\n",prediction)

start take porter ent dr followup appointment monday have snotty nose cough go sleep worried tube come stop tube look good yea dr norris worried ongoing infection adenoid give augmentin nystatin ear drop augmentin bad gi tract porter handle antibiotic worried start have diarrhea night poor little booty raw painful skip dose night decide probably stay home daycare today eye well paste cake boudreaux butt paste working night have diarrhea day ahead making miserable day opposite great day porter go favorite park stay hour filthy leave run target thing porter fall asleep way home transfer bed take nap sleep hour eat cheeto hotdog late lunch set bedroom bathroom play work dance video play work try quick walk workout start rain run home porter mind squint smile stroller get shower bathroom porter love take shower hold water lay head shoulder let water run actually fall asleep shower time get jared get home soon pick pizza supper leave work know tired later worth get spend day little buddy po

Como vemos, devuelde F, por lo que parece funcionar correctamente
