# **Procesamiento del Lenguaje Natural**
## *Práctica 6 - Aprendizaje no supervisado*

## Objetivos

*   Conocer lo que es el aprendizaje automático y clasificar textos con enfoques no supervisados haciendo uso de la librería Sklearn de Python. 


## Aprendizaje automático

El aprendizaje automático (machine learning en inglés) es una técnica de la inteligencia artificial que crea modelos que aprenden automáticamente. Aprender en este contexto quiere decir identificar patrones complejos en millones de datos. La máquina que realmente aprende es un algoritmo que revisa los datos y es capaz de predecir comportamientos futuros.


### Aprendizaje no supervisado

Cuando se trata de problemas del mundo real, la mayoría de las veces, los datos no vienen con etiquetas predefinidas, así que intentaremos desarrollar modelos de aprendizaje automático que puedan etiquetar correctamente estos datos, encontrando por sí mismos algunos puntos en común en las características.

#### 1. Funcionamiento

Para comprender el funcionamiento del aprendizaje no supervisado se acudirá a un ejemplo donde tenemos un conjunto de datos sin etiquetar. A este conjunto de datos le extraemos sus características en vectores numéricos y con esto, entrenamos el algoritmo de aprendizaje automático con el fin de que busque patrones entre los datos. 


En el siguiente ejemplo podemos ver que el algoritmo nos genera un modelo (rombo azul) que es generado por el algoritmo (círculo azul). El conjunto de entrenamiento será en nuestro caso textos a los que sacaremos el vector de características (líneas verticales azules). Al modelo podemos proporcionarle nuevos conjuntos de datos (conjunto de test) al que también sacaremos sus características para que nos agrupe los nuevos elementos que nunca ha visto antes usando el modelo generado anteriormente. En este ejemplo podemos ver una clasificación no supervisada de frutas, el algoritmo finalmente las agrupa según su categoría:

<img src="https://www.diegocalvo.es/wp-content/uploads/2019/03/aprendizaje_no_supervisado.png" width="800" height="500" />




#### 2. Clustering

En términos básicos, el objetivo de la agrupación es encontrar diferentes grupos dentro de los elementos de los datos. Para ello, los algoritmos de agrupamiento encuentran la estructura en los datos de manera que los elementos del mismo clúster (o grupo) sean más similares entre sí que con los de clústeres diferentes.

<img src="https://www.diegocalvo.es/wp-content/uploads/2019/03/clustering.png" width="300" height="200" />


Algunos de los algoritmos de agrupación más comunes son:

*   K-Means
*   Clusterización Jerárquica
*   Density Based Scan Clustering (DBSCAN)
*   Modelo de Agrupamiento Gaussiano

Nosotros en clase implementaremos el algoritmo **K-means**.

El objetivo de este algoritmo es el de encontrar «K» grupos (clusters) entre los datos.


<img src="https://www.gatevidyalay.com/wp-content/uploads/2020/01/K-Means-Clustering.png" width="500" height="300" />



Para implementar este método, debemos añadir las librerías necesarias (si es necesario se deben instalar sklearn) scikit-learn:


In [None]:
from sklearn.cluster import KMeans

 Añadimos los textos en una lista de Python:

In [None]:
documents = ["This little kitty came to play when I was eating at a restaurant.",
             "Merley has the best squooshy kitten belly.",
             "Google Translate app is incredible.",
             "If you open 100 tab in google you get a smiley face.",
             "Best cat photo I've ever taken.",
             "Climbing ninja cat.",
             "Impressed with google map feedback.",
             "Key promoter extension for Google Chrome."]


#### Vectores de características: TF-IDF

El método TfidfVectorizer utiliza un vocabulario para generar una matriz de Tf-Idf (frecuencia de término - frecuencia inversa de documento). 

Tf-idf es una medida numérica que expresa cuánto de relevante es una palabra para un documento de una colección. Esta medida se utiliza a menudo como un factor de ponderación en la recuperación de información y la minería de texto. 

Para ello primero definiremos la clase **TfidfVectorizer()** y después usaremos el método **.fit_transform()** con el que obtendremos el vector de características del los textos de entrenamiento:

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(documents)

In [None]:
X

<8x48 sparse matrix of type '<class 'numpy.float64'>'
	with 53 stored elements in Compressed Sparse Row format>

Creamos el modelo con la clase **KMeans()** usando los parámetros que sean convenientes (podéis probar varios parámetros usado la documentación) y entrenamos el modelo k-means con el método **.fit()**. Finalmente, k es el número de grupos que queremos obtener:


In [None]:
k = 2
model = KMeans(n_clusters=k)
model.fit(X) # entrenamiento



Ahora, podemos ver información de los cluster que ha creado el modelo:

In [None]:
print("Top terms per cluster:")
order_centroids = model.cluster_centers_.argsort()[:, ::-1]
terms = vectorizer.get_feature_names_out()
for i in range(k):
  print("\nCluster:", i)
  for ind in order_centroids[i, :10]:
    print(' \t', terms[ind])

Top terms per cluster:

Cluster: 0
 	 google
 	 you
 	 app
 	 translate
 	 feedback
 	 impressed
 	 incredible
 	 is
 	 with
 	 map

Cluster: 1
 	 cat
 	 best
 	 ninja
 	 climbing
 	 photo
 	 ve
 	 ever
 	 taken
 	 squooshy
 	 kitten


A continuación, una vez que tenemos el modelo generado, vamos a predecir en qué grupo o cluster encajaría un nuevo texto usando el modelo anteriormente creado. 

Para ello introducimos un nuevo texto en un vector, sacamos sus vectores de características con el modelo Tf-Idf generado anteriormente usando el método **.transform()** y por último obtenemos la predicción del modelo usando el método **.predict()**:

In [None]:
text = ["My chrome browser to open."]
Y = vectorizer.transform(text)
prediction = model.predict(Y)
print('Cluster donde encajaría:', prediction)
text = ["Drago's cat is cute."]
Y = vectorizer.transform(text)
prediction = model.predict(Y)
print('Cluster donde encajaría:', prediction)

Cluster donde encajaría: [0]
Cluster donde encajaría: [1]


## Tutoriales

Tutorial sobre algoritmos no supervisados: https://cutt.ly/CtYl63Y  

Tutorial sobre K-medias: https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html

Tutorial sobre Tf-Idf: https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html

## Ejercicio

El resultado de esta práctica deberá entregarse en PLATEA y tiene como límite de entrega las **23:59 horas del día 16 de abril de 2023**. Se entregará este mismo notebook de extensión *.ipynb* y se renombrará de la siguiente forma: pr6_usuario1_usuario2.ipynb. Sustituye "usuario1" y "usuario2" por el alias de vuestro correo.

Utiliza la colección "colección_SFU_PLN" disponible en la carpeta Material complementario de Docencia Virtual para crear un modelo K-means. 

Dado que el corpus está dividido en 8 categorías (books, cars, music, etc) usaremos k = 8 para la agrupación.


Para ello, procesa el texto de cada documento de la colección:
* Tokeniza el texto
* Elimina palabras vacías
* Reduce las palabras a su raíz
* Cambia el texto a minúscula

Posteriormente, utiliza el método visto en clase de Tf-Idf sobre los documentos ya procesados y entrena el modelo k-means.

Predice el grupo/cluster de estos nuevos textos:

```
My accommodation is near the river and the mountain.
I have John Lennon's CD at home.
The most interesting sections are the last ones.
I enjoyed with the last essay of Pinker.
The steering of the car is very hard.
```

**NOTA**: es importante procesar los textos que queremos predecir de la misma manera que hemos procesado todos los documentos de la colección para que el modelo puedan encontrar las mismas palabras.




**Autores de la práctica:** Juan Bautista Muñoz Ruiz jbmr0001@red.ujaen.es Marco Antonio Carrión Soriano macs0021@red.ujaen.es


In [None]:
from google.colab import drive  #Montamos el drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
import os #Abrimos la carpeta
path = os.chdir("/content/drive/MyDrive/PLN/P6")
os.getcwd()

'/content/drive/MyDrive/PLN/P6'

In [None]:
def getCodificacion(texto): #Función para calcular el encoding con la libreria chardet
  import chardet

  with open(texto, 'rb') as f:
    resultado = chardet.detect(f.read())

  return resultado['encoding']

In [None]:
########################CARGA DE DATOS##########################
import os #Abrimos la carpeta
path = os.chdir("/content/drive/MyDrive/PLN/P6")
os.getcwd()

import glob   #Lectura y procesado de los archivos
import chardet

mapa ={}
for carpeta in os.listdir():
  os.chdir(carpeta) # Recorremos cada directorio y leemos los archivos
  archivosProcesados=[]
  mapa[carpeta]=archivosProcesados
  for filename in glob.glob('*.txt'):  #Lectura de todos los archivos de la carpeta con la libreria glob
    with open(os.path.join(os.getcwd(), filename), 'r') as f:
     print(carpeta,"/",filename," Leído",end=" ")
     # Calculamos el encoding del archivo con libería chardet
     codificacion=getCodificacion(filename)
     fichero = open(f.name,encoding=codificacion) # Leemos el archivo en su codificación
     mapa[carpeta].append(fichero.read())
  os.chdir('..') #Volvemos al directorio padre


MOVIES / yes9.txt  Leído MOVIES / no5.txt  Leído MOVIES / yes20.txt  Leído MOVIES / no1.txt  Leído MOVIES / no3.txt  Leído MOVIES / yes12.txt  Leído MOVIES / yes18.txt  Leído MOVIES / yes15.txt  Leído MOVIES / yes5.txt  Leído MOVIES / no14.txt  Leído MOVIES / yes17.txt  Leído MOVIES / no9.txt  Leído MOVIES / no12.txt  Leído MOVIES / yes2.txt  Leído MOVIES / yes4.txt  Leído MOVIES / yes7.txt  Leído MOVIES / yes13.txt  Leído MOVIES / no16.txt  Leído MOVIES / no10.txt  Leído MOVIES / no17.txt  Leído MOVIES / no20.txt  Leído MOVIES / yes25.txt  Leído MOVIES / yes1.txt  Leído MOVIES / no7.txt  Leído MOVIES / no24.txt  Leído MOVIES / no19.txt  Leído MOVIES / yes8.txt  Leído MOVIES / no15.txt  Leído MOVIES / yes6.txt  Leído MOVIES / yes24.txt  Leído MOVIES / yes11.txt  Leído MOVIES / no2.txt  Leído MOVIES / no21.txt  Leído MOVIES / no25.txt  Leído MOVIES / no22.txt  Leído MOVIES / yes10.txt  Leído MOVIES / yes16.txt  Leído MOVIES / yes19.txt  Leído MOVIES / yes21.txt  Leído MOVIES / yes14.txt

In [None]:
import spacy.cli # Cargamos spacy
spacy.cli.download("en_core_web_sm")

import en_core_web_sm
nlp = en_core_web_sm.load()

[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('en_core_web_sm')


In [None]:
####################PROCESADO DE ARCHIVOS##########################
mapaProcesado={}
for etiqueta in mapa.items():
  lista = []
  mapaProcesado[etiqueta[0]]=lista
  for archivo in etiqueta[1]:
    procesado=nlp(archivo)
    for token in procesado:
      if token.text.isalpha() and not token.is_stop: #Quitamos signos de puntuación y stop words
        mapaProcesado[etiqueta[0]].append(token.lemma_.lower()) #Reducimos a la raiz cada palabra y la pasamos a minúscula


In [None]:
print("Archivos procesados:")
for etiqueta in mapaProcesado:
  print(etiqueta,mapaProcesado[etiqueta])

Archivos procesados:
PHONES ['kind', 'disappointed', 'expensive', 'phone', 'system', 'siemen', 'phone', 'system', 'sound', 'start', 'degrade', 'year', 'switch', 'expensive', 'panasonic', 'system', 'phone', 'nice', 'feeling', 'like', 'choose', 'line', 'want', 'dial', 'feature', 'miss', 'siemens', 'phone', 'illuminated', 'keypad', 'work', 'volume', 'control', 'easy', 'use', 'talk', 'wish', 'go', 'bit', 'louder', 'volume', 'directory', 'connect', 'caller', 'id', 'like', 'cell', 'phone', 'siemens', 'phone', 'mean', 'exist', 'directory', 'phone', 'number', 'want', 'directory', 'display', 'instead', 'default', 'caller', 'id', 'caller', 'id', 'unknown', 'like', 'time', 'cell', 'phone', 'good', 'transfering', 'difficult', 'phone', 'yell', 'house', 'pick', 'phone', 'transfer', 'easy', 'ask', 'number', 'extension', 'hold', 'label', 'extension', 'number', 'like', 'fact', 'phone', 'act', 'like', 'stand', 'phone', 'system', 'act', 'like', 'system', 'share', 'directory', 'big', 'minus', 'type', 'dir

In [None]:
listaParaCluster=[]
documents.clear()
for etiqueta in mapaProcesado:
  cadenaDeTerminos = ' '.join(mapaProcesado[etiqueta])  # Convertimos la lista de tokens en una sola cadena de palabras para poder alimentar el vectorizer
  listaParaCluster.append(cadenaDeTerminos)

for elemento in listaParaCluster:
  print(elemento)


kind disappointed expensive phone system siemen phone system sound start degrade year switch expensive panasonic system phone nice feeling like choose line want dial feature miss siemens phone illuminated keypad work volume control easy use talk wish go bit louder volume directory connect caller id like cell phone siemens phone mean exist directory phone number want directory display instead default caller id caller id unknown like time cell phone good transfering difficult phone yell house pick phone transfer easy ask number extension hold label extension number like fact phone act like stand phone system act like system share directory big minus type directory phone number name system phone clear received calls label system point buy system phone share mute button base handset speakerphone work central air instal house blower interfere sound quality handset get foot upside use general mailbox work access road multiple mailbox use general box phone use nimh battery good big fan panaso

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(listaParaCluster)

In [None]:
X

<8x12802 sparse matrix of type '<class 'numpy.float64'>'
	with 26600 stored elements in Compressed Sparse Row format>

In [None]:
k = 8
model = KMeans(n_clusters=k)
model.fit(X) # entrenamiento

In [None]:
print("Top terms per cluster:")
order_centroids = model.cluster_centers_.argsort()[:, ::-1]
terms = vectorizer.get_feature_names_out()
for i in range(k):
  print("\nCluster:", i)
  for ind in order_centroids[i, :10]:
    print(' \t', terms[ind])

Top terms per cluster:

Cluster: 0
 	 book
 	 novel
 	 grisham
 	 read
 	 luke
 	 story
 	 stephanie
 	 character
 	 plot
 	 cotton

Cluster: 1
 	 pan
 	 cookware
 	 stainless
 	 pot
 	 clothe
 	 cook
 	 lid
 	 steel
 	 dishwasher
 	 set

Cluster: 2
 	 dell
 	 imac
 	 computer
 	 apple
 	 pc
 	 mac
 	 software
 	 mb
 	 keyboard
 	 laptop

Cluster: 3
 	 hotel
 	 room
 	 resort
 	 disney
 	 pool
 	 stay
 	 beach
 	 restaurant
 	 time
 	 service

Cluster: 4
 	 album
 	 lyric
 	 track
 	 rap
 	 song
 	 beat
 	 hip
 	 like
 	 hop
 	 rapper

Cluster: 5
 	 phone
 	 handset
 	 panasonic
 	 cordless
 	 caller
 	 battery
 	 system
 	 id
 	 button
 	 feature

Cluster: 6
 	 car
 	 seat
 	 engine
 	 ford
 	 drive
 	 like
 	 rear
 	 taurus
 	 look
 	 xterra

Cluster: 7
 	 movie
 	 film
 	 plot
 	 santa
 	 elf
 	 like
 	 character
 	 samurai
 	 seuss
 	 cat


My accommodation is near the river and the mountain.
I have John Lennon's CD at home.
The most interesting sections are the last ones.
I enjoyed with the last essay of Pinker.
The steering of the car is very hard.

In [None]:
frases = ["My accommodation is near the river and the mountain.","I have John Lennon's CD at home.","The most interesting sections are the last ones.","I enjoyed with the last essay of Pinker.","The steering of the car is very hard."]
for texto in frases:
    Y = vectorizer.transform([texto])
    prediction = model.predict(Y)
    print('Texto:', texto)
    print('Cluster donde encajaría:', prediction)

Texto: My accommodation is near the river and the mountain.
Cluster donde encajaría: [3]
Texto: I have John Lennon's CD at home.
Cluster donde encajaría: [2]
Texto: The most interesting sections are the last ones.
Cluster donde encajaría: [0]
Texto: I enjoyed with the last essay of Pinker.
Cluster donde encajaría: [3]
Texto: The steering of the car is very hard.
Cluster donde encajaría: [6]
