# Objetivo de este notebook

El fichero Jupyter Notebook actual tiene como objetivo la construcción de un modelo clasificador de texto. Este se utilizará para practicar el desarrollo de un modelo desde cero, que, junto con el procesamiento adecuado de los datos de entrenamiento, sea capaz de hacer buenas clasificaciones, agrupando correctamente las instancias que no ha visto durante este entrenamiento.

---

<br>
<br>

# Importar las librerías necesarias

La siguiente celda reune las importaciones de todas las librerías que se utilizan en este fichero Jupyter

In [1]:
# Librerías de manupulación de datos
import numpy as np
import pandas as pd

# SkLearn
from sklearn.model_selection import train_test_split

# Visualización de datos
import matplotlib.pyplot as plt

# Otros
import os
import string

---

<br>
<br>

# Cargando el dataset en memoria

El primer paso es cargar en memoria el conjunto de datos.

In [2]:
# Ruta del conjunto de entrenamiento
train_path = "data/train.csv"

# Instancio un objeto DataFrame que cargue el dataset
train_df = pd.read_csv(train_path, low_memory = False)

# 5 primeros registros del DataFrame
train_df.head()

Unnamed: 0,lyric,class
0,Can't drink without thinkin' about you,1
1,Now Lil Pump flyin' private jet (Yuh),0
2,"No, matter fact, you ain't help me when I had ...",0
3,"And you could find me, I ain't hidin'",0
4,From the way you talk to the way you move,1


---

<br>
<br>

# Data Wrangling

Las siguientes celdas tratan de dirigir el proceso de 
preparación de datos para el entrenamiento del modelo 
clasificador.

---

<br>
<br>

### Separación de datos de cada etiqueta

El dataset reune textos que pertenecen a dos clases
diferentes. Como paso inicial en el procesamiento de este
conjunto de datos, es necesario separar los diferentes
registros, de modo que podamos acceder a los textos
de cada uno de los tipos de música, de manera independiente.

In [3]:
# Las siguientes listas contienen los textos y las etiquetas
# de cada registro

textos = train_df["lyric"]
etiquetas = train_df["class"]

In [4]:
# Separo los textos de pop de los de rap

# ETIQUETA POP = 1
pop_textos = [texto for texto, etiqueta in zip(textos, etiquetas) if etiqueta == 1]
pop_etiquetas = [1 for texto in pop_textos]

# ETIQUETA RAP = 0
rap_textos = [texto for texto, etiqueta in zip(textos, etiquetas) if etiqueta == 0]
rap_etiquetas = [0 for texto in rap_textos]

In [5]:
# Muestro los 5 primeros textos registrados para cada uno
# de las tipos de música

print("5 primeros textos para la clase 'POP':")
for texto in pop_textos[:5]:
    print("-", " ", texto)

print()
print("5 primeros textos para la clase 'RAP':")
for texto in rap_textos[:5]:
    print("-", " ", texto)

5 primeros textos para la clase 'POP':
-   Can't drink without thinkin' about you
-   From the way you talk to the way you move
-   Something happens when I hold him
-   Don't you know that you're bad for me?
-   Bones are good, the rest, the rest don't matter (Ooh)

5 primeros textos para la clase 'RAP':
-   Now Lil Pump flyin' private jet (Yuh)
-   No, matter fact, you ain't help me when I had no money
-   And you could find me, I ain't hidin'
-   Knots (Mops), rocks (Rocks)
-   Was expectin' the box to pull up on a truck


---

<br>
<br>

### Normalización de tokens

Deberemos normalizar todos los registros incluídos en el conjunto de datos. Esto incluye:

* Conversión de mayúsculas a minúsculas.
* Eliminación del caracteres especiales.

In [6]:
# Mostrando un ejemplo de conversión a minúsculas
for texto in pop_textos[:5]:
    print("5 primeros textos de la clase 'POP':")
    print("Original ==>", texto)
    print("Convertido ==>", texto.lower())
    print("*"*50)
    print()
    
print()
print()
print()

for texto in rap_textos[:5]:
    print("5 primeros textos de la clase 'RAP':")
    print("Original ==>", texto)
    print("Convertido ==>", texto.lower())
    print("*"*50)
    print()

5 primeros textos de la clase 'POP':
Original ==> Can't drink without thinkin' about you
Convertido ==> can't drink without thinkin' about you
**************************************************

5 primeros textos de la clase 'POP':
Original ==> From the way you talk to the way you move
Convertido ==> from the way you talk to the way you move
**************************************************

5 primeros textos de la clase 'POP':
Original ==> Something happens when I hold him
Convertido ==> something happens when i hold him
**************************************************

5 primeros textos de la clase 'POP':
Original ==> Don't you know that you're bad for me?
Convertido ==> don't you know that you're bad for me?
**************************************************

5 primeros textos de la clase 'POP':
Original ==> Bones are good, the rest, the rest don't matter (Ooh)
Convertido ==> bones are good, the rest, the rest don't matter (ooh)
**************************************************


In [7]:
# Mostrando un ejemplo de eliminación de caracteres especiales
for texto in pop_textos[:5]:
    print("5 primeros textos de la clase 'POP':")
    print("Original ==>", texto)
    print("Convertido ==>", texto.translate(str.maketrans("", "", string.punctuation)))
    print("*"*50)
    print()
    
print()
print()
print()

for texto in rap_textos[:5]:
    print("5 primeros textos de la clase 'RAP':")
    print("Original ==>", texto)
    print("Convertido ==>", texto.translate(str.maketrans("", "", string.punctuation)))
    print("*"*50)
    print()

5 primeros textos de la clase 'POP':
Original ==> Can't drink without thinkin' about you
Convertido ==> Cant drink without thinkin about you
**************************************************

5 primeros textos de la clase 'POP':
Original ==> From the way you talk to the way you move
Convertido ==> From the way you talk to the way you move
**************************************************

5 primeros textos de la clase 'POP':
Original ==> Something happens when I hold him
Convertido ==> Something happens when I hold him
**************************************************

5 primeros textos de la clase 'POP':
Original ==> Don't you know that you're bad for me?
Convertido ==> Dont you know that youre bad for me
**************************************************

5 primeros textos de la clase 'POP':
Original ==> Bones are good, the rest, the rest don't matter (Ooh)
Convertido ==> Bones are good the rest the rest dont matter Ooh
**************************************************




5 prim

In [8]:
# Actualizo los textos que tengo aplicando ambos procesos
# a la vez

# TEXTOS POP
pop_textos = [texto.translate(str.maketrans("", "", string.punctuation)).lower() for texto in pop_textos]

# TEXTOS RAP
rap_textos = [texto.translate(str.maketrans("", "", string.punctuation)).lower() for texto in rap_textos]

In [9]:
# Muestro los 5 primeros textos registrados para cada uno
# de las tipos de música, ya normalizados

print("5 primeros textos para la clase 'POP':")
for texto in pop_textos[:5]:
    print("-", " ", texto)

print()
print("5 primeros textos para la clase 'RAP':")
for texto in rap_textos[:5]:
    print("-", " ", texto)

5 primeros textos para la clase 'POP':
-   cant drink without thinkin about you
-   from the way you talk to the way you move
-   something happens when i hold him
-   dont you know that youre bad for me
-   bones are good the rest the rest dont matter ooh

5 primeros textos para la clase 'RAP':
-   now lil pump flyin private jet yuh
-   no matter fact you aint help me when i had no money
-   and you could find me i aint hidin
-   knots mops rocks rocks
-   was expectin the box to pull up on a truck


---

<br>
<br>

### Divido el conjunto de datos

Sí, se que cuento con un fichero .csv que contiene datos de testing. No obstante, este dataset no registra las etiquetas de cada una de las instancias contenidas, y, en primera instancia, me gustaría poder evaluar el rendimiento del modelo al momento de clasificar los textos, y no lanzar una simple suposición de clasificación al aire.

In [10]:
# Genero nuevos subsets de "train" y "testing".

X = pop_textos + rap_textos
y = pop_etiquetas + rap_etiquetas

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

---

<br>
<br>

### Indexando cada token del dataset

Es necesario crear un diccionario para nuestro modelo, de forma que este pueda servir como referencia para asignar un valor numerico a cada una de las palabras que puedan haber en los diferentes textos.

In [11]:
# Convierto cada uno de los textos del conjunto de
# entrenamiento en listas de tokens
X_train = [texto.split(" ") for texto in X_train]

# 5 primeros registros de X_train
X_train[:5]

[['headshot', 'soak', 'his', 'mans', 'lil', 'uzi'],
 ['im', 'in', 'my', 'birkin', 'n', 'yeah'],
 ['and', 'tonight', 'im', 'alive', 'aint', 'no', 'dollar', 'sign'],
 ['i',
  'even',
  'did',
  'the',
  'unthinkable',
  'and',
  'im',
  'sorry',
  'for',
  'what',
  'i',
  'did',
  'to',
  'you'],
 ['dont', 'think', 'we', 'fit', 'in', 'at', 'this', 'party']]

In [12]:
# Inicializo el diccionario de indices

indices_palabras = {
    "<unk>":0 
}

contador_indices = 1  # Comienzo en 1, ya existe un 0.
for texto in X_train:
    for palabra in texto:
        if palabra in indices_palabras.keys():
            continue
        else:
            indices_palabras[palabra] = contador_indices
            contador_indices +=1
            
# Muestro los primeros registros del diccionario
for index, (key, value) in enumerate(indices_palabras.items()):
    print(f"{key} ==> {value}")
    if index == 100:
        break

<unk> ==> 0
headshot ==> 1
soak ==> 2
his ==> 3
mans ==> 4
lil ==> 5
uzi ==> 6
im ==> 7
in ==> 8
my ==> 9
birkin ==> 10
n ==> 11
yeah ==> 12
and ==> 13
tonight ==> 14
alive ==> 15
aint ==> 16
no ==> 17
dollar ==> 18
sign ==> 19
i ==> 20
even ==> 21
did ==> 22
the ==> 23
unthinkable ==> 24
sorry ==> 25
for ==> 26
what ==> 27
to ==> 28
you ==> 29
dont ==> 30
think ==> 31
we ==> 32
fit ==> 33
at ==> 34
this ==> 35
party ==> 36
belong ==> 37
see ==> 38
past ==> 39
everywhere ==> 40
world ==> 41
is ==> 42
brighter ==> 43
by ==> 44
itself ==> 45
one ==> 46
time ==> 47
future ==> 48
prince ==> 49
eu ==> 50
e ==> 51
o ==> 52
cash ==> 53
mais ==> 54
sempre ==> 55
que ==> 56
vou ==> 57
recrutar ==> 58
novamente ==> 59
b ==> 60
city ==> 61
on ==> 62
that ==> 63
hot ==> 64
s ==> 65
blood ==> 66
gang ==> 67
suwoop ==> 68
me ==> 69
oh ==> 70
fore ==> 71
go ==> 72
leave ==> 73
cold ==> 74
take ==> 75
it ==> 76
easy ==> 77
baby ==> 78
middle ==> 79
of ==> 80
summer ==> 81
freezin ==> 82
burr ==> 83
te

In [13]:
# Reviso el total de palabras diferentes que se han 
# registrado en el diccionario
len(indices_palabras)

13191

---

<br>
<br>

### Transformando los subsets de datos

Utilizando el diccionario de indices, convierto cada una
de las palabras del subconjunto de "train" y "test" a
valores numéricos (su respectivo índice)

In [14]:
# Antes de nada, convierto en listas de tokens los 
# registros del subset de testing
X_test = [texto.split(" ") for texto in X_test]

# 5 primeros registros de X_test
X_test[:5]

[['yeah',
  'we',
  'gon',
  'do',
  'some',
  'things',
  'some',
  'things',
  'you',
  'cant',
  'relate'],
 ['at', 'a', 'knocked', 'down', 'price', 'hey'],
 ['its', 'like', 'd'],
 ['please', 'dont', 'come', 'after', 'me'],
 ['come', 'hang', 'come', 'hang', 'lets', 'go', 'out', 'with', 'a', 'bang']]

In [15]:
## ASIGNANDO INDICES A SUBSET TRAIN
X_train_num = []

for texto in X_train:
    texto = [indices_palabras[token] for token in texto]
    X_train_num.append(texto)
    
# Primeros 5 registros de X_train_num
X_train_num[:5]

[[1, 2, 3, 4, 5, 6],
 [7, 8, 9, 10, 11, 12],
 [13, 14, 7, 15, 16, 17, 18, 19],
 [20, 21, 22, 23, 24, 13, 7, 25, 26, 27, 20, 22, 28, 29],
 [30, 31, 32, 33, 8, 34, 35, 36]]

In [16]:
## ASIGNANDO INDICES A SUBSET TESTING
X_test_num = []

for texto in X_test:
    texto = [indices_palabras.get(token, 0) for token in texto]
    X_test_num.append(texto)
    
# Primeros 5 registros de X_train_num
X_test_num[:5]

[[12, 32, 206, 223, 291, 389, 291, 389, 29, 120, 2595],
 [34, 118, 3507, 189, 92, 184],
 [203, 313, 539],
 [628, 30, 193, 88, 69],
 [193, 284, 193, 284, 543, 72, 150, 104, 118, 282]]

Para el conjunto de testing, he utilizado el método .get() de los diccionarios en Python para, en caso de no encontrar el indice de una determinada palabra, asignar el valor 0. Esto indicaría que dicha palabra no se encuentra dentro de los textos del subconjunto de "train".

---

<br>
<br>

### Matrices transición y vectores probabilidad

In [17]:
# Clase POP

pop_mt = np.ones((len(indices_palabras), len(indices_palabras)))
pop_vp = np.ones(len(indices_palabras))


# Clase RAP

rap_mt = np.ones((len(indices_palabras), len(indices_palabras)))
rap_vp = np.ones(len(indices_palabras))

In [18]:
print("Dimensiones matriz transicion para la clase 'POP' ==>", pop_mt.shape)

Dimensiones matriz transicion para la clase 'POP' ==> (13191, 13191)


In [19]:
print("Dimensiones vector probabilidad para la clase 'POP' ==>", pop_vp.shape)

Dimensiones vector probabilidad para la clase 'POP' ==> (13191,)


In [20]:
print("Dimensiones matriz transicion para la clase 'RAP' ==>", rap_mt.shape)

Dimensiones matriz transicion para la clase 'RAP' ==> (13191, 13191)


In [21]:
print("Dimensiones vector probabilidad para la clase 'RAP' ==>", rap_vp.shape)

Dimensiones vector probabilidad para la clase 'RAP' ==> (13191,)


---

<br>
<br>

### Computando la probabilidad de aparición de cada token

In [22]:
def compute_counts(text_as_int, matriz_transicion, vector_probabilidad):
    
    """Función auxiliar encargada de computar el conteo de apariciones de cada token del
       diccionario de tokends dentro de la matriz de transicion de cada clase."""
    
    for texto in text_as_int:
        ini_idx = None
        for idx in texto:
            if ini_idx == None:
                vector_probabilidad[idx] +=1
            else:
                matriz_transicion[ini_idx, idx] += 1
            ini_idx = idx
            
# Clase POP
compute_counts([token for token, indice in zip(X_train_num, y_train) if indice == 1], pop_mt, pop_vp)

# Clase RAP
compute_counts([token for token, indice in zip(X_train_num, y_train) if indice == 0], rap_mt, rap_vp)

---

<br>
<br>

### Normalizando matrices y vectores de transicion

Actualmente, los valores computados la matriz de transicion y el vector de probabilidad de cada una de las clases de música son muy cercanos a 0.

Si los normalizados, podremos hacer uso de unos valores que facilitan la computación del clasificador.

In [23]:
## Clase "POP"
pop_mt /= pop_mt.sum(axis = 1, keepdims = True)
pop_vp /= pop_vp.sum()

## Clase "RAP"
rap_mt /= rap_mt.sum(axis = 1, keepdims = True)
rap_vp /= rap_vp.sum()

In [24]:
pop_vp

array([3.22976552e-05, 3.22976552e-05, 3.22976552e-05, ...,
       3.22976552e-05, 3.22976552e-05, 3.22976552e-05])

In [25]:
## Uso de un espacio logaritmico para obtener valores
## más elevados

# Clase "POP"
pop_mt = np.log(pop_mt)
pop_vp = np.log(pop_vp)

# Clase "RAP"
rap_mt = np.log(rap_mt)
rap_vp = np.log(rap_vp)

In [26]:
pop_vp

array([-10.34051593, -10.34051593, -10.34051593, ..., -10.34051593,
       -10.34051593, -10.34051593])

In [27]:
rap_vp

array([-10.49855322,  -8.41911168, -10.49855322, ..., -10.49855322,
       -10.49855322, -10.49855322])

---

<br>
<br>

### Probabilidades a priori de cada tipo de música

In [28]:
count_pop = sum(y == 1 for y in y_train)
count_rap = sum(y == 0 for y in y_train)
total = len(y_train)
p1 = count_pop / total   # Probabilidad a priori del tipo "POP"
p0 = count_rap / total   # Probabilidad a priori del tipo "RAP"
logp1 = np.log(p1)   # Logaritmo de la probabilidad a priori de la clase "POP"
logp0 = np.log(p0)   # Logaritmo de la probabilidad a priori de la clase "RAP"

print("Probabilidad a priori Clase 'POP' ==>", p1)
print("Probabilidad a priori Clase 'RAP' ==>", p0)

Probabilidad a priori Clase 'POP' ==> 0.4351051587787381
Probabilidad a priori Clase 'RAP' ==> 0.5648948412212619


---

<br>
<br>

### Construcción del clasificador 

Como he mencionado al principio del notebook, el clasificador que voy a utilizar para el objetivo de clasificar canciones de pop/rap, va a ser ser un objeto de la clase TextClassifier que defino en la siguiente celda.

In [29]:
class TextClassifier:
    def __init__(self, logAs, logpis, logpriors):
        self.logAs = logAs
        self.logpis = logpis
        self.logpriors = logpriors
        self.K = len(logpriors)
        
    def _compute_log_likelihood(self, input_, class_):
        logA = self.logAs[class_]
        logpi = self.logpis[class_]
        
        last_idx = None
        logprob = 0
        for idx in input_:
            if last_idx is None:
                logprob += logpi[idx]
            else:
                logprob += logA[last_idx, idx]
                
            last_idx = idx
            
        return logprob
    
    def predict(self, inputs):
        predictions = np.zeros(len(inputs))
        for i, input_ in enumerate(inputs):
            
            posteriors = [self._compute_log_likelihood(input_, c) + self.logpriors[c] \
                          for c in range(self.K)]
            
            pred = np.argmax(posteriors)
            predictions[i] = pred
        return predictions

In [30]:
# Instancio un objeto de la clase TextClassifier
clf = TextClassifier([rap_mt, pop_mt], [rap_vp, pop_vp], [logp0, logp1])

In [31]:
# Genero las predicciones del modelo (probando con el conjunto de entrenamiento)
pTrain = clf.predict(X_train_num)
print(np.mean(pTrain == y_train))

0.9420463726954436


In [32]:
# Genero las predicciones del modelo (conjunto de "testing")
ptest = clf.predict(X_test_num)
print(np.mean(ptest == y_test))

0.8483008520223289


---

<br>
<br>

### Pruebo con una frase de una canción de rap

In [33]:
# Frase con la que pruebo el clasificador
nuevo_texto = "It's time to put these bitches in the obituary column"   # Eminem, "Godzilla"

# Proceso el texto
nuevo_texto = nuevo_texto.translate(str.maketrans("", "", string.punctuation)).lower()

# Convierto el texto en una lista de tokens
nuevo_texto = nuevo_texto.split(" ")

# Convierto los tokens de la lista en valores numericos (diccionario)
nuevo_texto = [indices_palabras.get(token, 0) for token in nuevo_texto]

In [34]:
# Muestro el array de valores numericos que representa la frase (valor para aquellas palabras que no se encuentran en el diccionario)
nuevo_texto

[203, 47, 28, 505, 650, 0, 8, 23, 0, 0]

In [35]:
clase_nuevo_texto = clf.predict([nuevo_texto])

In [36]:
clase_nuevo_texto

array([0.])

---

<br>
<br>

# Conclusión

El modelo ha mostrado un rendimiento cercano al 85% de precisión para el conjunto de prueba, lo cual está muy bien.

Por otro lado, he probado a pasarle una frase que dice el rapero Eminem en su tema "Godzilla", una vez la he procesado. El modelo ha clasificado correctamente esta letra como propia de un tema de rap.

---

# Generando el resultados para el conjunto de prueba

El objetivo del desarrollo del clasificador es el de, tras haberlo entrenado, generar predicciones para el conjunto de datos contenido en la ruta "data/test.csv". Debido a que este conjunto no cuenta con las etiquetas correctas de cada instancia, solamente llevaré a cabo el siguiente procedimiento:

* Cargo en memoria el conjunto de testing.
* Proceso y normalizo el conjunto.
* Convierto el conjunto a valores numericos.
* Genero predicciones para cada una de las instancias del conjunto de testing.
* Creo y guardo en la ruta "results/" un fichero .csv con los resultados de las predicciones.

---

<br>
<br>

### Cargando en memoria el conjunto de testing

In [37]:
test_path = "data/test.csv"
test_df = pd.read_csv(test_path, low_memory = False)

# Primeros 5 registros del conjunto
test_df.head()

Unnamed: 0,id,lyric
0,0,Now they know my name wherever I go
1,1,"If your girl don't get it poppin', put me on y..."
2,2,"P1 cleaner than your church shoes, ah"
3,3,"Bodies start to drop, ayy (Hit the floor)"
4,4,I don't look to the sky no mo'


### Procesando y normalizando el conjunto

In [38]:
## Defino mi matriz de caracteristicas (al solo ser una columna, es un vector)
X = test_df["lyric"].values

## Normalizando los registros
X = [texto.translate(str.maketrans("", "", string.punctuation)).lower() for texto in X]

# Convierto cada registro del conjunto en una lista de tokens
X = [texto.split(" ") for texto in X]

# 5 primeros registros del conjunto
X[:5]

[['now', 'they', 'know', 'my', 'name', 'wherever', 'i', 'go'],
 ['if',
  'your',
  'girl',
  'dont',
  'get',
  'it',
  'poppin',
  'put',
  'me',
  'on',
  'your',
  'wishlist'],
 ['p1', 'cleaner', 'than', 'your', 'church', 'shoes', 'ah'],
 ['bodies', 'start', 'to', 'drop', 'ayy', 'hit', 'the', 'floor'],
 ['i', 'dont', 'look', 'to', 'the', 'sky', 'no', 'mo']]

### Convirtiendo el conjunto a valores numericos

In [39]:
X_num = []
for texto in X:
    X_num.append([indices_palabras.get(token, 0) for token in texto])
    
# 5 primeros registros del dataset de testing, ahora en valores numericos
X_num[:5]

[[233, 87, 113, 9, 123, 2650, 20, 72],
 [117, 154, 669, 30, 280, 76, 2649, 505, 69, 62, 154, 0],
 [0, 0, 600, 154, 3114, 2662, 473],
 [3810, 854, 28, 601, 93, 119, 23, 833],
 [20, 30, 703, 28, 23, 1890, 17, 5885]]

### Generando predicciones para cada una de las instancias del conjunto de testing

In [40]:
# Predicciones del modelo
predicciones = clf.predict(X_num)

# Muestro las 5 primeras predicciones del modelo
predicciones[:50]

array([0., 0., 1., 0., 0., 1., 0., 0., 1., 0., 1., 1., 0., 0., 0., 0., 0.,
       0., 1., 0., 0., 0., 0., 0., 0., 0., 1., 1., 0., 1., 0., 1., 0., 1.,
       1., 0., 1., 0., 1., 0., 1., 0., 0., 0., 0., 1., 0., 0., 1., 1.])

### Creo y guardo en la ruta "results/" un fichero .csv con los resultados de las predicciones

In [57]:
# Defino las listas de ID, y de predicciones para cada uno de ellos
indices_registros = [num for num in range(0, (len(test_df)))]
lista_predicciones = [int(pred) for pred in predicciones]


# Creo un objeto DataFrame con que mapee cada prediccion con el ID de su registro
# en el conjunto de testing
pred_df = pd.DataFrame(data = indices_registros,
                       columns = ["id"])

# Añado la columna con las predicciones
pred_df["class"] = lista_predicciones

# 10 primeros registros del DataFrame
pred_df.head(10)

Unnamed: 0,id,class
0,0,0
1,1,0
2,2,1
3,3,0
4,4,0
5,5,1
6,6,0
7,7,0
8,8,1
9,9,0


In [58]:
# Defino la ruta donde almaceno las predicciones
results_path = "results/"

pred_df.to_csv(os.path.join(results_path, "results.csv"), index = False)
print("Resultados guardados correctamente.")

Resultados guardados correctamente.
