# Clasificación de textos

En esta clase, exploraremos datos de mensajes de texto y crearemos modelos para predecir si un mensaje es spam o no.

In [1]:
import pandas as pd
import numpy as np

spam_data = pd.read_csv(r'C:\Users\FLopezP\Documents\GitHub\PCIC\Minería de Textos\Archivos\spam.csv')

spam_data['target'] = np.where(spam_data['target']=='spam',1,0)
spam_data.head(5)

Unnamed: 0,text,target
0,"Go until jurong point, crazy.. Available only ...",0
1,Ok lar... Joking wif u oni...,0
2,Free entry in 2 a wkly comp to win FA Cup fina...,1
3,U dun say so early hor... U c already then say...,0
4,"Nah I don't think he goes to usf, he lives aro...",0


In [2]:
from sklearn.model_selection import train_test_split


X_train, X_test, y_train, y_test = train_test_split(spam_data['text'], 
                                                    spam_data['target'], 
                                                    random_state=0)

### Pregunta 1
¿Qué porcentaje de los documentos en `spam_data` son spam?

*Esta función debe devolver un valor flotante, el valor porcentual (es decir, $ ratio * 100 $).*

In [3]:
def respuesta_uno():
    aux = spam_data['target'].value_counts()
    return aux[1]/(aux[0]+aux[1])*100

In [4]:
respuesta_uno()

13.406317300789663

### Pregunta 2

Ajustar y transformar los datos de entrenamiento `X_train` utilizando un `count_vectorizer` con parámetros predeterminados.

Luego, ajuste un modelo de clasificación Naive Bayes multinomial. Calcule medidas de exactitud, presición, recall y f1-score usando los datos de prueba transformados.

*Esta función debe devolver las cuatro medidas de evaluación como una lista con los 4 valores en el orden solicitado cada valor como flotante.*

In [5]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score
from sklearn.metrics import confusion_matrix

def respuesta_dos():
    scores=[]
    vect = CountVectorizer().fit(X_train)
    X_train_vectorized=vect.transform(X_train)
    
    clf=MultinomialNB()
    clf.fit(X_train_vectorized, y_train)
    print("matriz Frecuencias:",X_train_vectorized.shape, "clases",len(y_train))
    
    X_test_vectorized=vect.transform(X_test)
    predictions = clf.predict(X_test_vectorized)
    print("matriz Frecuencias Test:",X_test_vectorized.shape, "prediction",len(predictions))
    
    scores.append(accuracy_score(y_test,predictions))
    scores.append(precision_score(y_test,predictions))
    scores.append(recall_score(y_test,predictions))
    scores.append(f1_score(y_test,predictions))
    
    spam=predictions[predictions!= 0]
    print('Predicciones Spam:',len(spam))
    print('Porcentaje Spam:',len(spam)/len(predictions)*100)
    tn, fp, fn, tp = confusion_matrix(y_test, predictions).ravel()
    print(confusion_matrix(y_test, predictions))
    print(tn, fp, fn, tp)
    return scores

In [6]:
respuesta_dos()

matriz Frecuencias: (4179, 7354) clases 4179
matriz Frecuencias Test: (1393, 7354) prediction 1393
Predicciones Spam: 184
Porcentaje Spam: 13.208901651112706
[[1193    3]
 [  16  181]]
1193 3 16 181


[0.9863603732950467,
 0.9836956521739131,
 0.9187817258883249,
 0.9501312335958005]

### Pregunta 3

Ajustar y transformar los datos de entrenamiento `X_train` utilizando un `count_vectorizer` con parámetros predeterminados.

Luego, ajuste un modelo de clasificación Naive Bayes multinomial con suavizado (smoothing) `alpha = 0.1`. Encuentre el área bajo la curva (AUC) usando los datos de prueba transformados.

*Esta función debe devolver el AUC como un flotante.*

In [7]:
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import roc_auc_score

def respuesta_tres():
    vect = CountVectorizer().fit(X_train)
    X_train_vectorized=vect.transform(X_train)
    clf=MultinomialNB(alpha=0.1)
    clf.fit(X_train_vectorized, y_train)
    X_test_vectorized=vect.transform(X_test)
    predictions = clf.predict(X_test_vectorized)
    print(predictions)
    return roc_auc_score(y_test,predictions)

In [8]:
respuesta_tres()

[0 0 0 ... 0 0 1]


0.9720812182741116

### Pregunta 4

Ajustar y transformar los datos de entrenamiento `X_train` utilizando un `TfidfVectorizer` ignorando los términos que tienen una frecuencia de documento estrictamente inferior a **3**.

Luego, ajuste un modelo de clasificador Naive Bayes multinomial con suavizado (smoothing) `alfa = 0.1` y calcule el área bajo de la curva (AUC) usando los datos de prueba transformados.

*Esta función debe devolver el AUC como un flotante.*

In [9]:
from sklearn.feature_extraction.text import TfidfVectorizer
def respuesta_cuatro():
    vector = TfidfVectorizer(min_df = 3)
    x_vector = vector.fit_transform(X_train)
    NB=MultinomialNB(alpha=0.1)
    NB.fit(x_vector, y_train)
    x_text_vector = vector.transform(X_test)
    pred = NB.predict(x_text_vector)
    return roc_auc_score(y_test, pred)

In [10]:
respuesta_cuatro()

0.9416243654822335

### Pregunta 5

¿Cuál es la longitud promedio de los documentos (número de caracteres) para los documentos spam y no spam?

*Esta función debe devolver una tupla (longitud promedio no spam, longitud promedio de spam).*

In [11]:
def respuesta_cinco():
    """
    Regresa el promedio de de caracteres por clase de documentos
    """
    no_spam = [spam_data["text"][_] for _ in range(len(spam_data)) if spam_data["target"].iloc[_] == 0]
    yes_spam = [spam_data["text"][_] for _ in range(len(spam_data)) if spam_data["target"].iloc[_] == 1]
    
    no_avg = 0
    yes_avg = 0
    
    for _ in no_spam:
        no_avg += len(_)
    
    for _ in yes_spam:
        yes_avg += len(_)
    
    return no_avg/len(no_spam), yes_avg/len(yes_spam)

In [12]:
respuesta_cinco()

(71.02362694300518, 138.8661311914324)

<br>
<br>

**¿Qué onda con esta celda?**

The following function has been provided to help you combine new features into the training data:

In [13]:
def add_feature(X, feature_to_add):
    """
    Returns sparse feature matrix with added feature.
    feature_to_add can also be a list of features.
    """
    from scipy.sparse import csr_matrix, hstack
    return hstack([X, csr_matrix(feature_to_add).T], 'csr')

### Pregunta 6

Ajustar y transformar los datos de entrenamiento `X_train` usando un `TfidfVectorizer` ignorando los términos que tienen una frecuencia de documento estrictamente inferior a **5**.

Usando esta matriz de término de documento y una característica adicional, **la longitud del documento (número de caracteres)**, ajustar a un modelo de Clasificación de Vector de Soporte con regularización `C = 10000`. Luego calcule el área bajo de la curva (AUC) usando los datos de prueba transformados.

*Esta función debe devolver el AUC como un flotante.*

In [14]:
from sklearn.svm import SVC
from scipy import sparse
from scipy.sparse import csr_matrix

def respuesta_seis():
    vector = TfidfVectorizer(min_df = 5)
    x_vector = vector.fit_transform(X_train)
    len_list = np.array([len(_) for _ in X_train]).reshape(-1,1) # Creamos este array para extender la matriz tfidf
    x_vector_new = sparse.hstack((x_vector, len_list)).A # Usamos hstack para extender la matriz ya que está en formato csr_matrix
    
    svc = SVC(C = 10000)
    svc.fit(x_vector_new, y_train)
    
    x_text_vector = vector.transform(X_test)
    test_len_list = np.array([len(_) for _ in X_test]).reshape(-1,1) # Análogo para el test set
    x_text_vector_new = sparse.hstack((x_text_vector, test_len_list)).A
    pred = svc.predict(x_text_vector_new)
    
    return roc_auc_score(y_test, pred)

In [15]:
respuesta_seis()

0.9661689557407943

### Pregunta 7

¿Cuál es el número promedio de dígitos por documento para los documentos no spam y spam?

*Esta función debe devolver una tupla (promedio de # dígitos no es spam, promedio # dígitos spam).*

In [16]:
import re

def get_digits(lista):
    nums = ['0','1','2','3','4','5','6','7','8','9']
    digits = 0
    for _ in lista:
        aux = 0
        for j in _:
            if j in nums:
                aux += 1
        digits += aux

    return digits/len(lista)

    
def respuesta_siete():
    no_spam = [re.sub('[\\n\-–¿?,.":¡!]+', '', spam_data["text"].iloc[_]) for _ in range(len(spam_data)) if spam_data["target"].iloc[_] == 0]
    yes_spam = [re.sub('[\\n\-–¿?,.":¡!]+', '', spam_data["text"].iloc[_]) for _ in range(len(spam_data)) if spam_data["target"].iloc[_] == 1]

    a = get_digits(no_spam)
    b = get_digits(yes_spam)
    
    return a, b

In [17]:
respuesta_siete()

(0.2992746113989637, 15.759036144578314)

### Pregunta 8

Ajustar y transformar los datos de entrenamiento `X_train` usando un `TfidfVectorizer` ignorando los términos que tienen una frecuencia de documento estrictamente inferior a **5** y usando **n-gramas de palabras n = 1 a n = 3** (unigramas, bigramas y trigramas).

Usando esta matriz de término-documento y las siguientes características adicionales:
* la longitud del documento (número de caracteres)
* **cantidad de dígitos por documento**

Ajustar un modelo de Regresión logística con regularización `C = 100`. Luego calcule el área bajo de la curva (AUC) usando los datos de prueba transformados.

*Esta función debe devolver el AUC como un flotante.*

In [18]:
from sklearn.linear_model import LogisticRegression

def digit_count(value):
    nums = ['0','1','2','3','4','5','6','7','8','9']
    digits = 0
    for _ in value:
        if _ in nums:
            digits += 1
    return digits
    
def respuesta_ocho():
    vector = TfidfVectorizer(min_df = 5, ngram_range = (1,3))
    x_vector = vector.fit_transform(X_train)
    len_list = np.array([len(_) for _ in X_train]).reshape(-1,1) # Creamos este array para extender la matriz tfidf
    dig_list = np.array([digit_count(_) for _ in X_train]).reshape(-1,1)
    x_vector_new = sparse.hstack((x_vector, len_list))
    final_vector = sparse.hstack((x_vector_new, dig_list)) 

    lr = LogisticRegression(C = 100)
    lr.fit(final_vector, y_train)

    x_test_vector = vector.transform(X_test)
    len_test = np.array([len(_) for _ in X_test]).reshape(-1,1)
    dig_test = np.array([digit_count(_) for _ in X_test]).reshape(-1,1)
    test_matrix = sparse.hstack((x_test_vector, len_test))
    test_matrix = sparse.hstack((test_matrix, dig_test))

    pred = lr.predict(test_matrix)
    return roc_auc_score(y_test, pred)

In [19]:
respuesta_ocho()

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


0.9809793219360643

### Pregunta 9

¿Cuál es el número promedio de caracteres que no son palabras (cualquier cosa que no sea una letra, un dígito o un guión bajo) por documento para los documentos que no son spam y spam?

*Sugerencia: utilice las clases de caracteres `\ w` y` \ W`*

*Esta función debe devolver una tupla (promedio de # caracteres que no son palabras, no spam, promedio de # caracteres que no son palabras, spam).*

In [20]:
def get_not_char(lista):
    avg = 0
    for _ in lista:
        avg += len(_)
    return avg/len(lista)
    
def pregunta_nueve():
    no_spam = [re.sub('([\w\d_])', '', spam_data["text"].iloc[_]).lower() for _ in range(len(spam_data)) if spam_data["target"].iloc[_] == 0]
    yes_spam = [re.sub('([\w\d_])', '', spam_data["text"].iloc[_]).lower() for _ in range(len(spam_data)) if spam_data["target"].iloc[_] == 1]
    a = get_not_char(no_spam)
    b = get_not_char(yes_spam)
    return a, b

In [21]:
pregunta_nueve()

(17.29181347150259, 29.041499330655956)

### Pregunta 10

Ajustar y transformar los datos de entrenamiento `X_train` usando un `CountVectorizer` ignorando los términos que tienen una frecuencia de documento estrictamente inferior a **5** y utilizando **caracteres n-grams desde n = 2 a n = 5.**

Para decirle a `CountVectorizer` que use caracteres n-grams, pase en `analyzer = 'char_wb'` que crea caracteres n-gramas solo del texto dentro de los límites de las palabras. Esto debería hacer que el modelo sea más robusto a los errores ortográficos.

Usando esta matriz término documento y las siguientes características adicionales:
* la longitud del documento (número de caracteres)
* cantidad de dígitos por documento
* **cantidad de caracteres que no son palabras (cualquier cosa que no sea una letra, dígito o guión bajo).**

Ajustar un modelo de Regresión logística con regularización `C = 100`. Luego calcule el área bajo de la curva (AUC) usando los datos de prueba transformados.

También **encuentre los 10 coeficientes más pequeños y los 10 más grandes del modelo** y devuélvalos junto con el AUC en una tupla.

La lista de los 10 coeficientes más pequeños debe ordenarse primero, la lista de los 10 coeficientes más grandes debe ordenarse primero.

Las tres características que se agregaron a la matriz de términos del documento deben tener los siguientes nombres si aparecen en la lista de coeficientes:
['longitud_doc', 'conteo_digito', 'caracteres_no_palabra']

*Esta función debe devolver una tupla `(AUC como flotante, lista de coeficientes más pequeños, lista de coeficientes más grande)`.*

In [39]:
def get_non_words(text):
    new_text = re.sub('([\w\d_])', '', text).lower().split()
    return len(new_text)
    
def respuesta_10():
    vector = TfidfVectorizer(analyzer = 'char_wb', min_df = 5, ngram_range = (2,5))
    x_vector = vector.fit_transform(X_train)
    len_list = np.array([len(_) for _ in X_train]).reshape(-1,1) # Creamos este array para extender la matriz tfidf
    dig_list = np.array([digit_count(_) for _ in X_train]).reshape(-1,1)
    non_word_list = np.array([get_non_words(_) for _ in X_train]).reshape(-1,1)
    x_vector_new = sparse.hstack((x_vector, len_list))
    almost_new = sparse.hstack((x_vector_new, dig_list))
    x_vector_final = sparse.hstack((almost_new, non_word_list))
    
    lr = LogisticRegression(C = 100)
    lr.fit(x_vector_final, y_train)
    
    test_len = np.array([len(_) for _ in X_test]).reshape(-1,1)
    test_dig = np.array([digit_count(_) for _ in X_test]).reshape(-1,1)
    test_non_word = np.array([get_non_words(_) for _ in X_test]).reshape(-1,1)
    
    x_test_vector = vector.transform(X_test)
    x_test_vector = sparse.hstack((x_test_vector, test_len))
    x_test_vector = sparse.hstack((x_test_vector, test_dig))
    x_test_vector = sparse.hstack((x_test_vector, test_non_word))
    
    pred = lr.predict(x_test_vector)
    weights = lr.decision_function(x_vector_final)
    weights.sort()
    return roc_auc_score(y_test, pred), weights[:10], weights[-10:]

In [40]:
respuesta_10()

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


(0.9780231906694056,
 array([-20.80264029, -18.23397765, -18.20244179, -18.06020586,
        -18.05843282, -17.39323182, -17.31403965, -17.19804971,
        -17.11159151, -16.58443461]),
 array([24.76197841, 24.77268886, 25.09554606, 25.11621127, 25.13226832,
        25.97749762, 26.95930595, 28.82688043, 29.35643523, 29.35643523]))