# Extracción de características textuales

Documentación: https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html#sklearn.feature_extraction.text.CountVectorizer

In [5]:
from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer()
vectorizer

CountVectorizer(analyzer='word', binary=False, decode_error='strict',
                dtype=<class 'numpy.int64'>, encoding='utf-8', input='content',
                lowercase=True, max_df=1.0, max_features=None, min_df=1,
                ngram_range=(1, 1), preprocessor=None, stop_words=None,
                strip_accents=None, token_pattern='(?u)\\b\\w\\w+\\b',
                tokenizer=None, vocabulary=None)

In [6]:
corpus = [
    'This is the first document.',
    'This is the second second document.',
    'And the third one.',
    'Is this the first document?',
]
X = vectorizer.fit_transform(corpus)
X

<4x9 sparse matrix of type '<class 'numpy.int64'>'
	with 19 stored elements in Compressed Sparse Row format>

In [7]:
X.shape # dimensiones de la matriz: cantidad de documento x características

(4, 9)

In [8]:
# Nombre de las características
vectorizer.get_feature_names()

['and', 'document', 'first', 'is', 'one', 'second', 'the', 'third', 'this']

In [9]:
X.toarray() # matriz

array([[0, 1, 1, 1, 0, 0, 1, 0, 1],
       [0, 1, 0, 1, 0, 2, 1, 0, 1],
       [1, 0, 0, 0, 1, 0, 1, 1, 0],
       [0, 1, 1, 1, 0, 0, 1, 0, 1]], dtype=int64)

In [10]:
# Nombre de las características e índice de la columna se almacena en el atributo vocabulary_ del vectorizador
vectorizer.vocabulary_

# vectorizer.vocabulary_.get('document') # acceso al índice de la columna del token específico

{'this': 8,
 'is': 3,
 'the': 6,
 'first': 2,
 'document': 1,
 'second': 5,
 'and': 0,
 'third': 7,
 'one': 4}

In [11]:
# las palabras que no se vieron en el corpus de entrenamiento 
# se ignorarán por completo en futuras llamadas al método de transformación

vectorizer.transform(['Something completely new.']).toarray()

array([[0, 0, 0, 0, 0, 0, 0, 0, 0]], dtype=int64)

In [12]:
bigram_vectorizer = CountVectorizer(ngram_range=(1, 2),token_pattern=r'\b\w+\b', min_df=1)
X_2 = bigram_vectorizer.fit_transform(corpus).toarray()

print(X_2.shape, '\n')

print(bigram_vectorizer.vocabulary_, '\n')

print(X_2)

(4, 21) 

{'this': 18, 'is': 5, 'the': 12, 'first': 3, 'document': 2, 'this is': 19, 'is the': 6, 'the first': 13, 'first document': 4, 'second': 9, 'the second': 14, 'second second': 11, 'second document': 10, 'and': 0, 'third': 16, 'one': 8, 'and the': 1, 'the third': 15, 'third one': 17, 'is this': 7, 'this the': 20} 

[[0 0 1 1 1 1 1 0 0 0 0 0 1 1 0 0 0 0 1 1 0]
 [0 0 1 0 0 1 1 0 0 2 1 1 1 0 1 0 0 0 1 1 0]
 [1 1 0 0 0 0 0 0 1 0 0 0 1 0 0 1 1 1 0 0 0]
 [0 0 1 1 1 1 0 1 0 0 0 0 1 1 0 0 0 0 1 0 1]]


In [13]:
bigram_vectorizer.get_feature_names()

['and',
 'and the',
 'document',
 'first',
 'first document',
 'is',
 'is the',
 'is this',
 'one',
 'second',
 'second document',
 'second second',
 'the',
 'the first',
 'the second',
 'the third',
 'third',
 'third one',
 'this',
 'this is',
 'this the']

In [14]:
feature_index = bigram_vectorizer.vocabulary_.get('is this')
X_2[:, feature_index]

array([0, 0, 0, 1], dtype=int64)

In [15]:
# TfidfVectorizer

from sklearn.feature_extraction.text import TfidfVectorizer

tfidf_vect = TfidfVectorizer()
X_train_tfidf=tfidf_vect.fit_transform(corpus)

print(X_train_tfidf.shape)
print(tfidf_vect.get_feature_names())
print(X_train_tfidf.toarray())

(4, 9)
['and', 'document', 'first', 'is', 'one', 'second', 'the', 'third', 'this']
[[0.         0.43877674 0.54197657 0.43877674 0.         0.
  0.35872874 0.         0.43877674]
 [0.         0.27230147 0.         0.27230147 0.         0.85322574
  0.22262429 0.         0.27230147]
 [0.55280532 0.         0.         0.         0.55280532 0.
  0.28847675 0.55280532 0.        ]
 [0.         0.43877674 0.54197657 0.43877674 0.         0.
  0.35872874 0.         0.43877674]]


# Clasificación de textos

En esta clase, exploraremos datos de mensajes de texto y crearemos modelos para predecir si un mensaje es spam o no.

In [16]:
import pandas as pd
import numpy as np

spam_data = pd.read_csv('spam.csv')
#conjunto de entrenamiento
spam_data['target'] = np.where(spam_data['target']=='spam',1,0)
spam_data.head(10)

Unnamed: 0,text,target
0,"Go until jurong point, crazy.. Available only ...",0
1,Ok lar... Joking wif u oni...,0
2,Free entry in 2 a wkly comp to win FA Cup fina...,1
3,U dun say so early hor... U c already then say...,0
4,"Nah I don't think he goes to usf, he lives aro...",0
5,FreeMsg Hey there darling it's been 3 week's n...,1
6,Even my brother is not like to speak with me. ...,0
7,As per your request 'Melle Melle (Oru Minnamin...,0
8,WINNER!! As a valued network customer you have...,1
9,Had your mobile 11 months or more? U R entitle...,1


In [17]:
from sklearn.model_selection import train_test_split

# dividir el corpus en un conjunto de entrenamiento 75% y uno de prueba 25% por default 
X_train, X_test, y_train, y_test = train_test_split(spam_data['text'],
                                                    spam_data['target'],
                                                    random_state=0)

¿Qué porcentaje de los documentos en `spam_data` son spam?

*Esta función debe devolver un valor flotante, el valor porcentual (es decir, $ ratio * 100 $).*

In [18]:
def respuesta_uno():
    # spam_data['target'].mean() # extrae la media
    spam=spam_data[spam_data['target'] != 0]
    print(len(spam), len(spam_data), len(spam)*100/len(spam_data))
    return spam_data['target'].mean()*100

In [19]:
respuesta_uno()

747 5572 13.406317300789663


13.406317300789663

Ajustar y transformar los datos de entrenamiento `X_train` utilizando un `count_vectorizer` con parámetros predeterminados.

Luego, ajuste un modelo de clasificación Naive Bayes multinomial con suavizado (smoothing) `alpha = 0.1`. Encuentre el área bajo la curva (AUC) usando los datos de prueba transformados.

*Esta función debe devolver además: accuracy, AUC y F1 como un flotante.*

In [33]:
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score, roc_auc_score, f1_score #son metricas - area debajo de la curva roc

def respuesta_dos():
    vect = CountVectorizer().fit(X_train)
    X_train_vectorized = vect.transform(X_train)
    
    clf1 = MultinomialNB()
    clf2 = MultinomialNB(alpha=0.1)
    
    clf1.fit(X_train_vectorized, y_train) # ajusta al calificador 1
    clf2.fit(X_train_vectorized, y_train) # ajusta al calificador 2
    
    X_test_vectorized = vect.transform(X_test)
    
    predictions1 = clf1.predict(X_test_vectorized) # funcion para predecir 1
    predictions2 = clf2.predict(X_test_vectorized) # funcion para predecir 2
    
    print('Predicciones y resultados del clasificador 1')
    print('Predicciones', predictions1)
    # métricas para verificar que tanto es el calificador es correcto
    print( 'Accuracy', accuracy_score(y_test, predictions1) )
    print( 'AUC', roc_auc_score(y_test, predictions1) )
    print( 'F1', f1_score(y_test, predictions1) )
    
    print('\n')
    
    print('Predicciones y resultados del clasificador 2')
    print('Predicciones', predictions2)
    # métricas para verificar que tanto es el calificador es correcto
    print( 'Accuracy', accuracy_score(y_test, predictions2) )
    print( 'AUC', roc_auc_score(y_test, predictions2) )
    print( 'F1', f1_score(y_test, predictions2) )
    

In [34]:
respuesta_dos()

Predicciones y resultados del clasificador 1
Predicciones [0 0 0 ... 0 0 1]
Accuracy 0.9863603732950467
AUC 0.9581366823421557
F1 0.9501312335958005


Predicciones y resultados del clasificador 2
Predicciones [0 0 0 ... 0 0 1]
Accuracy 0.9921033740129217
AUC 0.9720812182741116
F1 0.9712793733681463


Ajustar y transformar los datos de entrenamiento `X_train` utilizando un `TfidfVectorizer` ignorando los términos que tienen una frecuencia de documento estrictamente inferior a **3**.

Luego, ajuste un modelo de clasificador Naive Bayes multinomial con suavizado (smoothing) `alfa = 0.1` y calcule el área bajo de la curva (AUC) usando los datos de prueba transformados.

*Esta función debe devolver el F1 como un flotante.*

In [35]:
def respuesta_tres():
    vect = TfidfVectorizer(min_df=3).fit(X_train)
    X_train_vectorized = vect.transform(X_train)
    
    clf1=MultinomialNB()
    clf2=MultinomialNB(alpha=0.1)
    
    clf1.fit(X_train_vectorized, y_train) #ajusta al calificador 1
    clf2.fit(X_train_vectorized, y_train) #ajusta al calificador 2
    
    X_test_vectorized = vect.transform(X_test)
    
    predictions1 = clf1.predict(X_test_vectorized)
    predictions2 = clf2.predict(X_test_vectorized)
    
    print( 'Clasificador 1 - Métrica F1', f1_score(y_test, predictions1) )
    print( 'Clasificador 2 - Métrica F1', f1_score(y_test, predictions2) )
    

In [36]:
respuesta_tres()

Clasificador 1 - Métrica F1 0.8806818181818182
Clasificador 2 - Métrica F1 0.9380053908355795


<br>
<br>
The following function has been provided to help you combine new features into the training data:

In [37]:
def add_feature(X, feature_to_add):
    """
    Returns sparse feature matrix with added feature.
    feature_to_add can also be a list of features.
    """
    from scipy.sparse import csr_matrix, hstack
    return hstack([X, csr_matrix(feature_to_add).T], 'csr')

Ajustar y transformar los datos de entrenamiento `X_train` usando un `TfidfVectorizer` ignorando los términos que tienen una frecuencia de documento estrictamente inferior a **5**.

Usando esta matriz de término de documento y una característica adicional, **la longitud del documento (número de caracteres)**, ajustar a un modelo de Clasificación de Vector de Soporte con regularización `C = 10000`.

*Esta función debe devolver el F1 como un flotante.*

In [38]:
from sklearn.svm import SVC, LinearSVC

def respuesta_cinco():
    vect = TfidfVectorizer(min_df=5).fit(X_train)
    X_train_vectorized = vect.transform(X_train)
    
    num_chars = X_train.str.len()
    
    print(X_train_vectorized.shape)
    X_train_vectorized = add_feature(X_train_vectorized, num_chars)
    print(X_train_vectorized.shape)
    
    model = SVC(C=10000, random_state=0)
    modelLin = LinearSVC(C=10000, random_state=0)
    
    model.fit(X_train_vectorized, y_train)   
    modelLin.fit(X_train_vectorized, y_train)  
    
    X_test_vectorized = vect.transform(X_test)
    num_charsTest = X_test.str.len()
    X_test_vectorized = add_feature(X_test_vectorized, num_charsTest)
    
    predictions = model.predict(X_test_vectorized)
    predictionsLin = modelLin.predict(X_test_vectorized)
    
    return f1_score(y_test, predictions), f1_score(y_test, predictionsLin)

In [39]:
respuesta_cinco()

(4179, 1468)
(4179, 1469)




(0.9501312335958005, 0.8656716417910447)

Ajustar y transformar los datos de entrenamiento `X_train` usando un `TfidfVectorizer` ignorando los términos que tienen una frecuencia de documento estrictamente inferior a **5** y usando **n-grams de palabras n = 1 a n = 3** (unigramas, bigramas y trigramas).

Usando esta matriz de término-documento y las siguientes características adicionales:
* la longitud del documento (número de caracteres)
* **cantidad de dígitos por documento**

Ajustar un modelo de Regresión logística con regularización `C = 100`.

*Esta función debe devolver el F1 como un flotante.*

In [40]:
from sklearn.linear_model import LogisticRegression

def respuesta_seis():    
    vect = TfidfVectorizer(min_df=5, ngram_range=(1,3)).fit(X_train)
    X_train_vectorized = vect.transform(X_train)
    num_chars = X_train.str.len()
    num_digits = X_train.str.count('\d')
    X_train_vectorized = add_feature(X_train_vectorized, num_chars)
    X_train_vectorized = add_feature(X_train_vectorized, num_digits)
    model = LogisticRegression(C=100)
    model.fit(X_train_vectorized, y_train)
    
    X_test_vectorized = vect.transform(X_test)
    num_charsTest = X_test.str.len()
    num_digitsTest = X_test.str.count('\d')
    X_test_vectorized = add_feature(X_test_vectorized, num_charsTest)
    X_test_vectorized = add_feature(X_test_vectorized, num_digitsTest)    
    
    predictions = model.predict(X_test_vectorized)
    return f1_score(y_test, predictions)

In [41]:
respuesta_seis()



0.9558441558441558

## Más ejercicios!!!

### Ejercicio 7

Ajuste los datos de entrenamiento `X_train` utilizando un `count_vectorizer` con parámetros predeterminados.

¿Cuál es el token más largo en el vocabulario?

*Esta función debería devolver una cadena.*

In [22]:
from sklearn.feature_extraction.text import CountVectorizer

def respuesta_siete():
    vect = CountVectorizer().fit(X_train) # ajuste a partir del conjunto de entrenamiento
    
    ''''''

In [23]:
respuesta_siete()

### Ejercicio 8

¿Cuál es la longitud promedio de los documentos (número de caracteres) para los documentos spam y no spam?

*Esta función debe devolver una tupla (longitud promedio no spam, longitud promedio de spam).*

In [28]:
def respuesta_ocho():    
    
    ''''''

In [29]:
respuesta_ocho()

### Ejercicio 9

¿Cuál es el número promedio de dígitos por documento para los documentos no spam y spam?

*Esta función debe devolver una tupla (promedio de # dígitos no es spam, promedio # dígitos spam).*

In [39]:
def respuesta_nueve():
    
    ''''''

In [40]:
respuesta_nueve()

### Ejercicio 10

¿Cuál es el número promedio de caracteres que no son palabras (cualquier cosa que no sea una letra, un dígito o un guión bajo) por documento para los documentos que no son spam y spam?

*Sugerencia: utilice las clases de caracteres `\ w` y` \ W`*

*Esta función debe devolver una tupla (promedio de # caracteres que no son palabras, no spam, promedio de # caracteres que no son palabras, spam).*

In [41]:
def respuesta_diez():
    
    ''''''

In [42]:
respuesta_diez()

### Ejercicio 11

Ajustar y transformar los datos de entrenamiento `X_train` usando un `CountVectorizer` ignorando los términos que tienen una frecuencia de documento estrictamente inferior a **5** y utilizando **caracteres n-grams desde n = 2 a n = 5.**

Para decirle a `CountVectorizer` que use caracteres n-grams, pase en `analyzer = 'char_wb'` que crea caracteres n-gramas solo del texto dentro de los límites de las palabras. Esto debería hacer que el modelo sea más robusto a los errores ortográficos.

Usando esta matriz término documento y las siguientes características adicionales:
* la longitud del documento (número de caracteres)
* cantidad de dígitos por documento
* **cantidad de caracteres que no son palabras (cualquier cosa que no sea una letra, dígito o guión bajo).**

Ajustar un modelo de Regresión logística con regularización `C = 100`. Luego calcule el área bajo de la curva (AUC) usando los datos de prueba transformados.

También **encuentre los 10 coeficientes más pequeños y los 10 más grandes del modelo** y devuélvalos junto con el AUC en una tupla.

La lista de los 10 coeficientes más pequeños debe ordenarse primero, la lista de los 10 coeficientes más grandes debe ordenarse primero.

Las tres características que se agregaron a la matriz de términos del documento deben tener los siguientes nombres si aparecen en la lista de coeficientes:
['length_of_doc', 'digit_count', 'non_word_char_count']

*Esta función debe devolver una tupla `(AUC como flotante, lista de coeficientes más pequeños, lista de coeficientes más grande)`.*

In [43]:
def respuesta_once():    
    
    ''''''

In [44]:
respuesta_once()