# 10 - Ejercicio 2: Clasificación de textos con Scikit-Learn


* Este ejercicio es exactamente igual que el notebook "*09_Scikit_Clasificacion_Textos*" que consistia en clasificar una serie de Tweets en Ingles sobre críticas a los productos de Apple.


* Estos tweets estan clasificados como: *positivos*, *neutros* o *negativos*


* En esta caso vamos a realizar un cambio para ver si los resultados de clasificación mejoran o no respecto al notebook "*09_Scikit_Clasificacion_Textos*" y este cambio va a consistir en ***cambiar la bolsa de palabras de frecuencias a TF-IDF***


* ***El objetivo es ver si con este cambio los resultados obtenidos por los modelos generados son mejores, peores o iguales que los obtenidos anteriormente***


* Al igual que en el notebook "*09_Scikit_Clasificacion_Textos*" realizaremos los siguientes pasos:
    
    1. Carga de los datos (tweets)
    2. Normalización (en ingles) de los tweets
    3. ***Creacción de la Bolsa de Palabras*** - TODO -
    4. Particionado de Datos
    5. Creacción de modelos
        - Multinomial Naive Bayes
        - Bernoulli Naive Bayes
        - Regresion Logistica
        - Support Vector Machine
        - Random Forest
    6. Evaluación de los modelos

<hr>


## Carga de Datos


In [None]:
import pandas as pd
tweets_file = './data/Apple_Tweets.csv'
df = pd.read_csv(tweets_file, header=None)
tweets = [tuple(x) for x in df.values]
print('Número de Tweets Cargados: {num}'.format(num=len(tweets)))

<hr>


## Normalización

* Para ***normalizar*** los tweets realizaremos las siguientes acciones:
    1. Pasamos las frases a minúsculas.
    2. Eliminamos los signos de puntuación.
    3. Eliminamos las palabras con menos de 3 caracteres.
    4. Eliminamos las Stop-Words.
    5. Eliminamos las palabras que empiecen por '@' o 'http'.
    6. Pasamos la palabra a su lema


In [None]:
import spacy
nlp = spacy.load('es')

# Divido los datos en dos listas 
#     X: los tweets
#     y: target (polaridad)

X = [doc[0] for doc in tweets]
y = [doc[1] for doc in tweets]

def normalize(sentenses):
    """normalizamos la lista de frases y devolvemos la misma lista de frases normalizada"""
    for index, sentense in enumerate(sentenses):
        sentense = nlp(sentense.lower()) # Paso la frase a minúsculas y a un objeto de la clase Doc de Spacy
        sentenses[index] = " ".join([word.lemma_ for word in sentense if (not word.is_punct)
                                     and (len(word.text) > 2) and (not word.is_stop) 
                                     and (not word.text.startswith('@')) and (not word.text.startswith('http'))])
    return sentenses

# Normalizamos las frases
X = normalize(X)

<hr>


## Bolsa de Palabras - EJERCICIO -


* En este punto hay que construir la bolsa de palabras con el TF-IDF (Ver notebook: "*05_Bag_of_Words_BoW*")


* Al igual que la implementación de la clase "*CountVectorizer*", la clase "*TfidfVectorizer*" también permite quedarnos con las palabras más relevantes, utilizando los dos parámetros que son:
    - **max_features**: Con este parámetro le indicamos que nos seleccione la '*X*' palabras más frecuentes del corpus. En este ejemplo **seleccionaremos las 1000 más frecuentes**.
    - **min_df**: Con este parámetro le indicamos el número mínimo de documentos en la que tiene que aparecer la palabra para que se incluya en la bolsa de palabras. En este ejemplo **seleccionaremos 3 documentos** (tweets).
    

* ***NOTA***: para más información podéis mirar la documentación de la clase "*TfidfVectorizer*" en: https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html
    

In [None]:
# TODO

<hr>


## Particionado de Datos (Train y Test)

* Particionamos de la siguiente manera:

    - 80% de datos de entrenamiento
    - 20% de datos de test

In [None]:
from sklearn.model_selection import train_test_split  

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

print('Número de Tweets para el entrenamiento: {num}'.format(num=X_train.shape[0]))
print('Número de Tweets para el test: {num}'.format(num=X_test.shape[0]))

<hr>


## Creacción de los Modelos


* Para este ejercicio vamos a usar los siguientes algoritmos de aprendizaje:

    - Multinomial Naive Bayes
    - Bernoulli Naive Bayes
    - Regresion Logistica
    - Support Vector Machine
    - Random Forest


In [None]:
from sklearn.naive_bayes import MultinomialNB, BernoulliNB
from sklearn.linear_model import LogisticRegression
from sklearn.svm import LinearSVC
from sklearn.ensemble import RandomForestClassifier

mnb = MultinomialNB()
bnb = BernoulliNB()
lr = LogisticRegression(solver='lbfgs', multi_class='multinomial', max_iter=1000)
svm = LinearSVC()
rf = RandomForestClassifier(max_depth=50, n_estimators=20, max_features=5)

clasificadores = {'Multinomial Naive Bayes': mnb,
                  'Bernoulli Naive Bayes': bnb,
                  'Regresion Logistica': lr,
                  'Support Vector Machine': svm,
                  'Random Forest': rf}


# Ajustamos los modelos y calculamos el accuracy para los datos de entrenamiento
for k, v in clasificadores.items():
    print ('CREANDO MODELO: {clas}'.format(clas=k))
    v.fit(X_train, y_train)
    accuracy_train = v.score(X_train, y_train)
    print ('\tAccuracy Train: {acc_train}'.format(acc_train=accuracy_train)) 

<hr>


## Evaluación del Modelo


* Para cada uno de los modelos vamos a calcular las siguientes métricas de evaluación:

    1. **Accuracy**
    2. **F1**
    3. **Precision**
    4. **Recall**

In [None]:
from sklearn.metrics import accuracy_score, f1_score, precision_score, recall_score

evaluacion = list()
for k, v in clasificadores.items():
    print ('EVALUANDO MODELO: {model}'.format(model=k))
    model = {}
    model['name'] = k
    y_pred = v.predict(X_test)
    model['accuracy'] = accuracy_score(y_true=y_test, y_pred=y_pred)
    model['f1'] = f1_score(y_true=y_test, y_pred=y_pred, average='weighted')
    model['precision'] = precision_score(y_true=y_test, y_pred=y_pred, average='weighted')
    model['recall'] = recall_score(y_true=y_test, y_pred=y_pred, average='weighted')
    evaluacion.append(model)

# Pasamos los resultados a un DataFrame para visualizarlos mejor
df = pd.DataFrame.from_dict(evaluacion)
df.set_index("name", inplace=True)
df.head()