# Auxiliar 1 


----------------------------------

## Objetivo del Auxiliar

Introducirlos en los primeros temas y herramientas comunes de NLP.

Para esto, implementaremos variados modelos de clasificación de texto destinadas a ** predecir la categoría de noticias de la radio biobio**.

Las tecnicas que usaremos serán las vistas en clases: 

- Tokenización, Stemming, Lematización y eliminación de bag of words
- Bag of Words
- Bayes 
- Logistic regression 

Las herramientas que usaremos son (y qué serán **necesarias** para ejecutar este notebook): 

- Pandas
- Scikit-Learn
- Spacy
- NLTK

El auxiliar se encuentra tanto en el [github](https://github.com/dccuchile/CC6205/tree/master/tutorials) del curso, como en un colab de google. 

Para correr localmente el auxiliar, se recomienda instalar todos los paquetes usando anaconda

## Importar las librerías

In [1]:
import pandas as pd    
import spacy
import nltk

from sklearn.feature_extraction.text import CountVectorizer  
from sklearn.pipeline import Pipeline, FeatureUnion
from sklearn.naive_bayes import MultinomialNB
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix, f1_score, classification_report
from sklearn.feature_extraction.text import TfidfVectorizer

from nltk.stem import SnowballStemmer
from spacy.lang.es.stop_words import STOP_WORDS

nlp = spacy.load("es_core_news_sm", disable=['ner', 'parser', 'tagger'])
nltk.download('punkt')

ModuleNotFoundError: No module named 'spacy'

## Preprocesamiento del texto

En esta sección, cargaremos y los procesaremos el dataset de textos con el fin de representar de buena manera los datos para las tareas que debemos realizar. En esta, utilizaremos las siguientes técnicas: 

- Tokenización
- Eliminación de Stopwords
- Stemming
- Lematización
- Transformación de Tokens a Bag of Words

### Cargar los datasets 



Los datos que usaremos son 5 conjuntos de noticias extraidos de la radio biobio.
Cada categoría contiene 200 documentos (noticias). 

Los cargaremos utilizando la librería pandas: 


In [3]:
nacional = pd.read_json("https://raw.githubusercontent.com/dccuchile/CC6205/master/tutorials/datasets/biobio_nacional.json", encoding ='utf-8')
internacional = pd.read_json("https://raw.githubusercontent.com/dccuchile/CC6205/master/tutorials/datasets/biobio_internacional.json", encoding ='utf-8')
economia = pd.read_json("https://raw.githubusercontent.com/dccuchile/CC6205/master/tutorials/datasets/biobio_economia.json", encoding ='utf-8')
sociedad = pd.read_json("https://raw.githubusercontent.com/dccuchile/CC6205/master/tutorials/datasets/biobio_sociedad.json", encoding ='utf-8')
opinion = pd.read_json("https://raw.githubusercontent.com/dccuchile/CC6205/master/tutorials/datasets/biobio_opinion.json", encoding ='utf-8')

datasets = [nacional, internacional, economia, sociedad, opinion]
dataset = pd.concat(datasets)

#### Vizualizar que es lo que cargamos

In [4]:
# Por ejemplo, examinemos las columnas del dataset de noticias de la categoría sociedad 
# (Todos los datasets tienen el mismo formato)
sociedad.describe()

Unnamed: 0,publication_date,publication_hour,author,author_link,title,link,category,subcategory,content,tags,embedded_links
count,200,200,200,200,200,200,200,200,200.0,200,200
unique,42,167,13,13,200,200,1,1,196.0,191,3
top,26/06/2019,16:45,César Vega Martínez,/lista/autores/cevega,Mujer fue detenida en EEUU: habría obligado a ...,https://www.biobiochile.cl/noticias/sociedad/d...,Sociedad,Sociedad,,[],[]
freq,10,3,78,78,1,1,200,200,5.0,9,198


#### Ejemplo de noticia de categoría sociedad: 

In [5]:
# Extraigamos una noticia de ejemplo desde el dataset
sample = sociedad.iloc[19:20]

In [6]:
sample

Unnamed: 0,publication_date,publication_hour,author,author_link,title,link,category,subcategory,content,tags,embedded_links
19,02/08/2019,15:08,Emilio Contreras,/lista/autores/Econtreras,Chile deja de utilizar 16.170 toneladas de bol...,https://www.biobiochile.cl/noticias/sociedad/d...,Sociedad,Sociedad,Chile dejó de utilizar 16.170 toneladas de b...,"[#16.170 toneladas, #balance, #bolsas plástica...",[]


In [7]:
# Extraemos el contenido y la categoría de la noticia seleccionada.
sample_content = sample.content.values[0]
sample_category = sample.category.values[0]

In [8]:
print("Contenido:\n\n", sample_content.strip(),
      "\n\nClase Correspondiente:\n\n", sample_category)

Contenido:

 Chile dejó de utilizar 16.170 toneladas de bolsas plásticas desde que hace un año implementó una ley que prohíbe su entrega en supermercados y retails, informó este viernes el ministerio del Medio Ambiente.  Tras un periodo de prueba de seis meses, el gobierno chileno puso en vigencia en agosto del año pasado la ley que evitó el consumo de unas 2.200 millones de bolsas plásticas, una reducción significativa tomando en cuenta que, hasta la promulgación de la norma, Chile producía 3.200 millones de bolsas anuales .  “Si consideramos el peso de estas bolsas que se dejaron de entregar, unas 16.170 toneladas, equivalen a 13.940 autos”, indicó el ministerio en un comunicado.  Desde la puesta en marcha de la norma, los chilenos asumieron el hábito de utilizar bolsas reutilizables, de tela o material reciclable, lo cual ha colaborado en reducir la contaminación que producen los sacos plásticos principalmente en los océanos, en los que yacen unos 13 millones de toneladas de plástic

### Tokenizar

¿Qué era tokenizar?

    In computer science, lexical analysis, lexing or tokenization is the process of converting a sequence of characters (such as in a computer program or web page) into a sequence of tokens (strings with an assigned and thus identified meaning).
    
Referencia: [Tokenización en wikipedia](https://en.wikipedia.org/wiki/Lexical_analysis#Tokenization)



#### spaCy y el objeto nlp

`nlp` es el objeto que nos permite usar e interactuar con la librería [`spacy`](https://spacy.io/).
Esta librería incluye variadas herramientras, tales como tokenizar, lematizar, descartar stopwords, entre otras (para este auxiliar, solo utilizaremos las mencionadas). El objeto nlp lo instanciamos en la sección de imports.

Para usarla, simplemente se le pasa el texto como parámetro, como veremos en el siguiente ejemplo: 

In [9]:
for word in nlp("hola gentíl ciudadano, ¿qué tal?"):
    print(word)

hola
gentíl
ciudadano
,
¿
qué
tal
?


#### Tokenizemos la noticia de ejemplo: 

In [10]:
tokenized_content = [word.text for word in nlp(sample_content)]

Observación: 

    tokenized_content = [word.text for word in nlp(sample_content)] 

Equivale a :

    tokenized_content = []
    for word in nlp(sample_content):
        tokenized_content.append(word.text)



Examinemos como quedó el texto tokenizado:

In [11]:
pd.DataFrame(tokenized_content)[0:10]

Unnamed: 0,0
0,
1,Chile
2,dejó
3,de
4,utilizar
5,16.170
6,toneladas
7,de
8,bolsas
9,plásticas


Que es básicamente, un arreglo (o vector) con las palabras:

In [12]:
tokenized_content[1:10]

['Chile',
 'dejó',
 'de',
 'utilizar',
 '16.170',
 'toneladas',
 'de',
 'bolsas',
 'plásticas']

### Stopwords 

¿Qué eran las stopwords?

    In computing, stop words are words which are filtered out before or after processing of natural language data (text).[1] Stop words are generally the most common words in a language, there is no single universal list of stop words used by all natural language processing tools, and indeed not all tools even use such a list. Some tools avoid removing stop words to support phrase search. 
    
Referencias: [Stopwords en Wikipedia](https://en.wikipedia.org/wiki/Stop_words)

En este caso, utilizaremos las stopwords inlcuidas en la librería spaCy en español

In [13]:
len(STOP_WORDS)

551

In [14]:
pd.DataFrame(STOP_WORDS).sample(10)

Unnamed: 0,0
95,general
69,cosas
13,supuesto
98,trabaja
253,solos
268,buenas
480,mío
306,aún
196,poca
50,soyos


#### Remover las stopwords

In [15]:
tokenized_content_no_stop_words = [
    token for token in tokenized_content if token not in STOP_WORDS
]

In [16]:
pd.DataFrame(zip(tokenized_content, tokenized_content_no_stop_words),
             columns=['original', 'no stopwords'])[1:10]

Unnamed: 0,original,no stopwords
1,Chile,Chile
2,dejó,utilizar
3,de,16.170
4,utilizar,toneladas
5,16.170,bolsas
6,toneladas,plásticas
7,de,año
8,bolsas,implementó
9,plásticas,ley


### Stemming

¿Qué era el stemming? 

    Stemming is the process of reducing inflected (or sometimes derived) words to their word stem, base or root form—generally a written word form.
    
Referencia: [Stemming en Wikipedia](https://en.wikipedia.org/wiki/Stemming)
  
#### Ejemplos: 


| word | stem of the word  |
|---|---|
working | work
worked | work
works | work

#### nltk

En este caso, utilizaremos la segunda librería de herramientas de nlp: [`nltk`](https://www.nltk.org/). Esta provee una buena herramienta para hacer stemming en español : `SnowballStemmer`

In [17]:
stemmer = SnowballStemmer('spanish')
stemmed_content = [stemmer.stem(word) for word in tokenized_content]

In [18]:
pd.DataFrame(zip(tokenized_content, stemmed_content),
             columns=['original', 'stem'])[1:10]

Unnamed: 0,original,stem
1,Chile,chil
2,dejó,dej
3,de,de
4,utilizar,utiliz
5,16.170,16.170
6,toneladas,tonel
7,de,de
8,bolsas,bols
9,plásticas,plastic


### Lematización

¿Qué era lematización? 

    
    Lemmatisation (or lemmatization) in linguistics is the process of grouping together the inflected forms of a word so they can be analysed as a single item, identified by the word's lemma, or dictionary form.[
    
    
Referencia: [Lematización en wikipedia](https://en.wikipedia.org/wiki/Lemmatisation)
    
#### Ejemplos

| word | lemma  |
|---|---|
dije| decir 
guapas | guapo
mesa | mesas


#### Lematizar el texto

Al igual que la tokenización, utilizaremos `scpaCy` (a través del objeto `nlp`) para lematizar el contenido.

In [19]:
lemmatized_content = [word.lemma_ for word in nlp(sample_content)]

In [20]:
# Visualizar la lematización
pd.DataFrame(zip(tokenized_content, lemmatized_content),
             columns=['original', 'lemma'])[1:10]

Unnamed: 0,original,lemma
1,Chile,Chile
2,dejó,dejar
3,de,de
4,utilizar,utilizar
5,16.170,16.170
6,toneladas,tonelada
7,de,de
8,bolsas,bolsa
9,plásticas,plástico


### Comparativa entre stemming y lematizar

Discusión: 

    ¿Cuál es mejor?

In [21]:
pd.DataFrame(zip(tokenized_content, stemmed_content, lemmatized_content),
             columns=['original', 'stem', 'lemma'])[1:15]

Unnamed: 0,original,stem,lemma
1,Chile,chil,Chile
2,dejó,dej,dejar
3,de,de,de
4,utilizar,utiliz,utilizar
5,16.170,16.170,16.170
6,toneladas,tonel,tonelada
7,de,de,de
8,bolsas,bols,bolsa
9,plásticas,plastic,plástico
10,desde,desd,desde


### Bag of Words (BoW)

¿Qué es?


    
    The bag-of-words model is a simplifying representation used in natural language processing and information retrieval (IR). In this model, a text (such as a sentence or a document) is represented as the bag (multiset) of its words 
    
Referencia: [BoW en wikipedia](https://en.wikipedia.org/wiki/Bag-of-words_model)

### Ejemplo

- Doc1 : 'I love dogs'
- Doc2: 'I hate dogs and knitting.
- Doc3: 'Knitting is my hobby and my passion.

![BOW](https://i1.wp.com/datameetsmedia.com/wp-content/uploads/2017/05/bagofwords.004.jpeg)

### scikit-learn y CountVectorizer

Para transformar los tokens al modelo `bag of words (BoW)` usaremos la librería [`scikit-learn`](https://scikit-learn.org/stable/), específicamente, la clase [`CountVectorizer`](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html).

Esta requiere que definamos tokenizadores. Es decir, funciones que tomen un documento y lo retornen como una lista de palabras. 

En los tokenizadores podemos definir si dejar o quitar stopwords, lematizar, hacer stemming, entre otras.

#### Tokenizadores para CountVectorizer

In [22]:
# Tokenizers for CountVectorizer


# Solo tokenizar el doc.
def tokenizer(doc):
    return [x.orth_ for x in nlp(doc)]


# Tokenizar y remover las stopwords del doc
def tokenizer_with_stopwords(doc):
    return [x.orth_ for x in nlp(doc) if x.orth_ not in STOP_WORDS]


# Tokenizar y lematizar.
def tokenizer_with_lemmatization(doc):
    return [x.lemma_ for x in nlp(doc)]


# Tokenizar y hacer stemming.
def tokenizer_with_stemming(doc):
    stemmer = SnowballStemmer('spanish')
    return [stemmer.stem(word) for word in [x.orth_ for x in nlp(doc)]]

In [23]:
# Instanciamos CountVectorizer con el tokenizador seleccionado. 
# Definimos si queremos n-gramas en el último parámetro.
vectorizer = CountVectorizer(analyzer='word',
                             tokenizer=tokenizer,
                             ngram_range=(1, 1))

# Extraemos 4 noticias desde opinion y se la entregamos al vectorizador para que las transforme a vectores BoW.
bow = vectorizer.fit_transform(opinion.sample(4).content)

# Examinamos el primero
bow[0]

<1x574 sparse matrix of type '<class 'numpy.int64'>'
	with 153 stored elements in Compressed Sparse Row format>

In [24]:
#vectorizer.vocabulary_

In [25]:
# Visualizemos el BoW generado para este caso
bow[0].toarray()[0][0:10]

array([ 6,  2,  1,  1,  1,  1, 13,  0,  8,  1], dtype=int64)

## Clasificación de Texto

### ¿En qué consiste la clasificación de texto?

Según [wikipedia](https://en.wikipedia.org/wiki/Document_classification): 

    "The task is to assign a document to one or more classes or categories"


Algunos ejemplos:

- Assigning subject categories, **topics**, or genres
- Spam detection 
- Authorship identification
- Age/gender identification
- Language Identification
- Sentiment analysis
- ...

### Definición formal

Input:
- A document    $d$
- A fixed set of classes $C=\{c_{1},    c_{2},...,    c_{J}\}$

Output:    

- A predicted class $c \in C$

### Tipos de técnicas de clasificación: 

- Hand-coded Rules. (No se verán en este aux).
- Supervised Machine Learning: 
    - Naïve Bayes
    - Logistic regression
    - Support vector machines
    - Muchos mas

### Procesar los datasets

Seleccionar solo las columnas relevantes y divider en conjuntos de entrenamiento y de prueba.

In [26]:
def process_datasets(dataset):
    X_train, X_test, y_train, y_test = train_test_split(dataset.content, dataset.category, test_size=0.33, random_state=42)
    
    return X_train, X_test, y_train, y_test

In [27]:
X_train, X_test, y_train, y_test = process_datasets(dataset)

### Clasificación de tópicos de noticias con Naive Bayes


¿Qué es?

    In machine learning, naive Bayes classifiers are a family of simple "probabilistic classifiers" based on applying Bayes' theorem with strong (naive) independence assumptions between the features. 

- Simple (“naïve”) classification method based on Bayes rule that relies on very simple representation of document: *Bag of words*:

Given a problem instance to be classified, represented by a vector $x =(x_{1},\dots ,x_{n})$ representing some n features (independent variables), it assigns to this instance probabilities:

$$ p(C_k | x_1, \dots, x_n) $$

or each of $K$ possible outcomes or classes $ C_{k}$.


Using Bayes' theorem, the conditional probability can be decomposed as 

$$ p(C_k | x ) = \frac{p (C_k) p(x | C_k)}{p(x)}$$

In plain english:

$$posterior = \frac{prior * likehood}{evidence} $$


#### En este caso...

$$ p(\ nacional\ |\  [0,0,3,0,6,0,2,\dots] ) = \frac{p (\ nacional\ )\ p([0,0,3,0,6,0,2,\dots]\ | \ nacional)}{p([0,0,3,0,6,0,2,\dots])}$$


Referencia : [Naive Bayes Classifier](https://en.wikipedia.org/wiki/Naive_Bayes_classifier)

Observación: Dado el supuesto de independencia del clasificador, no se deben utilizar n-gramas.


#### Establecer el Pipeline


Un [`pipeline`](https://scikit-learn.org/stable/modules/generated/sklearn.pipeline.Pipeline.html) es la definición del proceso que llevará a cabo el programa para preprocesarlo y despues clasificarlo. 
Puede tener múltiples etapas.

In [28]:
# Qué tokenizer usaremos?
TOKENIZER = tokenizer_with_lemmatization

# Definimos el vectorizador para convertir el texto a BoW:
vectorizer = CountVectorizer(analyzer='word', tokenizer = TOKENIZER, ngram_range=(1,1))  

# Definimos el clasificador que usaremos.
clf = MultinomialNB()   

# Definimos el pipeline
text_clf = Pipeline([('vect', vectorizer), ('clf', clf)])

#### Entrenar

Entrenamos el nuevo clasificador

In [29]:
text_clf.fit(X_train, y_train)

Pipeline(memory=None,
         steps=[('vect',
                 CountVectorizer(analyzer='word', binary=False,
                                 decode_error='strict',
                                 dtype=<class 'numpy.int64'>, encoding='utf-8',
                                 input='content', lowercase=True, max_df=1.0,
                                 max_features=None, min_df=1,
                                 ngram_range=(1, 1), preprocessor=None,
                                 stop_words=None, strip_accents=None,
                                 token_pattern='(?u)\\b\\w\\w+\\b',
                                 tokenizer=<function tokenizer_with_lemmatization at 0x000001F2C8991F28>,
                                 vocabulary=None)),
                ('clf',
                 MultinomialNB(alpha=1.0, class_prior=None, fit_prior=True))],
         verbose=False)

#### Evaluar

Evaluamos el rendimiento del clasificador que acabamos de entrenar, a traves de:

- [`Matriz de confusión`](https://es.wikipedia.org/wiki/Matriz_de_confusi%C3%B3n)
- [`Indice F1`](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.f1_score.html) (Puntaje, mientras mas alto mejor)

En la matriz de confusión: 

- `precision` is the number of correct results divided by the number of all returned results. 
- `recall` is the number of correct results divided by the number of results that should have been returned

In [30]:
predicted = text_clf.predict(X_test)

conf = confusion_matrix(y_test, predicted)
score = f1_score(y_test, predicted, average='macro') 
class_rep = classification_report(y_test, predicted)

print('\nConfusion Matrix for Logistic Regression + ngram features:')
print(conf)
print('\nClassification Report')
print(class_rep)
print('\nF1:'+str(score))



Confusion Matrix for Logistic Regression + ngram features:
[[62  0  3  5  0]
 [ 2 68  2  3  2]
 [ 1  0 41 15  1]
 [ 4  1  0 61  0]
 [ 1  6  0  4 48]]

Classification Report
               precision    recall  f1-score   support

     Economia       0.89      0.89      0.89        70
Internacional       0.91      0.88      0.89        77
     Nacional       0.89      0.71      0.79        58
      Opinion       0.69      0.92      0.79        66
     Sociedad       0.94      0.81      0.87        59

     accuracy                           0.85       330
    macro avg       0.86      0.84      0.85       330
 weighted avg       0.86      0.85      0.85       330


F1:0.8467695462432305


#### Ejemplos

In [31]:
text_clf.predict(["En puerto montt se encontró un perrito, que aparentemente, habría consumido drogas de alto calibre. Producto de esto, padecera severa caña durante varios dias."])

array(['Sociedad'], dtype='<U13')

In [32]:
text_clf.predict(["kim jong un será el próximo candidato a ministro de educación."])

array(['Internacional'], dtype='<U13')

In [33]:
text_clf.predict(["El banco mundial presentó para chile un decrecimiento económico de 92% y una inflación de 8239832983289%."])

array(['Economia'], dtype='<U13')

### Clasificación de tópicos de noticias con Regresión Logísitica

No profundizaremos en este clasificador, mas del hecho de que se "supone" que debería tener mejor rendimiento que el de bayes.

Referencia: [Regresión Logística](https://en.wikipedia.org/wiki/Logistic_regression)

#### Establecer el Pipeline

In [34]:
# Qué tokenizer usaremos?
TOKENIZER = tokenizer_with_lemmatization

log_mod = LogisticRegression(solver='lbfgs', multi_class='ovr', max_iter = 1000)   
log_pipe = Pipeline([('vect', vectorizer), ('clf', log_mod)])

#### Entrenar

In [35]:
log_pipe.fit(X_train, y_train)

Pipeline(memory=None,
         steps=[('vect',
                 CountVectorizer(analyzer='word', binary=False,
                                 decode_error='strict',
                                 dtype=<class 'numpy.int64'>, encoding='utf-8',
                                 input='content', lowercase=True, max_df=1.0,
                                 max_features=None, min_df=1,
                                 ngram_range=(1, 1), preprocessor=None,
                                 stop_words=None, strip_accents=None,
                                 token_pattern='(?u)\\b\\w\\w+\\b',
                                 tokenizer=<function tokenizer_with_lemmatization at 0x000001F2C8991F28>,
                                 vocabulary=None)),
                ('clf',
                 LogisticRegression(C=1.0, class_weight=None, dual=False,
                                    fit_intercept=True, intercept_scaling=1,
                                    l1_ratio=None, max_iter=1000,
    

#### Evaluar

In [36]:
predicted = log_pipe.predict(X_test)

conf = confusion_matrix(y_test, predicted)
score = f1_score(y_test, predicted, average='macro') 
class_rep = classification_report(y_test, predicted)

print('\nConfusion Matrix for Logistic Regression + ngram features:')
print(conf)
print('\nClassification Report')
print(class_rep)
print('\nF1 Score: '+str(score))


Confusion Matrix for Logistic Regression + ngram features:
[[60  0  8  2  0]
 [ 5 63  4  1  4]
 [ 2  0 51  3  2]
 [ 1  2  0 62  1]
 [ 4  5  1  3 46]]

Classification Report
               precision    recall  f1-score   support

     Economia       0.83      0.86      0.85        70
Internacional       0.90      0.82      0.86        77
     Nacional       0.80      0.88      0.84        58
      Opinion       0.87      0.94      0.91        66
     Sociedad       0.87      0.78      0.82        59

     accuracy                           0.85       330
    macro avg       0.85      0.85      0.85       330
 weighted avg       0.86      0.85      0.85       330


F1 Score: 0.8529633827856452


#### Ejemplos

In [37]:
log_pipe.predict(["En puerto montt se encontró un perrito, que aparentemente, habría consumido drogas de alto calibre. Producto de esto, padecera severa caña durante varios dias."])

array(['Sociedad'], dtype=object)

In [38]:
log_pipe.predict(["kim jong un será el próximo candidato a ministro de educación."])

array(['Sociedad'], dtype=object)

### Clasificación de Autoría de documentos

¿Existirá un patrón en como escriben los periodistas que nos permitan identificarlos a partir de sus textos?

In [39]:
pd.concat(datasets).author.unique()

array(['Gonzalo Cifuentes', 'Felipe Delgado', 'Nicolás Parra',
       'Catalina Díaz', 'Valentina González', 'Emilio Lara',
       'Manuel Stuardo', 'Nicolás Díaz', 'Sandar Oporto',
       'María José Villarroel', 'Catalina Sánchez', 'Matías Vega',
       'Manuel Cabrera', 'Periodismo UCSC', 'Diego Vera', 'Yerko Roa',
       'Felipe Díaz Montero', 'Ariela Muñoz', 'Yessenia Márquez',
       'Gerson Guzmán D.', 'Paola Alemán', 'Sebastián Asencio',
       'Claudia Miño', 'Camilo Suazo', 'Verónica Reyes', 'Max Duhalde',
       'Francisca Rivas', 'Hernán Bustamante', 'Leonardo Casas',
       'Alberto González', 'Jonathan Flores', 'Scarlet Stuardo',
       'Gerson Guzmán', 'Bernardita Villa', 'César Vega Martínez',
       'Camila Álvarez', 'Jaime Parra', 'Emilio Contreras',
       'Fabián Barría', 'Denisse Charpentier', 'Nicole Briones', 'Tu Voz',
       'Natalia Muñoz', 'Tamara Rojas', 'Alejandra Soto', 'Pablo Cabeza'],
      dtype=object)

In [40]:
def process_datasets_by_author(datasets):
    dataset = pd.concat(datasets)
    X_train, X_test, y_train, y_test = train_test_split(dataset.content, dataset.author, test_size=0.33, random_state=42)
    
    return X_train, X_test, y_train, y_test


In [41]:
X_train_2, X_test_2, y_train_2, y_test_2 = process_datasets_by_author(datasets)

#### Definir el Pipeline

In [42]:
# Qué tokenizer usaremos?
TOKENIZER = tokenizer_with_lemmatization

log_mod_by_author = LogisticRegression(solver='lbfgs', multi_class='ovr', max_iter = 1000)   
log_pipe_by_author = Pipeline([('vect', vectorizer), ('clf', log_mod_by_author)])

#### Entrenar

In [43]:
log_pipe_by_author.fit(X_train_2, y_train_2)

Pipeline(memory=None,
         steps=[('vect',
                 CountVectorizer(analyzer='word', binary=False,
                                 decode_error='strict',
                                 dtype=<class 'numpy.int64'>, encoding='utf-8',
                                 input='content', lowercase=True, max_df=1.0,
                                 max_features=None, min_df=1,
                                 ngram_range=(1, 1), preprocessor=None,
                                 stop_words=None, strip_accents=None,
                                 token_pattern='(?u)\\b\\w\\w+\\b',
                                 tokenizer=<function tokenizer_with_lemmatization at 0x000001F2C8991F28>,
                                 vocabulary=None)),
                ('clf',
                 LogisticRegression(C=1.0, class_weight=None, dual=False,
                                    fit_intercept=True, intercept_scaling=1,
                                    l1_ratio=None, max_iter=1000,
    

#### Evaluar

In [44]:
predicted = log_pipe_by_author.predict(X_test_2)

conf = confusion_matrix(y_test_2, predicted)
score = f1_score(y_test_2, predicted, average='macro') 
class_rep = classification_report(y_test_2, predicted)

print('\nConfusion Matrix for Logistic Regression + ngram features:')
print(conf)
print('\nClassification Report')
print(class_rep)
print('\nF1 Score:'+str(score))

  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)



Confusion Matrix for Logistic Regression + ngram features:
[[ 0  0  0 ...  0  0  0]
 [ 0  0  0 ...  0  0  0]
 [ 0  0  2 ...  0  0  0]
 ...
 [ 0  0  0 ... 32  0  0]
 [ 0  0  0 ...  0  0  0]
 [ 0  0  0 ...  0  0  0]]

Classification Report
                       precision    recall  f1-score   support

       Alejandra Soto       0.00      0.00      0.00         3
         Ariela Muñoz       0.00      0.00      0.00         3
     Bernardita Villa       0.40      0.50      0.44         4
       Camila Álvarez       1.00      1.00      1.00         1
         Camilo Suazo       0.33      0.11      0.17         9
        Catalina Díaz       0.00      0.00      0.00         3
         Claudia Miño       0.00      0.00      0.00         3
  César Vega Martínez       0.69      0.80      0.74        25
  Denisse Charpentier       0.00      0.00      0.00         1
           Diego Vera       0.46      0.73      0.56        44
     Emilio Contreras       0.00      0.00      0.00         2
    

## Créditos

Todas las noticias extraidas perteneces a [Biobio Chile](https://www.biobiochile.cl/), los cuales gentilmente licencian todo su material a través de la [licencia Creative Commons (CC-BY-NC)](https://creativecommons.org/licenses/by-nc/2.0/cl/)

## Referencias

Gitgub del curso: 
- https://github.com/dccuchile/CC6205

Slides:
- https://web.stanford.edu/~jurafsky/slp3/slides/7_NB.pdf


Análisis de sentimientos como clasificación de texto:
- https://affectivetweets.cms.waikato.ac.nz/benchmark/

Algunos Recursos útiles
- [Pandas Cheat Sheet](https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf)
- [Scikit-learn Cheat Sheet](https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Scikit_Learn_Cheat_Sheet_Python.pdf)
- [Spacy Tutorial](https://www.datacamp.com/community/blog/spacy-cheatsheet)
- [NLTK Cheat sheet](http://sapir.psych.wisc.edu/programming_for_psychologists/cheat_sheets/Text-Analysis-with-NLTK-Cheatsheet.pdf)