# Trabajo Práctico 2: Enunciado


El segundo TP es una competencia de Machine Learning en donde cada grupo debe intentar determinar, para cada tweet brindado, si el mismo esta basado en un hecho real o no.

La competencia se desarrolla en la plataforma de Kaggle  https://www.kaggle.com/c/nlp-getting-started.  

El dataset consta de una serie de tweets, para los cuales se informa:

- id - identificador unico para cada  tweet
- text - el texto del tweet
- location - ubicación desde donde fue enviado (podría no estar)
- keyword - un keyword para el tweet  (podría faltar)
- target - en train.csv, indica si se trata de un desastre real  (1) o no (0) 

Los submits con el resultado deben tener el formato:
- Id: Un id numérico para identificar el tweet
- target: 1 / 0 según se crea que el tweet se trata sobre un desastre real, o no.

Los grupos deberán probar distintos algoritmos de Machine Learning para intentar predecir si el tweet está basado en hechos reales o no. A medida que los grupos realicen pruebas deben realizar el correspondiente submit en Kaggle para evaluar el resultado de los mismos.

Al finalizar la competencia el grupo que mejor resultado tenga obtendrá 10 puntos para cada uno de sus integrantes que podrán ser usados en el examen por promoción o segundo recuperatorio.

Requisitos para la entrega del TP2:

- El TP debe programarse en Python o R.
- Debe entregarse un pdf con el informe de algoritmos probados, algoritmo final utilizado, transformaciones realizadas a los datos, feature engineering, etc. 
- El informe debe incluir también un link a github con el informe presentado en pdf, y todo el código.
- El grupo debe presentar el TP en una computadora en la fecha indicada por la cátedra, el TP debe correr en un lapso de tiempo razonable (inferior a 1 hora) y generar un submission válido que iguale el mejor resultado obtenido por el grupo en Kaggle. (mas detalles a definir)

El TP2 se va a evaluar en función del siguiente criterio:

- Cantidad de trabajo (esfuerzo) del grupo: ¿Probaron muchos algoritmos? ¿Hicieron un buen trabajo de pre-procesamiento de los datos y feature engineering?
- Resultado obtenido en Kaggle (obviamente cuanto mejor resultado mejor nota)
- Presentación final del informe, calidad de la redacción, uso de información obtenida en el TP1, conclusiones presentadas.
- Performance de la solución final.

In [None]:
# Instalación de librerías a usar
# para escapear html
!pip install bs4
# para normalización del texto
!pip install nltk
!pip install stopwords

In [None]:
# importacion general de librerias y de visualizacion (matplotlib y seaborn)
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
import re
import string

from nltk.tokenize import sent_tokenize
from bs4 import BeautifulSoup
from html import unescape
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.sentiment.vader import SentimentIntensityAnalyzer
from collections import Counter
#Para generar una paleta de colores equivalente a cubehelix(sns) en matplotlib
from matplotlib.colors import ListedColormap

%matplotlib inline

plt.style.use('default') # haciendo los graficos un poco mas bonitos en matplotlib
#plt.rcParams['figure.figsize'] = (20, 10)

sns.set(style="whitegrid") # seteando tipo de grid en seaborn

pd.options.display.float_format = '{:20,.2f}'.format # suprimimos la notacion cientifica en los outputs

#Nueva paleta de colores para matplotlib
color_hex_arr = ["#2B6F39", "#C2D8F2","#182D48","#A1784A","#D38FC5"]
cubehelix_map = ListedColormap(sns.color_palette(color_hex_arr).as_hex())

warnings.filterwarnings('ignore')
nltk.download('stopwords')
nltk.download('punkt')
nltk.download('averaged_perceptron_tagger')
nltk.download('vader_lexicon')

In [None]:
train = pd.read_csv('../data/train.csv', encoding='utf-8')
train.info()

In [None]:
train.head()

In [None]:
train.shape

In [None]:
test = pd.read_csv('../data/test.csv', encoding='utf-8')
test.info()

In [None]:
test.shape

In [None]:
test.head()

### Quitamos la columna Location
Del análisis del tp1 vimos que la columna location tenía muchos valores nulos y muchísimos valores únicos, muchas veces con textos sin sentido

In [None]:
test.drop(['location'], axis=1, inplace=True)
train.drop(['location'], axis=1, inplace=True)

In [None]:
# reemplazamos los None de keyword por un texto

In [None]:
# creamos el daset tweets para después poder aplicarle todas las tranformaciones juntas, después volvemos a dividir
tweets = pd.concat([train, test])

## Agregado de nuevos features y limpieza del dataset

In [None]:
# primera normalización del texto, pasamos a lowercase 
tweets['normalized_text'] = tweets.text.str.lower()

### Normalización del texto y nuevas columnas a partir del texto

#### Eliminamos los links del texto normalizado y guardamos los links en una columna a parte por si sirven a futuro

In [None]:
URLPATTERN = r'(https?://\S+)' 

tweets['urls'] = tweets.normalized_text.apply(lambda x: re.findall(URLPATTERN, x))
tweets['normalized_text'] = tweets.normalized_text.apply(lambda x: re.sub(URLPATTERN,"", x))
# cuento la cantidad de links en los tweets
tweets['url_count'] = tweets.urls.str.len()

#### Eliminamos los hashtags del texto normalizado y lo dejamos en otra columna junto con el count

In [None]:
# cuento la cantidad de hashtags en los tweets
# nueva columna con el total de hashtags, y los hashtags
tweets['hashtags'] = tweets.normalized_text.apply(lambda x: re.findall(r"#(\w+)", x))
tweets['hashtags_count'] = tweets.hashtags.str.len()
tweets['normalized_text'] = tweets.normalized_text.apply(lambda x: re.sub(r"#(\w+)","", x))

#### Eliminamos los tags del texto y lo dejamos en otra columna junto con el count

In [None]:
# cuento la cantidad de ags en los tweets
# nueva columna con el total de tags, y los tags
tweets['tags'] = tweets.text.str.lower().apply(lambda x: re.findall(r"@(\w+)", x))
tweets['normalized_text'] = tweets.normalized_text.apply(lambda x: re.sub(r"@(\w+)","", x))
tweets['tags_count'] = tweets.tags.str.len()

#### Contamos cantidad de oraciones

In [None]:
tweets['sentences_count'] = tweets.normalized_text.apply(lambda x : len(sent_tokenize(x))) 

#### Eliminamos signos de puntuación y html

In [None]:
translator = str.maketrans('', '', string.punctuation) 
# !"#$%&'()*+, -./:;<=>?@[\]^_`{|}~

def remove_punctuation(text):        
    return text.translate(translator)

In [None]:
def remove_htmlsymbols(text):
    soup = BeautifulSoup(unescape(text))
    return soup.text

In [None]:
#Emoji patterns
emoji_pattern = re.compile("["
         u"\U0001F600-\U0001F64F"  # emoticons
         u"\U0001F300-\U0001F5FF"  # symbols & pictographs
         u"\U0001F680-\U0001F6FF"  # transport & map symbols
         u"\U0001F1E0-\U0001F1FF"  # flags (iOS)
         u"\U00002702-\U000027B0"
         u"\U000024C2-\U0001F251"
         "]+", flags=re.UNICODE)

def remove_emojis_non_ascii(text):    
    #replace consecutive non-ASCII characters with a space
    result = re.sub(r'[^\x00-\x7F]+',' ', text)
    #remove emojis from tweet
    result = emoji_pattern.sub(r'', result)    
    return result

In [None]:
tweets['normalized_text'] = tweets.normalized_text.apply(remove_htmlsymbols)
tweets['normalized_text'] = tweets.normalized_text.apply(remove_punctuation)
tweets['normalized_text'] = tweets.normalized_text.apply(remove_emojis_non_ascii)

#### Eliminamos stop words y creamos nueva columna con array de palabras

In [None]:
# convertimos el texto en listado de palabras y despues borramos las stop words
tweets['words'] = tweets.normalized_text.str.split()
stop_words = stopwords.words('english')
# antes de eliminarlas las contamos
tweets['stop_words_count'] = tweets['words'].apply(lambda x: len([item for item in x if item in stop_words]))
tweets['normalized_words'] = tweets['words'].apply(lambda x: [item for item in x if item not in stop_words])
# eliminar las stop words del texto normalizado
tweets['normalized_text'] = [' '.join(map(str, l)) for l in tweets['normalized_words']]
# vemos como queda el dataset
tweets.head()

In [None]:
tweets['words_count'] = tweets['text'].apply(lambda x: len(str(x).split()))
tweets['unique_words_count'] = tweets['text'].apply(lambda x: len(set(str(x).split())))
tweets['mean_word_length'] = tweets['text'].apply(lambda x: np.mean([len(w) for w in str(x).split()]))
tweets['text_len'] = tweets['text'].apply(lambda x: len(str(x)))
tweets['punctuation_count'] = tweets['text'].apply(lambda x: len([c for c in str(x) if c in string.punctuation]))

In [None]:
tweets.head()

#### Contador de palabras y frecuencia de aparición

In [None]:
# contamos la cantidad de palabras de cada tweet
tweets['words_counter'] = tweets.normalized_words.apply(Counter)
# me quedo con las palabras que mas ocurrencias tienen en cada row
tweets['word_max_appearance'] = tweets.words_counter.apply( lambda x: max(x) if x else None)  
tweets['word_max_appearance_count'] =  tweets.words_counter.apply( lambda x: max(x.values()) if x else 0)

#### Analizamos si el texto tiene números y guardamos el dato en una nueva columna

In [None]:
tweets.head()

In [None]:
# esto chequea números como 1,2 y tambíen escrito como one, two
def existence_of_numeric_data(text):
    count = 0
    text=nltk.word_tokenize(text)
    pos = nltk.pos_tag(text)
    count = 0
    for i in range(len(pos)):
        word , pos_tag = pos[i]
        if pos_tag == 'CD':
            count+=1
    return count

In [None]:
# con 1 si tiene , 0 sino
tweets['numbers_count'] = tweets.normalized_text.apply(existence_of_numeric_data)

### Normalización de la columna keyword

In [None]:
# eliminamos "%20" que representa espacio
tweets['keyword'] = tweets.keyword.str.replace('%20',' ')
train['keyword'] = train.keyword.str.replace('%20',' ')
test['keyword'] = test.keyword.str.replace('%20',' ')

### Correccion tipo de datos en keyword para optimizacion de memoria.

In [None]:
tweets['keyword'] = tweets['keyword'].astype('category')
train['keyword'] = train['keyword'].astype('category')
test['keyword'] = test['keyword'].astype('category')
#check de tipos de datos categoricos 
tweets.dtypes

### Agregado de columnas para Análisis de sentimientos

In [None]:
sid = SentimentIntensityAnalyzer()

In [None]:
# Return a float for sentiment strength based on the input text. Positive values are positive valence, negative value are negative valence.
tweets['sentiment_score'] = tweets.normalized_text.apply(lambda x: sid.polarity_scores(x))
tweets['sentiment_score_compound'] = tweets.sentiment_score.apply(lambda x: x['compound'])
tweets['sentiment_score_pos'] = tweets.sentiment_score.apply(lambda x: x['pos'])
tweets['sentiment_score_neg'] = tweets.sentiment_score.apply(lambda x: x['neg'])

In [None]:
# vemos cómo queda el dataset
tweets.head()

# Preparación de datasets para ML

In [None]:
# generar submission file
def generate_submission_csv(X,y,file):
    result = pd.DataFrame()
    result['id'] = X.index
    result['target']=y
    result.to_csv(file)

In [None]:
from sklearn.metrics import f1_score, accuracy_score
def print_scores(y_val, y_pred):
    print (f'f1-macro { f1_score(y_val, y_pred, average="macro") }' )
    print (f'f1-micro {f1_score(y_val, y_pred, average="micro")}')
    print (f'f1-weighted {f1_score(y_val, y_pred, average="weighted")}')
    print (f'f1 {f1_score(y_val, y_pred, average=None)}')
    print(f'accuracy {accuracy_score(y_val, y_pred)}')
    

### Volvemos a separar los sets de datos en train y test

In [None]:
tweets.columns

In [None]:
# borramos las columnas que quedaron de solo texto, salvo el texto normalizado
tweets.drop(['text','keyword', 'urls', 'hashtags', 'tags', 'words', 'normalized_words', 'words_counter', 'word_max_appearance',
       'sentiment_score',  'sentiment_score_pos','sentiment_score_neg', 'target'], axis=1, inplace=True)

In [None]:
# recuperamos el dataset de test con los nuevos features
test = pd.concat([tweets.set_index('id'),test.set_index('id')], axis=1, join='inner')

In [None]:
test.drop(['text'], axis=1, inplace=True)

In [None]:
test.head()

In [None]:
# recuperamos el dataset de train con los nuevos features
train = pd.concat([tweets.set_index('id'),train.set_index('id')], axis=1, join='inner')

In [None]:
train.drop(['text'], axis=1, inplace=True)

In [None]:
train.head()

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import  TfidfVectorizer

## 1. Entrenamiento: prueba 1 usando solo el texto para predecir y TF-IDF para transformar y MultinomialNB

In [None]:
text_feature = train['normalized_text']
# create the object of tfid vectorizer
tfid_vectorizer = TfidfVectorizer("english")

Separación del dataset

In [None]:
y=train['target']
X_train, X_val, y_train, y_val = train_test_split(text_feature, y, test_size=0.3, random_state=42)

Transformación del set de datos train

In [None]:
# fit the vectorizer using the text data
X_train_transformed = tfid_vectorizer.fit_transform(X_train)

Entrenamiento del set de datos train con MultinomialNB

In [None]:
from sklearn.naive_bayes import MultinomialNB
clf = MultinomialNB().fit(X_train_transformed, y_train)

Transformación del set de test y predicción

In [None]:
# fit the vectorizer using the text data
X_val_transformed = tfid_vectorizer.transform(X_val)
y_pred = clf.predict(X_val_transformed)

Análisis con métrica f1 score y accuracy

In [None]:
print_scores(y_val, y_pred)

Predicción sobre el set de Test que se sube a kaggle

In [None]:
# on the testing set you only need to transform()
X_test_1 = tfid_vectorizer.transform(test['normalized_text'])
y_test_1 = clf.predict(X_test_1)
y_test_1

In [None]:
generate_submission_csv(test, y_test_1,'prueba_TF-IDF_MultinomialNB_text_normalizado.csv')

## 2. Entrenamiento: prueba 2 usando solo el texto para predecir y el keyword concatenado al texto y TF-IDF para transformar y MultinomialNB

In [None]:
train_2 = train
# TODO revisar esto lo vuelvo a text para poder hacer la transformacion de nan a texto vacio
train_2['keyword'] = train_2['keyword'].astype('object')
train_2['keyword'] = train_2['keyword'].replace(np.nan, '', regex=True)
train_2['keyword'] = train_2['keyword'].astype('category')

In [None]:
train_2.keyword

In [None]:
text_feature_2 = train_2['normalized_text'].str.cat(train_2['keyword'], sep =" ") 
text_feature_2.head()

Separación del dataset

In [None]:
y=train_2['target']
X_train, X_val, y_train, y_val = train_test_split(text_feature_2, y, test_size=0.3, random_state=42)

Transformación del set de datos train

In [None]:
# fit the vectorizer using the text data
X_train_transformed = tfid_vectorizer.fit_transform(X_train)

Entrenamiento del set de datos train con MultinomialNB

In [None]:
from sklearn.naive_bayes import MultinomialNB
clf = MultinomialNB().fit(X_train_transformed, y_train)

Transformación del set de test y predicción

In [None]:
# fit the vectorizer using the text data
X_val_transformed_2 = tfid_vectorizer.transform(X_val)
y_pred_2 = clf.predict(X_val_transformed_2)

Análisis con métrica f1 score

In [None]:
print_scores(y_val, y_pred_2)

Predicción sobre el set de Test que se sube a kaggle

In [None]:
test_2 = test
# TODO revisar esto lo vuelvo a text para poder hacer la transformacion de nan a texto vacio
test_2['keyword'] = test_2['keyword'].astype('object')
test_2['keyword'] = test_2['keyword'].replace(np.nan, '', regex=True)
test_2['keyword'] = test_2['keyword'].astype('category')

In [None]:
test_text_feature = test_2['normalized_text'].str.cat(test_2['keyword'], sep =" ") 
test_text_feature.head()

In [None]:
# on the testing set you only need to transform()
X_test_2 = tfid_vectorizer.transform(test_text_feature)
y_test_2 = clf.predict(X_test_2)
y_test_2

In [None]:
generate_submission_csv(test_2, y_test_2,'prueba_TF-IDF_MultinomialNB_text_normalizado_keyword.csv')