<a href="https://colab.research.google.com/github/alepenaa94/TP1_Real_or_Not/blob/master/TP1_Real_or_Not.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Features

En este notebook vamos a realizar todo el procesamiento del set de datos, limpieza en los campos de ser necesario y la generacion de los features.

In [1]:
import pandas as pd
import numpy as np
import string
import re
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from keras.preprocessing.text import Tokenizer
from keras.preprocessing.sequence import pad_sequences
from sklearn.feature_extraction.text import TfidfVectorizer 
from sklearn.metrics.pairwise import linear_kernel

import warnings 
warnings.filterwarnings('ignore')

In [2]:
train_df = pd.read_csv('../Data/train.csv', encoding='latin-1',dtype={'id': np.uint16,'target': np.bool})
test_df = pd.read_csv('../Data/test.csv', encoding='latin-1',dtype={'id': np.uint16})

In [3]:
train_df.head()

Unnamed: 0,id,keyword,location,text,target
0,1,,,Our Deeds are the Reason of this #earthquake M...,True
1,4,,,Forest fire near La Ronge Sask. Canada,True
2,5,,,All residents asked to 'shelter in place' are ...,True
3,6,,,"13,000 people receive #wildfires evacuation or...",True
4,7,,,Just got sent this photo from Ruby #Alaska as ...,True


In [4]:
test_df.head()

Unnamed: 0,id,keyword,location,text
0,0,,,Just happened a terrible car crash
1,2,,,"Heard about #earthquake is different cities, s..."
2,3,,,"there is a forest fire at spot pond, geese are..."
3,9,,,Apocalypse lighting. #Spokane #wildfires
4,11,,,Typhoon Soudelor kills 28 in China and Taiwan


In [5]:
tweets = pd.concat([train_df,test_df])
tweets = tweets[['id','keyword','location','text','target']]

## Limpieza de la información

En base a lo aprendido en el TP1, limpiamos la información de algunos campos del dataframe.

In [6]:
tweets['keyword'] = tweets['keyword'].str.replace('%20',' ')
tweets['keyword'].fillna('None',inplace=True)
tweets['location'].fillna('Unknown',inplace=True)

## Creación de features

Volvemos a generar las columnas utilizadas para el TP1 ya que podrían resultar features útiles para el modelo de predicción.

###### Cantidad de palabras en el tweet

In [7]:
tweets['cantidad_de_palabras'] = tweets['text'].apply(lambda x: len(str(x).split()))

###### Longitud del tweet

In [8]:
tweets['longitud_del_tweet'] = tweets['text'].str.len()

###### Longitud promedio

In [9]:
tweets['longitud_palabra_promedio'] = tweets['longitud_del_tweet'] / tweets['cantidad_de_palabras']

###### Cuartiles de longitud

In [10]:
tweets['longitud_del_tweet'].describe().to_frame().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
longitud_del_tweet,10876.0,101.790916,34.141486,5.0,78.0,108.0,134.0,169.0


In [11]:
tweets.loc[tweets['longitud_del_tweet'] < 78.0,'longitud_categ'] = "0 a 25"
tweets.loc[tweets['longitud_del_tweet'] >= 78.0,'longitud_categ'] = "25 a 50"
tweets.loc[tweets['longitud_del_tweet'] >= 108.0,'longitud_categ'] = "50 a 75"
tweets.loc[tweets['longitud_del_tweet'] >= 134.0,'longitud_categ'] = "75 a 100"

Usamos el método de Smothing para encodear las variables categoricas. (El código está basado en el obtenido de la siguiente fuente: https://gist.github.com/marnixkoops/e68815d30474786e2b293682ed7cdb01)

In [12]:
def smoothing(df, column, target, weight=100):
    mean = df[target].mean()
    agg = df.groupby(column)[target].agg(['count', 'mean'])

    dic = {}
    
    for i in df[column].unique():
        dic[i] = (agg.loc[i]['count'] * agg.loc[i]['mean'] + weight * mean) / (agg.loc[i]['count'] + weight)
        
    return dic

In [13]:
df = tweets[:len(train_df)]
df['target'] = df['target'].astype('bool')

In [14]:
long_categ_encoding_dic = smoothing(df,'longitud_categ','target')

In [15]:
tweets['longitud_categ'] = tweets['longitud_categ'].map(long_categ_encoding_dic)

###### Cantidad de menciones

In [16]:
tweets['cantidad_de_menciones'] = tweets['text'].str.count('@')

###### Tweet expresivo

In [17]:
tweets['es_expresivo'] = (tweets['text'].str.contains('\!\!') | tweets['text'].str.contains('\?\?')).astype('uint8')

###### Cantidad de hashtags

In [18]:
tweets['cantidad_de_hashtags'] = tweets['text'].str.count('#')

###### Cantidad de links

In [19]:
tweets['cantidad_de_links'] = tweets['text'].str.count('http')

###### Cantidad de caracteres no alfanuméricos

Veamos los caracteres no alfanumericos.

In [20]:
string.punctuation

'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'

In [21]:
tweets['cantidad_no_alfanumerico'] = tweets['text'].apply(lambda x: len([char for char in str(x) if char in string.punctuation]))

###### Ubicaciones no alfanuméricas

In [22]:
tweets['location_no_alfanumerico'] = (~tweets['location'].str.replace(' ','').str.isalnum()).astype('uint8')

###### Ubicaciones con tweet único

In [23]:
def location_unico(location):
    ubicaciones_unicas = tweets['location'].value_counts()[tweets['location'].value_counts() == 1].index
    return (location in ubicaciones_unicas)

In [24]:
tweets['location_unico'] = tweets['location'].map(location_unico).astype('uint8')

###### Encoding del campo keyword

Como la columna keyword es de tipo categórico, vamos a codificarla usando el método de Smoothing.

In [25]:
keywords_encoding_dic = smoothing(df,'keyword','target')

In [26]:
tweets['keyword_encoded'] = tweets['keyword'].map(keywords_encoding_dic)

###### TF-IDF

In [27]:
from nltk.stem.wordnet import WordNetLemmatizer
from textblob import TextBlob

nltk.download('punkt')
nltk.download('wordnet')
nltk.download('stopwords')

#Vamos a limpiar un poco el tweet.
pattern_exclude = '(one|dont|cant|would|im|people|go|make|time|love|amp|get|house|update|talk'+\
                  '|want|today|know|say|us|day|crush|see|back|think|look|rigth|remember|car|shes'+\
                  '|thing|let|still|lol|much|thank|take|way|youre|road|another|really|save|hows'+\
                  '|play|even|theres|everyone|feel|year|work|check|two|great|ing|like|sink|href|hr|hs'+\
                  '|every|build|youtuve|video|n|home|body|bag|photo|stay|game|start|gt|fuck|help'+\
                  '|best|well|california|end|live|e|rt|wreck|plan|full|may|ies|u|could|many|last'+\
                  '|find|service|leave|collapse|world|war|destroy|wound|break|right|hear|school)+'

def filter_words(tweet):
    tweet = re.sub(r'(\b[\w]+:\/\/[\w -\?&;#~=\.\/@]+[\w\/])', ' ', tweet)
    tweet = re.sub(r'\'', '', tweet)
    return re.sub(r'[www.]*[A-z]+.(com|gov|edu|net|mil|org|io|int)+', ' ', tweet)

def text_to_blob(tweet):
    tweet_blob = TextBlob(str(tweet))
    return ' '.join(tweet_blob.words)


def normalization(tweet_list):
        lem = WordNetLemmatizer()
        normalized_tweet = []
        for word in tweet_list:
            word_aux = word.lower().strip()
            if re.match(pattern_exclude,
                        word_aux):
                continue
            normalized_text = lem.lemmatize(word_aux,'v')
            normalized_tweet.append(normalized_text)
        return normalized_tweet

def clean(tweet):
    tweet_list = [word for word in (text_to_blob(filter_words(tweet))).split()]
    clean_tokens = [tkn for tkn in tweet_list if re.match(r'[A-z]+', tkn)]
    clean_s = ' '.join(clean_tokens)
    l_aux = normalization(clean_s.split())
    return ' '.join([word for word in l_aux if word not in stopwords.words('english')])

tweets['clean_text'] = tweets['text'].apply(clean)

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\FF633NG\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\FF633NG\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\FF633NG\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [28]:
docs = tweets[:len(train_df)]['clean_text'].to_list()

tfidf_vectorizer=TfidfVectorizer(analyzer='word', ngram_range=(1,3),sublinear_tf=True, min_df=5, norm='l2',max_features=500, encoding='latin-1', stop_words='english')

tfidf_vectorizer_vectors=tfidf_vectorizer.fit_transform(docs)

In [29]:
def similarity_feature(doc):
    #Calcula la similitud entre el doc y lo calculado para todo el set train.
    query=TfidfVectorizer(vocabulary=tfidf_vectorizer.vocabulary_)
    query=query.fit_transform([doc])
    s=pd.Series(linear_kernel(query,tfidf_vectorizer_vectors)[0])
    return s.sum()
    
tweets['tfidf_score']= tweets['clean_text'].apply(similarity_feature)

In [30]:
tweets['tfidf_score'].value_counts()

0.000000      987
57.567868      59
77.532286      58
106.542617     53
78.021807      45
             ... 
64.367695       1
39.233181       1
54.232346       1
26.891820       1
63.649156       1
Name: tfidf_score, Length: 5691, dtype: int64

In [31]:
del tweets['clean_text']

###### Embeddings

Limpiamos un poco el campo de texto antes de crear los embeddings usando expresiones regulares.

In [32]:
def borrar_URL(text):
    url = re.compile(r'https?://\S+|www\.\S+')
    return url.sub(r'',text)

def borrar_html(text):
    html = re.compile(r'<.*?>')
    return html.sub(r'',text)

def borrar_emojis(text):
    emoji_pattern = re.compile("["
                           u"\U0001F600-\U0001F64F"
                           u"\U0001F300-\U0001F5FF"
                           u"\U0001F680-\U0001F6FF"
                           u"\U0001F1E0-\U0001F1FF"
                           u"\U00002702-\U000027B0"
                           u"\U000024C2-\U0001F251"
                           "]+", flags=re.UNICODE)
    return emoji_pattern.sub(r'', text)

def borrar_puntuacion(text):
    table = str.maketrans('','',string.punctuation)
    return text.translate(table)

tweets['clean_text'] = tweets['text'].apply(lambda x : borrar_URL(x))
tweets['clean_text'] = tweets['clean_text'].apply(lambda x : borrar_html(x))
tweets['clean_text'] = tweets['clean_text'].apply(lambda x: borrar_emojis(x))
tweets['clean_text'] = tweets['clean_text'].apply(lambda x : borrar_puntuacion(x))

Vamos a usar Glove para obtener los embeddings pre-entrenados de cada palabra en cada tweet.

En primer lugar, generamos una lista con todas las palabras por cada tweet.

Usamos la función "word_tokenize" para obtener las palabras dentro de un tweet. Para homogeneizar dichas palabras, las tomamos en minúsculas y solamente consideramos las palabras que tienen caracteres alfabéticos, excluyendo a su vez las stopwords.

In [33]:
palabras_por_tweet = []

for tweet in tweets['clean_text']:
    palabras = [word.lower() for word in word_tokenize(tweet) if((word.isalpha() == 1) & (word not in set(stopwords.words('english'))))]
    palabras_por_tweet.append(palabras)

Comparemos el resultado del primer tweet con la lista de palabras de ese tweet obtenidas.

In [34]:
tweets.iloc[0]['clean_text']

'Our Deeds are the Reason of this earthquake May ALLAH Forgive us all'

In [35]:
word_tokenize(tweets.iloc[0]['clean_text'])

['Our',
 'Deeds',
 'are',
 'the',
 'Reason',
 'of',
 'this',
 'earthquake',
 'May',
 'ALLAH',
 'Forgive',
 'us',
 'all']

In [36]:
palabras_por_tweet[0]

['our', 'deeds', 'reason', 'earthquake', 'may', 'allah', 'forgive', 'us']

Luego, usando la clase Tokenizer de la librería keras, pasamos la lista de palabras por tweet a listas de números enteros de igual longitud (en este caso, listas de 50 dimensiones), completando con 0 las listas con menos de 50 enteros y truncando las listas con más de 50 enteros.

In [37]:
tokenizer = Tokenizer()

tokenizer.fit_on_texts(palabras_por_tweet)
cantidad_de_palabras = len(tokenizer.word_index) + 1
tweets_codificados = tokenizer.texts_to_sequences(palabras_por_tweet)

tweets_padded = pad_sequences(tweets_codificados,maxlen=50,truncating='post',padding='post')

In [38]:
tweets_padded.shape

(10876, 50)

Vemos que cada tweet tiene 50 dimensiones. Veamos la lista de números del primer tweet como ejemplo.

In [39]:
tweets_padded[0]

array([ 622, 5461,  738,  175,   80, 1805, 3525,   16,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0])

Leemos el archivo con los embbedings de cada palabra.

In [40]:
embeddings = dict()

archivo = open('../Glove/glove.6B.300d.txt','r',encoding='utf8')
for linea in archivo:
    valores = linea.split()
    palabra = valores[0]
    vector = np.asarray(valores[1:],'float32')
    embeddings[palabra] = vector

archivo.close()

Veamos el ejemplo de un embedding del archivo.

In [41]:
embeddings['earthquake']

array([ 0.10902  , -0.086454 , -0.55195  , -0.58138  , -0.063028 ,
        0.027674 ,  0.10453  , -0.66351  , -0.23042  , -1.3166   ,
        0.62434  ,  1.0765   ,  0.67735  ,  0.14884  ,  0.49519  ,
        0.60226  ,  0.27413  , -0.14638  , -0.16783  ,  0.23525  ,
        0.56321  ,  0.011081 , -0.36482  , -0.12759  , -0.27178  ,
        0.74587  , -0.14232  , -0.084957 ,  0.0054768, -0.10611  ,
        0.44424  ,  1.3039   , -0.89714  ,  0.25516  ,  0.44434  ,
       -0.01818  ,  0.25995  ,  0.46754  ,  0.70195  , -0.2469   ,
        0.92107  ,  0.24039  ,  0.62318  , -0.31352  , -0.16913  ,
       -0.0030993,  1.1106   , -0.23675  , -0.16714  ,  0.25508  ,
        0.36779  ,  0.38458  ,  0.35204  , -0.59843  , -0.16146  ,
        0.52852  ,  0.27234  , -0.048624 , -0.16963  , -0.13194  ,
       -0.7143   ,  0.26223  ,  0.23918  , -0.1141   , -0.18335  ,
       -0.16616  ,  0.44657  ,  0.13162  , -0.57545  ,  0.12192  ,
        0.15368  ,  0.34592  , -0.6688   ,  0.63388  , -0.2224

Generamos una matriz con los embeddings de cada palabra que aparece en los tweets.

In [42]:
matriz_de_embeddings = np.zeros((cantidad_de_palabras,300))

for palabra,indice in tokenizer.word_index.items():
    if indice > cantidad_de_palabras:
        continue
    
    embedding = embeddings.get(palabra)
    
    if embedding is not None:
        matriz_de_embeddings[indice] = embedding

In [43]:
matriz_de_embeddings.shape

(20272, 300)

In [44]:
del tweets['clean_text']

Descartamos las columnas innecesarias para quedarnos únicamente con los features.

In [45]:
train_features = tweets[:len(train_df)].set_index('id').iloc[:,3:]
test_features = tweets[len(train_df):].set_index('id').iloc[:,4:]

Guardamos los dataframes de train y test, así como los tweets y la matriz de embeddings, en archivos .csv para usarlos en el Notebook de Algoritmos.

In [46]:
train_features.to_csv('../Data/train_features.csv')
test_features.to_csv('../Data/test_features.csv')
pd.DataFrame(tweets_padded).to_csv('../Data/tweets_padded.csv',index=False)
pd.DataFrame(matriz_de_embeddings).to_csv('../Data/matriz_de_embeddings.csv',index=False)