# <span style="color:#9c8f8f"> 75.06/95.58 Organización de Datos</span>
# <span style="color:#9c8f8f"> Análisis exploratorio: Real or Not? NLP with Disaster Tweets</span>

# <center>CREACIÓN DE DATAFRAMES</center>

En el siguiente notebook se crean distintos data sets en base al análisis realizo en el TP1 y lo que parezca conveniente para la predicción.
Estos datasets luego se almacenan como archivos .csv para ser utilizados en los pasos siguientes de este trabajo práctico.

# 1. Preliminar

## 1.1 Carga de librerías

In [1]:
import pandas as pd

import numpy as np

import nltk, os, re, string, collections

%matplotlib inline

## 1.2 Carga de datos
Debido a que se trabajara con grandes cantidades de data, se definió convenientemente los tipos de datos de los datos pasados por archivo para no sobrecargar al parser de los archivos csv y ahorrar espacio de memoria.

In [2]:
# Directorios de los archivos a leer y escribir

DIR_ORIG = "original_data/"
DIR_NEW = "new_data/"

In [3]:
# Carga de archivos de data original de la competencia

dtype_test = {"id": np.int32, "keyword": "category"}
test = pd.read_csv(DIR_ORIG+"test.csv", dtype = dtype_test)

dtype_train = {"id": np.int32, "keyword": "category", "target" : bool}
train = pd.read_csv(DIR_ORIG+"train.csv", dtype = dtype_train, encoding='UTF_8')

sample = pd.read_csv(DIR_ORIG+"sample_submission.csv")

## 1.3 Funciones de limpieza

In [4]:
# Función que saca los links

def quitar_link_twitter(tweet):
    res = []
    for w in tweet.split(" "):
        if (("http" not in w) and ("https" not in w)):
            res.append(w)
    return (" ").join(res)

In [5]:
# Función que saca las menciones

def quitar_mencion_twitter(tweet):
    res = []
    for w in tweet.split(" "):
        if("@" not in w):
            res.append(w)
    return (" ").join(res)

# 2. Data sets

## cantidades.csv

In [6]:
# Funciones auxiliares

# Identificadores de características en un string

stopword = nltk.corpus.stopwords.words('english')

def stop(text):
    return [w for w in text.split() if w.lower() in stopword]

def length(text):
    return(np.mean([len(w) for w in text.split()]))

def punct(text):
    return [c for c in text if c in string.punctuation]

def title(text):
    return [w for w in text.split() if w.istitle()]

def upper_list(text):
    return [w for w in text.split() if w.isupper()]

def lower_list(text):
    return [w for w in text.split() if w.islower()]

# Función que cuenta sílabas en un string

def syllables(text):
    count = 0
    vowels = 'aeiouy'
    for word in text:
        word= word.lower()
        if word[0] in vowels:
            count +=1
        for index in range(1,len(word)):
            if word[index] in vowels and word[index-1] not in vowels:
                count +=1
        if word.endswith('e'):
            count -= 1
        if word.endswith('le'):
            count+=1
        if count == 0:
            count +=1
    return count

In [7]:
# Creo datafram 
# Saco menciones y links

palabras = train[["id","text"]].copy()
palabras.set_index('id')

palabras['text'] = palabras['text'].apply(lambda x: quitar_link_twitter(x))
palabras['text'] = palabras['text'].apply(lambda x: quitar_mencion_twitter(x))

In [8]:
# Creo varias columnas

# Número de palabras usadas
palabras['#palabras'] = palabras['text'].apply(lambda x: len(x.split()))

# Número de palabras únicas
palabras['#palabras_unicas'] =  palabras['text'].apply(lambda x: len(set(x.split())))

# Número de caracteres
palabras['#caracteres'] =  palabras['text'].apply(lambda x: len(x))

# Número de stopwords
palabras['#stopwords'] = palabras['text'].apply(lambda x: len(stop(x)))
    
# Número de caracteres de puntuación
palabras['#putuacion'] = palabras['text'].apply(lambda x: len(punct(x)))
    
# Número de palabras Capitalizadas
palabras['#capitalize'] = palabras['text'].apply(lambda x: len(title(x)))

# Número de palabras MAYUSCULAS
palabras['#mayusculas'] = palabras['text'].apply(lambda x: len(upper_list(x)))
        
# Número de silabas
palabras['#silabas'] = palabras['text'].apply(lambda x: syllables(x))
    
# Promedio de longitud del tweet
palabras['promedio_len_word'] = palabras['text'].apply(lambda x: length(x))

  out=out, **kwargs)


In [9]:
# Creo archivo csv
del palabras["text"]
palabras.to_csv(DIR_NEW + 'cantidades.csv', index=False)

In [10]:
# Muestro contenido del csv

cantidades_csv = pd.read_csv(DIR_NEW + 'cantidades.csv', low_memory=False)
display(cantidades_csv.head())
display(cantidades_csv.shape)

Unnamed: 0,id,#palabras,#palabras_unicas,#caracteres,#stopwords,#putuacion,#capitalize,#mayusculas,#silabas,promedio_len_word
0,1,13,13,69,6,1,5,1,18,4.384615
1,4,7,7,38,0,1,5,0,10,4.571429
2,5,22,20,133,11,3,2,0,26,5.090909
3,6,8,8,65,1,2,1,0,17,7.125
4,7,16,15,88,7,2,3,0,24,4.5


(7613, 10)

## pronombres.csv

In [11]:
# Funciones auxiliares

def count_word_tweet(tweet, words):
    cant = 0
    for w in tweet.lower().split(" "):
        if w in words:
            cant+=1
    return cant

def count_letter_tweet(tweet, char):
    cant = 0
    for words in tweet.lower().split(" "):
        for w in words:
            if char in w:
                cant+=1
    return cant

In [12]:
# Creo un dataframe con la cantidad de pronombres personales

df_pronombres = train[["id"]].copy()

df_pronombres['she'] = train['text'].apply(lambda x: count_word_tweet(x, ["she", "she's"]))
df_pronombres['he'] = train['text'].apply(lambda x: count_word_tweet(x, ["he", "he's"]))
df_pronombres['it'] = train['text'].apply(lambda x: count_word_tweet(x, ["it", "it's"]))
df_pronombres['i'] = train['text'].apply(lambda x: count_word_tweet(x, ["i", "i'm"]))
df_pronombres['you'] = train['text'].apply(lambda x: count_word_tweet(x, ["you","you're"]))
df_pronombres['they'] = train['text'].apply(lambda x: count_word_tweet(x, ["they","they're"]))
df_pronombres['we'] = train['text'].apply(lambda x: count_word_tweet(x, ["we","we're"]))

df_pronombres['total'] = df_pronombres['she'] + df_pronombres['he']+ df_pronombres['they']+\
            df_pronombres['it'] +df_pronombres['you'] + df_pronombres['i'] + df_pronombres['we']

In [13]:
# Creo archivo csv

df_pronombres.set_index('id')
df_pronombres.to_csv(DIR_NEW + 'pronombres.csv', index=False)

In [14]:
# Muestro contenido del csv

pronombres_csv = pd.read_csv(DIR_NEW + 'pronombres.csv', low_memory=False)
display(pronombres_csv.head())
display(pronombres_csv.shape)

Unnamed: 0,id,she,he,it,i,you,they,we,total
0,1,0,0,0,0,0,0,0,0
1,4,0,0,0,0,0,0,0,0
2,5,0,0,0,0,0,0,0,0
3,6,0,0,0,0,0,0,0,0
4,7,0,0,0,0,0,0,0,0


(7613, 9)

## cant_hashtags.csv

In [15]:
# Funciones auxiliares

# Funcion que limpia un poco el tweet

def cleanTweet(tweet):
    tw = " "
    words = tweet.split(' ')
    for word in words:
        word = ''.join(filter(lambda x: x in set(string.printable), word))
        word = word.replace("\n"," ")
        word = word.replace('û',"")
        word = word.replace('_','')
        word = word.replace("\"",'')
        word = word.strip('.')
        word = word.strip(',')
        word = word.strip(':')
        tw += word + " "
    return tw

# Recibe un tweet en forma de string y devuelve otro string con sus
# hashtags con el separador ',' de por medio y en minuscula.

def get_hashtags(tweet):
    res = ""
    words = tweet.split(' ')
    for word in words:
        if(word != "" and word[0]=='#'):
            res += word.lower() +" "
    return res[:-1]

# Recibe un string y devuelve la cantidad de substrings que son separados por un delimitador ',' .
def cant_substrings(string):
    cant = 0
    delimiter =  '#'
    for c in string:
        if(c == delimiter):
            cant +=1
    return cant

In [16]:
df_hashtags = train[['id', 'text']].copy()

df_hashtags['text'] = df_hashtags['text'].apply(cleanTweet)
df_hashtags['hashtags'] = df_hashtags['text'].apply(get_hashtags).astype(str)
df_hashtags['cant_hashtags'] = df_hashtags['text'].apply(cant_substrings)
df_hashtags['tiene_hashtag'] = df_hashtags['cant_hashtags'].apply(lambda x: False if x==0 else True)

In [17]:
# Creo archivo csv

df_hashtags.set_index('id')
del df_hashtags["text"], df_hashtags["hashtags"]
df_hashtags.to_csv(DIR_NEW + 'cant_hashtags.csv', index=False)

In [18]:
# Muestro contenido del csv

cant_hashtags_csv = pd.read_csv(DIR_NEW + 'cant_hashtags.csv', low_memory=False)
display(cant_hashtags_csv.head())
display(cant_hashtags_csv.shape)

Unnamed: 0,id,cant_hashtags,tiene_hashtag
0,1,1,True
1,4,0,False
2,5,0,False
3,6,1,True
4,7,2,True


(7613, 3)

## puntuacion_cant.csv y  puntuacion_cat.csv

In [19]:
# Funciones auxiliares

def puntuacion_de_tw(tweet):
    
    res = ""
    for c in tweet:
        if(c in string.punctuation):
            res += c
    return ("").join(sorted(res))


def n_char_en_palabra(text,chars,n):
    
    n_chars = [c*n for c in ("").join(chars.split(" "))]
    res = []
    
    text_aux = text.lower()
    
    for w in text_aux.split():
        
        for n_char in n_chars:
            if(n_char in w):
                res.append(n_char)
    return (" ").join(res)

def tres_letras_de_tw(tweet):
    letras = string.ascii_letters
    res =  n_char_en_palabra(tweet,letras,3)
    return res

def tres_punct_de_tw(tweet):
    punt = string.punctuation
    res = n_char_en_palabra(tweet,punt,3)
    return res


def dos_punct_de_tw(tweet):
    punt = string.punctuation
    res= n_char_en_palabra(tweet,punt,2)
    return res


def cant_puntos_suspensivos_tw(tweet):
    cant = 0
    for w in tweet.split():
        w = w.lower()        
        if "..." in w:
            cant+=1
    return cant

def cant_signos_de_pregunta_tw(tweet):
    cant = 0
    for w in tweet.split():
        w = w.lower()        
        if "??" in w:
            cant+=1
    return cant

def cant_signos_de_exclamacion_tw(tweet):
    cant = 0
    for w in tweet.split():
        w = w.lower()        
        if "!!" in w:
            cant+=1
    return cant

In [20]:
def count_punt(string):
    if string == "":
        return 0
    return len(string.split(" "))

In [21]:
# Creo datafram 
# Saco menciones y links

df_caracteres = train[["id","text"]].copy()
df_caracteres.set_index('id')

df_caracteres['text'] = df_caracteres['text'].apply(lambda x: quitar_link_twitter(x))
df_caracteres['text'] = df_caracteres['text'].apply(lambda x: quitar_mencion_twitter(x))

In [22]:
# Agrego columnas a df_caracteres

df_caracteres["punct"] = df_caracteres['text'].apply(lambda x: puntuacion_de_tw(x))
df_caracteres["cant_punct"] = df_caracteres['punct'].apply(lambda x: len(x))

df_caracteres = df_caracteres[lambda x: x.cant_punct>0] # filtro tweets sin puntuacion

df_caracteres["punct_multiple"] = df_caracteres['text'].apply(lambda x: dos_punct_de_tw(x))
df_caracteres["cant_punct_multiple"] = df_caracteres['punct_multiple'].apply(lambda x: count_punt(x))


df_caracteres["punctx3"] = df_caracteres['text'].apply(lambda x: tres_punct_de_tw(x))
df_caracteres["cant_punctx3"] = df_caracteres['punctx3'].apply(lambda x: count_punt(x))

df_caracteres["cant..."] = df_caracteres['text'].apply(lambda x: cant_puntos_suspensivos_tw(x))
df_caracteres["cant_multiple_?"] = df_caracteres['text'].apply(lambda x: cant_signos_de_pregunta_tw(x))
df_caracteres["cant_multiple_!"] = df_caracteres['text'].apply(lambda x: cant_signos_de_exclamacion_tw(x))

In [23]:
# Separo los atributos numéricos de los categóricos

del df_caracteres["text"]

atributos_cant = ["id"]
atributos_char = []
for col_name in df_caracteres.columns:
    if "cant" in col_name:
        atributos_cant.append(col_name)
    else:
        atributos_char.append(col_name)

In [24]:
# Creo archivo csv

df_caracteres.set_index('id')

df_caracteres[atributos_cant].to_csv(DIR_NEW + 'puntuacion_cant.csv', index=False)

df_caracteres[atributos_char].to_csv(DIR_NEW + 'puntuacion_cat.csv', index=False)

In [25]:
# Muestro contenido del csv puntuacion_cant.csv

puntuacion_cant_csv = pd.read_csv(DIR_NEW + 'puntuacion_cant.csv', low_memory=False)
display(puntuacion_cant_csv.head())
display(puntuacion_cant_csv.shape)

Unnamed: 0,id,cant_punct,cant_punct_multiple,cant_punctx3,cant...,cant_multiple_?,cant_multiple_!
0,1,1,0,0,0,0,0
1,4,1,0,0,0,0,0
2,5,3,0,0,0,0,0
3,6,2,0,0,0,0,0
4,7,2,0,0,0,0,0


(6390, 7)

In [26]:
# Muestro contenido del csv puntuacion_cat.csv

puntuacion_cat_csv = pd.read_csv(DIR_NEW + 'puntuacion_cat.csv', low_memory=False)
display(puntuacion_cat_csv.head())
display(puntuacion_cat_csv.shape)

Unnamed: 0,id,punct,punct_multiple,punctx3
0,1,#,,
1,4,.,,
2,5,''.,,
3,6,"#,",,
4,7,##,,


(6390, 4)