# Análisis exploratorio de datos básico

## Datos de la competencia HAHA-2021

#### [Julio Waissman Vilanova](julio.waissman@unison.mx)

Abril, 2021

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from collections import Counter
import spacy
from wordcloud import WordCloud, ImageColorGenerator

plt.style.use('ggplot')
nlp = spacy.load('es_core_news_lg')

# Obtención de datos y visualización de atributos

Los datos vienen ya en un archivo csv

In [None]:
df = pd.read_csv("../data/haha_2021_train.csv")

print(f"Las columnas son: {df.columns}")

df.head(5)

En `text`se encuentran los documentos a ser procesados

In [None]:
print(80 * '=')
for texto in df.text.sample(10).values:
    print(texto)
    print(80 * '=')

De los cuales la mayoría no están considerados como de humor

In [None]:
is_humor = Counter(df.is_humor.values)

print("Cuantos textos son de humor voluntario y cuantos no")
print(is_humor)

# Podemos ver si hay datos perdidos en humor_mechanism y humor_target
# para los casos donde es de humor y donde no es de humor

print("\n\nAqui vemos que de los textos que no son de humor, todos los valores de mecanismo y target son NaN")
print(f"Para mecanismo = {Counter(df.humor_mechanism[df.is_humor == 0])}")
print(f"Para target = {Counter(df.humor_target[df.is_humor == 0])}")
print(f"Para ratio (aplicando all) = {np.all(pd.isna(df.humor_rating[df.is_humor == 0].values))}")

In [None]:
print("\nOcurrencias y valores de mecanismos")
mec_dic = dict(Counter(df.humor_mechanism[df.is_humor > 0]))
df_mec = pd.DataFrame({
    "Mecanismo": [mec if pd.notna(mec) else pd.NA for mec in mec_dic.keys()],
    "Ocurrencias": mec_dic.values()
})
print(df_mec)

In [None]:
print("\nOcurrencias y valores de target (tomando repetciones)")

target_names = set([])
target_dict = {}
for line in df.humor_target[df.is_humor > 0].unique():
    if pd.notna(line):
        for valor in line.split(';'):
            valor = valor.strip()
            target_names.add(valor)
            target_dict[valor] = target_dict.get(valor, 0) + 1 
    else:
        target_names.add("NA")

target_count = {name: 0 for name in target_names}
for line in df.humor_target[df.is_humor > 0]:
    if pd.isna(line):
        target_count['NA'] += 1
    else:
        for name in target_count:
            if line.find(name):
                target_count[name] += 1
df_tar = pd.DataFrame({
    "target": target_count.keys(),
    "count": target_count.values(),
    "repetido": [1 if key == "NA" else target_dict[key] for key in target_count.keys()]
}).sort_values("count", ascending=False).reset_index(drop=True)

print(df_tar)

y el *grado de chistozes* evaluado por 5 jurados tiene la siguiente distribución:

In [None]:
print(f"¿Existe algun valor perdido? {np.any(pd.isna(df.humor_rating[df.is_humor > 0]))}")

plt.hist(df.humor_rating[df.is_humor>0].values, bins=25)
plt.xlabel("ratings entre 1 y 5")
plt.title("Distribución de los ratings")
plt.show()

# Algunas nubes de palabras para divertirse

Primero vamos a agregar una columna con el texto tratado con *SpaCy*

In [None]:
df['spacy'] = [nlp(text) for text in df.text]


In [None]:
spacy.displacy.render(df.spacy.sample(2))

In [None]:
spacy.displacy.render(df.spacy.sample(5), style='ent')

Ahora vamos a hacer algunas nubes de palabras

In [None]:
def genera_nube(docs, pos_tags = [], tipo=None"):

    newText = ""
    for doc in docs:
        for token in doc:
            if not any(
                [token.is_stop, token.is_currency,
                 token.is_punct, token.is_bracket, token.is_quote,
                 token.like_num, token.like_email, token.like_url]):           
                if not pos_tags or token.pos_ in pos_tags:
                    texto = token.lemma_ if tipo == "lema" else token.lower_
                    newText = " ".join((newText, texto))
    return WordCloud().generate(newText)

In [None]:
wordcloud = genera_nube(
    df.spacy[df.is_humor == 0], 
    pos_tags = ['ADJ'], 
    tipo="-lema"
)
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis("off")
plt.show()

In [None]:
wordcloud = genera_nube(
    df.spacy[df.is_humor > 0], 
    pos_tags = ['ADJ'], 
    tipo="-lema"
)
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis("off")
plt.show()

In [None]:
wordcloud = genera_nube(
    df.spacy[df.humor_mechanism == 'stereotype'], 
    pos_tags = ['ADJ'], 
    tipo='-lema'
)
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis("off")
plt.show()

In [None]:
df_temp = df[pd.notna(df.humor_target)]

wordcloud = genera_nube(
    df_temp.spacy[df_temp.humor_target.str.contains("women")] , 
    pos_tags = ['VERB'], 
    tipo='lema'
)
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis("off")
plt.show()

# Tareas a desarrollar

Al parecer tenemos 3 tareas a desarrollar para ir integrandolas en un pipeline de *SpaCy*:

1. Categorizar todos los textos entre humor y no humor (clasificación binaria)
2. Clasificar los textos en mecanismo (textcat con una sola clase por texto, no binaria)
3. Clasificar los textos por objetivo (textcat con multiples clases por texto)
4. Predecir el *indice de chistosez* (regresión a partir de un texto)


Todas las podemos desarrollar en *Spacy* usando los proyectos. Hay que verificar si se hace un proyecto por tarea o si podemos agregar todas las tareas en el mismo proyecto. 

El único caso que no se si se pueda hacer con *Spacy* es el de regresión. Por otro lado, con lo visto en redes neuronales, tambien podemos aplicarlo a estos problemas.