In [1]:
from nltk.probability import FreqDist
from nltk.util import ngrams
import pandas as pd
import ast
import fs

In [2]:
INTERIM_COMMENTS_CLEANED_DIR = fs.open_fs("MCD-NLP-HPT/data/interim")
INTERIM_COMMENTS_CLEANED = INTERIM_COMMENTS_CLEANED_DIR.getsyspath("Comments_cleaned.csv")

In [3]:
category_map = {
    1: "Quejas o sugerencias de mejora",
    2: "Propuestas y recomendaciones",
    3: "Experiencias personales",
    4: "Correcciones o datos adicionales",
    5: "Felicitaciones, agradecimientos y saludos",
    6: "Comentarios humorísticos o memes",
    7: "Comentarios generales"
}

In [4]:
df = pd.read_csv(INTERIM_COMMENTS_CLEANED)
df = df[['category_id', 'Tokens_without_stopwords_lemmatized']]
df['category_description'] = df['category_id'].map(category_map)
df

Unnamed: 0,category_id,Tokens_without_stopwords_lemmatized,category_description
0,1,"['yo', 'gustar', 'podcast', 'sólo', 'escuchar'...",Quejas o sugerencias de mejora
1,7,['weeeeey'],Comentarios generales
2,7,"['él', 'ir', 'enviar', 'foto', 'tarapaca']",Comentarios generales
3,6,"['entonces', 'teca', 'solterooooooooooooooo', ...",Comentarios humorísticos o memes
4,5,"['yo', 'encantar', 'podcast', 'escuchar', 'spo...","Felicitaciones, agradecimientos y saludos"
...,...,...,...
1021,6,"['justo', 'tiempo', 'hacer', 'pndja', 'trabajo...",Comentarios humorísticos o memes
1022,2,"['ya', 'otakus', 'declarado', 'recomer', 'anim...",Propuestas y recomendaciones
1023,1,"['pero', 'dejar', 'hablar', 'invitado', 'chavo...",Quejas o sugerencias de mejora
1024,4,"['el', 'primero', 'metal', 'na', 'humano', 'ut...",Correcciones o datos adicionales


In [5]:
df_corpus = df.groupby("category_id")["Tokens_without_stopwords_lemmatized"].apply(
    lambda x: [token for sublist in x for token in ast.literal_eval(sublist)]
)

In [6]:
df_corpus = pd.DataFrame(df_corpus).reset_index()
df_corpus['category_description'] = df_corpus['category_id'].map(category_map)
df_corpus

Unnamed: 0,category_id,Tokens_without_stopwords_lemmatized,category_description
0,1,"[yo, gustar, podcast, sólo, escuchar, youtube,...",Quejas o sugerencias de mejora
1,2,"[ir, llegar, podcast, guerra, china, vs, taiwa...",Propuestas y recomendaciones
2,3,"[el, capítulo, 98, micro, historia, gracia, no...",Experiencias personales
3,4,"[tarapacá, región, chile, entender, enredar, d...",Correcciones o datos adicionales
4,5,"[yo, encantar, podcast, escuchar, spotify, via...","Felicitaciones, agradecimientos y saludos"
5,6,"[entonces, teca, solterooooooooooooooo, wooooo...",Comentarios humorísticos o memes
6,7,"[weeeeey, él, ir, enviar, foto, tarapaca, prof...",Comentarios generales


# Create N-grams

In [7]:
df_corpus['Bigrams'] = df_corpus['Tokens_without_stopwords_lemmatized'].apply(lambda x: list(ngrams(x, 2)))
df_corpus['Trigrams'] = df_corpus['Tokens_without_stopwords_lemmatized'].apply(lambda x: list(ngrams(x, 3)))
df_corpus['Bigrams_most_frec'] = df_corpus['Bigrams'].apply(lambda x: FreqDist(x).most_common(10))
df_corpus['Trigrams_most_frec'] = df_corpus['Trigrams'].apply(lambda x: FreqDist(x).most_common(10))
df_corpus

Unnamed: 0,category_id,Tokens_without_stopwords_lemmatized,category_description,Bigrams,Trigrams,Bigrams_most_frec,Trigrams_most_frec
0,1,"[yo, gustar, podcast, sólo, escuchar, youtube,...",Quejas o sugerencias de mejora,"[(yo, gustar), (gustar, podcast), (podcast, só...","[(yo, gustar, podcast), (gustar, podcast, sólo...","[((imperio, japonés), 8), ((dejar, hablar), 7)...","[((imperio, japonés, pt4), 6), ((japonés, pt4,..."
1,2,"[ir, llegar, podcast, guerra, china, vs, taiwa...",Propuestas y recomendaciones,"[(ir, llegar), (llegar, podcast), (podcast, gu...","[(ir, llegar, podcast), (llegar, podcast, guer...","[((parte, 2), 7), ((imperio, japonés), 7), ((j...","[((imperio, japonés, pt4), 7), ((japonés, pt4,..."
2,3,"[el, capítulo, 98, micro, historia, gracia, no...",Experiencias personales,"[(el, capítulo), (capítulo, 98), (98, micro), ...","[(el, capítulo, 98), (capítulo, 98, micro), (9...","[((primero, vez), 5), ((yo, encantar), 3), ((e...","[((seguir, así, saludo), 2), ((guerra, triple,..."
3,4,"[tarapacá, región, chile, entender, enredar, d...",Correcciones o datos adicionales,"[(tarapacá, región), (región, chile), (chile, ...","[(tarapacá, región, chile), (región, chile, en...","[((por, cierto), 5), ((dato, curioso), 4), ((j...","[((segundo, guerra, mundial), 3), ((mas, largo..."
4,5,"[yo, encantar, podcast, escuchar, spotify, via...","Felicitaciones, agradecimientos y saludos","[(yo, encantar), (encantar, podcast), (podcast...","[(yo, encantar, podcast), (encantar, podcast, ...","[((yo, encantar), 19), ((el, querer), 9), ((se...","[((primero, vez, ver), 5), ((yo, encantar, pod..."
5,6,"[entonces, teca, solterooooooooooooooo, wooooo...",Comentarios humorísticos o memes,"[(entonces, teca), (teca, solteroooooooooooooo...","[(entonces, teca, solterooooooooooooooo), (tec...","[((cada, vez), 4), ((historia, tonto), 4), ((i...","[((mi, parte, favorita), 3), ((parte, favorita..."
6,7,"[weeeeey, él, ir, enviar, foto, tarapaca, prof...",Comentarios generales,"[(weeeeey, él), (él, ir), (ir, enviar), (envia...","[(weeeeey, él, ir), (él, ir, enviar), (ir, env...","[((medio, hora), 2), ((primer, comentario), 2)...","[((weeeeey, él, ir), 1), ((él, ir, enviar), 1)..."


In [9]:
df_corpus['Trigrams_most_frec'][0]

[(('imperio', 'japonés', 'pt4'), 6),
 (('japonés', 'pt4', 'plis'), 6),
 (('dejar', 'hablar', 'invitado'), 3),
 (('weey', 'quitar', 'comentario'), 2),
 (('quitar', 'comentario', 'spotify'), 2),
 (('comentario', 'spotify', 'a'), 2),
 (('spotify', 'a', 'enojar'), 2),
 (('a', 'enojar', 'mario'), 2),
 (('enojar', 'mario', 'Delgado'), 2),
 (('mario', 'Delgado', 'secretario'), 2)]

<a style='text-decoration:none;line-height:16px;display:flex;color:#5B5B62;padding:10px;justify-content:end;' href='https://deepnote.com?utm_source=created-in-deepnote-cell&projectId=2820e488-6f1b-466d-af14-a66826f012e3' target="_blank">
 </img>
Created in <span style='font-weight:600;margin-left:4px;'>Deepnote</span></a>