## An√°lisis de regionalismos

En esta notebook haremos un an√°lisis de regionalismos. Para ello, utilizaremos  

In [1]:
import pandas as pd

df_slang = pd.read_json("../data/dict_argentino.json").T

df_slang.drop(columns="term")

Unnamed: 0,link,definitions
a caballito,https://www.diccionarioargentino.com/term/A+Ca...,[{'definition': 'Se usa este t√©rmino para refe...
a cara de perro,https://www.diccionarioargentino.com/term/a+ca...,[{'definition': 'ser o estar en una situaci√≥n ...
a casa,https://www.diccionarioargentino.com/term/a+casa,"[{'definition': 'Se utiliza en videojuegos, de..."
a cococho,https://www.diccionarioargentino.com/term/a+co...,"[{'definition': 'a babucha, (llevar una person..."
a full,https://www.diccionarioargentino.com/term/A+full,"[{'definition': 'Del ingl√©s ""full"" (completo, ..."
...,...,...
zorro,https://www.diccionarioargentino.com/term/Zorro,"[{'definition': 'Inspector de tr√°nsito.', 'exa..."
zukaritas,https://www.diccionarioargentino.com/term/Zuka...,[{'definition': 'Sobrenombre de Mark Zuckerber...
zurdaje,https://www.diccionarioargentino.com/term/zurdaje,[{'definition': '1. Nombre o sustantivo colect...
zurdo,https://www.diccionarioargentino.com/term/Zurdo,[{'definition': 'Uso despectivo para referirse...


Carguemos los textos anotados por regionalismos

In [2]:
annotated_df = pd.read_csv("../data/regionalisms_annotated.csv")

# Remove columns with "Notas"

annotated_df = annotated_df[annotated_df.columns.drop(list(annotated_df.filter(regex='Notas')))]

cols = ["JM", "Vivi", "Pau"]

# convert cols to int

annotated_df[cols] = annotated_df[cols].fillna(0).astype(int)

annotated_df

Unnamed: 0,id,context_tweet,text,JM,Vivi,Pau
0,339709,Coronavirus: un diario ingl√©s asegura que los ...,@usuario Que gente de mierda .,0,0,0
1,395003,"Muri√≥ el periodista Mario Pereyra, √≠cono de la...",@usuario Cu√°nto zurdito resentido en los comen...,1,1,1
2,381327,"""Se termin√≥, a salir a la calle‚Äù: detuvieron a...",@usuario Flor de imb√©cil,1,1,1
3,371979,El pol√©mico mensaje de Cinthia Fern√°ndez sobre...,@usuario Y que tiene tiene de pol√©mico???,0,0,0
4,342998,Coronavirus: China anunci√≥ que no registr√≥ nin...,@usuario Chinos de mierda q se maten todos,0,0,0
5,360287,El divertido pedido de Jimena Bar√≥n a Alberto ...,@usuario Llevaba 5 d√≠as sin re√≠rme. Ahora van 6..,0,0,0
6,407017,"El tama√±o, ¬øimporta?: c√≥mo medirlo y consejos ...",@usuario Por supuesto que el tama√±o NO IMPORTA...,1,0,0
7,407369,¬øSe puede ser feminista y llorar a Diego Marad...,@usuario Ustedes son una mierda,0,0,0
8,334492,üî¥ AHORA | El Gobierno habilit√≥ el arribo de m√°...,@usuario No hay m√©dicos en Argentina? O tenemo...,0,0,0
9,386305,El Gobierno respald√≥ el proyecto para que el E...,@usuario El Gobierno respald√≥ la propuesta del...,1,0,0


In [3]:
import krippendorff

krippendorff.alpha(annotated_df[cols].T)

0.5984905660377359

In [4]:
# Saco tildes

from rioplatense_hs.preprocessing import remove_accents

slangs = [remove_accents(s) for s in df_slang.index]


In [16]:
import stanza

nlp = stanza.Pipeline(lang='es', processors='tokenize,mwt,pos,lemma')

text = "Este es un zurdito que se la pasa hablando de la revoluci√≥n"

# Suffixes to convert
suffixes = {
    "ito": "o",
    "ita": "a",
    "itos": "os",
    "itas": "as",
}

def chop_suffixes(word):
    for suffix, replacement in suffixes.items():
        if word.endswith(suffix):
            return word[:-len(suffix)] + replacement
    return word

def post_process_tokens(toks):
    ret = []
    for tok in toks:
        tok = remove_accents(tok.lower())
        tok = chop_suffixes(tok)
        ret.append(tok)
    return ret

doc = nlp(text)

for sentence in doc.sentences:
    for word in sentence.words:
        print(f"{word.text:<30}{word.lemma:<30}{word.upos:<30}{word.xpos:<30}")


2024-03-06 18:59:31 INFO: Checking for updates to resources.json in case models have been updated.  Note: this behavior can be turned off with download_method=None or download_method=DownloadMethod.REUSE_RESOURCES


Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.8.0.json:   0%|   ‚Ä¶

2024-03-06 18:59:31 INFO: Downloaded file to /home/jmperez/stanza_resources/resources.json
2024-03-06 18:59:31 INFO: Loading these models for language: es (Spanish):
| Processor | Package         |
-------------------------------
| tokenize  | ancora          |
| mwt       | ancora          |
| pos       | ancora_charlm   |
| lemma     | ancora_nocharlm |

2024-03-06 18:59:31 INFO: Using device: cpu
2024-03-06 18:59:31 INFO: Loading: tokenize
2024-03-06 18:59:31 INFO: Loading: mwt
2024-03-06 18:59:31 INFO: Loading: pos
2024-03-06 18:59:32 INFO: Loading: lemma
2024-03-06 18:59:32 INFO: Done loading processors!


Este                          este                          PRON                          pd0ms000                      
es                            ser                           AUX                           vsip3s0                       
un                            uno                           DET                           di0ms0                        
zurdito                       zurdito                       NOUN                          ncms000                       
que                           que                           PRON                          pr0cn000                      
se                            √©l                            PRON                          p0300000                      
la                            √©l                            PRON                          pp3fsa00                      
pasa                          pasar                         VERB                          vmip3s0                       
hablando                      

In [17]:
import spacy

nlp = spacy.load("es_dep_news_trf")

doc = nlp(text)

toks = [token.lemma_ for token in doc]

toks = post_process_tokens(toks)

toks


['este',
 'ser',
 'uno',
 'zurdo',
 'que',
 'el',
 'el',
 'pasar',
 'hablar',
 'de',
 'el',
 'revolucion']

In [19]:
from rapidfuzz import fuzz
from tqdm.auto import tqdm
import spacy

nlp = spacy.load("es_dep_news_trf")

threshold = 90

used_slangs = []

for idx, row in tqdm(annotated_df.iterrows()):
    # Check if any slang on it

    this_row_slangs = []
    doc = nlp(row["text"])
    toks = [token.lemma_ for token in doc]
    toks = post_process_tokens(toks)
    for slang in slangs:
        if fuzz.partial_ratio(f" {slang} ", " ".join(toks)) > threshold:
            this_row_slangs.append(slang)


    used_slangs.append(this_row_slangs)

annotated_df["slangs"] = used_slangs

0it [00:00, ?it/s]

In [20]:
print(f"Tienen slangs {len(annotated_df[annotated_df['slangs'].map(len) > 0])} de {len(annotated_df)}")

Tienen slangs 21 de 51


In [26]:
annotated_df

Unnamed: 0,id,context_tweet,text,JM,Vivi,Pau,slangs,dictionary
0,339709,Coronavirus: un diario ingl√©s asegura que los mercados chinos siguen vendiendo murci√©lagos y car...,@usuario Que gente de mierda .,0,0,0,[],0
1,395003,"Muri√≥ el periodista Mario Pereyra, √≠cono de la radio de C√≥rdoba https://t.co/MZtxmqFP4o",@usuario Cu√°nto zurdito resentido en los comentarios...,1,1,1,[zurdo],1
2,381327,"""Se termin√≥, a salir a la calle‚Äù: detuvieron a un hombre que se grab√≥ llamando a romper la cuare...",@usuario Flor de imb√©cil,1,1,1,[],0
3,371979,El pol√©mico mensaje de Cinthia Fern√°ndez sobre la muerte de un delincuente en un intento de robo...,@usuario Y que tiene tiene de pol√©mico???,0,0,0,[],0
4,342998,Coronavirus: China anunci√≥ que no registr√≥ ning√∫n caso nuevo local https://t.co/bg8d1fSwBX https...,@usuario Chinos de mierda q se maten todos,0,0,0,[],0
5,360287,El divertido pedido de Jimena Bar√≥n a Alberto Fern√°ndez por la falta de intimidad en cuarentena ...,@usuario Llevaba 5 d√≠as sin re√≠rme. Ahora van 6..,0,0,0,[],0
6,407017,"El tama√±o, ¬øimporta?: c√≥mo medirlo y consejos para una penetraci√≥n m√°s placentera | Por Cecilia ...","@usuario Por supuesto que el tama√±o NO IMPORTA,,,,,TENERLA CHICA NO CUENTA Y NO IMPORTAüòÇüòÇüòÇüòÇüòÇüòÇüòÇüòÇ",1,0,0,[],0
7,407369,¬øSe puede ser feminista y llorar a Diego Maradona? https://t.co/cdAPQ8PuEL https://t.co/VggCrUXUaZ,@usuario Ustedes son una mierda,0,0,0,[],0
8,334492,üî¥ AHORA | El Gobierno habilit√≥ el arribo de m√°s de 200 m√©dicos cubanos para atender el pico de l...,@usuario No hay m√©dicos en Argentina? O tenemos que recibir esp√≠as agitadores e m√©dicos in√∫tiles...,0,0,0,[],0
9,386305,El Gobierno respald√≥ el proyecto para que el Estado se quede con acciones de las empresas a las ...,"@usuario El Gobierno respald√≥ la propuesta del Estado?????. . . no son lo mismo, sobre todo en √©...",1,0,0,"[caer, tirar un centro]",1


In [25]:
annotated_df["dictionary"] = (annotated_df["slangs"].map(len) > 0) * 1

# Calculemos Krippendorffs contra los dem√°s

for col in cols:
    print(f"Krippendorff de diccionario y {col:<5}: {krippendorff.alpha(annotated_df[['dictionary', col]].T):.2f}")

Krippendorff de diccionario y JM   : 0.32
Krippendorff de diccionario y Vivi : 0.39
Krippendorff de diccionario y Pau  : 0.47
