## Análisis de regionalismos

En esta notebook haremos un análisis de regionalismos. Para ello, utilizaremos  

In [1]:
import pandas as pd

df_slang = pd.read_json("../data/dict_argentino.json").T

df_slang.drop(columns="term")

Unnamed: 0,link,definitions
a caballito,https://www.diccionarioargentino.com/term/A+Ca...,[{'definition': 'Se usa este término para refe...
a cara de perro,https://www.diccionarioargentino.com/term/a+ca...,[{'definition': 'ser o estar en una situación ...
a casa,https://www.diccionarioargentino.com/term/a+casa,"[{'definition': 'Se utiliza en videojuegos, de..."
a cococho,https://www.diccionarioargentino.com/term/a+co...,"[{'definition': 'a babucha, (llevar una person..."
a full,https://www.diccionarioargentino.com/term/A+full,"[{'definition': 'Del inglés ""full"" (completo, ..."
...,...,...
zorro,https://www.diccionarioargentino.com/term/Zorro,"[{'definition': 'Inspector de tránsito.', 'exa..."
zukaritas,https://www.diccionarioargentino.com/term/Zuka...,[{'definition': 'Sobrenombre de Mark Zuckerber...
zurdaje,https://www.diccionarioargentino.com/term/zurdaje,[{'definition': '1. Nombre o sustantivo colect...
zurdo,https://www.diccionarioargentino.com/term/Zurdo,[{'definition': 'Uso despectivo para referirse...


Carguemos los textos anotados por regionalismos

In [2]:
annotated_df = pd.read_csv("../data/regionalisms_annotated.csv")

# Remove columns with "Notas"

annotated_df = annotated_df[annotated_df.columns.drop(list(annotated_df.filter(regex='Notas')))]

cols = ["JM", "Vivi", "Pau"]

# convert cols to int

annotated_df[cols] = annotated_df[cols].fillna(0).astype(int)

annotated_df

Unnamed: 0,id,context_tweet,text,JM,Vivi,Pau
0,339709,Coronavirus: un diario inglés asegura que los ...,@usuario Que gente de mierda .,0,0,0
1,395003,"Murió el periodista Mario Pereyra, ícono de la...",@usuario Cuánto zurdito resentido en los comen...,1,1,1
2,381327,"""Se terminó, a salir a la calle”: detuvieron a...",@usuario Flor de imbécil,1,1,1
3,371979,El polémico mensaje de Cinthia Fernández sobre...,@usuario Y que tiene tiene de polémico???,0,0,0
4,342998,Coronavirus: China anunció que no registró nin...,@usuario Chinos de mierda q se maten todos,0,0,0
5,360287,El divertido pedido de Jimena Barón a Alberto ...,@usuario Llevaba 5 días sin reírme. Ahora van 6..,0,0,0
6,407017,"El tamaño, ¿importa?: cómo medirlo y consejos ...",@usuario Por supuesto que el tamaño NO IMPORTA...,1,0,0
7,407369,¿Se puede ser feminista y llorar a Diego Marad...,@usuario Ustedes son una mierda,0,0,0
8,334492,🔴 AHORA | El Gobierno habilitó el arribo de má...,@usuario No hay médicos en Argentina? O tenemo...,0,0,0
9,386305,El Gobierno respaldó el proyecto para que el E...,@usuario El Gobierno respaldó la propuesta del...,1,0,0


In [3]:
import krippendorff

krippendorff.alpha(annotated_df[cols].T)

0.5984905660377359

In [4]:
# Saco tildes

from rioplatense_hs.preprocessing import remove_accents

slangs = [remove_accents(s) for s in df_slang.index]


In [16]:
import stanza

nlp = stanza.Pipeline(lang='es', processors='tokenize,mwt,pos,lemma')

text = "Este es un zurdito que se la pasa hablando de la revolución"

# Suffixes to convert
suffixes = {
    "ito": "o",
    "ita": "a",
    "itos": "os",
    "itas": "as",
}

def chop_suffixes(word):
    for suffix, replacement in suffixes.items():
        if word.endswith(suffix):
            return word[:-len(suffix)] + replacement
    return word

def post_process_tokens(toks):
    ret = []
    for tok in toks:
        tok = remove_accents(tok.lower())
        tok = chop_suffixes(tok)
        ret.append(tok)
    return ret

doc = nlp(text)

for sentence in doc.sentences:
    for word in sentence.words:
        print(f"{word.text:<30}{word.lemma:<30}{word.upos:<30}{word.xpos:<30}")


2024-03-06 18:59:31 INFO: Checking for updates to resources.json in case models have been updated.  Note: this behavior can be turned off with download_method=None or download_method=DownloadMethod.REUSE_RESOURCES


Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.8.0.json:   0%|   …

2024-03-06 18:59:31 INFO: Downloaded file to /home/jmperez/stanza_resources/resources.json
2024-03-06 18:59:31 INFO: Loading these models for language: es (Spanish):
| Processor | Package         |
-------------------------------
| tokenize  | ancora          |
| mwt       | ancora          |
| pos       | ancora_charlm   |
| lemma     | ancora_nocharlm |

2024-03-06 18:59:31 INFO: Using device: cpu
2024-03-06 18:59:31 INFO: Loading: tokenize
2024-03-06 18:59:31 INFO: Loading: mwt
2024-03-06 18:59:31 INFO: Loading: pos
2024-03-06 18:59:32 INFO: Loading: lemma
2024-03-06 18:59:32 INFO: Done loading processors!


Este                          este                          PRON                          pd0ms000                      
es                            ser                           AUX                           vsip3s0                       
un                            uno                           DET                           di0ms0                        
zurdito                       zurdito                       NOUN                          ncms000                       
que                           que                           PRON                          pr0cn000                      
se                            él                            PRON                          p0300000                      
la                            él                            PRON                          pp3fsa00                      
pasa                          pasar                         VERB                          vmip3s0                       
hablando                      ha

In [17]:
import spacy

nlp = spacy.load("es_dep_news_trf")

doc = nlp(text)

toks = [token.lemma_ for token in doc]

toks = post_process_tokens(toks)

toks


['este',
 'ser',
 'uno',
 'zurdo',
 'que',
 'el',
 'el',
 'pasar',
 'hablar',
 'de',
 'el',
 'revolucion']

In [19]:
from rapidfuzz import fuzz
from tqdm.auto import tqdm
import spacy

nlp = spacy.load("es_dep_news_trf")

threshold = 90

used_slangs = []

for idx, row in tqdm(annotated_df.iterrows()):
    # Check if any slang on it

    this_row_slangs = []
    doc = nlp(row["text"])
    toks = [token.lemma_ for token in doc]
    toks = post_process_tokens(toks)
    for slang in slangs:
        if fuzz.partial_ratio(f" {slang} ", " ".join(toks)) > threshold:
            this_row_slangs.append(slang)


    used_slangs.append(this_row_slangs)

annotated_df["slangs"] = used_slangs

0it [00:00, ?it/s]

In [20]:
print(f"Tienen slangs {len(annotated_df[annotated_df['slangs'].map(len) > 0])} de {len(annotated_df)}")

Tienen slangs 21 de 51


In [26]:
annotated_df

Unnamed: 0,id,context_tweet,text,JM,Vivi,Pau,slangs,dictionary
0,339709,Coronavirus: un diario inglés asegura que los mercados chinos siguen vendiendo murciélagos y car...,@usuario Que gente de mierda .,0,0,0,[],0
1,395003,"Murió el periodista Mario Pereyra, ícono de la radio de Córdoba https://t.co/MZtxmqFP4o",@usuario Cuánto zurdito resentido en los comentarios...,1,1,1,[zurdo],1
2,381327,"""Se terminó, a salir a la calle”: detuvieron a un hombre que se grabó llamando a romper la cuare...",@usuario Flor de imbécil,1,1,1,[],0
3,371979,El polémico mensaje de Cinthia Fernández sobre la muerte de un delincuente en un intento de robo...,@usuario Y que tiene tiene de polémico???,0,0,0,[],0
4,342998,Coronavirus: China anunció que no registró ningún caso nuevo local https://t.co/bg8d1fSwBX https...,@usuario Chinos de mierda q se maten todos,0,0,0,[],0
5,360287,El divertido pedido de Jimena Barón a Alberto Fernández por la falta de intimidad en cuarentena ...,@usuario Llevaba 5 días sin reírme. Ahora van 6..,0,0,0,[],0
6,407017,"El tamaño, ¿importa?: cómo medirlo y consejos para una penetración más placentera | Por Cecilia ...","@usuario Por supuesto que el tamaño NO IMPORTA,,,,,TENERLA CHICA NO CUENTA Y NO IMPORTA😂😂😂😂😂😂😂😂",1,0,0,[],0
7,407369,¿Se puede ser feminista y llorar a Diego Maradona? https://t.co/cdAPQ8PuEL https://t.co/VggCrUXUaZ,@usuario Ustedes son una mierda,0,0,0,[],0
8,334492,🔴 AHORA | El Gobierno habilitó el arribo de más de 200 médicos cubanos para atender el pico de l...,@usuario No hay médicos en Argentina? O tenemos que recibir espías agitadores e médicos inútiles...,0,0,0,[],0
9,386305,El Gobierno respaldó el proyecto para que el Estado se quede con acciones de las empresas a las ...,"@usuario El Gobierno respaldó la propuesta del Estado?????. . . no son lo mismo, sobre todo en é...",1,0,0,"[caer, tirar un centro]",1


In [25]:
annotated_df["dictionary"] = (annotated_df["slangs"].map(len) > 0) * 1

# Calculemos Krippendorffs contra los demás

for col in cols:
    print(f"Krippendorff de diccionario y {col:<5}: {krippendorff.alpha(annotated_df[['dictionary', col]].T):.2f}")

Krippendorff de diccionario y JM   : 0.32
Krippendorff de diccionario y Vivi : 0.39
Krippendorff de diccionario y Pau  : 0.47
