 # Todas las cuestiones relativas al preprocesado figuran en este Collab

#### **Recordatorio**: aunque todo este preprocesado se haya hecho en grupo, se recuerda que la redacción ha de ser personalizada.

---
---

# Length Features

Aquí se recogen algunas variables relacionadas con la longitud de la frase tanto a nivel de token como a nivel de caracter.

In [148]:
import pandas as pd
train_dataframe = pd.read_csv("https://raw.githubusercontent.com/jibt1/competition_group/main/Tareas/datasets/haha_2021_train.csv", sep=',')

In [149]:
train_dataframe.columns

Index(['id', 'text', 'is_humor', 'votes_no', 'votes_1', 'votes_2', 'votes_3',
       'votes_4', 'votes_5', 'humor_rating', 'humor_mechanism',
       'humor_target'],
      dtype='object')

In [150]:
text = train_dataframe[['id', 'text', 'is_humor', 'votes_no', 'votes_1', 'votes_2', 'votes_3',
       'votes_4', 'votes_5', 'humor_rating', 'humor_mechanism',
       'humor_target']]
#text = text.iloc[4650:4660,:] # comentar esta

In [151]:
def len_token(tweet):
  tweet_tokens = tweet.replace('\n', ' ').split(' ')
  return len(tweet_tokens)
def n_characters_tweet(tweet):
  tweet = tweet.replace('\n', ' ')
  return len(tweet)

def get_len_token(text):
  return list(map(len_token, text['text'].to_list()))

def get_n_characters_tweet(text):
  return list(map(n_characters_tweet, text['text'].to_list()))

def get_n_characters_tweet(text):
  return list(map(n_characters_tweet, text['text'].to_list()))

text['len_token'] = get_len_token(text)

text['n_char'] = get_n_characters_tweet(text)

text['ratio'] = text['len_token']/text['n_char']

text

Unnamed: 0,id,text,is_humor,votes_no,votes_1,votes_2,votes_3,votes_4,votes_5,humor_rating,humor_mechanism,humor_target,len_token,n_char,ratio
4650,tweet4651,“Te voy a dejar encerrado todo el día y sin In...,1,0,2,0,2,1,0,2.4,,,30,139,0.215827
4651,tweet4652,Es verdad eso que dicen que después de los qui...,0,3,0,0,0,0,0,,,,13,73,0.178082
4652,tweet4653,En mi defensa diré que fui educado mientras El...,0,3,0,0,0,0,0,,,,15,88,0.170455
4653,tweet4654,Ahorita en la calle escuche a dos vatos decir:...,1,0,2,1,2,0,0,2.0,misunderstanding,,29,136,0.213235
4654,tweet4655,Eramos mutuals @LOUISCARAJO,0,3,0,0,0,0,0,,,,3,27,0.111111
4655,tweet4656,Quero desaparecer,0,3,0,0,0,0,0,,,,2,17,0.117647
4656,tweet4657,"Le saque platica a una de ellas, y pues ehhh.\...",0,3,0,0,0,0,0,,,,22,112,0.196429
4657,tweet4658,Lo que veo en matemáticas: 我不明白這我不明白這. :|,1,1,1,1,2,0,0,2.25,,,7,41,0.170732
4658,tweet4659,1-1 Quién desempata? 🤔,0,3,0,0,0,0,0,,,,4,22,0.181818
4659,tweet4660,Siento q hace una semana se fue y recién van t...,0,3,0,0,0,0,0,,,,20,73,0.273973


---
---

# Word Emoji Context Matrix. 🤣 😆 😂 

Descripción: Extracción/guardado de Emojis y depuración del Corpus

Inconvenientes detectados con los emojis:

* 1 Resulta que los emojis hemos podido verificar que countvectorizer los ignora. Es decir si las frases fueran solo emojis el shape de la matriz word context sería (1,1), con valor empty.

* 2 Aun suponiendo que exista alguna alternativa a countvectorizer muchas personas escriben palabras juntas con emojis, e.g.: 'man👨', lo que podría generar un token más del vocabulario que innecesario. Además pueden escribir varios emojis juntos 👨, 👨👨, 👨👨👨, ... generando también un problema en su identificación.

La propuesta ha sido realizar un preproceso como el siguiente. Además, para solucionar el problema de los emoticonos, en lugar de pasárselos a countvectorizer en bruto utilizamos la decodificación a texto de la librería emoji: **emoji.demojize()**

In [152]:
# %%capture
!pip install emoji



In [153]:
import emoji

In [154]:
def extract_emojis(tweet):
  return ''.join(c for c in tweet if c in emoji.UNICODE_EMOJI_ENGLISH)

def get_emojilist(tweet):
  emojistring = extract_emojis(tweet)
  emojilist = [emoji for emoji in emojistring]
  for emoji in emojilist:
    tweet = tweet.replace(emoji, "")
  return tweet, emojilist

def get_emoji_sentence(tweet):
  tweet, emojilist = get_emojilist(tweet)
  emoji_sentence = emoji.demojize(' '.join(emojilist))
  return tweet, emoji_sentence

def filter(text_df):
  filtered_df = pd.DataFrame(map(get_emoji_sentence, text_df['text'].to_list()))
  filtered_df.rename(columns={0: 'sentences_without_emojis', 1: 'emoji_sentences'}, inplace=True)
  return filtered_df

df_filter_output = filter(text)

df_cleaned_sentences = df_filter_output[['sentences_without_emojis']]
# df_cleaned_sentences = df_filter_output['emoji_sentences']

text['text_v2'] = df_filter_output['sentences_without_emojis'].to_list()

emoji_sentences = df_filter_output['emoji_sentences']

text['text_emojis'] = emoji_sentences.to_list()


def get_emoji_vocab(emoji_sentence):
  analyzer = CountVectorizer(binary=False, analyzer='word', # stop_words=more_stop_words,
                              ngram_range=(1, 1)).build_analyzer()
  return (emoji for emoji in analyzer(emoji_sentence))

In [155]:
from sklearn.feature_extraction.text import  CountVectorizer
cv_emoji = CountVectorizer(analyzer=get_emoji_vocab)

In [156]:
try:
  word_context_emoji = cv_emoji.fit_transform(emoji_sentences.to_list())
# Just if there is no emoji
except ValueError:
  emoji_sentences.loc[0,0] = emoji.demojize("🆘")
  word_context_emoji = cv_emoji.fit_transform(emoji_sentences.to_list())
  """emoji_sentences_test = emoji_sentences"""
  """emoji_sentences_test.loc[0,0] = "🆘🆘🆘🆘🆘🆘🆘🆘"""
  """text['text_emojis'] = emoji_sentences_test.to_list()"""
# cv_emoji.get_feature_names()

In [157]:
cv_emoji.get_feature_names()

['grinning_squinting_face', 'thinking_face']

In [158]:
text

Unnamed: 0,id,text,is_humor,votes_no,votes_1,votes_2,votes_3,votes_4,votes_5,humor_rating,humor_mechanism,humor_target,len_token,n_char,ratio,text_v2,text_emojis
4650,tweet4651,“Te voy a dejar encerrado todo el día y sin In...,1,0,2,0,2,1,0,2.4,,,30,139,0.215827,“Te voy a dejar encerrado todo el día y sin In...,
4651,tweet4652,Es verdad eso que dicen que después de los qui...,0,3,0,0,0,0,0,,,,13,73,0.178082,Es verdad eso que dicen que después de los qui...,:grinning_squinting_face: :grinning_squinting_...
4652,tweet4653,En mi defensa diré que fui educado mientras El...,0,3,0,0,0,0,0,,,,15,88,0.170455,En mi defensa diré que fui educado mientras El...,
4653,tweet4654,Ahorita en la calle escuche a dos vatos decir:...,1,0,2,1,2,0,0,2.0,misunderstanding,,29,136,0.213235,Ahorita en la calle escuche a dos vatos decir:...,
4654,tweet4655,Eramos mutuals @LOUISCARAJO,0,3,0,0,0,0,0,,,,3,27,0.111111,Eramos mutuals @LOUISCARAJO,
4655,tweet4656,Quero desaparecer,0,3,0,0,0,0,0,,,,2,17,0.117647,Quero desaparecer,
4656,tweet4657,"Le saque platica a una de ellas, y pues ehhh.\...",0,3,0,0,0,0,0,,,,22,112,0.196429,"Le saque platica a una de ellas, y pues ehhh.\...",
4657,tweet4658,Lo que veo en matemáticas: 我不明白這我不明白這. :|,1,1,1,1,2,0,0,2.25,,,7,41,0.170732,Lo que veo en matemáticas: 我不明白這我不明白這. :|,
4658,tweet4659,1-1 Quién desempata? 🤔,0,3,0,0,0,0,0,,,,4,22,0.181818,1-1 Quién desempata?,:thinking_face:
4659,tweet4660,Siento q hace una semana se fue y recién van t...,0,3,0,0,0,0,0,,,,20,73,0.273973,Siento q hace una semana se fue y recién van t...,


---
---


# Detector de cansinos y corrección de repeticiones innecesarias

En twitter hay mucho "pesao" con el pulgar "cansao" y lo dejan mucho tiempo en el móooooooooovil pulsando una letraaaaa. A todos estos, los consideramos unos pesaos y lo vamos a tener en cuenta. No quieren trabajar.

¿Por qué corregiremos también a los pesaos? Porque spellchecker no puede, es fácil ver esto con un ejemplo en código. 

In [159]:
def is_cansino(tweet, tolerancia:int=2):
  # Consideramos pesados a todos aquellos
  # que repitan 3 veces una letra
  """
  Esta función identifica a los pesaos
  Args:
    tolerancia (int): tolerancia al pesao
  """
  l1 = ""
  rep = 0
  letra = ""
  tweet_aux = tweet + '<eos>'
  for index, letra in enumerate(tweet_aux):
      if letra == l1:
          rep += 1
      elif rep >= tolerancia:
          return l1, rep, tolerancia, 1*True
      else:
        rep = 0
        l1 = letra
  return letra, 0, tolerancia, 1*False

def get_cansinos(corpus):
  L = list(map(is_cansino, corpus))
  return [ret[3] for ret in L]

###################################Ç
##### Correccion repeticiones #####
###################################

# Esto es beta solo corrige la primera
# tanda de repeticiones se puede mejorar

def tweet_corrector(tweet):
    letra, rep, tolerancia, bool_ = is_cansino(tweet)
    if bool_ == 1:
        tweet = tweet.replace(rep*letra, '')
        tweet = tweet_corrector(tweet)
    return tweet

def corpus_corrector(corpus):
    L = list(map(tweet_corrector, corpus))
    return L

In [160]:
"""
text.loc[7,'text_v2'] = 'Meeee aaaaabuuuuurroooooo'
text
"""

"\ntext.loc[7,'text_v2'] = 'Meeee aaaaabuuuuurroooooo'\ntext\n"

In [161]:
text['detected_text_cansinos'] = get_cansinos(text['text_v2'].to_list())
text['detected_emojis_cansinos'] = get_cansinos(text['text_emojis'].to_list())
text['detected_cansinos'] = (text['detected_text_cansinos'] + text['detected_emojis_cansinos']) % 2
# text['detected_emojis_cansinos] | text['detected_text_cansinos'] 

text['text_v3'] = corpus_corrector(text['text_v2'].to_list())

text

Unnamed: 0,id,text,is_humor,votes_no,votes_1,votes_2,votes_3,votes_4,votes_5,humor_rating,humor_mechanism,humor_target,len_token,n_char,ratio,text_v2,text_emojis,detected_text_cansinos,detected_emojis_cansinos,detected_cansinos,text_v3
4650,tweet4651,“Te voy a dejar encerrado todo el día y sin In...,1,0,2,0,2,1,0,2.4,,,30,139,0.215827,“Te voy a dejar encerrado todo el día y sin In...,,0,0,0,“Te voy a dejar encerrado todo el día y sin In...
4651,tweet4652,Es verdad eso que dicen que después de los qui...,0,3,0,0,0,0,0,,,,13,73,0.178082,Es verdad eso que dicen que después de los qui...,:grinning_squinting_face: :grinning_squinting_...,0,0,0,Es verdad eso que dicen que después de los qui...
4652,tweet4653,En mi defensa diré que fui educado mientras El...,0,3,0,0,0,0,0,,,,15,88,0.170455,En mi defensa diré que fui educado mientras El...,,0,0,0,En mi defensa diré que fui educado mientras El...
4653,tweet4654,Ahorita en la calle escuche a dos vatos decir:...,1,0,2,1,2,0,0,2.0,misunderstanding,,29,136,0.213235,Ahorita en la calle escuche a dos vatos decir:...,,0,0,0,Ahorita en la calle escuche a dos vatos decir:...
4654,tweet4655,Eramos mutuals @LOUISCARAJO,0,3,0,0,0,0,0,,,,3,27,0.111111,Eramos mutuals @LOUISCARAJO,,0,0,0,Eramos mutuals @LOUISCARAJO
4655,tweet4656,Quero desaparecer,0,3,0,0,0,0,0,,,,2,17,0.117647,Quero desaparecer,,0,0,0,Quero desaparecer
4656,tweet4657,"Le saque platica a una de ellas, y pues ehhh.\...",0,3,0,0,0,0,0,,,,22,112,0.196429,"Le saque platica a una de ellas, y pues ehhh.\...",,1,0,1,"Le saque platica a una de ellas, y pues eh.\ns..."
4657,tweet4658,Lo que veo en matemáticas: 我不明白這我不明白這. :|,1,1,1,1,2,0,0,2.25,,,7,41,0.170732,Lo que veo en matemáticas: 我不明白這我不明白這. :|,,0,0,0,Lo que veo en matemáticas: 我不明白這我不明白這. :|
4658,tweet4659,1-1 Quién desempata? 🤔,0,3,0,0,0,0,0,,,,4,22,0.181818,1-1 Quién desempata?,:thinking_face:,0,0,0,1-1 Quién desempata?
4659,tweet4660,Siento q hace una semana se fue y recién van t...,0,3,0,0,0,0,0,,,,20,73,0.273973,Siento q hace una semana se fue y recién van t...,,1,0,1,Siento q hace una semana se fue y recién van t...


---
---

# SpellChecker (Corrector ortográfico)

In [162]:
# SpellChecker creo que no hace falta, pero por si acaso la dejo
# !pip install SpellChecker

In [163]:
# pyspellchecker si hace falta instalarla
# %%capture
!pip install pyspellchecker
from spellchecker import SpellChecker



In [164]:
# Con distance=1 el corrector es más conservador 
spell_check = SpellChecker(language='es', distance=1) # Gracias Yoan
# spell_check.correction("-")
# (9spell_check  = SpellChecker(language='es', distance=100)
# spell_check.correction("chicxs cómo hestais")

In [165]:
string = 'hola'
'a' in string

True

In [166]:
def corrector_ortografico(tweet):
  tweet = tweet.replace('?', ' ? ')
  tweet = tweet.replace('¿', ' ¿ ')
  tweet = tweet.replace('...', ' . ')
  tweet = tweet.replace('.', ' . ')
  tweet = tweet.replace('—', ' . ')
  tweet = tweet.replace('. .', ' . ')
  tweet = tweet.replace('.  .', ' . ')
  tweet = tweet.replace('.   .', ' . ')
  
  tweet = tweet.replace('\n', '').split(' ')
  

  corrected_tweet = [spell_check.correction(token) if token not in ['', '-', '?', '¿', ] else token for token in tweet]

  return ' '.join(corrected_tweet)

def corrector_corpus(corpus):
  return list(map(corrector_ortografico, corpus))

In [167]:
text['text_v4'] = corrector_corpus(text['text_v3'])

In [168]:
text[['text_v3', 'text_v4']]

Unnamed: 0,text_v3,text_v4
4650,“Te voy a dejar encerrado todo el día y sin In...,te voy a dejar encerrado todo el día y sin Int...
4651,Es verdad eso que dicen que después de los qui...,Es verdad eso que dicen que después de los qui...
4652,En mi defensa diré que fui educado mientras El...,En mi defensa diré que fui educado mientras El...
4653,Ahorita en la calle escuche a dos vatos decir:...,Ahorita en la calle escuche a dos vatos decir ...
4654,Eramos mutuals @LOUISCARAJO,Eramos mutuas @LOUISCARAJO
4655,Quero desaparecer,Quero desaparecer
4656,"Le saque platica a una de ellas, y pues eh.\ns...",Le saque platica a una de ellas y pues eh . si...
4657,Lo que veo en matemáticas: 我不明白這我不明白這. :|,Lo que veo en matemáticas 我不明白這我不明白這 . :|
4658,1-1 Quién desempata?,1-1 Quién desempata ?
4659,Siento q hace una semana se fue y recién van t...,Siento q hace una semana se fue y recién van t...


In [169]:
text['text_v4'].iloc[6]

'Le saque platica a una de ellas y pues eh . sigo siendo el rechazado del colegio . me deberia de pegar un tiro . '

---
---

# Obtención de Stop Words

In [170]:
# %%capture
!pip install stop_words



In [171]:
from stop_words import get_stop_words # Se añade librería para obtener las stop_word de cualquier idioma
!wget "https://raw.githubusercontent.com/jibt1/competition_group/main/Tareas/datasets/more_stop_words.txt"

# Se obtienen las stop_words en español
import pickle
with open("more_stop_words.txt", "rb") as f:
  list_test = pickle.load(f)

stop_words = get_stop_words("spanish")
more_stop_words = stop_words + list_test
more_stop_words.sort()

--2021-05-23 14:43:45--  https://raw.githubusercontent.com/jibt1/competition_group/main/Tareas/datasets/more_stop_words.txt
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.111.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 10258 (10K) [application/octet-stream]
Saving to: ‘more_stop_words.txt.5’


2021-05-23 14:43:46 (91.0 MB/s) - ‘more_stop_words.txt.5’ saved [10258/10258]



# ELIMINACIÓN DE IDIOMAS ALEJADOS DEL ESPAÑOL

In [172]:
!pip install spacy_langdetect



In [173]:
# frase de prueba
# text = '¿Hola cómo سمبأسكمق estáis? 종현아생일축하해'

In [174]:
import spacy
from spacy_langdetect import LanguageDetector

# sentence level language detection
dict_ = {}

nlp = spacy.load('en')
nlp.add_pipe(LanguageDetector(), name='language_detector', last=True)

# Eliminamos palabras koreanas, vietnamitas, japonesas o árabes
L = ['ko', 'vi', 'ja', 'ar', 'zh']

print("v3: ", text['text_v3'].iloc[6])
print("\n\n v4: ", text['text_v4'].iloc[6])

df_cleaned_sentences_list = df_cleaned_sentences['sentences_without_emojis'].to_list()

df_cleaned_sentences_list = text['text_v4'].to_list()

for index, sentence in enumerate(df_cleaned_sentences_list):
  doc = nlp(sentence)
  for subsent in doc.sents:
    
    if subsent._.language['language'] in L:
      
      df_cleaned_sentences_list[index] = sentence.replace(subsent.text,'')
df_cleaned_sentences_list

text['text_v5'] = df_cleaned_sentences_list


text

v3:  Le saque platica a una de ellas, y pues eh.
sigo siendo el rechazado del colegio.
me deberia de pegar un tiro.


 v4:  Le saque platica a una de ellas y pues eh . sigo siendo el rechazado del colegio . me deberia de pegar un tiro . 


Unnamed: 0,id,text,is_humor,votes_no,votes_1,votes_2,votes_3,votes_4,votes_5,humor_rating,humor_mechanism,humor_target,len_token,n_char,ratio,text_v2,text_emojis,detected_text_cansinos,detected_emojis_cansinos,detected_cansinos,text_v3,text_v4,text_v5
4650,tweet4651,“Te voy a dejar encerrado todo el día y sin In...,1,0,2,0,2,1,0,2.4,,,30,139,0.215827,“Te voy a dejar encerrado todo el día y sin In...,,0,0,0,“Te voy a dejar encerrado todo el día y sin In...,te voy a dejar encerrado todo el día y sin Int...,te voy a dejar encerrado todo el día y sin Int...
4651,tweet4652,Es verdad eso que dicen que después de los qui...,0,3,0,0,0,0,0,,,,13,73,0.178082,Es verdad eso que dicen que después de los qui...,:grinning_squinting_face: :grinning_squinting_...,0,0,0,Es verdad eso que dicen que después de los qui...,Es verdad eso que dicen que después de los qui...,Es verdad eso que dicen que después de los qui...
4652,tweet4653,En mi defensa diré que fui educado mientras El...,0,3,0,0,0,0,0,,,,15,88,0.170455,En mi defensa diré que fui educado mientras El...,,0,0,0,En mi defensa diré que fui educado mientras El...,En mi defensa diré que fui educado mientras El...,En mi defensa diré que fui educado mientras El...
4653,tweet4654,Ahorita en la calle escuche a dos vatos decir:...,1,0,2,1,2,0,0,2.0,misunderstanding,,29,136,0.213235,Ahorita en la calle escuche a dos vatos decir:...,,0,0,0,Ahorita en la calle escuche a dos vatos decir:...,Ahorita en la calle escuche a dos vatos decir ...,Ahorita en la calle escuche a dos vatos decir ...
4654,tweet4655,Eramos mutuals @LOUISCARAJO,0,3,0,0,0,0,0,,,,3,27,0.111111,Eramos mutuals @LOUISCARAJO,,0,0,0,Eramos mutuals @LOUISCARAJO,Eramos mutuas @LOUISCARAJO,Eramos mutuas @LOUISCARAJO
4655,tweet4656,Quero desaparecer,0,3,0,0,0,0,0,,,,2,17,0.117647,Quero desaparecer,,0,0,0,Quero desaparecer,Quero desaparecer,Quero desaparecer
4656,tweet4657,"Le saque platica a una de ellas, y pues ehhh.\...",0,3,0,0,0,0,0,,,,22,112,0.196429,"Le saque platica a una de ellas, y pues ehhh.\...",,1,0,1,"Le saque platica a una de ellas, y pues eh.\ns...",Le saque platica a una de ellas y pues eh . si...,Le saque platica a una de ellas y pues eh . si...
4657,tweet4658,Lo que veo en matemáticas: 我不明白這我不明白這. :|,1,1,1,1,2,0,0,2.25,,,7,41,0.170732,Lo que veo en matemáticas: 我不明白這我不明白這. :|,,0,0,0,Lo que veo en matemáticas: 我不明白這我不明白這. :|,Lo que veo en matemáticas 我不明白這我不明白這 . :|,Lo que veo en matemáticas 我不明白這我不明白這 . :|
4658,tweet4659,1-1 Quién desempata? 🤔,0,3,0,0,0,0,0,,,,4,22,0.181818,1-1 Quién desempata?,:thinking_face:,0,0,0,1-1 Quién desempata?,1-1 Quién desempata ?,1-1 Quién desempata ?
4659,tweet4660,Siento q hace una semana se fue y recién van t...,0,3,0,0,0,0,0,,,,20,73,0.273973,Siento q hace una semana se fue y recién van t...,,1,0,1,Siento q hace una semana se fue y recién van t...,Siento q hace una semana se fue y recién van t...,Siento q hace una semana se fue y recién van t...


---
---

# CREACION MATRIZ WORD CONTEXT DEL TEXTO DEPURADO (SIN EMOJIS y sin idiomas poco habituales)

In [175]:
from nltk.stem.snowball import SpanishStemmer
def spanish_stemmer(sentence):
    stemmer = SpanishStemmer()
    analyzer = CountVectorizer(binary=False, analyzer='word', stop_words=more_stop_words,
                               ngram_range=(1, 1)).build_analyzer()
    return (stemmer.stem(word) for word in analyzer(sentence))
    
from sklearn.feature_extraction.text import CountVectorizer
c_vec = CountVectorizer(analyzer=spanish_stemmer, stop_words=more_stop_words, lowercase=True)
# tf_idf = TfidfTransformer(smooth_idf=True, use_idf=True)
c_vec_mat = c_vec.fit_transform(text['text_v5'])
# tf_idf_mat = tf_idf.fit_transform(c_vec_mat)
c_vec_mat.shape

(10, 64)

In [176]:
df_c_vec = pd.DataFrame(c_vec_mat.toarray(), columns=c_vec.get_feature_names())
print(df_c_vec)

   ahorit  amig  andre  bordill  call  ...  ver  verd  viol  voy  我不明白這我不明白這
0       0     0      0        0     0  ...    1     0     0    1           0
1       0     1      0        0     0  ...    0     1     0    0           0
2       0     0      0        1     0  ...    0     0     0    0           0
3       1     0      2        0     1  ...    0     0     1    1           0
4       0     0      0        0     0  ...    0     0     0    0           0
5       0     0      0        0     0  ...    0     0     0    0           0
6       0     0      0        0     0  ...    0     0     0    0           0
7       0     0      0        0     0  ...    0     0     0    0           1
8       0     0      0        0     0  ...    0     0     0    0           0
9       0     0      0        0     0  ...    0     0     0    0           0

[10 rows x 64 columns]


---
---

# Traducción Corpus

# Descripción:

Frente a la adversidad que supone que la gran mayoría de modelos desarrollados en HuggingFace se encuentran en Inglés, se ha optado por traducir el corpus al inglés con el pipeline correspondiente. Así, podemos aprovecharlos para hacer Transfer Learning.

Puesto que la fama de los transformers les antecede, consideramos que el error de los mismos de cara a las traducciones resulta asumible.

In [177]:
!pip install transformers
!pip install sentencepiece



In [178]:
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
from transformers import AutoModelForSequenceClassification, pipeline

In [179]:
# Autotokenizador
tokenizer = AutoTokenizer.from_pretrained("Helsinki-NLP/opus-mt-es-en")

# Elección/Descarga del modelo Preentrenado
model = AutoModelForSeq2SeqLM.from_pretrained("Helsinki-NLP/opus-mt-es-en")

In [180]:
def get_corpus_translation(corpus):
  from transformers import pipeline
  pline = pipeline("translation_es_to_en", model=model, tokenizer=tokenizer)

  def get_tweet_translation(tweet):

    tweet = tweet.lower()

    tweet = tweet.replace('.', ' <.> ')
    tweet = tweet.replace('...', ' . ')
    tweet = tweet.replace(' q ', ' que ')
    tweet = tweet.replace(' k ', ' que ')
    tweet = tweet.replace(' d ', ' de ')

    return pline(tweet)[0]['translation_text'] # punto <point>

  return list(map(get_tweet_translation, corpus['text_v5'].to_list()))

text['en_text'] = get_corpus_translation(text)

def recover_point(tweet):
  return tweet.replace('<.>', ' . ')

def recover_point_corpus(corpus):
  return list(map(recover_point, corpus))

text['en_text'] = recover_point_corpus(text['en_text'])



In [182]:
text = text[['id', 'text', 'text_v2', 'text_v3', 'text_v4', 'text_v5',
             'en_text', 'len_token', 'n_char', 'ratio', 'detected_cansinos',
             'detected_emojis_cansinos', 'detected_text_cansinos', 'text_emojis', 'is_humor',
             'votes_no', 'votes_1', 'votes_2', 'votes_3','votes_4', 'votes_5', 'humor_rating', 'humor_mechanism',
             'humor_target']]

text.replace({'text_emojis': {'': 'no_emojis'}}, inplace= True)

corpus = text.copy()

In [183]:
#corpus['text_emojis'][3]

In [184]:
corpus.to_csv('cleaned_corpus.csv', index=False, sep = ',')

In [185]:
corpus['text_emojis'].loc[4658]

':thinking_face:'

In [186]:
test_corpus = pd.read_csv('cleaned_corpus.csv', header=0, sep=',')

test_corpus.tail(8)

Unnamed: 0,id,text,text_v2,text_v3,text_v4,text_v5,en_text,len_token,n_char,ratio,detected_cansinos,detected_emojis_cansinos,detected_text_cansinos,text_emojis,is_humor,votes_no,votes_1,votes_2,votes_3,votes_4,votes_5,humor_rating,humor_mechanism,humor_target
2,tweet4653,En mi defensa diré que fui educado mientras El...,En mi defensa diré que fui educado mientras El...,En mi defensa diré que fui educado mientras El...,En mi defensa diré que fui educado mientras El...,En mi defensa diré que fui educado mientras El...,in my defense I will say that I was educated w...,15,88,0.170455,0,0,0,no_emojis,0,3,0,0,0,0,0,,,
3,tweet4654,Ahorita en la calle escuche a dos vatos decir:...,Ahorita en la calle escuche a dos vatos decir:...,Ahorita en la calle escuche a dos vatos decir:...,Ahorita en la calle escuche a dos vatos decir ...,Ahorita en la calle escuche a dos vatos decir ...,right now on the street listen to two vatos sa...,29,136,0.213235,0,0,0,no_emojis,1,0,2,1,2,0,0,2.0,misunderstanding,
4,tweet4655,Eramos mutuals @LOUISCARAJO,Eramos mutuals @LOUISCARAJO,Eramos mutuals @LOUISCARAJO,Eramos mutuas @LOUISCARAJO,Eramos mutuas @LOUISCARAJO,we were mutual @louiscarajo,3,27,0.111111,0,0,0,no_emojis,0,3,0,0,0,0,0,,,
5,tweet4656,Quero desaparecer,Quero desaparecer,Quero desaparecer,Quero desaparecer,Quero desaparecer,I want to disappear.,2,17,0.117647,0,0,0,no_emojis,0,3,0,0,0,0,0,,,
6,tweet4657,"Le saque platica a una de ellas, y pues ehhh.\...","Le saque platica a una de ellas, y pues ehhh.\...","Le saque platica a una de ellas, y pues eh.\ns...",Le saque platica a una de ellas y pues eh . si...,Le saque platica a una de ellas y pues eh . si...,"I take one of them out of talk, and then I'm s...",22,112,0.196429,1,0,1,no_emojis,0,3,0,0,0,0,0,,,
7,tweet4658,Lo que veo en matemáticas: 我不明白這我不明白這. :|,Lo que veo en matemáticas: 我不明白這我不明白這. :|,Lo que veo en matemáticas: 我不明白這我不明白這. :|,Lo que veo en matemáticas 我不明白這我不明白這 . :|,Lo que veo en matemáticas 我不明白這我不明白這 . :|,what I see in mathematics <..> :,7,41,0.170732,0,0,0,no_emojis,1,1,1,1,2,0,0,2.25,,
8,tweet4659,1-1 Quién desempata? 🤔,1-1 Quién desempata?,1-1 Quién desempata?,1-1 Quién desempata ?,1-1 Quién desempata ?,1-1 who unpacks?,4,22,0.181818,0,0,0,:thinking_face:,0,3,0,0,0,0,0,,,
9,tweet4660,Siento q hace una semana se fue y recién van t...,Siento q hace una semana se fue y recién van t...,Siento q hace una semana se fue y recién van t...,Siento q hace una semana se fue y recién van t...,Siento q hace una semana se fue y recién van t...,I feel like a week ago he left and it's only t...,20,73,0.273973,1,0,1,no_emojis,0,3,0,0,0,0,0,,,


In [187]:
test_corpus['text_emojis'][~test_corpus['text_emojis'].isna()]

0                                            no_emojis
1    :grinning_squinting_face: :grinning_squinting_...
2                                            no_emojis
3                                            no_emojis
4                                            no_emojis
5                                            no_emojis
6                                            no_emojis
7                                            no_emojis
8                                      :thinking_face:
9                                            no_emojis
Name: text_emojis, dtype: object

In [188]:
test_corpus.iloc[6]['text']

'Le saque platica a una de ellas, y pues ehhh.\nsigo siendo el rechazado del colegio.\nme deberia de pegar un tiro.'

In [189]:
test_corpus.iloc[6]['text_v3']

'Le saque platica a una de ellas, y pues eh.\nsigo siendo el rechazado del colegio.\nme deberia de pegar un tiro.'

In [190]:
test_corpus.iloc[6]['text_v4']

'Le saque platica a una de ellas y pues eh . sigo siendo el rechazado del colegio . me deberia de pegar un tiro . '

In [191]:
test_corpus.iloc[6]['text_v5']

'Le saque platica a una de ellas y pues eh . sigo siendo el rechazado del colegio . me deberia de pegar un tiro . '

In [192]:
test_corpus.iloc[6]['en_text']

"I take one of them out of talk, and then I'm still the rejected one from school. I should have shot myself."

**I'm bored** antes se traducía como **meeee bored**, así que hemos ganado en calidad.

Generar a partir de text_v2, text_v3 donde se pase text_v2 y se haga el spell_checker

In [193]:
# eliminar nulos

df_train = test_corpus[~test_corpus.text_v5.isna()]
df_train

Unnamed: 0,id,text,text_v2,text_v3,text_v4,text_v5,en_text,len_token,n_char,ratio,detected_cansinos,detected_emojis_cansinos,detected_text_cansinos,text_emojis,is_humor,votes_no,votes_1,votes_2,votes_3,votes_4,votes_5,humor_rating,humor_mechanism,humor_target
0,tweet4651,“Te voy a dejar encerrado todo el día y sin In...,“Te voy a dejar encerrado todo el día y sin In...,“Te voy a dejar encerrado todo el día y sin In...,te voy a dejar encerrado todo el día y sin Int...,te voy a dejar encerrado todo el día y sin Int...,I'm going to leave you locked up all day and w...,30,139,0.215827,0,0,0,no_emojis,1,0,2,0,2,1,0,2.4,,
1,tweet4652,Es verdad eso que dicen que después de los qui...,Es verdad eso que dicen que después de los qui...,Es verdad eso que dicen que después de los qui...,Es verdad eso que dicen que después de los qui...,Es verdad eso que dicen que después de los qui...,It is true that they say that after the fiftee...,13,73,0.178082,0,0,0,:grinning_squinting_face: :grinning_squinting_...,0,3,0,0,0,0,0,,,
2,tweet4653,En mi defensa diré que fui educado mientras El...,En mi defensa diré que fui educado mientras El...,En mi defensa diré que fui educado mientras El...,En mi defensa diré que fui educado mientras El...,En mi defensa diré que fui educado mientras El...,in my defense I will say that I was educated w...,15,88,0.170455,0,0,0,no_emojis,0,3,0,0,0,0,0,,,
3,tweet4654,Ahorita en la calle escuche a dos vatos decir:...,Ahorita en la calle escuche a dos vatos decir:...,Ahorita en la calle escuche a dos vatos decir:...,Ahorita en la calle escuche a dos vatos decir ...,Ahorita en la calle escuche a dos vatos decir ...,right now on the street listen to two vatos sa...,29,136,0.213235,0,0,0,no_emojis,1,0,2,1,2,0,0,2.0,misunderstanding,
4,tweet4655,Eramos mutuals @LOUISCARAJO,Eramos mutuals @LOUISCARAJO,Eramos mutuals @LOUISCARAJO,Eramos mutuas @LOUISCARAJO,Eramos mutuas @LOUISCARAJO,we were mutual @louiscarajo,3,27,0.111111,0,0,0,no_emojis,0,3,0,0,0,0,0,,,
5,tweet4656,Quero desaparecer,Quero desaparecer,Quero desaparecer,Quero desaparecer,Quero desaparecer,I want to disappear.,2,17,0.117647,0,0,0,no_emojis,0,3,0,0,0,0,0,,,
6,tweet4657,"Le saque platica a una de ellas, y pues ehhh.\...","Le saque platica a una de ellas, y pues ehhh.\...","Le saque platica a una de ellas, y pues eh.\ns...",Le saque platica a una de ellas y pues eh . si...,Le saque platica a una de ellas y pues eh . si...,"I take one of them out of talk, and then I'm s...",22,112,0.196429,1,0,1,no_emojis,0,3,0,0,0,0,0,,,
7,tweet4658,Lo que veo en matemáticas: 我不明白這我不明白這. :|,Lo que veo en matemáticas: 我不明白這我不明白這. :|,Lo que veo en matemáticas: 我不明白這我不明白這. :|,Lo que veo en matemáticas 我不明白這我不明白這 . :|,Lo que veo en matemáticas 我不明白這我不明白這 . :|,what I see in mathematics <..> :,7,41,0.170732,0,0,0,no_emojis,1,1,1,1,2,0,0,2.25,,
8,tweet4659,1-1 Quién desempata? 🤔,1-1 Quién desempata?,1-1 Quién desempata?,1-1 Quién desempata ?,1-1 Quién desempata ?,1-1 who unpacks?,4,22,0.181818,0,0,0,:thinking_face:,0,3,0,0,0,0,0,,,
9,tweet4660,Siento q hace una semana se fue y recién van t...,Siento q hace una semana se fue y recién van t...,Siento q hace una semana se fue y recién van t...,Siento q hace una semana se fue y recién van t...,Siento q hace una semana se fue y recién van t...,I feel like a week ago he left and it's only t...,20,73,0.273973,1,0,1,no_emojis,0,3,0,0,0,0,0,,,
