# Conexión a GitHub

In [1]:
# Montar Google Drive
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [2]:
# Instalar Git
!apt-get install git

Reading package lists... Done
Building dependency tree... Done
Reading state information... Done
git is already the newest version (1:2.34.1-1ubuntu1.11).
0 upgraded, 0 newly installed, 0 to remove and 45 not upgraded.


In [3]:
# Paso necesario luego de haber ya clonado 1 vez el repositorio para que no genere error
# Eliminar el repositorio clonado previamente
#!rm -rf tfm-pln-es

Previamente ha sido necesario crear un repositorio en GitHub

In [4]:
# Clonar el repositorio privado usando token de acceso
!git clone https://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@github.com/alttal/tfm-pln-es.git

Cloning into 'tfm-pln-es'...
remote: Enumerating objects: 15, done.[K
remote: Counting objects: 100% (15/15), done.[K
remote: Compressing objects: 100% (14/14), done.[K
remote: Total 15 (delta 2), reused 0 (delta 0), pack-reused 0[K
Receiving objects: 100% (15/15), 243.20 KiB | 1.30 MiB/s, done.
Resolving deltas: 100% (2/2), done.


# Carga de datasets

Previamente ha sido necesario cargar los dos conjuntos de datos al repositorio creado en GitHub

In [5]:
import pandas as pd
# Leer dataset de comentarios de España
df_es = pd.read_csv('tfm-pln-es/ES-data-v1.txt', delimiter=';')
# Vista de las primeras instancias
print(df_es.head(10))

   id label                                               text
0   1   POS                                            Genial 
1   2   POS  Es ideal para ir de chico malote. Yo como no m...
2   3   POS                                 A mí hijo le gusta
3   4   NEG  Producto asiático que para nada es la talla qu...
4   5   NEG                             La empresa no es sería
5   6   POS  Chubasquero ligero, perfecto para entretiempo....
6   7   POS  Perfecta, aunque talla poco, elegir una talla ...
7   8   POS  Buena calidad y muy suave al tacto, de al pego...
8   9   POS  Mido 1,80 y peso 80 kg., la talla L me queda p...
9  10   POS  El material tiene buena pinta y queda bastante...


In [6]:
import pandas as pd
# Leer dataset de comentarios de Argentina
df_ar = pd.read_csv('tfm-pln-es/AR-data-v1.txt', delimiter=';')
# Vista de las primeras instancias
print(df_ar.head(10))

   id label                                               text
0   1   POS  La pollera pantalón es de excelente calidad y ...
1   2   POS  Compren sin dudas chicas! no solo q es muy fac...
2   3   POS                                       Es divino!!.
3   4   POS                                  Me encantó 10/10.
4   5   POS  La más linda y cómoda ! le voy a dar mucho uso...
5   6   POS  La pollera talle 1 es ideal para una adolescen...
6   7   POS               Linda prenda me quedo como esperaba.
7   8   POS        Me encantó!!!! todo super como lo esperaba!
8   9   POS                                         Muy lindo.
9  10   POS             Le encanto a mi hija buena confección.


# Preprocesamiento

Funciones creadas para el preprocesamiento

In [7]:
#Se importa módulo de expresiones regulares
#Información: https://docs.python.org/3/library/re.html#regular-expression-objects
import re

#Transformación del texto a minúsculas
def covert_min(texto):
  if isinstance(texto, str):
    return texto.lower()
  return texto

#Eliminación de tildes
def delete_acc(texto):
  if isinstance(texto, str):
    texto = re.sub(r"[àáâãäå]", "a", texto)
    texto = re.sub(r"[èéêë]", "e", texto)
    texto = re.sub(r"[ìíîï]", "i", texto)
    texto = re.sub(r"[òóôõö]", "o", texto)
    texto = re.sub(r"[ùúû]", "u", texto)
    return texto
  return texto

#Eliminación de algunos signos de puntuación + caracteres especiales
import string
def delete_punctuation(texto):
  if isinstance(texto, str):
    punctuation_signs = string.punctuation.replace('!', '').replace('¡', '').replace('?', '').replace('¿', '').replace('$', '').replace('€', '')
    translator = str.maketrans('', '', punctuation_signs)
    return texto.translate(translator)
  return texto

#Eliminar palabras con menos de 2 letras
def delete_less_2(texto):
  if isinstance(texto, str):
    palabras = texto.split()
    palabras_mas_2 = [palabra for palabra in palabras if len(palabra) >= 2]
    return ' '.join(palabras_mas_2)
  return texto

#Reducción de caracteres repetidos
def reduce_letters_3(texto):
  if isinstance(texto, str):
    pattern = r'\b\w*(?:(\w)\1{2,})\w*\b'
    return re.sub(pattern, ' ', texto)
  return texto

#Estandarización de expresiones de risa
def standard_risa(texto):
  if isinstance(texto, str):
    pattern = r'\b(?:a*ha*ha*|a*ja*ja*)+\b'
    return re.sub(pattern, 'jaja', texto)
  return texto

def preprocesamiento(texto):
  texto = covert_min(texto)
  texto = delete_acc(texto)
  texto = delete_punctuation(texto)
  texto = delete_less_2(texto)
  texto = reduce_letters_3(texto)
  texto = standard_risa(texto)
  return texto

Aplicación del preprocesamiento

In [8]:
# Se aplican todos los pasos de preprocesamiento a los datasets
df_es['text'] = df_es['text'].apply(preprocesamiento)
df_ar['text'] = df_ar['text'].apply(preprocesamiento)

In [9]:
#Vemos la cantidad de instancias de cada dataset original
print("Estructura dataset España")
print(df_es.shape)
print("Estructura dataset Argentina")
print(df_ar.shape)

Estructura dataset España
(3125, 3)
Estructura dataset Argentina
(3125, 3)


In [10]:
#Eliminación de duplicados exactos en ambos datasets
df_es_proc = df_es.drop_duplicates(subset=['text'])
df_ar_proc = df_ar.drop_duplicates(subset=['text'])

In [11]:
#Eliminación de columna "id" en ambos datasets
df_es = df_es_proc.drop(columns=['id'])
df_ar = df_ar_proc.drop(columns=['id'])

In [12]:
#Vemos la cantidad de instancias y columnas de los datasets tras el preprocesamiento
print("Estructura dataset España")
print(df_es.shape)
print("Estructura dataset Argentina")
print(df_ar.shape)

Estructura dataset España
(3036, 2)
Estructura dataset Argentina
(2903, 2)


In [13]:
#Vemos ejemplos para ambos datasets luego del preprocesamiento
#España
# Vista de las primeras instancias
print(df_es.head(10))
#Argentina
# Vista de las primeras instancias
print(df_ar.head(10))

  label                                               text
0   POS                                             genial
1   POS  es ideal para ir de chico malote yo como no me...
2   POS                                   mi hijo le gusta
3   NEG  producto asiatico que para nada es la talla qu...
4   NEG                             la empresa no es seria
5   POS  chubasquero ligero perfecto para entretiempo e...
6   POS  perfecta aunque talla poco elegir una talla ma...
7   POS  buena calidad muy suave al tacto de al pego pa...
8   POS     mido 180 peso 80 kg la talla me queda perfecta
9   POS  el material tiene buena pinta queda bastante bien
  label                                               text
0   POS  la pollera pantalon es de excelente calidad of...
1   POS  compren sin dudas chicas! no solo es muy fache...
2   POS                                        es divino!!
3   POS                                    me encanto 1010
4   POS  la mas linda comoda le voy dar mucho uso soy u.