# Building Dataset. Part 1
### By **Néstor Suat** in 2020

**Descripción:** Contruyendo el dataset Parte 1. Generar los archivos para BRAT Annotation Tools.

**Input:**
* TSV con los tweets seleccionados

**Output:**
* Files *.txt and *.ann
***

### Importando librerías

Como estamos en un archivo afuera se necesita agregar la dirección ../ (raíz del proyexto) para importar la librería de preprocesamiento.

In [1]:
import pandas as pd
import spacy  # For preprocessing
import re

import sys
sys.path.insert(0, '../../../')

from classes.wordsegmentation import WordSegmentation

In [2]:
nlp = spacy.load("es_core_news_lg") # disabling Named Entity Recognition for speed

### Importando datasets

In [3]:
file = 'ner_dataset_shuffle.tsv'
dir_ = "../../../data/v1/NER/"

In [4]:
dataset = pd.read_csv(dir_+file, delimiter = "\t", quoting = 3)
del dataset['Unnamed: 0']
dataset = dataset['text']

In [5]:
#Seleccionando 50
df = dataset[:50]

In [47]:
segmentation.segment("45, norte")

['45, ', 'norte']

### Aplicando limpieza

In [6]:
seg = WordSegmentation(dir_+'spanish_count_1w_small_v2_twitter.txt')

In [13]:
def clean_fn(doc):
    pre = []
    for token in doc.text.split(' '):
        if len(token) > 0:
            if token[0] == '@' or token[0] == '#':
                token = ' '.join(seg.segment(token[1:]))
            pre.append(token)    
    return ' '.join(pre)
                
    
def preText(text):    
    #pre = re.sub("(@[A-Za-z0-9_]+)", '[MASK]', text) #Reemplazar @username por [UNK]    
    pre = re.sub("&[A-Za-z]+;", ' ', text) #Eliminar códigos ASCII
    pre = re.sub("(\w+:\/\/\S+)",' ',pre) #Eliminar links http y https
    pre = re.sub("([^A-Za-z0-9äÄëËïÏöÖüÜáéíóúáéíóúÁÉÍÓÚÂÊÎÔÛâêîôûàèìòùÀÈÌÒÙñÑ,;.:*\-\[\]¿?¡!#@\"\"()_'/])",' ',pre) #Eliminar caracteres especiales como emoticones, exceptuando los signos de puntuación y tildes.
    pre = re.sub(r'([;.:\-\[\]¿?¡!#\"()]){3,}',r'\1\1',pre) #Si repite un caracters especial más de 3 veces ej. """"
    pre = re.sub(r'([a-zA-Z])\1{2,}',r'\1\1',pre) #Si repite una letra más de dos veces las reduce a dos repeticiones goool => gool    
    #pre = re.sub(r'((?<=[A-Za-z])(?=[A-Z][a-zäÄëËïÏöÖüÜáéíóúáéíóúÁÉÍÓÚÂÊÎÔÛâêîôûàèìòùÀÈÌÒÙñÑ]))',r' ',pre) #Segmentados de palabras por mayuscula Ej. "HolaMundo" por "Hola Mundo"
    pre = re.sub(r'(\s){2,}',r' ',pre) #Eliminar espacios seguidos              
    return pre

In [19]:
text = [
    'En la Av Boyacá con 66 se presentó un atropellamiento de un peatón por una motocicleta; conductor de la motocicleta y peatón lesionados.#PROTEGERYSERVIR @puentearanda',
    'Grave accidente de taxis congestionó el sector El Lago 🔴EN VIVO #CapitalNoticias https://t.co/sVikHeRcZA'
]
brief_cleaning = (preText(str(row)) for row in text)
txt = [clean_fn(doc) for doc in nlp.pipe(brief_cleaning, batch_size=50, n_threads=4)]

In [20]:
txt

['En la Av Boyacá con 66 se presentó un atropellamiento de un peatón por una motocicleta; conductor de la motocicleta y peatón lesionados.#PROTEGERYSERVIR puente aranda',
 'Grave accidente de taxis congestionó el sector El Lago EN VIVO capital noticias']

### Generando archivos

In [72]:
#Generando txt y ann
i=1
for tweet in txt:
    name = dir_+'brat/'+'tweet-'+str(i)+'.txt'
    #print(name)  
    with open(name, "w") as file:
        file.write(tweet)
    name = dir_+'brat/'+'tweet-'+str(i)+'.ann'
    with open(name, "w") as file:
        file.write('')
    i+=1