# Building Dataset. Part 1
### By **Néstor Suat** in 2020

**Descripción:** Contruyendo el dataset Parte 1. Generar los archivos para BRAT Annotation Tools.

**Input:**
* TSV con los tweets seleccionados

**Output:**
* Files *.txt and *.ann
***

### Importando librerías

Como estamos en un archivo afuera se necesita agregar la dirección ../ (raíz del proyexto) para importar la librería de preprocesamiento.

In [1]:
import pandas as pd
import spacy  # For preprocessing
import re

import sys
sys.path.insert(0, '../../../')

from classes.wordsegmentation import WordSegmentation

In [2]:
nlp = spacy.load("es_core_news_lg") # disabling Named Entity Recognition for speed

### Importando datasets

In [3]:
file = 'ner_dataset_shuffle.tsv'
dir_ = "../../../data/v1/NER/"

In [14]:
dataset = pd.read_csv(dir_+file, delimiter = "\t", quoting = 3)
del dataset['Unnamed: 0']
dataset = dataset['text']
dataset[0]

'#ElNoctámbulo Aparatoso accidente en la Avenida Suba con calle 127. El conductor se salvó de milagro. #ArribaBogotá https://t.co/D6qLLsufhG'

In [12]:
#Seleccionando 50
df = dataset[:50]

0     #ElNoctámbulo Aparatoso accidente en la Avenid...
1     @Citytv accidente en en el puente de bosa, un ...
2     @BogotaTransito accidente transmilenio estacio...
3     Hace unos minutos unas peatones se cruzaron co...
4     Accidente de tránsito (Muerte Motociclista) fr...
5     @VivianaRock @malditapelired Calle 80 con 104,...
6     @SectorMovilidad @TransitoBta @Citytv @jnietob...
7     07:19// en la calle 49 sur con av cali sentido...
8     Choque en la Glorieta de las Américas con Cali...
9     @BogotaTransito accidente en la av suba 127 fr...
10    @ErikaFontalvo tremendo trancón por accidente,...
11    Luego del incidente vial presentado en la Auto...
12    8:16 AUTONORTE X CLL 120 N-S: Se presenta inci...
13    Rt Z15-4213 presenta accidente de tránsito con...
14    Av 19 por 122 choque entre tres motocicletas, ...
15    @SectorMovilidad @BogotaTransito #AccidenteVia...
16    Señores de RAPPI  INVADEN  calles y avenidas a...
17    @SectorMovilidad accidente entre bus y aut

### Aplicando limpieza

In [6]:
seg = WordSegmentation(dir_+'spanish_count_1w_small_v2_twitter.txt')

In [28]:
def word_segmentation(pattern, text):
    search = re.search(pattern,text)
    while search:    
        s = search.start()
        e = search.end()        
        print(text[s:e],' '.join(seg.segment(text[s+1:e])))
        text = text[:s] + ' ' + ' '.join(seg.segment(text[s+1:e])) +' '+ text[e:]        
        search = re.search(pattern,text)        
    return text

def clean_fn(doc):    
    text = doc
    pattern = "(@[A-Za-z0-9äÄëËïÏöÖüÜáéíóúáéíóúÁÉÍÓÚÂÊÎÔÛâêîôûàèìòùÀÈÌÒÙñÑ_]+)"
    text = word_segmentation(pattern,text)
    pattern = "(#[A-Za-z0-9äÄëËïÏöÖüÜáéíóúáéíóúÁÉÍÓÚÂÊÎÔÛâêîôûàèìòùÀÈÌÒÙñÑ_]+)"
    text = word_segmentation(pattern,text)
    return text
    
def preText(text):        
    pre = re.sub("&[A-Za-z]+;", ' ', text) #Eliminar códigos ASCII
    pre = re.sub("(\w+:\/\/\S+)",' ',pre) #Eliminar links http y https
    pre = re.sub("([^A-Za-z0-9äÄëËïÏöÖüÜáéíóúáéíóúÁÉÍÓÚÂÊÎÔÛâêîôûàèìòùÀÈÌÒÙñÑ,;.:*\-\[\]¿?¡!\"\"()_'/])",' ',pre) #Eliminar caracteres especiales como emoticones, exceptuando los signos de puntuación y tildes.
    pre = re.sub(r'([;.:\-\[\]¿?¡!#\"()]){3,}',r'\1\1',pre) #Si repite un caracters especial más de 3 veces ej. """"
    pre = re.sub(r'([a-zA-Z])\1{2,}',r'\1\1',pre) #Si repite una letra más de dos veces las reduce a dos repeticiones goool => gool        
    pre = re.sub(r'(\s){2,}',r' ',pre) #Eliminar espacios seguidos              
    return pre.strip()

In [29]:
brief_cleaning = (clean_fn(str(row)) for row in df)
txt = [preText(doc.text) for doc in nlp.pipe(brief_cleaning, batch_size=50, n_threads=4)]

#ElNoctámbulo el noctambulo
#ArribaBogotá arriba bogota
@Citytv citytv
@BogotaTransito bogotatransito
@BogotaTransito bogotatransito
@Citytv citytv
@NoticiasCaracol noticiascaracol
@BluRadioCo bluradioco
#Ahora ahora
#Transito transito
@VivianaRock viviana rock
@malditapelired maldita peli red
@SectorMovilidad sectormovilidad
@TransitoBta transitobta
@Citytv citytv
@jnietoblanco j nieto blanco
@TransitoPolicia transito policia
@SectorMovilidad sectormovilidad
@BogotaTransito bogotatransito
@BogotaTransito bogotatransito
@ErikaFontalvo erika fontalvo
@TransMilenio transmilenio
@BogotaTransito bogotatransito
@sitpbogota sitpbogota
@SectorMovilidad sectormovilidad
@BogotaTransito bogotatransito
#AccidenteVial accidente vial
@PoliciaBogota policiabogota
@SectorMovilidad sectormovilidad
@SectorMovilidad sectormovilidad
@TransMilenio transmilenio
@CaracolRadio caracolradio
@CanalCapital canalcapital
@Citytv citytv
@tranviabgta tranvia bgta
@SectorMovilidad sectormovilidad
@SectorMovilidad se

In [30]:
seg.segment('TransitoBta')

['transitobta']

In [18]:
seg.segment('#ElNoctámbulo')

['#', 'el', 'noctambulo']

In [20]:
txt

['el noct ámbulo Aparatoso accidente en la Avenida Suba con calle 127. El conductor se salvó de milagro. arriba bogot á',
 'citytv accidente en en el puente de bosa, un sitp un colectivo y una moto con conductor de esta muerto. Transito detenido.',
 'bogotatransito accidente transmilenio estacion subazar',
 'Hace unos minutos unas peatones se cruzaron corriendo la diagonal 39 sur cerca al puente peatonal tras el cc centro mayor y una moto las atropello bogotatransito',
 'Accidente de tránsito (Muerte Motociclista) frente al parque Salitre Mágico ahora transito citytv noticiascaracol bluradioco',
 'viviana rock maldita peli red Calle 80 con 104, por accidente vehicular',
 'sectormovilidad transitobta citytv j nieto blanco Consecuencia de falta de unidades asignadas para adelantar descongestion cra 30 cll26 choque simple ni siquiera se ven los drones q en 20 mtos descongestionarian esto',
 '07:19// en la calle 49 sur con av cali sentido oriente occidente se presenta choque simple taxi vs

In [None]:
new = pd.DataFrame(df)
new['pre'] = txt
new.to_csv('test.tsv',sep='\t')

### Generando archivos

In [72]:
#Generando txt y ann
i=1
for tweet in txt:
    name = dir_+'brat/'+'tweet-'+str(i)+'.txt'
    #print(name)  
    with open(name, "w") as file:
        file.write(tweet)
    name = dir_+'brat/'+'tweet-'+str(i)+'.ann'
    with open(name, "w") as file:
        file.write('')
    i+=1