# Named Entity Extractor with Spacy
### By **Néstor Suat** in 2021

**Descripción:** Con el modelo Spacy entrenado previamente se extrae las entidades **loc** y **time**

**Input:**
* TSV con tweets

**Output:**
* TSV agregando columna clean y entities

***

### Importando librerías e Inicializando variables

In [1]:
import pandas as pd
import sys
sys.path.insert(0, '../../../')

from classes.tweet2accident.ner_preprocessing import NerPreprocessing
from classes.tweet2accident.ner_extractor import NerExtractor

In [2]:
## Variables para importar modelos y demás
dir_ = "../../../data/v1/NER/"

file = 'ner_dataset.tsv' # Dataset

spacy_model = dir_+"spacy_model_complete/" #Spacy model entrenado previamente
corpus_segmentation = dir_+'spanish_count_1w_small_v2_twitter.txt' # Corpus para entrenar el wordsemgentation

In [3]:
## Importando Dataset
dataset = pd.read_csv(dir_+file, delimiter = "\t", quoting = 3)
dataset.head(5)

Unnamed: 0,id_tweet,text,created_at,user_name,user_location,source
0,1047808970847604737,Rt Avenida Primero de Mayo frente al sena de l...,2018-10-04 6:21:40,camilogallardoa,,Search BOGOTA
1,1047809516937596928,Rt *Accidente* Se presenta volcamiento de vehí...,2018-10-04 6:23:50,camilogallardoa,,Search BOGOTA
2,1047809727118430210,Rt Av. Las villas norte al sur llegando a la 1...,2018-10-04 6:24:40,camilogallardoa,,Search BOGOTA
3,1047821671854473216,Rt *Accidente*Se presenta siniestro vial entre...,2018-10-04 7:12:08,camilogallardoa,,Search BOGOTA
4,1047843812977065985,"Para peor tristeza, muerto en la Av. Cra. 30, ...",2018-10-04 8:40:07,capdiaz,"Bogotá, Colombia",Search BOGOTA


In [4]:
dataset.shape

(1340, 6)

### Limpieza y normalización para NER

In [5]:
ner_preprocessing = NerPreprocessing(spacy_model=spacy_model, corpus_segmentation=corpus_segmentation,njobs=4)
txt = ner_preprocessing.transform(dataset['text'])
dataset['clean'] = txt

In [6]:
dataset[['text','clean']].head(5)

Unnamed: 0,text,clean
0,Rt Avenida Primero de Mayo frente al sena de l...,Rt Avenida Primero de Mayo frente al sena de l...
1,Rt *Accidente* Se presenta volcamiento de vehí...,Rt *Accidente* Se presenta volcamiento de vehí...
2,Rt Av. Las villas norte al sur llegando a la 1...,Rt Av. Las villas norte al sur llegando a la 1...
3,Rt *Accidente*Se presenta siniestro vial entre...,Rt *Accidente*Se presenta siniestro vial entre...
4,"Para peor tristeza, muerto en la Av. Cra. 30, ...","Para peor tristeza, muerto en la Av. Cra. 30, ..."


### Predicción Etiquetar NER
Etiquetas **'loc'** y **'time'**

In [7]:
ner_extractor = NerExtractor(spacy_model=spacy_model, njobs=4)
txt = ner_extractor.transform(dataset['clean'])
dataset['entities'] = txt 

In [8]:
dataset[['text','entities']].head(5)

Unnamed: 0,text,entities
0,Rt Avenida Primero de Mayo frente al sena de l...,"[(Avenida Primero de Mayo, loc), (sena, loc), ..."
1,Rt *Accidente* Se presenta volcamiento de vehí...,"[(carrera 68 con la Av Esperanza, loc)]"
2,Rt Av. Las villas norte al sur llegando a la 1...,"[(Av. Las villas, loc), (la 127, loc), (buleva..."
3,Rt *Accidente*Se presenta siniestro vial entre...,"[(Av. NQS con calle 67, loc)]"
4,"Para peor tristeza, muerto en la Av. Cra. 30, ...","[(Av. Cra . 30, loc), (Calle 67, loc)]"


In [9]:
i = 46
print(dataset.iloc[i]['text'])
print(dataset.iloc[i]['entities'])
print(type(dataset.iloc[i]['entities']))
print(dataset.iloc[i]['entities'][0])
print(type(dataset.iloc[i]['entities'][0]))

#AEstaHora (6:00 P.M.) se registra una fuerte congestión vehicular sobre la Cll 26 en sentido Oriente-Occidente hasta el @BOG_ELDORADO por dos choques menores. Te recomendamos salir con tiempo de anticipación para cumplir con tu plan de vuelo. #Comparte #QueNoTeDejeElAvión https://t.co/0jb7hPHlWc
[('esta hora', 'time'), ('6:00 P.M.', 'time'), ('Cll 26', 'loc')]
<class 'list'>
('esta hora', 'time')
<class 'tuple'>


In [10]:
ent = [ t for (t,l) in dataset.iloc[i]['entities']  if l == 'loc' ]
ent

['Cll 26']

In [11]:
ent = [ t for (t,l) in dataset.iloc[i]['entities']  if l == 'time' ]
ent

['esta hora', '6:00 P.M.']

### Exportar tsv

In [None]:
dataset = dataset.sample(frac=1)
dataset.to_csv("../../../data/v1/NER/ner_dataset_shuffle.tsv",sep='\t')