# Named Entity Extractor with Spacy
### By **Néstor Suat** in 2021

**Descripción:** Con el modelo Spacy entrenado previamente se extrae las entidades **loc** y **time**

**Input:**
* TSV con tweets

**Output:**
* TSV agregando columna clean y entities

***

### Importando librerías e Inicializando variables

In [1]:
import pandas as pd
import sys
sys.path.insert(0, '../../../')

from classes.tweet2accident.ner_preprocessing import NerPreprocessing
from classes.tweet2accident.ner_extractor import NerExtractor

In [7]:
## Variables para importar modelos y demás
dir_ = "../../../data/v1/NER/"
dir_dataset = "../../../data/database/output_ml/M1/"

#file = 'ner_dataset.tsv' # Dataset
file = 'accident_4_server_follow_timeline_user.tsv' # Dataset

spacy_model = dir_+"spacy_model_complete/" #Spacy model entrenado previamente
corpus_segmentation = dir_+'spanish_count_1w_small_v2_twitter.txt' # Corpus para entrenar el wordsemgentation

In [8]:
## Importando Dataset
dataset = pd.read_csv(dir_dataset+file, delimiter = "\t", quoting = 3)
del dataset['Unnamed: 0']
print(dataset.shape)
dataset.head(5)

(86882, 25)


Unnamed: 0,_id,api,coordinates,created_at,created_at_str,favorite_count,geo,id_tweet,place_coordinates,place_country,...,user_followers_count,user_friends_count,user_id,user_listed_count,user_location,user_name,user_profile_image_url,user_statuses_count,user_verified,label
0,5bbc1901dc5d3f22d9c38821,Stream-follow,{},2018-10-08 21:57:04,2018-10-09 02:57:04,0,{},1049493924291727360,{},,...,7386,7477,91371148,45,,Isgarvan,http://pbs.twimg.com/profile_images/6921179185...,56478,False,1
1,5bbc243fdc5d3f2354ac637a,Stream-follow,{},2018-10-08 22:45:03,2018-10-09 03:45:03,0,{},1049505997600055296,{},,...,59,335,985956584655290391,0,,K940223593,http://pbs.twimg.com/profile_images/1013532920...,5712,False,1
2,5bbc292bdc5d3f2580132dee,Stream-follow,{},2018-10-08 23:06:03,2018-10-09 04:06:03,0,{},1049511282624335872,{},,...,80,268,4114754413,1,Seachells Islands Indian Ocean,lp972039,http://pbs.twimg.com/profile_images/8955346283...,74,False,1
3,5bbc2adcdc5d3f2580132dfa,Stream-follow,{},2018-10-08 23:13:16,2018-10-09 04:13:16,0,{},1049513098774765568,{},,...,87,270,141597111,4,Bogota,lordviktor23,http://pbs.twimg.com/profile_images/1031371042...,10261,False,1
4,5bbc2da9dc5d3f2580132e10,Stream-follow,{},2018-10-08 23:25:13,2018-10-09 04:25:13,0,{},1049516105922953217,{},,...,120,1150,1973074842,0,Cicloton ciudad de mexico,osvaldocente,http://pbs.twimg.com/profile_images/3788000008...,1530,False,1


In [5]:
dataset.shape

(6037, 25)

### Limpieza y normalización para NER

In [6]:
ner_preprocessing = NerPreprocessing(spacy_model=spacy_model, corpus_segmentation=corpus_segmentation,njobs=4)
txt = ner_preprocessing.transform(dataset['text'])
dataset['clean'] = txt

In [7]:
dataset[['text','clean']].head(5)

Unnamed: 0,text,clean
0,Desmanes en Bogotá dejaron anoche dos personas...,Desmanes en Bogotá dejaron anoche dos personas...
1,Rt grave accidente en cumaral un camión choca ...,Rt grave accidente en cumaral un camión choca ...
2,Art. 141 Derecho de vía de peatones y ciclista...,Art. 141 Derecho de vía de peatones y ciclista...
3,"Instituto de Tránsito de Boyacá, Secretaria de...","Instituto de Tránsito de Boyacá, Secretaria de..."
4,Mujer de carne y hueso #temazo @VicenteMoros @...,Mujer de carne y hueso temazo vicente moros da...


### Predicción Etiquetar NER
Etiquetas **'loc'** y **'time'**

In [11]:
dataset.iloc[1]['text']

'Rt grave accidente en cumaral un camión choca de frente contra una aerovans   2 personas fallecidas y seis heridos hasta el momento la vía esta cerrada en estos momentoscierre total de via Cumaral - Restrepo por accidente de transito, Km 25+500 entrada a cumaral'

In [8]:
ner_extractor = NerExtractor(spacy_model=spacy_model, njobs=4)
txt = ner_extractor.transform(dataset['clean'])
dataset['entities'] = txt 

In [9]:
dataset[['text','entities']].head(5)

Unnamed: 0,text,entities
0,Desmanes en Bogotá dejaron anoche dos personas...,"[(santafe, loc)]"
1,Rt grave accidente en cumaral un camión choca ...,"[(Km 25 500, loc)]"
2,Art. 141 Derecho de vía de peatones y ciclista...,"[(Art 141, loc)]"
3,"Instituto de Tránsito de Boyacá, Secretaria de...","[(Instituto, loc), (Boyacá, loc), (Buenaventur..."
4,Mujer de carne y hueso #temazo @VicenteMoros @...,[]


In [13]:
dataset.shape

(6037, 27)

In [16]:
dataset.to_csv(dir_dataset+"NER_extractor/entities_"+file,sep='\t')

---
### Pruebas

In [9]:
i = 46
print(dataset.iloc[i]['text'])
print(dataset.iloc[i]['entities'])
print(type(dataset.iloc[i]['entities']))
print(dataset.iloc[i]['entities'][0])
print(type(dataset.iloc[i]['entities'][0]))

#AEstaHora (6:00 P.M.) se registra una fuerte congestión vehicular sobre la Cll 26 en sentido Oriente-Occidente hasta el @BOG_ELDORADO por dos choques menores. Te recomendamos salir con tiempo de anticipación para cumplir con tu plan de vuelo. #Comparte #QueNoTeDejeElAvión https://t.co/0jb7hPHlWc
[('esta hora', 'time'), ('6:00 P.M.', 'time'), ('Cll 26', 'loc')]
<class 'list'>
('esta hora', 'time')
<class 'tuple'>


In [10]:
ent = [ t for (t,l) in dataset.iloc[i]['entities']  if l == 'loc' ]
ent

['Cll 26']

In [11]:
ent = [ t for (t,l) in dataset.iloc[i]['entities']  if l == 'time' ]
ent

['esta hora', '6:00 P.M.']

### Exportar tsv

In [12]:
dataset.to_csv(dir_+"ner_dataset_entities.tsv",sep='\t')