# Geoparser with Address Normalization
### By **Néstor Suat** in 2021

**Descripción:** Combinando `9 Agregando location` y `9 Address Normalization`.
Se realiza normalización de direcciones usando librería en C `libpostal`

Fuente: https://github.com/openvenues/libpostal

In [1]:
from postal.expand import expand_address
from ast import literal_eval

import pandas as pd
import re
import math

In [2]:
def add_location(entities):
    #print(entities)
    loc = [ t for (t,l) in entities  if l == 'loc' ]
    if len(loc) > 4: ## Descartar tweets con más de 4 entidades de ubicaciones reconocidas
        loc = ''    
    loc = ' '.join(loc)
    if len(loc.split(' ')) < 4:   ## Descartar Tweets con menos de 4 palabras     
        loc = ''
    return loc

def address_normalization(location):    
    expansions = expand_address(location, 
                                roman_numerals=False, 
                                split_alpha_from_numeric=True, 
                                expand_numex=False,
                                languages=["es"])
    if len(expansions) > 0:
        expansions = re.sub(r'\b(\w+)( \1\b)+', r'\1', expansions[-1])
        expansions = 'Bogota '+expansions
        expansions = removeWords(expansions.upper())
    else:
        expansions = ''
    return expansions

def removeWords(text):
    stopwords = ['CON','POR','Y']
    return ' '.join([word for word in text.split() if word not in stopwords])

### Importando dataset

In [37]:
## Variables para importar modelos y demás
#dir_ = "../../data/v1/NER/src/prueba_bad_location/"
#dir_ = "../../data/v1/NER/src/prueba_ok_location/"
#dir_ = "../../data/v1/NER/"
dir_ = "../../data/database/output_ml/M1/NER_extractor/"

#file = 'ner_dataset_test_ok.tsv' # Dataset
file = 'entities_accident_4_server_follow_timeline_user.tsv'

In [38]:
## Importando Dataset
dataset = pd.read_csv(dir_+file, delimiter = "\t", quoting = 3)
#del dataset['Unnamed: 0']
#del dataset['gmap']
print(dataset.shape)
dataset.head(5)

(87271, 27)


Unnamed: 0,_id,api,coordinates,created_at,created_at_str,favorite_count,geo,id_tweet,place_coordinates,place_country,...,user_id,user_listed_count,user_location,user_name,user_profile_image_url,user_statuses_count,user_verified,label,clean,entities
0,5bbc1901dc5d3f22d9c38821,Stream-follow,{},2018-10-08 21:57:04,2018-10-09 02:57:04,0,{},1049493924291727360,{},,...,91371148,45,,Isgarvan,http://pbs.twimg.com/profile_images/6921179185...,56478,False,1,RT citytv : citynoticias Otro accidente regist...,"[('localidad de Bosa', 'loc')]"
1,5bbc192adc5d3f22d9c38829,Stream-follow,{},2018-10-08 21:57:46,2018-10-09 02:57:46,0,{},1049494097998880769,{},,...,66509310,12,Bogotá D.C. - Colombia.,ndelapava,http://pbs.twimg.com/profile_images/9940267761...,22065,False,1,RT citytv : citynoticias Otro accidente regist...,"[('localidad de Bosa', 'loc')]"
2,5bbc243fdc5d3f2354ac637a,Stream-follow,{},2018-10-08 22:45:03,2018-10-09 03:45:03,0,{},1049505997600055296,{},,...,985956584655290391,0,,K940223593,http://pbs.twimg.com/profile_images/1013532920...,5712,False,1,RT citytv : citynoticias Otro accidente regist...,"[('localidad de Bosa', 'loc')]"
3,5bbc292bdc5d3f2580132dee,Stream-follow,{},2018-10-08 23:06:03,2018-10-09 04:06:03,0,{},1049511282624335872,{},,...,4114754413,1,Seachells Islands Indian Ocean,lp972039,http://pbs.twimg.com/profile_images/8955346283...,74,False,1,citytv Dejen tanto consentir machos hay sicari...,"[('calle', 'loc')]"
4,5bbc2adcdc5d3f2580132dfa,Stream-follow,{},2018-10-08 23:13:16,2018-10-09 04:13:16,0,{},1049513098774765568,{},,...,141597111,4,Bogota,lordviktor23,http://pbs.twimg.com/profile_images/1031371042...,10261,False,1,RT citytv : citynoticias Otro accidente regist...,"[('localidad de Bosa', 'loc')]"


### Eliminar tweets sin entidades reconocidas

In [39]:
dataset = dataset[dataset['entities']!='[]']
dataset = dataset.reset_index(drop=True)
dataset.shape

(85077, 27)

In [40]:
#Conversión de tweets
dataset.entities = dataset.entities.apply(literal_eval)

In [41]:
#Conversión de entities loc a una dirección escrita
dataset['location'] = dataset.entities.apply(add_location)
dataset['location']

0                                     
1                                     
2                                     
3                                     
4                                     
                     ...              
85072            Av. Cali con Calle 91
85073          Calle 116 con Carrera 9
85074    Carrera 24 con Calle 41 A Sur
85075                 Cr 9 con Cll 140
85076          Carrera 68 con Calle 26
Name: location, Length: 85077, dtype: object

In [42]:
### Descartar ubicaciones de tweets con menos de 4 palabras en su contenido
### Descartar ubicaciones de tweets con más de 4 entidades de ubicación reconocidad.
dataset = dataset[dataset['location']!='']
dataset = dataset.reset_index(drop=True)
dataset.shape

(80277, 28)

## Addresss Normalization
* Usando librería en C `libpostal`

In [43]:
dataset['address_normalization'] = dataset.location.apply(address_normalization)
dataset['address_normalization']

0        BOGOTA AVENIDA CARRERA 9 CALLE 139 SNUNIDAD TR...
1        BOGOTA AVENIDA PRIMERO DE MAYO CARRERA 50 GLOR...
2                      BOGOTA TRANSVERSAL 51 DIAGONAL 48 F
3        BOGOTA AVENIDA CIUDAD DE VILLAVICENCIO CALLE 5...
4                             BOGOTA CARRERA 50 CALLE 18 A
                               ...                        
80272               BOGOTA AVENIDA CIUDAD DE CALI CALLE 91
80273           BOGOTA AVENIDA CALLE 116 AVENIDA CARRERA 9
80274             BOGOTA AVENIDA CARRERA 24 CALLE 41 A SUR
80275                   BOGOTA AVENIDA CARRERA 9 CALLE 140
80276           BOGOTA AVENIDA CARRERA 68 AVENIDA CALLE 26
Name: address_normalization, Length: 80277, dtype: object

In [44]:
dataset = dataset[dataset['address_normalization']!='']
dataset = dataset.reset_index(drop=True)
dataset.shape

(80277, 29)

In [45]:
dataset.to_csv(dir_+"norm_"+file,sep='\t',index=False)

### Generando para Geocoding

In [46]:
locations = []
for i in range(len(dataset)):
    loc = []
    #norm = 'Bogota '+dataset.iloc[i]['address_normalization']
    #norm = removeWords(norm.upper())
    loc += [dataset.iloc[i]['address_normalization']] + ['CO']
    locations.append(loc)
#locations

In [47]:
df = pd.DataFrame(locations,columns=['address','iso2'])
#df.rename(columns={0:'address',1:''}, inplace=True)
df

Unnamed: 0,address,iso2
0,BOGOTA AVENIDA CARRERA 9 CALLE 139 SNUNIDAD TR...,CO
1,BOGOTA AVENIDA PRIMERO DE MAYO CARRERA 50 GLOR...,CO
2,BOGOTA TRANSVERSAL 51 DIAGONAL 48 F,CO
3,BOGOTA AVENIDA CIUDAD DE VILLAVICENCIO CALLE 5...,CO
4,BOGOTA CARRERA 50 CALLE 18 A,CO
...,...,...
80272,BOGOTA AVENIDA CIUDAD DE CALI CALLE 91,CO
80273,BOGOTA AVENIDA CALLE 116 AVENIDA CARRERA 9,CO
80274,BOGOTA AVENIDA CARRERA 24 CALLE 41 A SUR,CO
80275,BOGOTA AVENIDA CARRERA 9 CALLE 140,CO


In [48]:
df.to_csv(dir_+'format_norm_'+file.split(".")[0]+".csv", index=False)

## Formateando resultados de Batch Geocode con Addresss Normalization

In [24]:
batch_geocode = pd.read_csv(dir_+'geocode_results_2021_03_10.csv')
batch_geocode = batch_geocode[['best_lat','best_long']]
batch_geocode

Unnamed: 0,best_lat,best_long
0,,
1,4.634422,-74.096084
2,4.711552,-74.072544
3,,
4,4.660691,-74.074803
...,...,...
1331,,
1332,,
1333,4.603237,-74.153714
1334,4.721292,-74.091972


In [25]:
dataset['gmap'] = ''
for i in range(len(dataset)):
    if(not math.isnan(batch_geocode.iloc[i]['best_lat'])):
        dataset.at[i,'gmap'] = "{'lat': "+str(batch_geocode.iloc[i]['best_lat'])+", 'lng': "+str(batch_geocode.iloc[i]['best_long'])+"}"
    else:
        dataset.drop(index=dataset.index[[i]])

In [26]:
geocoding = dataset.copy()
geocoding

Unnamed: 0,id_tweet,text,created_at,user_name,user_location,source,clean,entities,location,address_normalization,gmap
0,1047808970847604737,Rt Avenida Primero de Mayo frente al sena de l...,2018-10-04 6:21:40,camilogallardoa,,Search BOGOTA,Rt Avenida Primero de Mayo frente al sena de l...,"[(Avenida Primero de Mayo, loc), (sena, loc), ...",Avenida Primero de Mayo sena carrera 30,BOGOTA AVENIDA PRIMERO DE MAYO SENA AVENIDA CA...,
1,1047809516937596928,Rt *Accidente* Se presenta volcamiento de vehí...,2018-10-04 6:23:50,camilogallardoa,,Search BOGOTA,Rt *Accidente* Se presenta volcamiento de vehí...,"[(carrera 68 con la Av Esperanza, loc)]",carrera 68 con la Av Esperanza,BOGOTA AVENIDA CARRERA 68 LA AVENIDA DE LA ESP...,"{'lat': 4.634422233333333, 'lng': -74.09608436..."
2,1047809727118430210,Rt Av. Las villas norte al sur llegando a la 1...,2018-10-04 6:24:40,camilogallardoa,,Search BOGOTA,Rt Av. Las villas norte al sur llegando a la 1...,"[(Av. Las villas, loc), (la 127, loc), (buleva...",Av. Las villas la 127 bulevar Niza,BOGOTA AVENIDA LAS VILLAS LA 127 BULEVAR NIZA,"{'lat': 4.7115524, 'lng': -74.07254429999998}"
3,1047821671854473216,Rt *Accidente*Se presenta siniestro vial entre...,2018-10-04 7:12:08,camilogallardoa,,Search BOGOTA,Rt *Accidente*Se presenta siniestro vial entre...,"[(Av. NQS con calle 67, loc)]",Av. NQS con calle 67,BOGOTA AVENIDA NQS CALLE 67,
4,1047843812977065985,"Para peor tristeza, muerto en la Av. Cra. 30, ...",2018-10-04 8:40:07,capdiaz,"Bogotá, Colombia",Search BOGOTA,"Para peor tristeza, muerto en la Av. Cra. 30, ...","[(Av. Cra . 30, loc), (Calle 67, loc)]",Av. Cra . 30 Calle 67,BOGOTA AVENIDA CARRERA 30 CALLE 67,"{'lat': 4.660691244444443, 'lng': -74.07480312..."
...,...,...,...,...,...,...,...,...,...,...,...
1331,983339568723349505,"Cra 7 NS alto aforo altura calle 134, tráfico ...",2018-04-09 8:43:17,RedapBogota,"Bogota, Colombia",4_SEARCH TIMELINE USER,"Cra 7 NS alto aforo altura calle 134, tráfico ...","[(Cra 7, loc), (calle 134, loc)]",Cra 7 calle 134,BOGOTA AVENIDA CARRERA SEPTIMA CALLE 134,
1332,1102902768514359296,Cra 7 NS tráfico lento desde calle 140 al sur,2019-03-05 7:04:45,RedapBogota,"Bogota, Colombia",4_SEARCH TIMELINE USER,Cra 7 NS tráfico lento desde calle 140 al sur,"[(Cra 7, loc), (calle 140, loc)]",Cra 7 calle 140,BOGOTA AVENIDA CARRERA SEPTIMA CALLE 140,
1333,1093845140983218184,CRA 80 X CL 45 SUR : Se presenta incidente via...,2019-02-08 7:12:58,RedapBogota,"Bogota, Colombia",4_SEARCH TIMELINE USER,CRA 80 X CL 45 SUR : Se presenta incidente via...,"[(CRA 80 X CL 45 SUR, loc)]",CRA 80 X CL 45 SUR,BOGOTA AVENIDA CARRERA 80 AVENIDA CALLE 45 SUR,"{'lat': 4.6032374, 'lng': -74.15371445}"
1334,979318808136560641,Carrera 91 calle 95 lesionado en accidente de ...,2018-03-29 6:26:13,RedapBogota,"Bogota, Colombia",4_SEARCH TIMELINE USER,Carrera 91 calle 95 lesionado en accidente de ...,"[(Carrera 91 calle 95, loc)]",Carrera 91 calle 95,BOGOTA AVENIDA CARRERA 91 CALLE 95,"{'lat': 4.721292066666667, 'lng': -74.09197183..."


In [27]:
geocoding = geocoding[dataset['gmap']!='']
geocoding = geocoding.reset_index(drop=True)
geocoding

Unnamed: 0,id_tweet,text,created_at,user_name,user_location,source,clean,entities,location,address_normalization,gmap
0,1047809516937596928,Rt *Accidente* Se presenta volcamiento de vehí...,2018-10-04 6:23:50,camilogallardoa,,Search BOGOTA,Rt *Accidente* Se presenta volcamiento de vehí...,"[(carrera 68 con la Av Esperanza, loc)]",carrera 68 con la Av Esperanza,BOGOTA AVENIDA CARRERA 68 LA AVENIDA DE LA ESP...,"{'lat': 4.634422233333333, 'lng': -74.09608436..."
1,1047809727118430210,Rt Av. Las villas norte al sur llegando a la 1...,2018-10-04 6:24:40,camilogallardoa,,Search BOGOTA,Rt Av. Las villas norte al sur llegando a la 1...,"[(Av. Las villas, loc), (la 127, loc), (buleva...",Av. Las villas la 127 bulevar Niza,BOGOTA AVENIDA LAS VILLAS LA 127 BULEVAR NIZA,"{'lat': 4.7115524, 'lng': -74.07254429999998}"
2,1047843812977065985,"Para peor tristeza, muerto en la Av. Cra. 30, ...",2018-10-04 8:40:07,capdiaz,"Bogotá, Colombia",Search BOGOTA,"Para peor tristeza, muerto en la Av. Cra. 30, ...","[(Av. Cra . 30, loc), (Calle 67, loc)]",Av. Cra . 30 Calle 67,BOGOTA AVENIDA CARRERA 30 CALLE 67,"{'lat': 4.660691244444443, 'lng': -74.07480312..."
3,1047986702982234112,Rt Incidente vial entre taxi y bus en la carre...,2018-10-04 18:07:55,camilogallardoa,,Search BOGOTA,Rt Incidente vial entre taxi y bus en la carre...,"[(carrera 10 con calle 27 sur, loc)]",carrera 10 con calle 27 sur,BOGOTA CARRERA 10 CALLE 27 SUR,"{'lat': 4.569560044444444, 'lng': -74.09424587..."
4,1048014671943553024,Rt Se solicita tránsito choque en Av Américas ...,2018-10-04 19:59:03,camilogallardoa,,Search BOGOTA,Rt Se solicita tránsito choque en Av Américas ...,"[(Av Américas, loc), (puente Av boyaca, loc), ...",Av Américas puente Av boyaca Av boyaca,BOGOTA AVENIDA DE LAS AMERICAS PUENTE AVENIDA ...,"{'lat': 4.63044, 'lng': -74.1378}"
...,...,...,...,...,...,...,...,...,...,...,...
667,1116330751061037057,colision entre buses en la carrera 68 con cal...,2019-04-11 8:22:46,RedapBogota,"Bogota, Colombia",4_SEARCH TIMELINE USER,colision entre buses en la carrera 68 con call...,"[(carrera 68 con calle 13, loc)]",carrera 68 con calle 13,BOGOTA AVENIDA CARRERA 68 AVENIDA CALLE 13,"{'lat': 4.653370466666667, 'lng': -74.10372093..."
668,1064851464584081408,colision entre dos particulares ‍ en la Carrer...,2018-11-20 7:02:27,RedapBogota,"Bogota, Colombia",4_SEARCH TIMELINE USER,colision entre dos particulares en la Carrera ...,"[(Carrera 68 con Av Esperanza, loc)]",Carrera 68 con Av Esperanza,BOGOTA AVENIDA CARRERA 68 AVENIDA DE LA ESPERANZA,"{'lat': 4.634422233333333, 'lng': -74.09608436..."
669,1064847130840453120,colision entre dos particulares en la Carrera ...,2018-11-20 6:45:14,RedapBogota,"Bogota, Colombia",4_SEARCH TIMELINE USER,colision entre dos particulares en la Carrera ...,"[(Carrera 9 con calle 187, loc)]",Carrera 9 con calle 187,BOGOTA AVENIDA CARRERA 9 CALLE 187,"{'lat': 4.761263911111112, 'lng': -74.03132992..."
670,1093845140983218184,CRA 80 X CL 45 SUR : Se presenta incidente via...,2019-02-08 7:12:58,RedapBogota,"Bogota, Colombia",4_SEARCH TIMELINE USER,CRA 80 X CL 45 SUR : Se presenta incidente via...,"[(CRA 80 X CL 45 SUR, loc)]",CRA 80 X CL 45 SUR,BOGOTA AVENIDA CARRERA 80 AVENIDA CALLE 45 SUR,"{'lat': 4.6032374, 'lng': -74.15371445}"


In [28]:
geocoding.to_csv(dir_+"ner_dataset_norm_geocoding.tsv",sep='\t')