# Instalando e Importando Bibliotecas


### Pandas e Numpy

In [None]:
import pandas as pd
import numpy as np

### Spacy

Industrial-Strength Natural Language Processing

https://spacy.io/

In [None]:
!python3 -m spacy download pt_core_news_sm
!python3 -m spacy download en_core_web_sm
import spacy
from spacy import displacy
import pt_core_news_sm
import en_core_web_sm

2023-08-25 14:06:37.268841: I tensorflow/core/platform/cpu_feature_guard.cc:182] This TensorFlow binary is optimized to use available CPU instructions in performance-critical operations.
To enable the following instructions: AVX2 FMA, in other operations, rebuild TensorFlow with the appropriate compiler flags.
2023-08-25 14:06:39.872488: I tensorflow/compiler/xla/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero. See more at https://github.com/torvalds/linux/blob/v6.0/Documentation/ABI/testing/sysfs-bus-pci#L344-L355
2023-08-25 14:06:39.872989: I tensorflow/compiler/xla/stream_executor/cuda/cuda_gpu_executor.cc:996] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero. See more at https://github.com/torvalds/linux/blob/v6.0/Documentation/ABI/testing/sysfs-bus-pci#L344-L355
2023-08-

### Geocoding

In [None]:
!pip install geocoder
!pip install haversine
import geocoder
from haversine import haversine, Unit

Collecting geocoder
  Downloading geocoder-1.38.1-py2.py3-none-any.whl (98 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m98.6/98.6 kB[0m [31m2.5 MB/s[0m eta [36m0:00:00[0m
Collecting ratelim (from geocoder)
  Downloading ratelim-0.1.6-py2.py3-none-any.whl (4.0 kB)
Installing collected packages: ratelim, geocoder
Successfully installed geocoder-1.38.1 ratelim-0.1.6
Collecting haversine
  Downloading haversine-2.8.0-py2.py3-none-any.whl (7.7 kB)
Installing collected packages: haversine
Successfully installed haversine-2.8.0


# Reconhecimento de Entidades Nomeadas
Para a etapa de Geotagging, estamos interessados em entidades nomeadas associadas a nomes de lugares e organizações. São candidatas a serem associadas a alguma latitude e longitude na etapa de Geocoding.

### Vamos usar NER da Spacy treinado em Português

In [None]:
# carregando o modelo
nlp_pt = pt_core_news_sm.load()

In [None]:
# executando o NER e visualizando
text = "A empresa Dole Food anunciou recall de seus produtos na cidade de Bessemer, North Carolina devido à possível contaminação"
doc = nlp_pt(text)
displacy.render(doc, style='ent', jupyter=True)

In [None]:
doc2 = nlp_pt('''Na época, o pai de Lohan disse que os dois tinham um relacionamento "respeitoso" e "platônico". "Eles são apenas amigos. Lindsay tem muitos amigos poderosos no Oriente Médio, porque ela é enorme por lá. Ela conheceu MBS [bin Salman] por meio do trabalho que tem feito no Oriente Médio. Ela está trabalhando para ajudar pessoas na região, especialmente refugiados. [...] Lindsay diz que ele é uma boa pessoa. Ela se sente segura, tem boas pessoas ao seu redor e sabe se cuidar", disse Michael Lohan''')
displacy.render(doc2, style='ent', jupyter=True)

In [None]:
for ent in doc.ents:
  print(ent.text, '=>' , ent.label_)

Dole Food => ORG
Bessemer => LOC
North Carolina => LOC


### Vamos usar NER da Spacy treinado em Inglês

In [None]:
# carregando o modelo
nlp_en = en_core_web_sm.load()
text = "Dole Food Company recalls its packaged salad processed in the company's Bessemer City, North Carolina and Yuma, Arizona production facilities due to possible contamination"
doc = nlp_en(text)
displacy.render(doc, style='ent', jupyter=True)

In [None]:
for ent in doc.ents:
  print(ent.text, '=>' , ent.label_)

Dole Food Company => ORG
Bessemer City => GPE
North Carolina => GPE
Yuma => GPE
Arizona => GPE


# Geocoding

Vamos associar latitude e longitude para uma dada entidade geográfica

In [None]:
# (crie a sua se tiver problemas com limites: http://www.geonames.org/export/web-services.html)
key='3eabda_1' # key demo para API do geonames

text = 'O curso de inteligência analítica em São Carlos está ocorrendo hoje'
doc = nlp_pt(text)

for ent in doc.ents:
  print(ent.text, '=>' , ent.label_)
  try:
    if ent.label_=='LOC':
      g = geocoder.geonames(ent.text, maxRows=1, key=key)
      for result in g:
        print("Country: "+result.country)
        print("State: "+result.state)
        print("Address: "+result.address)
        print("Lat: "+result.lat)
        print("Lng: "+result.lng)
  except:
    print('Não consegui realizar geocoding para',ent.text)

São Carlos => LOC
Country: Brazil
State: São Paulo
Address: São Carlos
Lat: -22.0175
Lng: -47.89083
