# Enriquecimento de Dados
**O que é Enriquecimento de Dados**

Com a transformação digital e com soluções cada vez mais geridas online, contar com um banco de dados incompleto ou desatualizado pode provocar perdas e expor seu negócio a riscos. É aí que entra o Enriquecimento de Dados: esse recurso possibilita atualizar e encontrar informações rapidamente, gerando uma vantagem competitiva.

Em nosso caso vamos encontrar as coordenadas geográficas das cidades, pois no dataset que tratamos no artigo anterior (https://www.linkedin.com/pulse/consumindo-api-e-tratando-dados-com-python-alexandre-tavares/)

Com essas informações adicionais, nosso dataset fica mais completo. Assim, é possível plotar mapas com marcações de ocorrências do CODIV-19.

Para esta tarefa utilizaremos algumas bibliotecas do Python, são elas:
- **Pandas:**
O pandas é uma biblioteca de análise e manipulação de dados de código aberto, rápida, poderosa, flexível e fácil de usar, construída sobre a linguagem Python .
- **os:**
O módulo os fornece dúzias de funções para interagir com o sistema operacional e a utilizaremos para gerar uma variável de ambiente pra autenticarmos na API do GOOLGLE.
- **geocoder:**
Converta endereços em coordenadas geográficas. A API de geo codificação do Google suporta pesquisa difusa.

Bom agora que já entendemos um pouco sobre enriquecimento de dados, sobre algumas bibliotecas do python e oque vamos fazer vamos colocara mão na massa.

Neste artigo iremos utilizar o Google Colab(https://colab.research.google.com/) pra executarmos o código.

**Instalar as Bibliotecas necessárias**

Vamos precisar instalar as bibliotecas do python citado acima, caso estes não esteja instalado, execute a célula abaixo:

In [0]:
!pip install pandas
!pip install os
!pip install geocoder

[31mERROR: Could not find a version that satisfies the requirement os (from versions: none)[0m
[31mERROR: No matching distribution found for os[0m
Collecting geocoder
[?25l  Downloading https://files.pythonhosted.org/packages/4f/6b/13166c909ad2f2d76b929a4227c952630ebaf0d729f6317eb09cbceccbab/geocoder-1.38.1-py2.py3-none-any.whl (98kB)
[K     |████████████████████████████████| 102kB 2.7MB/s 
Collecting ratelim
  Downloading https://files.pythonhosted.org/packages/f2/98/7e6d147fd16a10a5f821db6e25f192265d6ecca3d82957a4fdd592cad49c/ratelim-0.1.6-py2.py3-none-any.whl
Installing collected packages: ratelim, geocoder
Successfully installed geocoder-1.38.1 ratelim-0.1.6


**Importar as Bibliotecas**

Agora precisamos importar as bibliotecas para que possamos utilizá las em nosso algorítimo.

In [0]:
import pandas as pd
import os

**Criar variavel de Ambiente pra Chave da API do Google**

Temos que iniciar uma variável de ambiente com a chave da API do google para que possamos nos identificar e executar as requisições.

Caso não saiba como gerar esta chave leia o artigo: https://www.linkedin.com/pulse/gerando-chave-de-acesso-do-google-alexandre-tavares

In [0]:
os.environ["GOOGLE_API_KEY"] = "Insira Aqui Sua Chave"

**Importa Biblioteca de geolocalização do google**

Após gerara variável de ambiente com a chave da API devemos importar o módulo geocoder, devemos importar ela sempre depois de gerar a variável, pois o módulo utiliza a variável para se autenticar.

In [0]:
import geocoder

**Lê dataset gerado no Artigo Anterior**

*Será preciso fazer upload do arquivo*

para isso execute os passos abaixo:
- clique no ícone de uma pasta na lateral esquerda do colab:

![alt text](http://www.portalatibaia.com.br/Artigos/colab01.png)

- Com isso teremos a tela a seguir, então clique na opção de Upload:

![alt text](http://www.portalatibaia.com.br/Artigos/colab02.png)

- Na tela seguinte localize o arquivo gerado no artigo anterior(https://www.linkedin.com/pulse/consumindo-api-e-tratando-dados-com-python-alexandre-tavares/) e clique em abrir:

![alt text](http://www.portalatibaia.com.br/Artigos/colab03.png)

Com isso já temos nosso arquivo importado para o colab e podemos seguir.

**Importar arquivo**

Devemos importar o arquivo para que possamos utilizá-lo em nosso algorítimo.

In [0]:
dfCodiv19 = pd.read_csv('datasetCodiv19.csv',encoding ='utf-8', sep=';')

**Criar um DataFrame Vazio**

Vamos criar um data frame com a estrutura de colunas que pretendemos ter ao final deste algorítimo.

In [0]:
dfEnriquecido = pd.DataFrame(columns=['Estado', 'Cidade', 'Latitude', 'Longitude', 'casosConfirmados', 'Mortes', 'dtAtualizado'])

**Enriquecer dados com as Coordenadas geográficas**

Percorre Data Frame e localizando Coordenadas das Cidades / UF utilizando o módulo geocoder

Ao executar o enriquecimento encontramos um erro e ao verificar vi que existe uma cidade com o nome 'Importados/Indefinidos' e para resolver incluímos a linha 
- if (ocorrencia['cidade'] != 'Importados/Indefinidos'):

In [0]:
for (i, ocorrencia) in dfCodiv19.iterrows():
  if (ocorrencia['cidade'] != 'Importados/Indefinidos'):
    #Gera coordenadas
    coordenadas = geocoder.google(str(ocorrencia['cidade']) + ',' + str(ocorrencia['uf']))
    
    # Cria linha no dataframe zerado
    dfEnriquecido.loc[len(dfEnriquecido)] = [ocorrencia['uf'], ocorrencia['cidade'], coordenadas.latlng[0], coordenadas.latlng[1], ocorrencia['casosConfirmados'], ocorrencia['mortos'], ocorrencia['dataAtualizacao']]

ERROR! Session/line number was not unique in database. History logging moved to new session 60


**Exibir DataSet**

Após todo o processo temos nosso dataset enriquecido com as coordenadas geográficas.

In [0]:
dfEnriquecido

Unnamed: 0,Estado,Cidade,Latitude,Longitude,casosConfirmados,Mortes,dtAtualizado
0,AC,Rio Branco,-9.975377,-67.824898,25,0.0,2020-03-28
1,AL,Maceió,-9.649849,-35.708949,13,0.0,2020-03-28
2,AL,Porto Real do Colégio,-10.185321,-36.837885,1,0.0,2020-03-28
3,AM,Boca do Acre,-8.748832,-67.399458,1,0.0,2020-03-28
4,AM,Manacapuru,-3.289745,-60.632088,2,0.0,2020-03-28
...,...,...,...,...,...,...,...
910,RN,Mossoró,-5.184128,-37.347780,1,0.0,2020-03-25
911,RN,Natal,-5.779257,-35.200916,9,0.0,2020-03-25
912,RN,Parnamirim,-5.911554,-35.271316,4,0.0,2020-03-25
913,RO,Ji-Paraná,-10.878141,-61.932673,1,0.0,2020-03-25


**Gerar Arquivo CSV para próximo artigo**

In [0]:
dfEnriquecido.to_csv('datasetCodiv19Enriquecido.csv', index=False,sep=';')

Os scripts deste artigo estão em: https://github.com/AleTavares/pyEnriqueceDados

**Autor:**

*Alexandre Tavares*

*Engenheiro de Dados*

https://www.linkedin.com/in/alexandre-tavares/