# Projeto para definir áreas de construção

## Sobre o projeto
O projeto consiste em realizar o trabalho de ETL(Extract Load Transformation) para gerar o melhor lugar para se ter um comércio voltado a obra cívil

## Base de dados
Onde achar a base https://www.gov.br/receitafederal/pt-br/assuntos/orientacao-tributaria/cadastros/consultas/dados-publicos-cno

## Dicionário de Dados da Base utilizada
![image.png](attachment:image.png)

![image.png](attachment:image.png)

# Frameworks que serão usados

In [1]:
import warnings
warnings.filterwarnings('ignore') # somente para ignorar os warnings
import pandas as pd # ferramenta para ciencia de dados
import requests
import time
from tqdm import tqdm_notebook as tqdm # barra de progresso
import json
import folium # Para usar o mapa
import folium.plugins as plugins # Para usar o cluster
import branca

## Extração dos dados

In [45]:
df = pd.read_csv('cno.csv',encoding = 'latin1')

## Transformação dos Dados

### Escolhendo áreas de construção ativa no ano de 2022 no DF


In [46]:
df = df[df['Estado'] == 'DF'] # selecionando no dataframe somente obras no DF
df = df[df['Situação'] != 15][df['Situação'] != 1] # selecionando no dataframe somente obras com situação ativa,suspensa,paralizada

df['Data da situação'] = df['Data da situação'].apply(lambda x:'0' if x.split('-')[0] != '2022' else x) # mapeando com '0' todo diferente de 2022
df = df[df['Data da situação'] != '0'] # selecionando no dataframe somente datas que são diferentes de '0'

In [47]:
df = df.reset_index(drop = True)

### Selecionando as colunas que contem Nome,Empresa responsavel, Tamanho, Estado, Bairro e CEP

In [48]:
df.columns

Index(['CNO', 'Código do Pais', 'Nome do pais', 'Data de início',
       'Data de inicio da responsabilidade', 'Data de registro',
       'CNO vinculado', 'CEP', 'NI do responsável',
       'Qualificação do responsavel', 'Nome', 'Código do municipio',
       'Nome do município', 'Tipo de logradouro', 'Logradouro',
       'Número do logradouro', 'Bairro', 'Estado', 'Caixa Postal',
       'Complemento', 'Unidade de medida', 'Área total', 'Situação',
       'Data da situação', 'Nome empresarial'],
      dtype='object')

In [49]:
# Removendo colunas que não serão necessesárias
df = df.drop(columns = ['CNO', 'Código do Pais', 'Nome do pais', 'Data de início',
       'Data de inicio da responsabilidade', 'Data de registro',
       'CNO vinculado','NI do responsável',
       'Qualificação do responsavel','Código do municipio',
       'Nome do município', 'Tipo de logradouro', 'Logradouro',
       'Número do logradouro','Caixa Postal',
       'Complemento', 'Unidade de medida','Data da situação'])

### Limpando o Dataset

In [50]:
df = df.fillna('')

### Aplicando a API do Cep Aberto para conseguir latitude e longitude dos ceps

In [51]:
# Função que utiliza a api do cep aberto para transformar cep em coordenadas 'latitude longitude'
def cep_to_coordenate(cep):
    
    url = "https://www.cepaberto.com/api/v3/cep?cep={}".format(cep)
    headers = {'Authorization': 'Token token=97aeafe113754fd9fd85fe6cb36716e6'}
    
    try:
        response = requests.get(url, headers=headers)
        response = json.loads(response.text)
    except:
        response = {}
    
    if response: 
        time.sleep(1)
        return "{} {}".format(response['latitude'],response['longitude'])

In [52]:
# Criando uma nova coluna ao dataframe vazia para armazenar a coordenada
df = df.assign(coordenadas = '')

In [None]:
df['coordenada'] = df['CEP'].apply(cep_to_coordenate)

In [53]:
# Preenchendo cada coordenada com o cep
for i in tqdm(range(len(df))):
    df['coordenadas'][i] = cep_to_coordenate(df['CEP'][i])

  0%|          | 0/369 [00:00<?, ?it/s]

In [54]:
df

Unnamed: 0,CEP,Nome,Bairro,Estado,Área total,Situação,Nome empresarial,coordenadas
0,71535000,,SETOR DE HABITACOES INDIVIDUAIS NORTE,DF,3931.19,2,IGREJA BATISTA DO LAGO NORTE,-15.7942287 -47.8821658
1,71746004,FERNANDO MONTEIRO RIBEIRO,PARK WAY,DF,580.00,14,,-15.7753629 -47.8620279
2,73130900,THIAGO DE ANDRADE ALBUQUERQUE e Outros,ALTO DA BOA VISTA (SOBRADINHO),DF,265.06,14,,-15.6356505 -47.7577427
3,73350350,EDIFICARE ENGENHARIA E CONSTRUCOES EIRELI,SETOR RESIDENCIAL LESTE (PLANALTINA),DF,1287.00,14,EDIFICARE ENGENHARIA E CONSTRUCOES EIRELI,-15.6212945 -47.6460883
4,72146000,"EVOLUCAO ENGENHARIA, CONSTRUCAO E ADMINISTRACA...",TAGUATINGA NORTE (TAGUATINGA),DF,1583.25,2,EVOLUCAO ENGENHARIA CONSTRUCAO E ADMINISTRACAO...,-15.8253882 -48.1201194
...,...,...,...,...,...,...,...,...
364,71525205,RN BLUMENSCHEIN LTDA,SETOR DE HABITACOES INDIVIDUAIS NORTE,DF,447.75,2,RN BLUMENSCHEIN LTDA,-15.7942287 -47.8821658
365,72001239,JMD ENGENHARIA EIRELI,SETOR HABITACIONAL VICENTE PIRES - TRECHO 3,DF,1631.00,2,JMD ENGENHARIA EIRELI,-15.8032275 -48.0175522
366,72135903,M.I CONSTRUTORA E SERVICOS EIRELI,SETOR INDUSTRIAL (TAGUATINGA),DF,5000.02,2,M.I CONSTRUTORA E SERVICOS EIRELI,-15.8472427 -48.044491
367,73130900,ALOISIO ARARUNA DE ALMEIDA JUNIOR,ALTO DA BOA VISTA (SOBRADINHO),DF,228.66,2,,-15.6356505 -47.7577427


In [55]:
# Limpando o Dataset para conseguir somente as coordenadas não nulas
df['coordenadas'] = df['coordenadas'].fillna('')
df = df[df['coordenadas'] != '']

In [56]:
df = df.reset_index(drop = True)

# Dataframe final do Distrito Federal

In [57]:
df

Unnamed: 0,CEP,Nome,Bairro,Estado,Área total,Situação,Nome empresarial,coordenadas
0,71535000,,SETOR DE HABITACOES INDIVIDUAIS NORTE,DF,3931.19,2,IGREJA BATISTA DO LAGO NORTE,-15.7942287 -47.8821658
1,71746004,FERNANDO MONTEIRO RIBEIRO,PARK WAY,DF,580.00,14,,-15.7753629 -47.8620279
2,73130900,THIAGO DE ANDRADE ALBUQUERQUE e Outros,ALTO DA BOA VISTA (SOBRADINHO),DF,265.06,14,,-15.6356505 -47.7577427
3,73350350,EDIFICARE ENGENHARIA E CONSTRUCOES EIRELI,SETOR RESIDENCIAL LESTE (PLANALTINA),DF,1287.00,14,EDIFICARE ENGENHARIA E CONSTRUCOES EIRELI,-15.6212945 -47.6460883
4,72146000,"EVOLUCAO ENGENHARIA, CONSTRUCAO E ADMINISTRACA...",TAGUATINGA NORTE (TAGUATINGA),DF,1583.25,2,EVOLUCAO ENGENHARIA CONSTRUCAO E ADMINISTRACAO...,-15.8253882 -48.1201194
...,...,...,...,...,...,...,...,...
247,71525205,RN BLUMENSCHEIN LTDA,SETOR DE HABITACOES INDIVIDUAIS NORTE,DF,447.75,2,RN BLUMENSCHEIN LTDA,-15.7942287 -47.8821658
248,72001239,JMD ENGENHARIA EIRELI,SETOR HABITACIONAL VICENTE PIRES - TRECHO 3,DF,1631.00,2,JMD ENGENHARIA EIRELI,-15.8032275 -48.0175522
249,72135903,M.I CONSTRUTORA E SERVICOS EIRELI,SETOR INDUSTRIAL (TAGUATINGA),DF,5000.02,2,M.I CONSTRUTORA E SERVICOS EIRELI,-15.8472427 -48.044491
250,73130900,ALOISIO ARARUNA DE ALMEIDA JUNIOR,ALTO DA BOA VISTA (SOBRADINHO),DF,228.66,2,,-15.6356505 -47.7577427


# Processo de carregar no banco de dados (Load)

# Mostrar os dados com framework de dados Geoespaciais

In [319]:
# Instancia o Mapa
m = folium.Map(location = [-15.763048872811966, -47.870631102672284],zoom_start = 10)

In [320]:
# Adiciona o Cluster
marker_cluster_ativo = plugins.MarkerCluster(name = 'Obras Ativas').add_to(m)
marker_cluster_suspensas = plugins.MarkerCluster(name = 'Obras Suspensas',show = False).add_to(m)
marker_cluster_paralizadas = plugins.MarkerCluster(name = 'Obras Paralizadas',show = False).add_to(m)

In [321]:
# Codigo do kagle pra deixar a popup elegante
def fancy_html(row):
    i = row
    
    Nome = df['Nome'].iloc[i]                             
    Bairro = df['Bairro'].iloc[i]                           
    Estado = df['Estado'].iloc[i]
    Area_total = df['Área total'].iloc[i]                                           
    Nome_Empresarial = df['Nome empresarial'].iloc[i]                               
    
    left_col_colour = "#2A799C"
    right_col_colour = "#C5DCE7"
    
    html = """<!DOCTYPE html>
<html>

<head>
<h4 style="margin-bottom:0"; width="300px">{}</h4>""".format(Estado) + """

</head>
    <table style="height: 126px; width: 300px;">
<tbody>
<tr>
<td style="background-color: """+ left_col_colour +""";"><span style="color: #ffffff;">Nome da Obra</span></td>
<td style="width: 200px;background-color: """+ right_col_colour +""";">{}</td>""".format(Nome) + """
</tr>
<tr>
<td style="background-color: """+ left_col_colour +""";"><span style="color: #ffffff;">Bairro</span></td>
<td style="width: 200px;background-color: """+ right_col_colour +""";">{}</td>""".format(Bairro) + """
</tr>
<tr>
<td style="background-color: """+ left_col_colour +""";"><span style="color: #ffffff;">Área total</span></td>
<td style="width: 200px;background-color: """+ right_col_colour +""";">{}m²</td>""".format(Area_total) + """
</tr>
<tr>
<td style="background-color: """+ left_col_colour +""";"><span style="color: #ffffff;">Nome da Empresa</span></td>
<td style="width: 200px;background-color: """+ right_col_colour +""";">{}</td>""".format(Nome_Empresarial) + """
</tr>
</tbody>
</table>
</html>
"""
    return html

In [322]:
df_ativos = df[df['Situação'] == 2]
df_ativos = df_ativos.reset_index(drop = True)

for i in tqdm(range(0,len(df_ativos))):
    html = fancy_html(i)
 
    iframe = branca.element.IFrame(html=html,width=400,height = 300)
    popup = folium.Popup(iframe,parse_html=True)
    
    folium.Marker([df_ativos['coordenadas'][i].split(' ')[0], df_ativos['coordenadas'][i].split(' ')[1]],
                  popup=popup,icon=folium.Icon(color='green', icon='info-sign')).add_to(marker_cluster_ativo)


  0%|          | 0/218 [00:00<?, ?it/s]

In [323]:
df_suspensas = df[df['Situação'] == 3]
df_suspensas = df_suspensas.reset_index(drop = True)

for i in tqdm(range(0,len(df_suspensas))):
    html = fancy_html(i)
 
    iframe = branca.element.IFrame(html=html,width=400,height = 300)
    popup = folium.Popup(iframe,parse_html=True)
    
    folium.Marker([df_suspensas['coordenadas'][i].split(' ')[0], df_suspensas['coordenadas'][i].split(' ')[1]],
                  popup=popup,icon=folium.Icon(color='orange', icon='info-sign')).add_to(marker_cluster_suspensas)

  0%|          | 0/4 [00:00<?, ?it/s]

In [324]:
df_paralizadas = df[df['Situação'] == 14]
df_paralizadas = df_paralizadas.reset_index(drop = True)

for i in tqdm(range(0,len(df_paralizadas))):
    html = fancy_html(i)
 
    iframe = branca.element.IFrame(html=html,width=400,height = 300)
    popup = folium.Popup(iframe,parse_html=True)
    
    folium.Marker([df_paralizadas['coordenadas'][i].split(' ')[0], df_paralizadas['coordenadas'][i].split(' ')[1]],
                  popup=popup,icon=folium.Icon(color='red', icon='info-sign')).add_to(marker_cluster_paralizadas)

  0%|          | 0/30 [00:00<?, ?it/s]

In [316]:
html1 = """
<form style="border: 1px solid #333333;padding:20px; margin-bottom:20px;">
                    
<button type="submit" class="button">Select this neighbourhood</button>
</form>
"""
iframe = branca.element.IFrame(html=html1,width=400,height = 300)
popup = folium.Popup(iframe,parse_html=True)

folium.ClickForMarker(popup = html1).add_to(m)

<folium.features.ClickForMarker at 0x1ae8f389d30>

In [325]:
folium.ClickForMarker().add_to(m)

<folium.features.ClickForMarker at 0x1ae8f5e10a0>

In [326]:
folium.LayerControl().add_to(m)

<folium.map.LayerControl at 0x1ae8f5e1eb0>

In [327]:
m

In [328]:
m.save('mapa_obras.html')