In [62]:
# Importar as bibliotecas necessarias

import json
import requests
import pandas as pd 
import time

In [63]:
# Ler o arquivo, coloquei só 100 linhas, por causa do limite de requisição da API, pois estou usando API FREE

df = pd.read_csv("/home/cristina/Projetos/cnes-enriquecimento-dados/CNES/data/cnes_amostra.csv", encoding="latin1", low_memory=False,nrows=100)

In [65]:
def cep_api_viacep(dataframe):
    new_dataframe = pd.DataFrame()

    for row in dataframe.itertuples():

        try:
            response = requests.get(f'https://viacep.com.br/ws/{row.CO_CEP}/json/',timeout=5)
            response.raise_for_status()
            response_df = pd.json_normalize(response.json())
            new_dataframe = pd.concat([new_dataframe, response_df], ignore_index=True)

        except requests.exceptions.RequestException as e:
            print(f"Erro com o CEP {row.CO_CEP}: {e}")
            continue
    
    return new_dataframe


In [66]:
df_ceps = cep_api_viacep(df)

In [67]:
df_ceps["cep"] = df_ceps["cep"].str.replace("-", "")

In [68]:
# CO_CEP precisa estar como string com 8 dígitos (igual o 'cep' da API) para o merge funcionar
df['CO_CEP'] = df['CO_CEP'].astype(str).str.zfill(8)

In [69]:
df_enriquecido = df.merge(df_ceps, left_on='CO_CEP', right_on='cep', how='left')

In [70]:
# Ver linhas duplicadas
duplicadas = df_enriquecido.duplicated().sum()
print(duplicadas)

140


In [71]:
# Remover as linhas duplicadas e manter a primeira ocorrência
df_enriquecido = df_enriquecido.drop_duplicates(keep='first')

In [72]:
# Resetar o índice
df_enriquecido.reset_index(drop=True, inplace=True)

In [82]:
df_enriquecido.dtypes

CO_CNES                       int64
CO_UNIDADE                    int64
CO_UF                         int64
CO_IBGE                       int64
NU_CNPJ_MANTENEDORA         float64
NO_RAZAO_SOCIAL              object
NO_FANTASIA                  object
CO_NATUREZA_ORGANIZACAO     float64
DS_NATUREZA_ORGANIZACAO     float64
TP_GESTAO                    object
CO_NIVEL_HIERARQUIA         float64
DS_NIVEL_HIERARQUIA         float64
CO_ESFERA_ADMINISTRATIVA    float64
DS_ESFERA_ADMINISTRATIVA    float64
CO_ATIVIDADE                  int64
TP_UNIDADE                    int64
CO_CEP                       object
NO_LOGRADOURO                object
NU_ENDERECO                  object
NO_BAIRRO                    object
NU_TELEFONE                  object
NU_LATITUDE                  object
NU_LONGITUDE                 object
CO_TURNO_ATENDIMENTO        float64
DS_TURNO_ATENDIMENTO         object
NU_CNPJ                     float64
NO_EMAIL                     object
CO_NATUREZA_JUR             

In [None]:
# Deletar colunas repetidas e que não preciso. 

df_enriquecido.drop(["Unnamed: 0","cep","ibge","gia","siafi","erro"], axis=1, inplace=True)

In [87]:
# Padronizar as colunas

df_enriquecido = df_enriquecido.rename(columns={"logradouro": "LOGRADOURO_ATUALIZADO",
                               "unidade": "UNIDADE",
                               "complemento":"COMPLEMENTO",
                               "bairro": "BAIRRO_ATUALIZADO",
                               "localidade": "CIDADE",
                               "uf": "UF",
                               "estado": "ESTADO",
                               "regiao": "REGIAO",
                               "ddd": "DDD"})

In [None]:
# Padronizando os dados
colunas_api = ["LOGRADOURO_ATUALIZADO","UNIDADE","COMPLEMENTO","BAIRRO_ATUALIZADO","CIDADE","UF","ESTADO","REGIAO"]

for coluna_api in colunas_api:
    if coluna_api in df_enriquecido.columns:
        df_enriquecido[coluna_api] = df_enriquecido[coluna_api].str.upper()

In [92]:
df_enriquecido.head(2)

Unnamed: 0,CO_CNES,CO_UNIDADE,CO_UF,CO_IBGE,NU_CNPJ_MANTENEDORA,NO_RAZAO_SOCIAL,NO_FANTASIA,CO_NATUREZA_ORGANIZACAO,DS_NATUREZA_ORGANIZACAO,TP_GESTAO,...,CO_AMBULATORIAL_SUS,LOGRADOURO_ATUALIZADO,COMPLEMENTO,UNIDADE,BAIRRO_ATUALIZADO,CIDADE,UF,ESTADO,REGIAO,DDD
0,19,2602900000019,26,260290,11294400000000.0,PREFEITURA MUNICIPAL DO CABO DE SANTO AGOSTINHO,POLICLINICA DR JAMACI DE MEDEIROS,,,M,...,SIM,RUA SÃO CARLOS,(LOT B SUCESSO),,PONTE DOS CARVALHOS,CABO DE SANTO AGOSTINHO,PE,PERNAMBUCO,NORDESTE,81
1,27,2602900000027,26,260290,10930450000000.0,CASA DE SAUDE E MATERNIDADE SANTA HELENA LTDA,CASA DE SAUDE SANTA HELENA,,,M,...,SIM,AVENIDA PRESIDENTE GETÚLIO VARGAS,DE 380/381 AO FIM,,CENTRO,CABO DE SANTO AGOSTINHO,PE,PERNAMBUCO,NORDESTE,81
