FILTRAR CNPJS INATIVOS
ADICIONAR DSC LOGRADOURO NA CONSULTA


In [2]:
import requests

url = "https://www.gov.br/saude/pt-br/composicao/sectics/farmacia-popular/arquivos/farmacias_credenciadas_pfpb_atualizada.xlsx/@@download/file"
file_path = r'C:\Users\ruanv\OneDrive\Documentos\Mestrado\Projeto BD_EngSoft\PPGTI_2024-1\Farmacias_Credenciadas.xlsx'

response = requests.get(url)
if response.status_code == 200:
    with open(file_path, 'wb') as file:
        file.write(response.content)
    print(f"File downloaded successfully and saved to {file_path}")
else:
    print(f"Failed to download the file. Status code: {response.status_code}")


File downloaded successfully and saved to C:\Users\ruanv\OneDrive\Documentos\Mestrado\Projeto BD_EngSoft\PPGTI_2024-1\Farmacias_Credenciadas.xlsx


In [3]:
import pandas as pd
import requests
from geopy.geocoders import ArcGIS
import time

geolocator = ArcGIS()

def consultar_cnpj_brasilio(cnpj):
    url = f"https://brasilapi.com.br/api/cnpj/v1/{cnpj}"
    response = requests.get(url)
    if response.status_code == 200:
        data = response.json()
        info = {
            "CNPJ": data.get("cnpj", ""),
            "Nome": data.get("razao_social", ""),
            "Fantasia": data.get("nome_fantasia", ""),
            "Tipo_Logradouro": data.get("descricao_tipo_de_logradouro", ""),
            "Logradouro": data.get("logradouro", ""),
            "Número": data.get("numero", ""),
            "Município": data.get("municipio", ""),
            "Bairro": data.get("bairro", ""),
            "UF": data.get("uf", ""),
            "Telefone": data.get("telefone", ""),
            "Situação": data.get("descricao_situacao_cadastral", "")
        }
        return info
    return None

def get_coordinates(tipo_logradouro, logradouro, numero, bairro, cidade, estado):
    location = geolocator.geocode(f"{tipo_logradouro} +   + {logradouro}, {numero}, {bairro} ,{cidade}, {estado}")
    if location:
        return location.latitude, location.longitude
    return None

# Ler o arquivo .xlsx e coletar os dados da coluna CNPJ
df = pd.read_excel(file_path, skiprows=12, usecols="B:H")
# df = df[(df['UF'] == "AC")] # Possível filtro de estafos do banco

cnpjs = df['CNPJ']

# Tratar os CNPJs removendo ".", "/" e "-"
cnpjs = cnpjs.str.replace(".", "").str.replace("/", "").str.replace("-", "")

# Processar cada CNPJ e obter informações da Brasil.io com timer
final_data = []
for cnpj in cnpjs:
    cnpj_info = consultar_cnpj_brasilio(cnpj)
    if cnpj_info:
        tipo_logradouro = cnpj_info.get("Tipo_Logradouro", "")
        logradouro = cnpj_info.get("Logradouro", "")
        numero = cnpj_info.get("Número", "")
        bairro = cnpj_info.get("Bairro", "")
        cidade = cnpj_info.get("Município", "")
        estado = cnpj_info.get("UF", "")
        situacao = cnpj_info.get("descricao_situacao_cadastral", "")

        coordinates = get_coordinates(tipo_logradouro, logradouro, numero, bairro, cidade, estado)
        if coordinates:
            cnpj_info["Latitude"] = coordinates[0]
            cnpj_info["Longitude"] = coordinates[1]
            final_data.append(cnpj_info)
        else:
            print("Coordenadas não encontradas para o endereço fornecido.")
    else:
        print(f"Não foi possível obter informações para o CNPJ {cnpj}")
    time.sleep(0.06)  # Esperar um tempo entre consultas

# Criar DataFrame final e salva    r em um arquivo .csv
final_df = pd.DataFrame(final_data)
final_df.to_csv('dados_finais.csv', index=False)

In [None]:
import os
import pandas as pd

# Diretório contendo os arquivos CSV
diretorio = r'C:\Users\ruanv\OneDrive\Documentos\Mestrado\Projeto BD_EngSoft\PPGTI_2024-1\dados_estado'

# Lista para armazenar os DataFrames de cada arquivo CSV
frames = []

# Percorrer todos os arquivos na pasta
for arquivo in os.listdir(diretorio):
    if arquivo.endswith('.csv'):
        caminho_arquivo = os.path.join(diretorio, arquivo)
        # Lê o arquivo CSV e adiciona ao DataFrame
        df = pd.read_csv(caminho_arquivo, dtype=str)
        frames.append(df)

# Concatena todos os DataFrames em um único DataFrame
df_final = pd.concat(frames, ignore_index=True)

# Exibe o DataFrame resultante
print(df_final)

# Se desejar, você pode salvar o DataFrame unificado em um novo arquivo CSV
df_final.to_csv('resultado.csv', index=False)


In [4]:
import csv
import json

def csv_to_json(csv_file):
    json_data = []

    with open(csv_file, 'r', encoding='utf-8') as file:
        csv_reader = csv.DictReader(file)
        for row in csv_reader:
            if row['Situação'] == 'ATIVA':
                json_row = {
                    "nome": row['Nome'],
                    "longLat": [float(row['Longitude']), float(row['Latitude'])],
                    "nomeFantasia": row['Fantasia'],
                    "endereco": {
                        "rua": row['Tipo_Logradouro'] + ' ' + row['Logradouro'],
                        "numero": row['Número'],
                        "bairro": row['Bairro'],
                        "municipio": row['Município'],
                        "estado": row['UF']
                    }
                }
                json_data.append(json_row)

    return json_data

def main():
    csv_file = "resultado.csv"  
    json_data = csv_to_json(csv_file)
    with open("dados.json", 'w', encoding='utf-8') as json_file:
        json.dump(json_data, json_file, ensure_ascii=False, indent=2)

if __name__ == "__main__":
    main()
