## Divisão do Dataframe


In [14]:
from utils.functions import find_cep
from math import ceil
from time import sleep

import pandas as pd 
import requests
import glob
import os

# CARREGAMENTO DO DATAFRAME PRINCIPAL
BASE_DIR = "C:\\Users\\edinocencio\\DataClenupCmsCrm\\DataSources"
INPUT_DIR = os.path.join(BASE_DIR, "Divididos")
OUTPUT_DIR = os.path.join(BASE_DIR, "Completos")
REVIEWED_DIR = os.path.join(BASE_DIR, "revisados")
FINALIZED_DIR = os.path.join(BASE_DIR, "finalizados")
MASTER_FILE = os.path.join(BASE_DIR, "PMD-CMS.xlsx")
FINAL_FILE = os.path.join(FINALIZED_DIR, "base_cep_consolidada.xlsx")
LINES_PER_FILE = 20

path = "C:\\Users\\edinocencio\\DataClenupCmsCrm\\DataSources\\PMD-CMS.xlsx"
sheet_name="CEPS"
df = pd.read_excel(path, sheet_name="CEPS")
input_dir = 'DataSources\\Divididos\\'
output_dir = 'DataSources\\Completos\\'

# # UF to Estado mapping / Dicionário para mapear siglas de UF para os nomes dos estados corretos
UF_TO_ESTADO = {
    'AC': 'Acre', 'AL': 'Alagoas', 'AP': 'Amapá', 'AM': 'Amazonas', 'BA': 'Bahia',
    'CE': 'Ceará', 'DF': 'Distrito Federal', 'ES': 'Espírito Santo', 'GO': 'Goiás',
    'MA': 'Maranhão', 'MT': 'Mato Grosso', 'MS': 'Mato Grosso do Sul', 'MG': 'Minas Gerais',
    'PA': 'Pará', 'PB': 'Paraíba', 'PR': 'Paraná', 'PE': 'Pernambuco', 'PI': 'Piauí',
    'RJ': 'Rio de Janeiro', 'RN': 'Rio Grande do Norte', 'RS': 'Rio Grande do Sul',
    'RO': 'Rondônia', 'RR': 'Roraima', 'SC': 'Santa Catarina', 'SP': 'São Paulo',
    'SE': 'Sergipe', 'TO': 'Tocantins'
}

# # Function to find address by CEP / FUNÇÃO PARA OBTER INFORMAÇÕES COM BASE NO CEP
def find_cep(cep, cache):
    if cep in cache:
        return cache[cep]
    
    else:
    # URL_VIA_CEP = f'https://viacep.com.br/ws/{cep}/json/'
        URL_VIA_CEP = f'https://opencep.com/v1/{cep}'
        try:
            answer = requests.get(URL_VIA_CEP, timeout=5)
            if answer.ok:
                address_ = answer.json()
                if "erro" in address_:
                    cache[cep] = {
                        "cep":"",
                        "logradouro":"",
                        "complemento":"",
                        "bairro":"",
                        "localidade": "",
                        "uf":"",
                        "ibge":"",
                        "erro":"INVALID CEP",
                    }
                else:
                    cache[cep]={
                        "cep": address_.get("cep",""),
                        "logradouro":address_.get("logradouro",""),
                        "complemento":address_.get("complemento",""),
                        "bairro":address_.get("bairro",""),
                        "localidade":address_.get("localidade",""),
                        "uf":address_.get("uf",""),
                        "ibge":address_.get("ibge",""),
                        "erro":"",
                    }
            else:
                cache[cep] = {
                        "cep":"",
                        "logradouro":"",
                        "complemento":"",
                        "bairro":"",
                        "localidade": "",
                        "uf":"",
                        "ibge":"",
                        "erro":f"Erro HTTP {answer.status_code}",
                    }
        except Exception as e:
            cache[cep] = {
                "cep":"",
                        "logradouro":"",
                        "complemento":"",
                        "bairro":"",
                        "localidade": "",
                        "uf":"",
                        "ibge":"",
                "erro": "Erro de conexão",
            }
        
        # Aguardar para evitar sobrecarregar a API
        sleep(0.4) #900 ms    
        return cache[cep]


# SELECIONAR E LIMPAR A COLUNA DE CEP
df = df[['CEP_NEW']]
df['CEP_NEW'] = df['CEP_NEW'].str.replace('-','').str.strip()
df.drop_duplicates(inplace=True)

# Determinar o número de linhas por arquivo (por exemplo, 100 linhas por arquivo)
lines_per_file = 20

# CALCULAR O NÚMERO DE ARQUIVOS NECESSÁRIOS
lines_total = len(df)
number_of_files = ceil(lines_total / lines_per_file)

# Criar diretório para salvar os arquivos divididos
output_dir = 'DataSources\\Divididos'
os.makedirs(output_dir, exist_ok=True)

# Dividir e salvar os arquivos
for i in range(number_of_files):
    start = i * lines_per_file
    end = start + lines_per_file
    df_divided =  df.iloc[start:end]
    file_name = os.path.join(output_dir, f'file_{i + 1}.xlsx')
    df_divided.to_excel(file_name,index=False)


# APLICAÇÃO DA FUNÇÃO DESENVOLVIDA
i = 1
files = glob.glob(f'{input_dir}*.xlsx')

cache = {}
enderecos = []

for file in files:
    df = pd.read_excel(file, dtype={"CEP_NEW": str})
    # Inicializar cache e lista para armazenar os endereços
    # Processar cada CEP
    for cep in df['CEP_NEW']:
        endereco = find_cep(cep,cache=cache)
        enderecos.append(endereco)

    # Criar DataFrame dos resultados de consulta
    enderecos_df = pd.DataFrame(enderecos)
    # Concatenar os resultados ao DataFrame original
    df_completo = pd.concat([df.reset_index(drop=True), enderecos_df], axis=1)
    df_completo.to_excel("DataSources\\revisados\\cep_" + str(i) + ".xlsx")
    enderecos = []
    i+=1


# AGRUPANDO ARQUIVOS
output_dir = 'DataSources\\revisados\\'
DIR_FILES = os.listdir(output_dir)

df_final = pd.DataFrame()

for file in DIR_FILES:
    filepath = output_dir + file
    df = pd.read_excel(filepath, dtype={"CEP_NEW": str})
    df = df.iloc[:,1:]
    df_final= pd.concat([df_final,df])

output_dir = 'DataSources\\finalizados\\'
file_name = 'base_cep_consolidada.xlsx'
full_file_path = output_dir + file_name
df_final = df_final[df_final['erro'].isnull()]



path_database_master = 'C:\\Users\\edinocencio\\DataClenupCmsCrm\\DataSources\\PMD-CMS.xlsx'
df_master = pd.read_excel(path_database_master, sheet_name='CEPS')
df_master = df_master.merge(df_final,left_on='CEP_NEW', right_on='cep')
df_master = df_master[['CEP_OLD','CEP_NEW_x','logradouro', 'complemento','bairro','localidade','uf']]

df_master = df_master.rename(columns={
                            'CEP_OLD':'cep_antigo',
                            'CEP_NEW_x':'cep_validado',
                            'localidade':'cidade'
                        })

# Atualizar a coluna 'Estado' com os nomes corretos baseados na coluna 'UF'
df_master['Estado'] = df_master['uf'].map(uf_to_estado)
df_master.to_excel(full_file_path, index=False)