# Importar bibliotecas

In [None]:
import pandas as pd
import os
from glob import glob
import warnings

# Ignora avisos
warnings.simplefilter(action='ignore')

# Define a exibição de floats com apenas duas casas decimais
pd.options.display.float_format = '{:.2f}'.format

# Importação dos Dados

In [None]:
# Caminho da pasta com os arquivos
caminho_pasta = "/content/drive/MyDrive/ARR VS FAT - 22"

# Obtenha todos os arquivos Excel na pasta
arquivos_excel = glob(os.path.join(caminho_pasta, "*.xlsx"))

# Lista para armazenar cada DataFrame lido
dataframes = []

# Leia cada arquivo Excel e adicione à lista
for arquivo in arquivos_excel:
    df = pd.read_excel(arquivo)
    dataframes.append(df)

# Concatene todos os DataFrames
df1_concatenado = pd.concat(dataframes, ignore_index=True)

# Exiba as primeiras linhas do DataFrame concatenado para verificar
df1_concatenado.head()


In [None]:
# Caminho da pasta com os arquivos
caminho_pasta = "/content/drive/MyDrive/ARR VS FAT - 23"

# Obtenha todos os arquivos Excel na pasta
arquivos_excel = glob(os.path.join(caminho_pasta, "*.xlsx"))

# Lista para armazenar cada DataFrame lido
dataframes = []

# Leia cada arquivo Excel e adicione à lista
for arquivo in arquivos_excel:
    df = pd.read_excel(arquivo)
    dataframes.append(df)

# Concatene todos os DataFrames
df2_concatenado = pd.concat(dataframes, ignore_index=True)

# Exiba as primeiras linhas do DataFrame concatenado para verificar
df2_concatenado.head()


In [None]:
# Caminho da pasta com os arquivos
caminho_pasta = "/content/drive/MyDrive/ARR VS FAT - 24"

# Obtenha todos os arquivos Excel na pasta
arquivos_excel = glob(os.path.join(caminho_pasta, "*.xlsx"))

# Lista para armazenar cada DataFrame lido
dataframes = []

# Leia cada arquivo Excel e adicione à lista
for arquivo in arquivos_excel:
    df = pd.read_excel(arquivo)
    dataframes.append(df)

# Concatene todos os DataFrames
df3_concatenado = pd.concat(dataframes, ignore_index=True)

# Exiba as primeiras linhas do DataFrame concatenado para verificar
df3_concatenado.head()


In [None]:
# Unir os dataframes
df_final = pd.concat([df1_concatenado,df2_concatenado,df3_concatenado], ignore_index=True)
df_final.head()

In [None]:
df_final.shape

# Tranformação

In [None]:
# Cria uma cópia do DataFrame original para não alterar o original
df = df_final.copy()

## Limpeza dos dados

In [None]:
# Substitui valores ausentes na coluna "Tipo_Fatura" por "Impressa"
df["Tipo_Fatura"].fillna("Impressa", inplace = True)


In [None]:
# Substitui valores ausentes na coluna "Segmento" por "Controle"
df["Segmento"].fillna("Controle", inplace = True)


In [None]:
# Preenche valores ausentes na coluna "TOTAL_VLR" com a média dos valores da coluna
df["TOTAL_VLR"].fillna(df["TOTAL_VLR"].mean(), inplace = True)


## Manejo de variáveis categóricas

In [None]:
# Converte a coluna "TOTAL_VLR" para o tipo float e arredonda para duas casas decimais
df['TOTAL_VLR'] = df['TOTAL_VLR'].astype(float).round(2)

In [None]:
# Substitui "NI" por "M+1" na coluna "AGING_RESUMIDO"
df["AGING_RESUMIDO"].replace("NI", "M+1", inplace = True)

In [None]:
# Cria a coluna "método_resumido" para categorizar os métodos de pagamento
df["método_resumido"] = df["Método"].apply(lambda x: x if x in ["PIX", "Internet", "Débito Autom.", "Lotérica", "Eletrônico", "PEC"] else "Outros")


In [None]:
# Dicionário de mapeamento para as faixas de vencimento
mapping = {
    "0 - Antes do vencimento": "Antes do vencimento",
    "1 - No vencimento": "No vencimento",
    "2 - até 05 dias": "de 1 à 3 dias depois",
    "3 - até 10 dias": "de 4 à 10 dias depois",
    "4 - até 20 dias": "de 11 à 19 dias depois",
    "5 - até 30 dias": "de 20 à 30 dias depois",
    "6 - 31 até 60 dias": "de 31 à 60 dias depois",
    "7 - 61 até 90 dias": "de 61 à 90 dias depois",
    "8 - > 90 dias": "Após 90 dias"
}

# Aplica o mapeamento à coluna "AGING_PAGAMENTO"
df["AGING_PAGAMENTO"] = df["AGING_PAGAMENTO"].replace(mapping)


In [None]:
# Substitui os valores específicos por "Live"
df["Segmento"] = df["Segmento"].replace({"Fixo": "Live", "VOIP": "Live", "WTTX": "Live"})

In [None]:
# Substitui o valor "Fatura não encontrada" por "SP" na coluna "UF"
df["UF"].replace("Fatura não encontrada", "SP", inplace = True)

In [None]:
# Preenche valores ausentes na coluna "UF" com "SP"
df["UF"].fillna("SP", inplace = True)

## Enriquecimentos dos dados

In [None]:
# Lista dos feriados nacionais para 2022, 2023 e 2024
feriados = [
    "01/01/2022", "01/03/2022", "15/04/2022", "21/04/2022", "01/05/2022",
    "16/06/2022", "07/09/2022", "12/10/2022", "02/11/2022", "15/11/2022", "25/12/2022",
    "01/01/2023", "20/02/2023", "21/02/2023", "07/04/2023", "21/04/2023",
    "01/05/2023", "08/06/2023", "07/09/2023", "12/10/2023", "02/11/2023",
    "15/11/2023", "25/12/2023", "01/01/2024", "12/02/2024", "13/02/2024",
    "29/03/2024", "21/04/2024", "01/05/2024", "30/05/2024", "07/09/2024",
    "12/10/2024", "02/11/2024", "15/11/2024", "20/11/2024", "25/12/2024"
]
# Converte a lista de feriados para o tipo datetime
feriados = pd.to_datetime(feriados, format="%d/%m/%Y")

In [None]:
# Cria a coluna "WD" com o dia da semana, onde segunda-feira é 0 e domingo é 6
df["WD"] = df["Data_PG"].dt.weekday

In [None]:
# Cria a coluna "DU" para verificar se é dia útil
# Dia útil é segunda a sexta (0 a 4) e não deve ser feriado
df["DU"] = df.apply(lambda row: 1 if row["WD"] < 5 and row["Data_PG"] not in feriados else 0, axis=1)

In [None]:
# Dicionário de mapeamento das siglas para o nome completo dos estados
estado_nome_completo = {
    'AC': 'Acre', 'AL': 'Alagoas', 'AM': 'Amazonas', 'AP': 'Amapá',
    'BA': 'Bahia', 'CE': 'Ceará', 'DF': 'Distrito Federal', 'ES': 'Espírito Santo',
    'GO': 'Goiás', 'MA': 'Maranhão', 'MG': 'Minas Gerais', 'MS': 'Mato Grosso do Sul',
    'MT': 'Mato Grosso', 'PA': 'Pará', 'PB': 'Paraíba', 'PE': 'Pernambuco',
    'PI': 'Piauí', 'PR': 'Paraná', 'RJ': 'Rio de Janeiro', 'RN': 'Rio Grande do Norte',
    'RO': 'Rondônia', 'RR': 'Roraima', 'RS': 'Rio Grande do Sul', 'SC': 'Santa Catarina',
    'SE': 'Sergipe', 'SP': 'São Paulo', 'TO': 'Tocantins'
}

# Cria a nova coluna com o nome completo dos estados
df['Estado'] = df['UF'].map(estado_nome_completo)

In [None]:
# Dicionário de mapeamento das siglas para as regiões
estado_regiao = {
    'AC': 'Norte', 'AL': 'Nordeste', 'AM': 'Norte', 'AP': 'Norte', 'BA': 'Nordeste',
    'CE': 'Nordeste', 'DF': 'Centro-Oeste', 'ES': 'Sudeste', 'GO': 'Centro-Oeste',
    'MA': 'Nordeste', 'MG': 'Sudeste', 'MS': 'Centro-Oeste', 'MT': 'Centro-Oeste',
    'PA': 'Norte', 'PB': 'Nordeste', 'PE': 'Nordeste', 'PI': 'Nordeste', 'PR': 'Sul',
    'RJ': 'Sudeste', 'RN': 'Nordeste', 'RO': 'Norte', 'RR': 'Norte', 'RS': 'Sul',
    'SC': 'Sul', 'SE': 'Nordeste', 'SP': 'Sudeste', 'TO': 'Norte'
}

# Cria a nova coluna com a região correspondente a cada estado
df['Região'] = df['UF'].map(estado_regiao)

In [None]:
# Adiciona a coluna 'País'
df['País'] = 'Brasil'

In [None]:
# # Salva o DataFrame em um arquivo CSV
df.to_csv("df_final.csv", index=False)