Tratamento de dados - REGRAS

- Prezar pela confiabilidade e rastreabilidade dos dados

## Instação de bibliotecas

In [None]:
# Baixando a biblioteca xlsxwriter

!pip install xlsxwriter



In [None]:
# Importando bibliotecas necessárias

import pandas as pd # manipulação de dados
import os # manipulação de arquivos do sistema operacional
import glob # manipulação de diretórios e nomes de arquivos em massa
import xlsxwriter

## Pré-processamento dos dados

In [None]:
# Difinindo o caminho da pasta base (raw) para leitura dos arquivos "brutos" que iremos trabalhar

folder_path = '/content/drive/MyDrive/Dio/Python Data Analytics/Mentorias/ETL_com_Python/src/data/raw'

In [None]:
# Verificando o caminho onde está os arquivos
folder_path

'/content/drive/MyDrive/Dio/Python Data Analytics/Mentorias/ETL_com_Python/src/data/raw'

In [None]:
# Listando todos os arquivos do tipo xlsx que estão no diretório (pasta) raw
excel_files = glob.glob(os.path.join(folder_path, '*.xlsx'))

In [None]:
# Verificando os arquivos do tipo xlsx encontrados na pasta raw
excel_files

['/content/drive/MyDrive/Dio/Python Data Analytics/Mentorias/ETL_com_Python/src/data/raw/netflix_202402_france.xlsx',
 '/content/drive/MyDrive/Dio/Python Data Analytics/Mentorias/ETL_com_Python/src/data/raw/netflix_202493_italian.xlsx',
 '/content/drive/MyDrive/Dio/Python Data Analytics/Mentorias/ETL_com_Python/src/data/raw/netflix_202407_brasil.xlsx',
 '/content/drive/MyDrive/Dio/Python Data Analytics/Mentorias/ETL_com_Python/src/data/raw/netflix_202406_brasil.xlsx',
 '/content/drive/MyDrive/Dio/Python Data Analytics/Mentorias/ETL_com_Python/src/data/raw/netflix_202403_brasil.xlsx',
 '/content/drive/MyDrive/Dio/Python Data Analytics/Mentorias/ETL_com_Python/src/data/raw/netflix_202407_france.xlsx',
 '/content/drive/MyDrive/Dio/Python Data Analytics/Mentorias/ETL_com_Python/src/data/raw/netflix_202496_italian.xlsx',
 '/content/drive/MyDrive/Dio/Python Data Analytics/Mentorias/ETL_com_Python/src/data/raw/netflix_202495_italian.xlsx',
 '/content/drive/MyDrive/Dio/Python Data Analytics/Me

# Processamento dos dados

## Script para tratamento dos dados

In [None]:
# Estrutura de decisão, caso não seja encontrado nenhum arquivo do tipo excel para tratamento
if not excel_files:
    print('Nenhum arquivo compatível encontrado')
else:
    # Início do script


    # Definindo uma lista vazia para guardar os dados tratados
    dfs=[]


    for arquivo in excel_files:

        try:
            # Leitura do arquivo excel
            df_temporario = pd.read_excel(arquivo)

            # Extrai apenas o nome do arquivo
            file_name = os.path.basename(arquivo)

            # Criando uma nova coluna 'location' com o país de origem do arquivo

            # Se no nome do arquivo estiver o conjunto de caracteres 'brasil' incluir na coluna 'location'  sigla 'br'
            if 'brasil' in file_name.lower():
                df_temporario['location'] = 'br'

            # Se no nome do arquivo estiver o conjunto de caracteres 'france' incluir na coluna 'location'  sigla 'fr'
            elif 'france' in file_name.lower():
                df_temporario['location'] = 'fr'

            # Se no nome do arquivo estiver o conjunto de caracteres 'italian' incluir na coluna 'location'  sigla 'it'
            elif 'italian' in file_name.lower():
                df_temporario['location'] = 'it'

            # Criando nova coluna 'campaign' com o nome da campanha
            df_temporario['campaign'] = df_temporario['utm_link'].str.extract(r'utm_campaign=(.*)')

            # Criando nova coluna 'filename' com o nome do arquivo
            df_temporario['filename'] = file_name

            # Guardando os dados tratados dentro de uma lista
            dfs.append(df_temporario)


        except Exception as e:
            print(f'Erro ao ler o arquivo {arquivo} : {e}')

if dfs:

    # Concatena todas as tabelas que estão na variável dfs (lista) e salva como um único DataFrame contendo todos os dados
    result = pd.concat(dfs, ignore_index=True)

    # Caminho de saída para salvar o arquivo e o nome do mesmo ('clean.xlsx')
    output_file = os.path.join('/content/drive/MyDrive/Dio/Python Data Analytics/Mentorias/ETL_com_Python/src/data/ready', 'clean.xlsx')

    # Configurando o motor de escrita
    writer = pd.ExcelWriter(output_file, engine='xlsxwriter')

    # Leva os dados do DataFrame 'result' a serem escritos no motor de excel configurado
    result.to_excel(writer, index=False)

    # Salva o arquivo de excel
    writer._save()


# Caso não tenha nenhum dado na variável 'dfs' retorna o print abaixo
else:
    print('Nenhum dado para ser salvo')