# üö¥ Processamento de Dados - 1. Unifica√ß√£o de Arquivos Brutos

Este notebook √© a primeira etapa do processo de an√°lise do Estudo de Caso Cyclistic.

## Objetivo do Script

O principal objetivo deste script √© garantir a integridade e a efici√™ncia do processo de ingest√£o de dados. Ele:

Verifica a pasta de dados brutos no Google Drive.


1.   Verifica a pasta de dados brutos no Google Drive.
2.   Carrega os 11 arquivos CSV mensais.
3.   Concatena todos os dados em um √∫nico DataFrame de ano inteiro.
4.   Salva o resultado em um √∫nico arquivo CSV (cyclistic_viagens_unificadas_bruto.csv), criando um ponto de verifica√ß√£o (checkpoint) para que o trabalho pesado de concatena√ß√£o n√£o seja repetido em execu√ß√µes futuras.


---


In [None]:
import pandas as pd
import os


In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:

# ----------------------------------------------------------------------
# 1. CONFIGURA√á√ÉO DE CAMINHOS
# ----------------------------------------------------------------------

# BASE_PATH - pasta onde os CSVs est√£o.
BASE_PATH = '/content/drive/MyDrive/Coursera_google_analytics/'

# Nome do arquivo final unificado (este √© o checkpoint)
UNIFIED_FILE_PATH = os.path.join(BASE_PATH, 'cyclistic_viagens_unificadas_bruto.csv')

# ----------------------------------------------------------------------
# 2. L√ìGICA DE VERIFICAR E CARREGAR
# ----------------------------------------------------------------------

# Se o arquivo final j√° existe, pule o carregamento e concatena√ß√£o demorada.
if os.path.exists(UNIFIED_FILE_PATH):

    print(f"\nArquivo unificado encontrado: '{UNIFIED_FILE_PATH}'")
    print("Processamento desta etapa conclu√≠do anteriormente. Pule para a limpeza.")

else:

    print("\nArquivo unificado n√£o encontrado. Iniciando a concatena√ß√£o dos arquivos brutos...")

    # 2.1. Lista todos os itens no diret√≥rio base e filtra apenas os CSVs
    all_items = os.listdir(BASE_PATH)
    raw_csv_files = [f for f in all_items if f.endswith('.csv')]

    list_of_dfs = []

    if not raw_csv_files:
        print(f"ERRO: Nenhum arquivo CSV encontrado em '{BASE_PATH}'. Verifique o caminho.")

    else:
        print(f"Total de {len(raw_csv_files)} arquivos brutos identificados para uni√£o.")

        # 2.2. Loop para carregar cada arquivo individualmente
        for filename in raw_csv_files:
            file_path = os.path.join(BASE_PATH, filename)
            try:
                # low_memory=False √© usado para arquivos grandes para evitar problemas de dtype
                df = pd.read_csv(file_path, low_memory=False)
                list_of_dfs.append(df)
                print(f"  -> Carregado: {filename}")

            except Exception as e:
                print(f"ERRO ao carregar {filename}: {e}")

        # 2.3. Concatena todos os DataFrames em um √∫nico
        if list_of_dfs:
            combined_df = pd.concat(list_of_dfs, ignore_index=True)
            print("\nConcatena√ß√£o conclu√≠da!")
            print(f"Linhas totais no DataFrame unificado: {len(combined_df)}")

            # -----------------------------------------------------------
            # 3. SALVAMENTO DO ARQUIVO UNIFICADO
            # -----------------------------------------------------------
            print(f"Salvando o arquivo concatenado bruto em: '{UNIFIED_FILE_PATH}'...")

            # Salva o DataFrame unificado em um novo CSV (sem o √≠ndice do Pandas)
            combined_df.to_csv(UNIFIED_FILE_PATH, index=False)

            print(f"Salvo com sucesso!")

        else:
            print("\nN√£o foi poss√≠vel criar o DataFrame unificado. Lista de DataFrames vazia.")



Arquivo unificado encontrado: '/content/drive/MyDrive/Coursera_google_analytics/cyclistic_viagens_unificadas_bruto.csv'
Processamento desta etapa conclu√≠do anteriormente. Pule para a limpeza.
