In [1]:
import pandas as pd
import os

In [2]:
# --- Configurações Iniciais ---
# Defina o caminho para a sua pasta 'raw' dentro do repositório
# Adapte o caminho conforme a sua estrutura de diretórios
# Ex: Se o seu notebook está em 'projectDNCOscar/data_understanding.ipynb'
# e os dados estão em 'projectDNCOscar/data/raw', o caminho seria:
raw_data_path = './data/raw/' # Ou './data/raw/' se o notebook estiver na raiz do projeto

# 1. Data Understanding - Inventários

In [3]:
# Lista para armazenar os DataFrames de inventário
dfs_inventario = []

In [4]:
# Nomes dos arquivos de inventário (ajuste conforme o nome real dos seus arquivos)

arquivos_inventario = [f'INVENTARIO_SAIDA_0{i}2025.csv' for i in range(1, 7)]

In [5]:
print("Iniciando a concatenação dos arquivos de inventário...")

Iniciando a concatenação dos arquivos de inventário...


In [6]:
# --- Leitura e Concatenação dos Arquivos de Inventário ---
for arquivo in arquivos_inventario:
    file_path = os.path.join(raw_data_path, arquivo)
    if os.path.exists(file_path):
        try:
            # Tentar ler com diferentes encodings caso dê erro
            df_temp = pd.read_csv(file_path, sep=';', encoding='latin1', on_bad_lines='skip')
            dfs_inventario.append(df_temp)
            print(f"Lido: {arquivo} ({len(df_temp)} linhas)")
        except Exception as e:
            print(f"Erro ao ler {arquivo}: {e}. Tentando outra codificação ou separador se necessário.")
            # Você pode tentar 'utf-8' ou outro separador aqui se o latin1 e ';' não funcionarem
            try: # Exemplo de outra tentativa
                 df_temp = pd.read_csv(file_path, encoding='utf-8', on_bad_lines='skip')
                 dfs_inventario.append(df_temp)
                 print(f"Lido com UTF-8: {arquivo} ({len(df_temp)} linhas)")
            except Exception as e_utf8:
                 print(f"Erro mesmo com UTF-8: {e_utf8}. Verifique o arquivo e o separador.")

    else:
        print(f"Arquivo não encontrado: {file_path}. Verifique o caminho e o nome do arquivo.")

Lido: INVENTARIO_SAIDA_012025.csv (2922 linhas)
Lido: INVENTARIO_SAIDA_022025.csv (3570 linhas)
Lido: INVENTARIO_SAIDA_032025.csv (3017 linhas)
Lido: INVENTARIO_SAIDA_042025.csv (6506 linhas)
Lido: INVENTARIO_SAIDA_052025.csv (3472 linhas)
Lido: INVENTARIO_SAIDA_062025.csv (1141 linhas)


In [7]:
# Concatenar todos os DataFrames de inventário em um único DataFrame
if dfs_inventario:
    df_inventario_total = pd.concat(dfs_inventario, ignore_index=True)
    print("\n--- Concatenação Concluída ---")
    print(f"DataFrame total de inventário criado com {len(df_inventario_total)} linhas e {len(df_inventario_total.columns)} colunas.")
else:
    print("Nenhum arquivo de inventário foi lido com sucesso. Verifique os caminhos e nomes.")
    df_inventario_total = pd.DataFrame() # Cria um DataFrame vazio para evitar erros


--- Concatenação Concluída ---
DataFrame total de inventário criado com 20628 linhas e 6 colunas.


In [8]:
# --- Primeiras Análises (Data Understanding) ---
if not df_inventario_total.empty:
    print("\n--- Primeiras 5 linhas do DataFrame Concatenado ---")
    print(df_inventario_total.head())


--- Primeiras 5 linhas do DataFrame Concatenado ---
   LOJA        DATA  COMPLEMENTO              SKU  QTDEMOVIMENTADA   VALOR
0   317  15/01/2025      1235031  999999992522958                1   69,99
1   317  15/01/2025      1235031  999999992355158                1   69,99
2   109  10/01/2025      1233608  999999992108562                1  199,99
3   422  17/01/2025      1236015  999999992612747                1  139,99
4   422  17/01/2025      1236015  999999992617478                1   79,99


In [9]:
print("\n--- Informações sobre o DataFrame (tipos de dados e não-nulos) ---")
df_inventario_total.info()


--- Informações sobre o DataFrame (tipos de dados e não-nulos) ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20628 entries, 0 to 20627
Data columns (total 6 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   LOJA             20628 non-null  int64 
 1   DATA             20628 non-null  object
 2   COMPLEMENTO      20628 non-null  int64 
 3   SKU              20628 non-null  int64 
 4   QTDEMOVIMENTADA  20628 non-null  int64 
 5   VALOR            20555 non-null  object
dtypes: int64(4), object(2)
memory usage: 967.1+ KB


In [10]:
print("\n--- Estatísticas Descritivas Básicas ---")
print(df_inventario_total.describe(include='all')) # 'all' para incluir colunas não numéricas


--- Estatísticas Descritivas Básicas ---
                LOJA        DATA   COMPLEMENTO           SKU  QTDEMOVIMENTADA  \
count   20628.000000       20628  2.062800e+04  2.062800e+04     20628.000000   
unique           NaN         121           NaN           NaN              NaN   
top              NaN  04/04/2025           NaN           NaN              NaN   
freq             NaN        3549           NaN           NaN              NaN   
mean      237.553326         NaN  1.270691e+06  9.995416e+14        49.753248   
std       169.359586         NaN  2.010446e+04  1.811334e+13      6958.253463   
min         1.000000         NaN  1.230838e+06  5.021011e+13       -23.000000   
25%        40.000000         NaN  1.255123e+06  1.000000e+15         1.000000   
50%       301.000000         NaN  1.276277e+06  1.000000e+15         1.000000   
75%       367.000000         NaN  1.285062e+06  1.000000e+15         1.000000   
max       600.000000         NaN  1.310873e+06  1.000000e+15    999

In [11]:
print("\n--- Contagem de Valores Nulos por Coluna ---")
print(df_inventario_total.isnull().sum())


--- Contagem de Valores Nulos por Coluna ---
LOJA                0
DATA                0
COMPLEMENTO         0
SKU                 0
QTDEMOVIMENTADA     0
VALOR              73
dtype: int64


In [12]:
print("\n--- Verificação de Valores Únicos em Colunas Chave ---")
# Usando os nomes exatos das colunas confirmadas
if 'LOJA' in df_inventario_total.columns:
    print(f"\nValores únicos em 'LOJA': {df_inventario_total['LOJA'].nunique()}")

if 'SKU' in df_inventario_total.columns:
    print(f"\nVerificando SKUs com notação científica (amostra):\n{df_inventario_total[df_inventario_total['SKU'].astype(str).str.contains(r'E\+')]['SKU'].head(10)}")



--- Verificação de Valores Únicos em Colunas Chave ---

Valores únicos em 'LOJA': 165

Verificando SKUs com notação científica (amostra):
Series([], Name: SKU, dtype: int64)


In [13]:
print("\n--- Análise da Coluna 'VALOR' ---")
if 'VALOR' in df_inventario_total.columns:
    print(f"\nTipos de dados em 'VALOR': {df_inventario_total['VALOR'].apply(type).value_counts()}")
    print(f"Valores únicos em 'VALOR' (amostra):\n{df_inventario_total['VALOR'].value_counts(dropna=False).head(10)}")



--- Análise da Coluna 'VALOR' ---

Tipos de dados em 'VALOR': VALOR
<class 'str'>      20555
<class 'float'>       73
Name: count, dtype: int64
Valores únicos em 'VALOR' (amostra):
VALOR
99,99     1257
149,99    1186
199,99     995
129,99     944
69,99      906
39,99      901
79,99      862
179,99     788
59,99      714
49,99      688
Name: count, dtype: int64


In [14]:
print("\n--- Análise da Coluna 'DATA' ---")
if 'DATA' in df_inventario_total.columns:
    print(f"\nTipos de dados em 'DATA': {df_inventario_total['DATA'].apply(type).value_counts()}")
    # Tentativa de identificar padrões de data numéricos do Excel
    excel_dates = df_inventario_total['DATA'].astype(str).str.contains(r'^\d{5}(\.\d+)?$')
    print(f"Amostra de datas em formato numérico (Excel): \n{df_inventario_total[excel_dates]['DATA'].head(5).tolist()}")
    print(f"Amostra de datas em formato string: \n{df_inventario_total[~excel_dates]['DATA'].head(5).tolist()}")

else:
    print("DataFrame de inventário total está vazio. Não foi possível realizar as análises.")


--- Análise da Coluna 'DATA' ---

Tipos de dados em 'DATA': DATA
<class 'str'>    20628
Name: count, dtype: int64
Amostra de datas em formato numérico (Excel): 
[]
Amostra de datas em formato string: 
['15/01/2025', '15/01/2025', '10/01/2025', '17/01/2025', '17/01/2025']


  excel_dates = df_inventario_total['DATA'].astype(str).str.contains(r'^\d{5}(\.\d+)?$')


# 2. Data Understanding - Ajustes de Estoque - Cancelamento - Devolução 

In [15]:
# Lista dos arquivos a serem analisados
# VERIFIQUE OS NOMES EXATOS DOS SEUS ARQUIVOS, INCLUINDO A EXTENSÃO (.csv, .txt, etc.)
arquivos_para_analise = [
    'AJUSTES_ESTOQUE_2025.csv',
    'CANCELAMENTO_2025.csv',
    'DEVOLUCAO.csv'
]

In [16]:
def analisar_arquivo_csv(nome_arquivo, path_dados, separador=';', encoding='latin1'):
    """Lê um CSV e imprime informações básicas para data understanding."""
    print(f"\n--- INICIANDO ANÁLISE DO ARQUIVO: {nome_arquivo} ---")
    file_path = os.path.join(path_dados, nome_arquivo)

    if not os.path.exists(file_path):
        print(f"ERRO: Arquivo não encontrado em {file_path}. Verifique o caminho e o nome do arquivo.")
        return None

    df = None
    try:
        df = pd.read_csv(file_path, sep=separador, encoding=encoding, on_bad_lines='skip')
        print(f"Arquivo lido com sucesso! {len(df)} linhas e {len(df.columns)} colunas.")
    except Exception as e:
        print(f"Erro ao ler {nome_arquivo} com separador '{separador}' e encoding '{encoding}': {e}")
        print("Tentando com encoding 'utf-8'...")
        try:
            df = pd.read_csv(file_path, sep=separador, encoding='utf-8', on_bad_lines='skip')
            print(f"Arquivo lido com sucesso usando UTF-8! {len(df)} linhas e {len(df.columns)} colunas.")
        except Exception as e_utf8:
            print(f"Erro mesmo com UTF-8: {e_utf8}. Por favor, verifique manualmente o arquivo, separador e encoding.")
            return None

    if df is not None:
        print("\n--- Primeiras 5 linhas ---")
        print(df.head())

        print("\n--- Informações sobre o DataFrame (tipos de dados e não-nulos) ---")
        df.info()

        print("\n--- Estatísticas Descritivas Básicas ---")
        print(df.describe(include='all'))

        print("\n--- Contagem de Valores Nulos por Coluna ---")
        print(df.isnull().sum())

        # --- Verificações Específicas por Coluna/Arquivo ---

        # 1. Verificação de Colunas de DATA
        # Tenta identificar colunas que parecem ser de data
        date_cols = [col for col in df.columns if 'DATA' in col.upper()]
        for col in date_cols:
            print(f"\n--- Análise da Coluna '{col}' ---")
            print(f"Tipos de dados em '{col}': {df[col].apply(type).value_counts()}")
            # Tentativa de identificar padrões de data numéricos do Excel
            # Precisa lidar com NaN antes de usar .astype(str)
            valid_dates_for_check = df[col].dropna().astype(str)
            excel_dates = valid_dates_for_check.str.contains(r'^\d{5}(\.\d+)?$', na=False)
            if excel_dates.any():
                print(f"Amostra de datas em formato numérico (Excel): \n{df.loc[excel_dates, col].head(5).tolist()}")
            else:
                print(f"Nenhuma data em formato numérico (Excel) encontrada em '{col}'.")
            print(f"Amostra de datas em formato string: \n{df.loc[~excel_dates, col].head(5).tolist()}")

        # 2. Verificação de Colunas de SKU
        sku_cols = [col for col in df.columns if 'SKU' in col.upper()]
        for col in sku_cols:
            print(f"\n--- Análise da Coluna '{col}' ---")
            print(f"Tipos de dados em '{col}': {df[col].apply(type).value_counts()}")
            # Verifica se há SKUs que parecem estar em notação científica se forem strings
            if df[col].dtype == 'object':
                scientific_notation_skus = df[col].astype(str).str.contains(r'[eE][+-]?\d+$', na=False)
                if scientific_notation_skus.any():
                    print(f"\nVerificando SKUs com notação científica (amostra):\n{df.loc[scientific_notation_skus, col].head(10)}")
                else:
                    print(f"Nenhum SKU em notação científica (string) aparente em '{col}'.")
            else: # Se for numérico (int, float), o Pandas já lidou com isso geralmente
                print(f"Coluna '{col}' é numérica ({df[col].dtype}). O Pandas já deve ter tratado a notação científica na leitura.")


        # 3. Verificação de Colunas de VALOR (monetárias)
        value_cols = [col for col in df.columns if 'VALOR' in col.upper() or 'PRECO' in col.upper() or 'DIFERENCA' in col.upper()]
        for col in value_cols:
            print(f"\n--- Análise da Coluna '{col}' ---")
            print(f"Tipos de dados em '{col}': {df[col].apply(type).value_counts()}")
            # Amostra de valores com vírgula como separador decimal
            comma_decimals = df[col].astype(str).str.contains(',', na=False)
            if comma_decimals.any():
                print(f"Amostra de valores com vírgula como separador decimal: \n{df.loc[comma_decimals, col].head(10).tolist()}")
            else:
                print(f"Nenhum valor com vírgula decimal aparente em '{col}'.")
            print(f"Valores únicos em '{col}' (amostra):\n{df[col].value_counts(dropna=False).head(10)}")

        # 4. Verificação de Colunas de TIPO (para encoding)
        type_cols = [col for col in df.columns if 'TIPO' in col.upper() or 'MOVIMENTACAO' in col.upper()]
        for col in type_cols:
            print(f"\n--- Análise da Coluna '{col}' ---")
            print(f"Valores únicos em '{col}':\n{df[col].value_counts(dropna=False)}")
            # Verifica se há caracteres '?' que indicam problema de encoding
            question_mark_values = df[col].astype(str).str.contains(r'\?', na=False)
            if question_mark_values.any():
                print(f"Amostra de valores com '?' (potencial problema de encoding): \n{df.loc[question_mark_values, col].unique().tolist()}")

        # 5. Outras Colunas Chave (id's)
        id_cols = [col for col in df.columns if 'ID' in col.upper() or 'LOJA' in col.upper() or 'COMPLEMENTO' in col.upper()]
        for col in id_cols:
             if df[col].dtype == 'object': # Se um ID foi lido como string
                 print(f"\n--- Análise da Coluna '{col}' (ID - string type) ---")
                 print(f"Valores únicos em '{col}': {df[col].nunique()}")
                 print(f"Amostra de valores: {df[col].dropna().unique()[:10].tolist()}")


    print(f"\n--- FIM DA ANÁLISE DO ARQUIVO: {nome_arquivo} ---\n")
    return df

In [17]:
# --- Execução da Análise para cada Arquivo ---
# Dicionário para armazenar os DataFrames processados
dfs = {}
for nome_arquivo in arquivos_para_analise:
    df_temp = analisar_arquivo_csv(nome_arquivo, raw_data_path)
    if df_temp is not None:
        dfs[nome_arquivo] = df_temp


--- INICIANDO ANÁLISE DO ARQUIVO: AJUSTES_ESTOQUE_2025.csv ---
Arquivo lido com sucesso! 57501 linhas e 6 colunas.

--- Primeiras 5 linhas ---
  LOJA        DATA              SKU  QTD_ANTIGA  QTDE_AJUSTE  \
0  064  13/01/2025   10220110944390           2            1   
1  299  27/03/2025   10220110944410           1            1   
2  024  02/01/2025  999999991504736          26            1   
3  299  10/01/2025   10220110944430           1            1   
4  010  19/05/2025   20210410114390          -5            5   

               TIPO_AJUSTE  
0    AJUSTE CONTAGEM SAIDA  
1         SA?DA DO ESTOQUE  
2  AJUSTE CONTAGEM ENTRADA  
3         SA?DA DO ESTOQUE  
4       ENTRADA NO ESTOQUE  

--- Informações sobre o DataFrame (tipos de dados e não-nulos) ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 57501 entries, 0 to 57500
Data columns (total 6 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   LOJA         57501 non-null  objec

  excel_dates = valid_dates_for_check.str.contains(r'^\d{5}(\.\d+)?$', na=False)


Amostra de valores com '?' (potencial problema de encoding): 
['SA?DA DO ESTOQUE']

--- Análise da Coluna 'LOJA' (ID - string type) ---
Valores únicos em 'LOJA': 174
Amostra de valores: ['064', '299', '024', '010', '125', 'DES', '045', '417', '301', '002']

--- FIM DA ANÁLISE DO ARQUIVO: AJUSTES_ESTOQUE_2025.csv ---


--- INICIANDO ANÁLISE DO ARQUIVO: CANCELAMENTO_2025.csv ---
Arquivo lido com sucesso! 107560 linhas e 9 colunas.

--- Primeiras 5 linhas ---
   LOJA DATACANCELAMENTO  IDUSUARIOCANCELAMENTO  IDORCAMENTO VALORBRUTO  \
0   333       16/01/2025                16343.0     35656618     369,98   
1   333       16/01/2025                16343.0     35656618     369,98   
2    26       08/01/2025                16343.0     35844293     649,99   
3   356       16/01/2025                16343.0     35653461     459,99   
4   503       07/01/2025                16343.0     35699311     189,99   

               SKU  IDCONDICAOPAGAMENTO CONFIRMADO_CANCELADO ATIVO_CANCELADO  
0  999999

  excel_dates = valid_dates_for_check.str.contains(r'^\d{5}(\.\d+)?$', na=False)


Arquivo lido com sucesso! 160998 linhas e 10 colunas.

--- Primeiras 5 linhas ---
  VALORVENDAPRODUTO VALORDEVPRODUTO  LOJA DATA_DEVOLUCAO  IDUSUARIO  \
0           -179,99          179,99    49     03/01/2025      36559   
1            -99,99           99,99     4     03/01/2025      36445   
2            -99,99           99,99     4     03/01/2025      36445   
3           -129,99          129,99    62     03/01/2025      41011   
4           -179,99          179,99    62     03/01/2025      41011   

   ID_DEVOLUCAO  IDORCAMENTO_NOVO DIFERENCA_VALOR              SKU  \
0       5134887          36157647           29,99  999999992595465   
1       5134924          36157762              30  999999992575084   
2       5134906          36157773              40  999999992102191   
3       5134907          36157782              90  999999992124070   
4       5134927          36157807               0  999999992581628   

  TIPOMOVIMENTACAO  
0             Sa?a  
1             Sa?a  
2      

  excel_dates = valid_dates_for_check.str.contains(r'^\d{5}(\.\d+)?$', na=False)


Amostra de valores com vírgula como separador decimal: 
['-179,99', '-99,99', '-99,99', '-129,99', '-179,99', '-159,99', '-149,99', '-109,99', '-139,99', '-109,99']
Valores únicos em 'VALORVENDAPRODUTO' (amostra):
VALORVENDAPRODUTO
-99,99     10170
-199,99     8117
-139,99     7137
-129,99     6992
-149,99     6658
-79,99      6194
-179,99     6112
-119,99     5165
-299,99     5056
-100        4675
Name: count, dtype: int64

--- Análise da Coluna 'VALORDEVPRODUTO' ---
Tipos de dados em 'VALORDEVPRODUTO': VALORDEVPRODUTO
<class 'str'>    160998
Name: count, dtype: int64
Amostra de valores com vírgula como separador decimal: 
['179,99', '99,99', '99,99', '129,99', '179,99', '159,99', '149,99', '109,99', '139,99', '109,99']
Valores únicos em 'VALORDEVPRODUTO' (amostra):
VALORDEVPRODUTO
99,99     10170
199,99     8117
139,99     7137
129,99     6992
149,99     6658
79,99      6194
179,99     6112
119,99     5165
299,99     5056
100        4675
Name: count, dtype: int64

--- Análise da Colu

In [18]:
print("\n--- RESUMO DA ANÁLISE DE TODOS OS ARQUIVOS ---\n")
for nome, df in dfs.items():
    print(f"Arquivo '{nome}': {len(df)} linhas, {len(df.columns)} colunas.")
    print(f"Colunas: {df.columns.tolist()}")
    print(f"Nulos por coluna:\n{df.isnull().sum()}\n")


--- RESUMO DA ANÁLISE DE TODOS OS ARQUIVOS ---

Arquivo 'AJUSTES_ESTOQUE_2025.csv': 57501 linhas, 6 colunas.
Colunas: ['LOJA', 'DATA', 'SKU', 'QTD_ANTIGA', 'QTDE_AJUSTE', 'TIPO_AJUSTE']
Nulos por coluna:
LOJA           0
DATA           0
SKU            0
QTD_ANTIGA     0
QTDE_AJUSTE    0
TIPO_AJUSTE    0
dtype: int64

Arquivo 'CANCELAMENTO_2025.csv': 107560 linhas, 9 colunas.
Colunas: ['LOJA', 'DATACANCELAMENTO', 'IDUSUARIOCANCELAMENTO', 'IDORCAMENTO', 'VALORBRUTO', 'SKU', 'IDCONDICAOPAGAMENTO', 'CONFIRMADO_CANCELADO', 'ATIVO_CANCELADO']
Nulos por coluna:
LOJA                       0
DATACANCELAMENTO           0
IDUSUARIOCANCELAMENTO    860
IDORCAMENTO                0
VALORBRUTO                 0
SKU                        0
IDCONDICAOPAGAMENTO        0
CONFIRMADO_CANCELADO       0
ATIVO_CANCELADO            0
dtype: int64

Arquivo 'DEVOLUCAO.csv': 160998 linhas, 10 colunas.
Colunas: ['VALORVENDAPRODUTO', 'VALORDEVPRODUTO', 'LOJA', 'DATA_DEVOLUCAO', 'IDUSUARIO', 'ID_DEVOLUCAO', 'IDOR