In [26]:
import pandas as pd
import numpy as np

# Cópia de segurança (boa prática)
df = pd.read_csv('BASE_1_Manga_Produtos.csv')



In [27]:
df_before = df.copy()

In [28]:
missing_markers = ["", " ", "-", "--", "NA", "N/A", "null", "None", "nan", "NaN"]
df.replace(missing_markers, np.nan, inplace=True)


In [29]:
num_cols = df.select_dtypes(include=["number"]).columns
cat_cols = df.select_dtypes(exclude=["number"]).columns


### Premissa MCAR e estratégia de imputação

**MCAR (Missing Completely At Random):** assume-se que a ausência do dado não depende do valor ausente nem de outras variáveis — ou seja, a probabilidade de estar ausente é a mesma para todas as unidades. Sob MCAR, imputação por mediana (numéricos) e categoria "nao informado" (categóricos) é adequada e não introduz viés sistemático.

In [30]:
# Premissa: dados ausentes tratados como MCAR (Missing Completely At Random)
# Imputação: mediana para numéricos, 'nao informado' para categóricos

# Numéricas → mediana
for col in num_cols:
    if df[col].isna().any():
        df[col] = df[col].fillna(df[col].median())

# Categóricas → "nao informado"
for col in cat_cols:
    if df[col].isna().any():
        df[col] = df[col].fillna("nao informado")


In [31]:
print("Total de valores ausentes após tratamento:",
      int(df.isna().sum().sum()))

df.isna().sum().sort_values(ascending=False).head()


Total de valores ausentes após tratamento: 0


empresa                    0
faturamento_empresa_brl    0
produto                    0
tipo_cliente               0
mercado_principal          0
dtype: int64

In [32]:
imputed_report = (df_before.isna() & df.notna()).sum()
imputed_report = imputed_report[imputed_report > 0].sort_values(ascending=False)

display(imputed_report)


indice_valor_agregado_1a5                      98
produto                                        94
empresa                                        91
indice_capex_1a5                               91
tipo_cliente                                   90
indice_escalabilidade_1a5                      90
indice_compatibilidade_refugo_1a5              87
indice_concorrencia_1a5                        84
mercado_principal                              80
certificacoes_principais                       79
margem_media_percentual                        79
indice_complexidade_produtiva_1a5              78
faturamento_empresa_brl                        76
indice_exigencia_regulatoria_1a5               69
indice_compatibilidade_operacao_fazenda_1a5    67
dtype: int64

**Resumo do tratamento de dados ausentes (MCAR):**
- Marcadores de ausente padronizados para `NaN` (vazios, "-", "NA", etc.).
- Variáveis **numéricas:** imputação pela **mediana** da coluna.
- Variáveis **categóricas:** imputação pela categoria **"nao informado"**.
- Após o tratamento não restam valores ausentes; o relatório acima mostra quantos valores foram imputados por coluna.

### Exportar base tratada

In [33]:
# Exportar base tratada (sem dados ausentes) para CSV
df.to_csv('BASE_1_Manga_Produtos_tratada_SIMPLES.csv', index=False, encoding='utf-8-sig')

print(f"Base tratada exportada com sucesso!")
print(f"Total de linhas: {len(df)}")
print(f"Total de colunas: {len(df.columns)}")
print(f"Arquivo salvo como: BASE_1_Manga_Produtos_tratada_SIMPLES.csv")

Base tratada exportada com sucesso!
Total de linhas: 1700
Total de colunas: 15
Arquivo salvo como: BASE_1_Manga_Produtos_tratada_SIMPLES.csv


In [34]:
# Opcional: exportar também em Excel
# df.to_excel('BASE_1_Manga_Produtos_tratada_SIMPLES.xlsx', index=False, engine='openpyxl')
# print("Base tratada exportada também em Excel: BASE_1_Manga_Produtos_tratada_SIMPLES.xlsx")