# Tratamento de Dados


## 1. Importa√ß√µes e Carregamento dos Dados

In [29]:
import pandas as pd
import numpy as np
import warnings

warnings.filterwarnings('ignore')

# Carregar o dataset
df = pd.read_csv('BASE_1_Manga_Produtos.csv')

print(f"Dataset carregado: {df.shape[0]} linhas e {df.shape[1]} colunas")
print(f"\nValores nulos totais: {df.isnull().sum().sum()}")
print(f"\nPrimeiras linhas:")
df.head()

Dataset carregado: 1700 linhas e 15 colunas

Valores nulos totais: 1253

Primeiras linhas:


Unnamed: 0,empresa,faturamento_empresa_brl,produto,tipo_cliente,mercado_principal,indice_concorrencia_1a5,indice_valor_agregado_1a5,margem_media_percentual,indice_complexidade_produtiva_1a5,indice_capex_1a5,indice_escalabilidade_1a5,indice_exigencia_regulatoria_1a5,certificacoes_principais,indice_compatibilidade_refugo_1a5,indice_compatibilidade_operacao_fazenda_1a5
0,BRF Ingredients,53000000000.0,Sorbet / picol√©,B2B,Interno,2.0,3.5,45.66,4.0,1.0,1.0,3.0,ANVISA,2.0,1.0
1,Ambev (bebidas),72000000000.0,Pur√™ de manga ass√©ptico,B2C,,2.0,3.0,12.79,3.0,1.0,3.0,3.0,ANVISA,1.0,2.0
2,Bunge Brasil,95000000000.0,Biocomposto / fertilizante org√¢nico,B2B,Externo,4.0,2.0,12.31,2.0,3.0,3.0,2.0,ANVISA,3.0,2.0
3,MangaVale Alimentos,480000000.0,Sabonete / hidratante com manga,B2B,Ambos,1.0,2.5,37.29,3.0,2.0,,2.0,MAPA,2.0,2.0
4,Cutrale,30000000000.0,Corante natural,B2B,Interno,3.0,3.5,13.45,4.0,2.0,4.0,3.0,MAPA,2.0,4.0


In [30]:
# Criar c√≥pia para tratamento
df_tratado = df.copy()

print(f"Dataset original preservado: {df.shape[0]} linhas")
print(f"Dataset para tratamento: {df_tratado.shape[0]} linhas")

Dataset original preservado: 1700 linhas
Dataset para tratamento: 1700 linhas


## 2. An√°lise Inicial de Valores Faltantes

In [31]:
# Verificar valores nulos por coluna
print("=== VALORES NULOS POR COLUNA ===")
valores_nulos = df_tratado.isnull().sum()
percentual_nulos = (valores_nulos / len(df_tratado)) * 100

df_nulos = pd.DataFrame({
    'Coluna': valores_nulos.index,
    'Quantidade Nulos': valores_nulos.values,
    'Percentual (%)': percentual_nulos.values.round(2)
})
df_nulos = df_nulos[df_nulos['Quantidade Nulos'] > 0].sort_values('Quantidade Nulos', ascending=False)

print(df_nulos.to_string(index=False))
print(f"\nTotal de valores nulos: {valores_nulos.sum()}")

=== VALORES NULOS POR COLUNA ===
                                     Coluna  Quantidade Nulos  Percentual (%)
                  indice_valor_agregado_1a5                98            5.76
                                    produto                94            5.53
                                    empresa                91            5.35
                           indice_capex_1a5                91            5.35
                               tipo_cliente                90            5.29
                  indice_escalabilidade_1a5                90            5.29
          indice_compatibilidade_refugo_1a5                87            5.12
                    indice_concorrencia_1a5                84            4.94
                          mercado_principal                80            4.71
                   certificacoes_principais                79            4.65
                    margem_media_percentual                79            4.65
          indice_complexidade_p

## 3. TRATAMENTO DEFINITIVO - Ordem Obrigat√≥ria de Execu√ß√£o

### PASSO 1: Vari√°veis Categ√≥ricas

**Colunas:**
- `empresa`
- `produto`
- `tipo_cliente`
- `mercado_principal`
- `certificacoes_principais`

**Estrat√©gia:** Criar categoria expl√≠cita "N√£o informado" para valores ausentes.

In [32]:
# PASSO 1: Criar categorias expl√≠citas para vari√°veis categ√≥ricas
print("=== PASSO 1: VARI√ÅVEIS CATEG√ìRICAS ===\n")

# IMPORTANTE: N√ÉO usar imputa√ß√£o por moda para vari√°veis categ√≥ricas
# A estrat√©gia √© criar categoria expl√≠cita "N√£o informado" para preservar informa√ß√£o
# de aus√™ncia e evitar vi√©s de frequ√™ncia que a moda introduziria.

categorical_cols = [
    "empresa",
    "produto",
    "tipo_cliente",
    "mercado_principal",
    "certificacoes_principais"
]

for col in categorical_cols:
    if col in df_tratado.columns:
        nulos_antes = df_tratado[col].isnull().sum()
        # Estrat√©gia: categoria expl√≠cita "N√£o informado" (sem moda)
        df_tratado[col] = df_tratado[col].fillna("N√£o informado")
        nulos_depois = df_tratado[col].isnull().sum()
        print(f"{col}: {nulos_antes} valores imputados com 'N√£o informado' (sem moda)")
        assert nulos_depois == 0, f"Erro: ainda existem {nulos_depois} valores nulos em {col}"

print("\n‚úÖ PASSO 1 conclu√≠do: Todas as vari√°veis categ√≥ricas tratadas")
print("   ‚úÖ Nenhuma vari√°vel categ√≥rica utiliza imputa√ß√£o por moda")

=== PASSO 1: VARI√ÅVEIS CATEG√ìRICAS ===

empresa: 91 valores imputados com 'N√£o informado' (sem moda)
produto: 94 valores imputados com 'N√£o informado' (sem moda)
tipo_cliente: 90 valores imputados com 'N√£o informado' (sem moda)
mercado_principal: 80 valores imputados com 'N√£o informado' (sem moda)
certificacoes_principais: 79 valores imputados com 'N√£o informado' (sem moda)

‚úÖ PASSO 1 conclu√≠do: Todas as vari√°veis categ√≥ricas tratadas
   ‚úÖ Nenhuma vari√°vel categ√≥rica utiliza imputa√ß√£o por moda


### üìå PASSO 2: Vari√°veis Num√©ricas Sens√≠veis (MNAR)

**Colunas:**
- `faturamento_empresa_brl`
- `margem_media_percentual`

**Justificativa:**
- S√£o vari√°veis financeiras
- T√™m alta probabilidade de aus√™ncia relacionada ao pr√≥prio valor
- N√£o podem ser tratadas como MCAR, mesmo que testes n√£o rejeitem H‚ÇÄ

**Estrat√©gia:**
1. Criar flags de missing
2. Imputa√ß√£o conservadora por mediana condicional (por `tipo_cliente`)

In [33]:
# PASSO 2: Criar flags de missing para vari√°veis MNAR
print("=== PASSO 2: VARI√ÅVEIS NUM√âRICAS SENS√çVEIS (MNAR) ===\n")

# IMPORTANTE: Flags de missing para vari√°veis com poss√≠vel car√°ter MNAR
# Estas vari√°veis financeiras (faturamento_empresa_brl e margem_media_percentual) 
# t√™m alta probabilidade de aus√™ncia relacionada ao pr√≥prio valor n√£o observado.
# A aus√™ncia pode indicar confidencialidade, valores extremos, ou decis√£o estrat√©gica.
# As flags preservam essa informa√ß√£o para an√°lises futuras e enriquecem o modelo.
# MNAR n√£o √© test√°vel diretamente, mas o contexto econ√¥mico sugere essa classifica√ß√£o.

# Criar flags ANTES da imputa√ß√£o
df_tratado["faturamento_missing"] = df_tratado["faturamento_empresa_brl"].isna().astype(int)
df_tratado["margem_missing"] = df_tratado["margem_media_percentual"].isna().astype(int)

print(f"Flags criadas:")
print(f"  faturamento_missing: {df_tratado['faturamento_missing'].sum()} valores ausentes marcados")
print(f"  margem_missing: {df_tratado['margem_missing'].sum()} valores ausentes marcados")
print(f"\nüìå Nota: Flags preservam informa√ß√£o sobre aus√™ncias possivelmente MNAR")

print("\n‚úÖ Flags de missing criadas")

=== PASSO 2: VARI√ÅVEIS NUM√âRICAS SENS√çVEIS (MNAR) ===

Flags criadas:
  faturamento_missing: 76 valores ausentes marcados
  margem_missing: 79 valores ausentes marcados

üìå Nota: Flags preservam informa√ß√£o sobre aus√™ncias possivelmente MNAR

‚úÖ Flags de missing criadas


In [34]:
# PASSO 2 (continua√ß√£o): Imputa√ß√£o conservadora por mediana condicional
print("\n=== IMPUTA√á√ÉO POR MEDIANA CONDICIONAL (por tipo_cliente) ===\n")

# Verificar se tipo_cliente tem valores nulos (deve ter sido tratado no PASSO 1)
if df_tratado["tipo_cliente"].isnull().sum() > 0:
    print("‚ö†Ô∏è ATEN√á√ÉO: tipo_cliente ainda tem valores nulos. Tratando primeiro...")
    df_tratado["tipo_cliente"] = df_tratado["tipo_cliente"].fillna("N√£o informado")

# Imputar faturamento_empresa_brl por mediana condicional
nulos_faturamento_antes = df_tratado["faturamento_empresa_brl"].isnull().sum()
df_tratado["faturamento_empresa_brl"] = df_tratado.groupby("tipo_cliente")["faturamento_empresa_brl"].transform(
    lambda x: x.fillna(x.median())
)
nulos_faturamento_depois = df_tratado["faturamento_empresa_brl"].isnull().sum()

print(f"faturamento_empresa_brl:")
print(f"  Nulos antes: {nulos_faturamento_antes}")
print(f"  Nulos depois: {nulos_faturamento_depois}")

# Se ainda houver nulos (grupos sem valores), usar mediana global como fallback
if nulos_faturamento_depois > 0:
    print(f"  ‚ö†Ô∏è Usando mediana global como fallback para {nulos_faturamento_depois} valores")
    mediana_global = df_tratado["faturamento_empresa_brl"].median()
    df_tratado["faturamento_empresa_brl"] = df_tratado["faturamento_empresa_brl"].fillna(mediana_global)

# Imputar margem_media_percentual por mediana condicional
nulos_margem_antes = df_tratado["margem_media_percentual"].isnull().sum()
df_tratado["margem_media_percentual"] = df_tratado.groupby("tipo_cliente")["margem_media_percentual"].transform(
    lambda x: x.fillna(x.median())
)
nulos_margem_depois = df_tratado["margem_media_percentual"].isnull().sum()

print(f"\nmargem_media_percentual:")
print(f"  Nulos antes: {nulos_margem_antes}")
print(f"  Nulos depois: {nulos_margem_depois}")

# Se ainda houver nulos (grupos sem valores), usar mediana global como fallback
if nulos_margem_depois > 0:
    print(f"  ‚ö†Ô∏è Usando mediana global como fallback para {nulos_margem_depois} valores")
    mediana_global = df_tratado["margem_media_percentual"].median()
    df_tratado["margem_media_percentual"] = df_tratado["margem_media_percentual"].fillna(mediana_global)

# Garantir que margem_media_percentual esteja no intervalo [0, 100]
# Ap√≥s imputa√ß√£o, valores podem estar fora da faixa v√°lida (percentual)
df_tratado["margem_media_percentual"] = df_tratado["margem_media_percentual"].clip(lower=0, upper=100)
print(f"  ‚úÖ Margem garantida no intervalo [0, 100] ap√≥s imputa√ß√£o")

print("\n‚úÖ PASSO 2 conclu√≠do: Vari√°veis MNAR tratadas com flags e imputa√ß√£o condicional")


=== IMPUTA√á√ÉO POR MEDIANA CONDICIONAL (por tipo_cliente) ===

faturamento_empresa_brl:
  Nulos antes: 76
  Nulos depois: 0

margem_media_percentual:
  Nulos antes: 79
  Nulos depois: 0
  ‚úÖ Margem garantida no intervalo [0, 100] ap√≥s imputa√ß√£o

‚úÖ PASSO 2 conclu√≠do: Vari√°veis MNAR tratadas com flags e imputa√ß√£o condicional


### üìå PASSO 3: Vari√°veis Num√©ricas Ordinais (1 a 5)

**Colunas:**
- `indice_concorrencia_1a5`
- `indice_valor_agregado_1a5`
- `indice_complexidade_produtiva_1a5`
- `indice_capex_1a5`
- `indice_escalabilidade_1a5`
- `indice_exigencia_regulatoria_1a5`
- `indice_compatibilidade_refugo_1a5`
- `indice_compatibilidade_operacao_fazenda_1a5`

**Classifica√ß√£o:** MAR (Missing At Random)

**Estrat√©gia:** Imputa√ß√£o por mediana condicional por `produto`

In [35]:
# PASSO 3: Imputa√ß√£o de vari√°veis ordinais por mediana condicional
print("=== PASSO 3: VARI√ÅVEIS ORDINAIS (1-5) ===\n")

ordinal_cols = [
    "indice_concorrencia_1a5",
    "indice_valor_agregado_1a5",
    "indice_complexidade_produtiva_1a5",
    "indice_capex_1a5",
    "indice_escalabilidade_1a5",
    "indice_exigencia_regulatoria_1a5",
    "indice_compatibilidade_refugo_1a5",
    "indice_compatibilidade_operacao_fazenda_1a5"
]

# Verificar se produto tem valores nulos (deve ter sido tratado no PASSO 1)
if df_tratado["produto"].isnull().sum() > 0:
    print("‚ö†Ô∏è ATEN√á√ÉO: produto ainda tem valores nulos. Tratando primeiro...")
    df_tratado["produto"] = df_tratado["produto"].fillna("N√£o informado")

for col in ordinal_cols:
    if col in df_tratado.columns:
        nulos_antes = df_tratado[col].isnull().sum()
        
        # Imputa√ß√£o por mediana condicional por produto
        df_tratado[col] = df_tratado.groupby("produto")[col].transform(
            lambda x: x.fillna(x.median())
        )
        
        nulos_depois = df_tratado[col].isnull().sum()
        
        # Se ainda houver nulos (produtos sem valores), usar mediana global como fallback
        if nulos_depois > 0:
            mediana_global = df_tratado[col].median()
            df_tratado[col] = df_tratado[col].fillna(mediana_global)
            nulos_depois_final = df_tratado[col].isnull().sum()
            print(f"{col}: {nulos_antes} ‚Üí {nulos_depois} ‚Üí {nulos_depois_final} (com fallback global)")
        else:
            print(f"{col}: {nulos_antes} valores imputados por mediana condicional")
        
        # AJUSTE OBRIGAT√ìRIO: Garantir coer√™ncia ordinal ap√≥s imputa√ß√£o
        # Aplicar round() para valores inteiros e clip(1,5) para garantir faixa v√°lida
        # Isso garante que valores imputados respeitem a escala ordinal de 1 a 5
        df_tratado[col] = df_tratado[col].round().clip(lower=1, upper=5)

print("\n‚úÖ PASSO 3 conclu√≠do: Todas as vari√°veis ordinais tratadas")
print("   ‚úÖ Valores ordinais arredondados e garantidos na faixa [1, 5]")

=== PASSO 3: VARI√ÅVEIS ORDINAIS (1-5) ===

indice_concorrencia_1a5: 84 valores imputados por mediana condicional
indice_valor_agregado_1a5: 98 valores imputados por mediana condicional
indice_complexidade_produtiva_1a5: 78 valores imputados por mediana condicional


indice_capex_1a5: 91 valores imputados por mediana condicional
indice_escalabilidade_1a5: 90 valores imputados por mediana condicional
indice_exigencia_regulatoria_1a5: 69 valores imputados por mediana condicional
indice_compatibilidade_refugo_1a5: 87 valores imputados por mediana condicional
indice_compatibilidade_operacao_fazenda_1a5: 67 valores imputados por mediana condicional

‚úÖ PASSO 3 conclu√≠do: Todas as vari√°veis ordinais tratadas
   ‚úÖ Valores ordinais arredondados e garantidos na faixa [1, 5]


## 4. Verifica√ß√µes Finais (Obrigat√≥rias)

In [36]:
# Verifica√ß√£o 1: Nenhuma coluna deve permanecer com NaN
print("=== VERIFICA√á√ÉO 1: VALORES NULOS RESTANTES ===\n")

nulos_restantes = df_tratado.isnull().sum()
colunas_com_nulos = nulos_restantes[nulos_restantes > 0]

if len(colunas_com_nulos) == 0:
    print("‚úÖ Nenhuma coluna possui valores nulos")
    print(f"   Total de valores nulos: {df_tratado.isnull().sum().sum()}")
else:
    print("‚ö†Ô∏è ATEN√á√ÉO: Ainda existem valores nulos nas seguintes colunas:")
    print(colunas_com_nulos)

# Assert obrigat√≥rio
assert df_tratado.isnull().sum().sum() == 0, "ERRO: Ainda existem valores nulos no dataset!"
print("\n‚úÖ Assert passou: Nenhum valor nulo restante")

=== VERIFICA√á√ÉO 1: VALORES NULOS RESTANTES ===

‚úÖ Nenhuma coluna possui valores nulos
   Total de valores nulos: 0

‚úÖ Assert passou: Nenhum valor nulo restante


In [37]:
# Verifica√ß√£o 2: Flags devem existir
print("=== VERIFICA√á√ÉO 2: FLAGS DE MISSING ===\n")

flags_obrigatorias = ["faturamento_missing", "margem_missing"]

for flag in flags_obrigatorias:
    if flag in df_tratado.columns:
        print(f"‚úÖ {flag}: existe ({df_tratado[flag].sum()} valores ausentes marcados)")
    else:
        print(f"‚ùå ERRO: {flag} n√£o existe no dataset!")

# Asserts obrigat√≥rios
assert "faturamento_missing" in df_tratado.columns, "ERRO: Flag faturamento_missing n√£o existe!"
assert "margem_missing" in df_tratado.columns, "ERRO: Flag margem_missing n√£o existe!"

print("\n‚úÖ Assert passou: Todas as flags obrigat√≥rias existem")

=== VERIFICA√á√ÉO 2: FLAGS DE MISSING ===

‚úÖ faturamento_missing: existe (76 valores ausentes marcados)
‚úÖ margem_missing: existe (79 valores ausentes marcados)

‚úÖ Assert passou: Todas as flags obrigat√≥rias existem


In [38]:
# Verifica√ß√£o 3: Valida√ß√£o de faixas de valores
print("=== VERIFICA√á√ÉO 3: VALIDA√á√ÉO DE FAIXAS DE VALORES ===\n")

# √çndices devem estar entre 1-5
ordinal_cols = [
    "indice_concorrencia_1a5",
    "indice_valor_agregado_1a5",
    "indice_complexidade_produtiva_1a5",
    "indice_capex_1a5",
    "indice_escalabilidade_1a5",
    "indice_exigencia_regulatoria_1a5",
    "indice_compatibilidade_refugo_1a5",
    "indice_compatibilidade_operacao_fazenda_1a5"
]

erros_faixa = []
for col in ordinal_cols:
    if col in df_tratado.columns:
        valores_fora_faixa = df_tratado[(df_tratado[col] < 1) | (df_tratado[col] > 5)][col]
        if len(valores_fora_faixa) > 0:
            print(f"‚ö†Ô∏è {col}: {len(valores_fora_faixa)} valores fora da faixa 1-5")
            erros_faixa.append(col)
        else:
            print(f"‚úÖ {col}: Todos os valores na faixa 1-5")

# Margem deve estar entre 0-100
if 'margem_media_percentual' in df_tratado.columns:
    margem_invalida = df_tratado[(df_tratado['margem_media_percentual'] < 0) | 
                                (df_tratado['margem_media_percentual'] > 100)]['margem_media_percentual']
    if len(margem_invalida) > 0:
        print(f"‚ö†Ô∏è margem_media_percentual: {len(margem_invalida)} valores fora da faixa 0-100")
        erros_faixa.append('margem_media_percentual')
    else:
        print(f"‚úÖ margem_media_percentual: Todos os valores na faixa 0-100")

# Faturamento deve ser positivo
if 'faturamento_empresa_brl' in df_tratado.columns:
    faturamento_negativo = df_tratado[df_tratado['faturamento_empresa_brl'] < 0]['faturamento_empresa_brl']
    if len(faturamento_negativo) > 0:
        print(f"‚ö†Ô∏è faturamento_empresa_brl: {len(faturamento_negativo)} valores negativos")
        erros_faixa.append('faturamento_empresa_brl')
    else:
        print(f"‚úÖ faturamento_empresa_brl: Todos os valores s√£o positivos")

if len(erros_faixa) == 0:
    print("\n‚úÖ Todas as faixas de valores est√£o corretas")
else:
    print(f"\n‚ö†Ô∏è {len(erros_faixa)} coluna(s) com valores fora da faixa esperada")

=== VERIFICA√á√ÉO 3: VALIDA√á√ÉO DE FAIXAS DE VALORES ===

‚úÖ indice_concorrencia_1a5: Todos os valores na faixa 1-5
‚úÖ indice_valor_agregado_1a5: Todos os valores na faixa 1-5
‚úÖ indice_complexidade_produtiva_1a5: Todos os valores na faixa 1-5
‚úÖ indice_capex_1a5: Todos os valores na faixa 1-5
‚úÖ indice_escalabilidade_1a5: Todos os valores na faixa 1-5
‚úÖ indice_exigencia_regulatoria_1a5: Todos os valores na faixa 1-5
‚úÖ indice_compatibilidade_refugo_1a5: Todos os valores na faixa 1-5
‚úÖ indice_compatibilidade_operacao_fazenda_1a5: Todos os valores na faixa 1-5
‚úÖ margem_media_percentual: Todos os valores na faixa 0-100
‚úÖ faturamento_empresa_brl: Todos os valores s√£o positivos

‚úÖ Todas as faixas de valores est√£o corretas


## 5. Resumo do Tratamento

In [39]:
# Resumo final
print("=== RESUMO DO TRATAMENTO ===\n")

print(f"Dataset original: {df.shape[0]} linhas x {df.shape[1]} colunas")
print(f"Dataset tratado: {df_tratado.shape[0]} linhas x {df_tratado.shape[1]} colunas")
print(f"  (Adicionadas {df_tratado.shape[1] - df.shape[1]} colunas de flags)")

print(f"\nValores nulos original: {df.isnull().sum().sum()}")
print(f"Valores nulos ap√≥s tratamento: {df_tratado.isnull().sum().sum()}")

print("\n=== ESTRAT√âGIAS APLICADAS ===")
print("1. Vari√°veis Categ√≥ricas: Categoria 'N√£o informado' (sem moda)")
print("2. Vari√°veis MNAR (faturamento, margem): Flags + Mediana condicional por tipo_cliente")
print("3. Vari√°veis Ordinais (√≠ndices 1-5): Mediana condicional por produto")

print("\n=== FLAGS CRIADAS ===")
print(f"  faturamento_missing: {df_tratado['faturamento_missing'].sum()} valores ausentes")
print(f"  margem_missing: {df_tratado['margem_missing'].sum()} valores ausentes")

print("\n‚úÖ Tratamento conclu√≠do com sucesso!")

=== RESUMO DO TRATAMENTO ===

Dataset original: 1700 linhas x 15 colunas
Dataset tratado: 1700 linhas x 17 colunas
  (Adicionadas 2 colunas de flags)

Valores nulos original: 1253
Valores nulos ap√≥s tratamento: 0

=== ESTRAT√âGIAS APLICADAS ===
1. Vari√°veis Categ√≥ricas: Categoria 'N√£o informado' (sem moda)
2. Vari√°veis MNAR (faturamento, margem): Flags + Mediana condicional por tipo_cliente
3. Vari√°veis Ordinais (√≠ndices 1-5): Mediana condicional por produto

=== FLAGS CRIADAS ===
  faturamento_missing: 76 valores ausentes
  margem_missing: 79 valores ausentes

‚úÖ Tratamento conclu√≠do com sucesso!


In [40]:
# Visualizar primeiras linhas do dataset tratado
print("=== PRIMEIRAS LINHAS DO DATASET TRATADO ===")
df_tratado.head(10)

=== PRIMEIRAS LINHAS DO DATASET TRATADO ===


Unnamed: 0,empresa,faturamento_empresa_brl,produto,tipo_cliente,mercado_principal,indice_concorrencia_1a5,indice_valor_agregado_1a5,margem_media_percentual,indice_complexidade_produtiva_1a5,indice_capex_1a5,indice_escalabilidade_1a5,indice_exigencia_regulatoria_1a5,certificacoes_principais,indice_compatibilidade_refugo_1a5,indice_compatibilidade_operacao_fazenda_1a5,faturamento_missing,margem_missing
0,BRF Ingredients,53000000000.0,Sorbet / picol√©,B2B,Interno,2.0,4.0,45.66,4.0,1.0,1.0,3.0,ANVISA,2.0,1.0,0,0
1,Ambev (bebidas),72000000000.0,Pur√™ de manga ass√©ptico,B2C,N√£o informado,2.0,3.0,12.79,3.0,1.0,3.0,3.0,ANVISA,1.0,2.0,0,0
2,Bunge Brasil,95000000000.0,Biocomposto / fertilizante org√¢nico,B2B,Externo,4.0,2.0,12.31,2.0,3.0,3.0,2.0,ANVISA,3.0,2.0,0,0
3,MangaVale Alimentos,480000000.0,Sabonete / hidratante com manga,B2B,Ambos,1.0,2.0,37.29,3.0,2.0,3.0,2.0,MAPA,2.0,2.0,0,0
4,Cutrale,30000000000.0,Corante natural,B2B,Interno,3.0,4.0,13.45,4.0,2.0,4.0,3.0,MAPA,2.0,4.0,0,0
5,AgroDoce Nordeste,220000000.0,√ìleo / manteiga de semente de manga,B2B,Externo,3.0,4.0,31.02,3.0,4.0,1.0,5.0,Internacional,3.0,3.0,0,0
6,VerdePulp Brasil,310000000.0,N√£o informado,B2B,Interno,2.0,4.0,18.22,4.0,1.0,1.0,3.0,Nenhuma,3.0,1.0,0,0
7,NordFruit Export,540000000.0,Ra√ß√£o / ingrediente para ra√ß√£o animal,N√£o informado,Interno,2.0,4.0,43.97,3.0,4.0,3.0,4.0,Internacional,2.0,4.0,0,0
8,Cutrale,30000000000.0,Base para n√©ctar,B2B,Interno,3.0,2.0,19.2,2.0,3.0,3.0,3.0,Internacional,2.0,3.0,0,0
9,Fazenda Sol do Vale,180000000.0,√ìleo / manteiga de semente de manga,B2C,Externo,3.0,4.0,28.415,4.0,3.0,3.0,3.0,MAPA,2.0,2.0,0,1


In [41]:
# Estat√≠sticas descritivas das vari√°veis tratadas
print("=== ESTAT√çSTICAS DESCRITIVAS (VARI√ÅVEIS NUM√âRICAS) ===")
df_tratado.select_dtypes(include=[np.number]).describe()

=== ESTAT√çSTICAS DESCRITIVAS (VARI√ÅVEIS NUM√âRICAS) ===


Unnamed: 0,faturamento_empresa_brl,indice_concorrencia_1a5,indice_valor_agregado_1a5,margem_media_percentual,indice_complexidade_produtiva_1a5,indice_capex_1a5,indice_escalabilidade_1a5,indice_exigencia_regulatoria_1a5,indice_compatibilidade_refugo_1a5,indice_compatibilidade_operacao_fazenda_1a5,faturamento_missing,margem_missing
count,1700.0,1700.0,1700.0,1700.0,1700.0,1700.0,1700.0,1700.0,1700.0,1700.0,1700.0,1700.0
mean,39305610000.0,2.984118,2.877647,28.331885,3.041765,2.824118,3.037059,2.767059,2.288235,2.568824,0.044706,0.046471
std,79563280000.0,1.115088,0.882953,10.458153,1.094702,1.197508,1.109291,1.164957,1.227688,1.242505,0.206718,0.210564
min,120000000.0,1.0,1.0,7.39,1.0,1.0,1.0,1.0,1.0,1.0,0.0,0.0
25%,480000000.0,2.0,2.0,19.35,2.0,2.0,2.0,2.0,1.0,2.0,0.0,0.0
50%,4200000000.0,3.0,3.0,27.69,3.0,3.0,3.0,3.0,2.0,2.0,0.0,0.0
75%,53000000000.0,4.0,4.0,36.89,4.0,4.0,4.0,3.0,3.0,3.0,0.0,0.0
max,375000000000.0,5.0,5.0,54.7,5.0,5.0,5.0,5.0,5.0,5.0,1.0,1.0


## 6. Exporta√ß√£o do Dataset Tratado (Opcional)

In [42]:
# Exportar dataset tratado para CSV
# Descomente as linhas abaixo para exportar

# df_tratado.to_csv('BASE_1_Manga_Produtos_TRATADO.csv', index=False)
# print("Dataset tratado exportado para 'BASE_1_Manga_Produtos_TRATADO.csv'")