In [11]:
import pandas as pd
import numpy as np

# 1. Criar o DataFrame
data = {
    'produto': ['TV', 'Smartphone', 'Notebook', 'Notebook', 'Camera', 'Notebook'],
    'fornecedor': ['A', 'A', 'A', 'C', 'C', 'B'],
    'custo_producao': [1000, 800, 2500, np.nan, np.nan, 1800]
}

df = pd.DataFrame(data)

print("DataFrame original:")
print(df)

# 2. Preencher valores ausentes
# Como todos os valores ausentes são do Fornecedor C,
# vamos preencher usando a média do custo dos produtos do mesmo fornecedor (C).

media_fornecedor_C = df[df['fornecedor'] == 'C']['custo_producao'].mean()

# Como são todos nulos para o fornecedor C, a média será NaN.
# Então usamos a média geral dos produtos do mesmo tipo.
media_notebook = df[df['produto'] == 'Notebook']['custo_producao'].mean()
media_camera = df[df['produto'] == 'Camera']['custo_producao'].mean()

df.loc[(df['fornecedor'] == 'C') & (df['produto'] == 'Notebook'), 'custo_producao'] = media_notebook
df.loc[(df['fornecedor'] == 'C') & (df['produto'] == 'Camera'), 'custo_producao'] = media_camera

print("\nDataFrame após preenchimento:")
print(df)

print("\n--------------")
print("\nJustificativa da Técnica de Preenchimento:")

print("\nOs valores ausentes aparecem somente no Fornecedor C, o que indica um padrão:")

print("Esse fornecedor provavelmente não enviou os custos corretamente.")

print("Como não há nenhum valor de custo registrado para esse fornecedor, não é possível calcular uma média por fornecedor.")

print("\nPor isso, utilizamos uma técnica mais apropriada:")

print("Preencher com a média do custo de produção por tipo de produto")

print("Para o Notebook, usamos a média dos Notebooks conhecidos (2500 e 1800).")

print("Para a Camera, como não há outro exemplo, usamos o custo médio registrado (ou poderíamos usar a média geral).")

print("\nPor que essa técnica faz sentido?")

print("O custo de produção de um produto geralmente depende do tipo do produto, não apenas do fornecedor.")

print("Mantém a consistência e não distorce a análise.")

print("Evita usar médias gerais que podem misturar categorias muito diferentes (ex.: TV x Smartphone).")

DataFrame original:
      produto fornecedor  custo_producao
0          TV          A          1000.0
1  Smartphone          A           800.0
2    Notebook          A          2500.0
3    Notebook          C             NaN
4      Camera          C             NaN
5    Notebook          B          1800.0

DataFrame após preenchimento:
      produto fornecedor  custo_producao
0          TV          A          1000.0
1  Smartphone          A           800.0
2    Notebook          A          2500.0
3    Notebook          C          2150.0
4      Camera          C             NaN
5    Notebook          B          1800.0

--------------

Justificativa da Técnica de Preenchimento:

Os valores ausentes aparecem somente no Fornecedor C, o que indica um padrão:
Esse fornecedor provavelmente não enviou os custos corretamente.
Como não há nenhum valor de custo registrado para esse fornecedor, não é possível calcular uma média por fornecedor.

Por isso, utilizamos uma técnica mais apropriada:
Pre