In [19]:
import pandas as pd
import numpy as np

 #Criando um DataFrame com erros propoditais
dados_sujos = {
  'Vendedor': ['Ana', 'Bia', 'Caio', 'Duda', 'Enzo', 'None'],
  'Vendas': [150, 400, None, 250, 600, 100],
  'Data':['2023-01-01', '2023-01-02', '2023-01-03', 'erro', '2023-01-05', '2023-01-06'], 
 }
df_sujo =pd.DataFrame(dados_sujos)
print("Dados ANTES da limpeza:")
print(df_sujo)

#1. Removendo a linha onde o Vendedor é nulo
df_limpo = df_sujo.dropna(subset=['Vendedor'])

#2. Preenchendo a venda do caio (que era None) com média de vendas
media = df_limpo['Vendas'].mean()
df_limpo['Vendas'] = df_limpo['Vendas'].fillna(media)

print("\nDados DEPOIS da limpeza:")
print(df_limpo)

#1. Transformando a coluna Data em formato de data real
# O paramentro 'error=coerce' transforma o que for texto errado em "vazio"
df_limpo['Data'] = pd.to_datetime(df_limpo['Data'], errors='coerce')

#2.Removendo qualquer linha que tenhaficado errada (como o"erro")
df_final = df_limpo.dropna(subset=['Data'])

#3. Salvando seu trabalho em um Excel(CSV)
df_final.to_csv('relatorio_final.csv', index=False)

print("Relatório limpo e salvo com sucesso!")
print(df_final)

# Mostra a correlação entre as colunas (Ex; quanto mais eu vendo, mais eu ganho comissão?)
print(df_final.corr(numeric_only=True))


from sklearn.linear_model import LinearRegression
import numpy as np

#1. Preparando os dados: Transfomando os icones (0, 1, 2...) em formato que IA entende
# vamos usar o 'df_final' que você limpou no passo anterior
X = np.array(df_final.index).reshape(-1,1) #Nossos 'vendedores' (0 a 4)
y = df_final['Vendas'].values #Nossos valores de vendas

# 2. Criando e Treinando o modelo (O "Cérebro")
modelo = LinearRegression()
modelo.fit(X, y) # Aqui a IA está estudando os seus dados!

print("treinamento cncluído com sucesso!")

# 3. Fazendo uma precisão para o próximo vendedor (índece 5)
proximo_vendedor = np.array([[5]])
previsao = modelo.predict(proximo_vendedor)

print(f"Previsão de vendas para o proximo vendedro: R${previsao[0]:.2f}")

from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split

#1. Preparando os dados
# Se vendeu mais de 300, o bônus é 1(Sim), senão é 0(Não)
df_final['Bonus'] = (df_final['Vendas'] > 300).astype(int)

X = df_final[['Vendas']]# o que a IA analisa
y = df_final['Bonus'] # a resposta que ela deve aprender

print("Dados prontos para a decisão")
print(df_final[['Vendedor', 'Vendas', 'Bonus']])

from sklearn.ensemble import RandomForestClassifier

# 1. Definindo quem é o mestre (X) e qual é a resposta (y)
# Vamos usar as Vendas para ensinar a IA a decidir o Bônus
X = df_final[['Vendas']] 
y = df_final['Bonus']

# 2. Criando a "Floresta Aleatória" (IA)
modelo_ia = RandomForestClassifier(n_estimators=100)
modelo_ia.fit(X, y) # A IA está treinando aqui!

# 3. O Teste de Fogo: Novos vendedores que a IA não conhece
novos_vendedores_vendas = [[120], [450], [280], [700]]
previsoes = modelo_ia.predict(novos_vendedores_vendas)

# 4. Exibindo o veredito da máquina
for venda, decisao in zip(novos_vendedores_vendas, previsoes):
    status = "BÔNUS ✅" if decisao == 1 else "SEM BÔNUS ❌"
    print(f"Venda: R$ {venda[0]} -> Veredito da IA: {status}")

Dados ANTES da limpeza:
  Vendedor  Vendas        Data
0      Ana   150.0  2023-01-01
1      Bia   400.0  2023-01-02
2     Caio     NaN  2023-01-03
3     Duda   250.0        erro
4     Enzo   600.0  2023-01-05
5     None   100.0  2023-01-06

Dados DEPOIS da limpeza:
  Vendedor  Vendas        Data
0      Ana   150.0  2023-01-01
1      Bia   400.0  2023-01-02
2     Caio   300.0  2023-01-03
3     Duda   250.0        erro
4     Enzo   600.0  2023-01-05
5     None   100.0  2023-01-06
Relatório limpo e salvo com sucesso!
  Vendedor  Vendas       Data
0      Ana   150.0 2023-01-01
1      Bia   400.0 2023-01-02
2     Caio   300.0 2023-01-03
4     Enzo   600.0 2023-01-05
5     None   100.0 2023-01-06
        Vendas
Vendas     1.0
treinamento cncluído com sucesso!
Previsão de vendas para o proximo vendedro: R$337.21
Dados prontos para a decisão
  Vendedor  Vendas  Bonus
0      Ana   150.0      0
1      Bia   400.0      1
2     Caio   300.0      0
4     Enzo   600.0      1
5     None   100.0     

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_final['Bonus'] = (df_final['Vendas'] > 300).astype(int)


Venda: R$ 120 -> Veredito da IA: SEM BÔNUS ❌
Venda: R$ 450 -> Veredito da IA: BÔNUS ✅
Venda: R$ 280 -> Veredito da IA: SEM BÔNUS ❌
Venda: R$ 700 -> Veredito da IA: BÔNUS ✅


