In [72]:
# Importando Pandas
import pandas as pd

In [73]:
# Criando o dicionário de dados
data = {
'idade': [25, 32, 34, 45, 22, 65],
'salario': [5000, 6400, 7000, 9800, 4500,15000 ],
'publico':['M','F','F','M','M','F'],
'produtos':['ALL','BOLSAS','SAPATOS','ALL','ALL','ACESSÓRIOS'],
'comprou': [0, 1, 1, 0, 0, 1]
}

In [74]:
# Criando um objeto Dataframe
df = pd.DataFrame(data)

In [75]:
# Visualizando os dados
df.head(len(df))

Unnamed: 0,idade,salario,publico,produtos,comprou
0,25,5000,M,ALL,0
1,32,6400,F,BOLSAS,1
2,34,7000,F,SAPATOS,1
3,45,9800,M,ALL,0
4,22,4500,M,ALL,0
5,65,15000,F,ACESSÓRIOS,1


## Questão (a):

Usando pandas, escreva uma função em Python para calcular a média da coluna 'salario', a partir
da escolha do 'publico'.

In [76]:
# Calcula o salário médio do público alvo específico.
def average_salary(df: pd.DataFrame, public: str):
    # A função groupby agrupa os dados pelo público alvo,
    # e, como é seguida da função mean, retorna a média de cada coluna.
    df = df.groupby(['publico']).mean(numeric_only=True)
    
    # Como só queremos a média do salário, pegamos apenas essa coluna.
    df = df['salario']
    
    # Arredonda o salário para 2 casas decimais e passa como parâmetro o público alvo,
    # antes de retornar os resultados.
    return round(df[public], 2)

In [77]:
print(f"O salário médio do público masculino é de R$ {average_salary(df, 'M')}!")
print(f"O salário médio do público feminino é de R$ {average_salary(df, 'F')}!")

O salário médio do público masculino é de R$ 6433.33!
O salário médio do público feminino é de R$ 9466.67!


## Questão (b):

Suponha que 'idade' e 'salario' sejam características e 'comprou' seja uma faixa de clientes que
realizaram uma compra. Analisada no banco de dados, temos ainda os ‘produtos’ ofertados para a
venda, e o ‘publico’ alvo. Escreva um algoritmo que oriente um vendedor para que ele amplie o
esforço na oferta de um produto ou não por ter probabilidade alta de negociação ou baixa de
negociação, dentro do histórico de vendas.

In [78]:
# Vamos brincar um pouco com o framework PyCaret, 
# mas antes disso precisamos tratar um pouco os dados.

# Para a maioria dos modelos de regressão, 
# é mais fácil trabalhar com valores numéricos.
# Para isso, vamos usar a função get_dummies do Pandas.
df = pd.get_dummies(df, columns=["publico", "produtos"])

In [79]:
df.head(len(df))

Unnamed: 0,idade,salario,comprou,publico_F,publico_M,produtos_ACESSÓRIOS,produtos_ALL,produtos_BOLSAS,produtos_SAPATOS
0,25,5000,0,0,1,0,1,0,0
1,32,6400,1,1,0,0,0,1,0
2,34,7000,1,1,0,0,0,0,1
3,45,9800,0,0,1,0,1,0,0
4,22,4500,0,0,1,0,1,0,0
5,65,15000,1,1,0,1,0,0,0


In [80]:
# Podemos observar que é redudante mantermos
# as colunas publico_M e produtos_ALL,
# então vamos remover elas.

df.drop(columns=['publico_M', 'produtos_ALL'], inplace=True)

In [81]:
# Vamos retirar também a coluna de salário,
# pois não parece influenciar no nosso modelo.
df.drop(columns=['salario'], inplace=True)

In [82]:
# Apesar de termos só 6 dados, vamos demonstrar a facilidade de se usar o PyCaret...
import pycaret

In [83]:
# Importamos todas funções do módulo de Regressão da biblioteca PyCaret...
from pycaret.regression import *

In [84]:
# Aqui nós inicializamos o módulo de Regressão
# O nosso alvo é se o cliente vai comprar ou não...
# enquanto todo o resto são nossos parâmetros para dar uma probabilidade!
setup(df, target="comprou", session_id=888, fold=3)

# Como é possível ver, ele separou 1/4 dos dados para poder validar o nosso modelo,
# enquanto os outros 3/4 vão ser usados para treinar o modelo.

Unnamed: 0,Description,Value
0,Session id,888
1,Target,comprou
2,Target type,Regression
3,Original data shape,"(6, 6)"
4,Transformed data shape,"(6, 6)"
5,Transformed train set shape,"(4, 6)"
6,Transformed test set shape,"(2, 6)"
7,Numeric features,5
8,Preprocess,True
9,Imputation type,simple


<pycaret.regression.oop.RegressionExperiment at 0x7efe0cdcca00>

In [87]:
# Como é um dataset minúsculo, vamos nos dar o luxo de rodar
# a melhor função do PyCaret...

best_model = compare_models(sort='MAE')

# Como podemos ver, essa função compara todos os modelos
# de regressão e retorna o melhor deles para esse conjunto de dados.
# Nesse caso, ele retornará o modelo com menor MAE (Mean Absolute Error).

Unnamed: 0,Model,MAE,MSE,RMSE,R2,RMSLE,MAPE,TT (Sec)
et,Extra Trees Regressor,0.49,0.3094,0.4999,,0.3393,,0.07
huber,Huber Regressor,0.5025,0.293,0.5324,,0.3553,,0.03
gbr,Gradient Boosting Regressor,0.5722,0.3386,0.575,,0.3983,,0.0533
dummy,Dummy Regressor,0.6111,0.3796,0.6111,,0.4227,,0.0233
lightgbm,Light Gradient Boosting Machine,0.6111,0.3796,0.6111,,0.4227,,0.03
rf,Random Forest Regressor,0.6417,0.4272,0.6455,,0.4496,,0.0467
ada,AdaBoost Regressor,0.8333,0.8333,0.9024,,0.6255,,0.03
par,Passive Aggressive Regressor,0.853,0.8736,0.9041,,0.5987,,0.0267
lar,Least Angle Regression,0.9965,2.1477,1.0054,,0.4209,,0.0267
dt,Decision Tree Regressor,1.0,1.0,1.0,,0.6933,,0.0233


In [88]:
# O modelo selecionado foi o Extra Trees Regressor.
# Esse modelo cria várias árvores de decisões de maneira aleatória,
# e, combinando seus resultados, chega na resposta final.

best_model

In [89]:
# Agora vamos validar o nosso modelo.
# OBS: impossível ter um bom resultado com tão poucos dados.

pred = predict_model(best_model)

Unnamed: 0,Model,MAE,MSE,RMSE,R2,RMSLE,MAPE
0,Extra Trees Regressor,0.0,0.0,0.0,1.0,0.0002,0.0


In [90]:
pred.head()

Unnamed: 0,idade,publico_F,produtos_ACESSÓRIOS,produtos_BOLSAS,produtos_SAPATOS,comprou,prediction_label
0,25,0,0,0,0,0,0.0
1,32,1,0,1,0,1,1.0


In [91]:
# Como era de se esperar, o modelo treinado assume que 
# se o público é masculino ele não vai comprar,
# e se o público é feminino, ele vai comprar.

# Vamos agora finalizar o modelo,
# treinando ele com os dados de validação.
model = finalize_model(best_model)

### Aplicação do modelo na Questão B:

In [120]:
from typing import List, Dict

# Transforma a lista de dados em um DataFrame
def create_client_dataframe(client_data: List[int]):
    client_dict = {
        "idade": [client_data[0]],
        "publico_F": [client_data[1]],
        "produtos_ACESSÓRIOS": [client_data[2][0]],
        "produtos_BOLSAS": [client_data[2][1]],
        "produtos_SAPATOS": [client_data[2][2]]
    }
    
    df = pd.DataFrame(client_dict)
    return df

# Essa função retorna a possibilidade do cliente comprar o produto
def evaluate_client(client: pd.DataFrame):
    prediction = predict_model(model, client)

    return prediction.prediction_label.values

In [121]:
def main():
    client_data = []
    
    client_data.append(int(input("Idade do cliente: ")))
    client_data.append(int(input("Masculino [0] ou Feminino [1]: ")))
    produto = input("Produto (ACESSÓRIOS, BOLSAS, SAPATOS, ALL): ").upper()
    
    if produto == "ACESSÓRIOS":
        client_data.append((1, 0, 0))
    elif produto == "BOLSAS":
        client_data.append((0, 1, 0))
    elif produto == "SAPATOS":
        client_data.append((0, 0, 1))
    elif produto == "ALL":
        client_data.append((0, 0, 0))
    
    client_df = create_client_dataframe(client_data)
    value = evaluate_client(client_df)
    
    if value == 1:
        print("Altas chances, vai firme!")
    else:
        print("Melhor desistir... chama a esposa do moço.")

In [122]:
if __name__ == '__main__':
    main()

Idade do cliente: 25
Masculino [0] ou Feminino [1]: 1
Produto (ACESSÓRIOS, BOLSAS, SAPATOS, ALL): all


Altas chances, vai firme!
