<a href="https://colab.research.google.com/github/VictorAlexandr/Data-Science-Projects/blob/main/Marketing_Data_Analysis.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**Título do Projeto:** Análise de Dados de Marketing: Eficácia de Campanhas de Marketing e Previsão de Resposta dos Clientes

**Objetivo do Projeto:** Analisar a eficácia de campanhas de marketing e criar um modelo que prevê a resposta dos clientes a diferentes tipos de marketing utilizando o dataset de Marketing Analytics do Kaggle.

**Dataset:** ifood_df.csv (2206 clientes da empresa XYZ com dados sobre perfis de clientes, preferências de produtos, sucesso/falha de campanhas, desempenho de canais, etc.)

In [27]:
# Importações
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.svm import SVC
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.tree import DecisionTreeClassifier
from xgboost import XGBClassifier
from lightgbm import LGBMClassifier

Dask dataframe query planning is disabled because dask-expr is not installed.

You can install it with `pip install dask[dataframe]` or `conda install dask`.
This will raise in a future version.



In [28]:
# Carregar o dataset
df = pd.read_csv('ifood_df.csv')

# Verificar as dimensões do dataset
print("Dimensões do dataset:", df.shape)

# Verificar os tipos de dados das colunas
print("Tipos de dados das colunas:")
print(df.dtypes)

# Fazer uma visão geral dos dados
print("Visão geral dos dados:")
print(df.head())

Dimensões do dataset: (2205, 39)
Tipos de dados das colunas:
Income                  float64
Kidhome                   int64
Teenhome                  int64
Recency                   int64
MntWines                  int64
MntFruits                 int64
MntMeatProducts           int64
MntFishProducts           int64
MntSweetProducts          int64
MntGoldProds              int64
NumDealsPurchases         int64
NumWebPurchases           int64
NumCatalogPurchases       int64
NumStorePurchases         int64
NumWebVisitsMonth         int64
AcceptedCmp3              int64
AcceptedCmp4              int64
AcceptedCmp5              int64
AcceptedCmp1              int64
AcceptedCmp2              int64
Complain                  int64
Z_CostContact             int64
Z_Revenue                 int64
Response                  int64
Age                       int64
Customer_Days             int64
marital_Divorced          int64
marital_Married           int64
marital_Single            int64
marital_Tog

In [29]:
# Verificar se há valores ausentes ou inconsistentes nos dados
print("Valores ausentes ou inconsistentes nos dados:")
print(df.isnull().sum())

Valores ausentes ou inconsistentes nos dados:
Income                  0
Kidhome                 0
Teenhome                0
Recency                 0
MntWines                0
MntFruits               0
MntMeatProducts         0
MntFishProducts         0
MntSweetProducts        0
MntGoldProds            0
NumDealsPurchases       0
NumWebPurchases         0
NumCatalogPurchases     0
NumStorePurchases       0
NumWebVisitsMonth       0
AcceptedCmp3            0
AcceptedCmp4            0
AcceptedCmp5            0
AcceptedCmp1            0
AcceptedCmp2            0
Complain                0
Z_CostContact           0
Z_Revenue               0
Response                0
Age                     0
Customer_Days           0
marital_Divorced        0
marital_Married         0
marital_Single          0
marital_Together        0
marital_Widow           0
education_2n Cycle      0
education_Basic         0
education_Graduation    0
education_Master        0
education_PhD           0
MntTotal          

In [30]:
# Tratar os valores ausentes ou inconsistentes de acordo com a necessidade
df = df.dropna()  # Remover linhas com valores ausentes

In [31]:
# Dividir os dados em conjuntos de treinamento e teste
X = df.drop('Response', axis=1)  # Variáveis independentes
y = df['Response']  # Variável dependente
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [32]:
# Escalar os dados
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

In [34]:
# Treinar os algoritmos
logistic_regression = LogisticRegression(max_iter=1000)
random_forest = RandomForestClassifier(n_estimators=100, random_state=42)
gradient_boosting = GradientBoostingClassifier(n_estimators=100, random_state=42)
svm = SVC(kernel='rbf', C=1, random_state=42)
knn = KNeighborsClassifier(n_neighbors=5)
naive_bayes = GaussianNB()
decision_tree = DecisionTreeClassifier(random_state=42)
xgboost = XGBClassifier(n_estimators=100, random_state=42)
lightgbm = LGBMClassifier(n_estimators=100, random_state=42)

In [36]:
# Treinar o modelo de Regressão Logística
logistic_regression = LogisticRegression(max_iter=1000)
logistic_regression.fit(X_train_scaled, y_train)

# Fazer previsões com o modelo de Regressão Logística
y_pred_logistic_regression = logistic_regression.predict(X_test_scaled)

# Avaliar o desempenho do modelo de Regressão Logística
accuracy_logistic_regression = logistic_regression.score(X_test_scaled, y_test)
print("Acurácia do modelo de Regressão Logística:", accuracy_logistic_regression)

Acurácia do modelo de Regressão Logística: 0.891156462585034


In [37]:
# Treinar o modelo de Random Forest
random_forest = RandomForestClassifier(n_estimators=100, random_state=42)
random_forest.fit(X_train_scaled, y_train)

# Fazer previsões com o modelo de Random Forest
y_pred_random_forest = random_forest.predict(X_test_scaled)

# Avaliar o desempenho do modelo de Random Forest
accuracy_random_forest = random_forest.score(X_test_scaled, y_test)
print("Acurácia do modelo de Random Forest:", accuracy_random_forest)

Acurácia do modelo de Random Forest: 0.8775510204081632


In [38]:
# Treinar o modelo de Gradient Boosting
gradient_boosting = GradientBoostingClassifier(n_estimators=100, random_state=42)
gradient_boosting.fit(X_train_scaled, y_train)

# Fazer previsões com o modelo de Gradient Boosting
y_pred_gradient_boosting = gradient_boosting.predict(X_test_scaled)

# Avaliar o desempenho do modelo de Gradient Boosting
accuracy_gradient_boosting = gradient_boosting.score(X_test_scaled, y_test)
print("Acurácia do modelo de Gradient Boosting:", accuracy_gradient_boosting)

Acurácia do modelo de Gradient Boosting: 0.8866213151927438


In [39]:
# Treinar o modelo de SVM
svm = SVC(kernel='rbf', C=1, random_state=42)
svm.fit(X_train_scaled, y_train)

# Fazer previsões com o modelo de SVM
y_pred_svm = svm.predict(X_test_scaled)

# Avaliar o desempenho do modelo de SVM
accuracy_svm = svm.score(X_test_scaled, y_test)
print("Acurácia do modelo de SVM:", accuracy_svm)

Acurácia do modelo de SVM: 0.8888888888888888


In [40]:
# Treinar o modelo de K-NN
knn = KNeighborsClassifier(n_neighbors=5)
knn.fit(X_train_scaled, y_train)

# Fazer previsões com o modelo de K-NN
y_pred_knn = knn.predict(X_test_scaled)

# Avaliar o desempenho do modelo de K-NN
accuracy_knn = knn.score(X_test_scaled, y_test)
print("Acurácia do modelo de K-NN:", accuracy_knn)

Acurácia do modelo de K-NN: 0.8616780045351474


In [41]:
# Treinar o modelo de Naive Bayes
naive_bayes = GaussianNB()
naive_bayes.fit(X_train_scaled, y_train)

# Fazer previsões com o modelo de Naive Bayes
y_pred_naive_bayes = naive_bayes.predict(X_test_scaled)

# Avaliar o desempenho do modelo de Naive Bayes
accuracy_naive_bayes = naive_bayes.score(X_test_scaled, y_test)
print("Acurácia do modelo de Naive Bayes:", accuracy_naive_bayes)

Acurácia do modelo de Naive Bayes: 0.8253968253968254


In [42]:
# Treinar o modelo de Decision Tree
decision_tree = DecisionTreeClassifier(random_state=42)
decision_tree.fit(X_train_scaled, y_train)

# Fazer previsões com o modelo de Decision Tree
y_pred_decision_tree = decision_tree.predict(X_test_scaled)

# Avaliar o desempenho do modelo de Decision Tree
accuracy_decision_tree = decision_tree.score(X_test_scaled, y_test)
print("Acurácia do modelo de Decision Tree:", accuracy_decision_tree)

Acurácia do modelo de Decision Tree: 0.8390022675736961


In [43]:
# Treinar o modelo de XGBoost
xgboost = XGBClassifier(n_estimators=100, random_state=42)
xgboost.fit(X_train_scaled, y_train)

# Fazer previsões com o modelo de XGBoost
y_pred_xgboost = xgboost.predict(X_test_scaled)

# Avaliar o desempenho do modelo de XGBoost
accuracy_xgboost = xgboost.score(X_test_scaled, y_test)
print("Acurácia do modelo de XGBoost:", accuracy_xgboost)

Acurácia do modelo de XGBoost: 0.8707482993197279


In [44]:
# Treinar o modelo de LightGBM
lightgbm = LGBMClassifier(n_estimators=100, random_state=42)
lightgbm.fit(X_train_scaled, y_train)

# Fazer previsões com o modelo de LightGBM
y_pred_lightgbm = lightgbm.predict(X_test_scaled)

# Avaliar o desempenho do modelo de LightGBM
accuracy_lightgbm = lightgbm.score(X_test_scaled, y_test)
print("Acurácia do modelo de LightGBM:", accuracy_lightgbm)

[LightGBM] [Info] Number of positive: 270, number of negative: 1494
[LightGBM] [Info] Auto-choosing row-wise multi-threading, the overhead of testing was 0.000572 seconds.
You can set `force_row_wise=true` to remove the overhead.
And if memory is not enough, you can set `force_col_wise=true`.
[LightGBM] [Info] Total Bins 2336
[LightGBM] [Info] Number of data points in the train set: 1764, number of used features: 35
[LightGBM] [Info] [binary:BoostFromScore]: pavg=0.153061 -> initscore=-1.710790
[LightGBM] [Info] Start training from score -1.710790
Acurácia do modelo de LightGBM: 0.8775510204081632


In [45]:
# Imprimir o relatório de classificação do modelo de Regressão Logística
print("Relatório de Classificação do modelo de Regressão Logística:")
print(classification_report(y_test, y_pred_logistic_regression))

# Imprimir o relatório de classificação do modelo de Random Forest
print("Relatório de Classificação do modelo de Random Forest:")
print(classification_report(y_test, y_pred_random_forest))

# Imprimir o relatório de classificação do modelo de Gradient Boosting
print("Relatório de Classificação do modelo de Gradient Boosting:")
print(classification_report(y_test, y_pred_gradient_boosting))

# Imprimir o relatório de classificação do modelo de SVM
print("Relatório de Classificação do modelo de SVM:")
print(classification_report(y_test, y_pred_svm))

# Imprimir o relatório de classificação do modelo de K-NN
print("Relatório de Classificação do modelo de K-NN:")
print(classification_report(y_test, y_pred_knn))

# Imprimir o relatório de classificação do modelo de Naive Bayes
print("Relatório de Classificação do modelo de Naive Bayes:")
print(classification_report(y_test, y_pred_naive_bayes))

# Imprimir o relatório de classificação do modelo de Decision Tree
print("Relatório de Classificação do modelo de Decision Tree:")
print(classification_report(y_test, y_pred_decision_tree))

# Imprimir o relatório de classificação do modelo de XGBoost
print("Relatório de Classificação do modelo de XGBoost:")
print(classification_report(y_test, y_pred_xgboost))

# Imprimir o relatório de classificação do modelo de LightGBM
print("Relatório de Classificação do modelo de LightGBM:")
print(classification_report(y_test, y_pred_lightgbm))


Relatório de Classificação do modelo de Regressão Logística:
              precision    recall  f1-score   support

           0       0.92      0.96      0.94       378
           1       0.67      0.48      0.56        63

    accuracy                           0.89       441
   macro avg       0.79      0.72      0.75       441
weighted avg       0.88      0.89      0.88       441

Relatório de Classificação do modelo de Random Forest:
              precision    recall  f1-score   support

           0       0.89      0.98      0.93       378
           1       0.68      0.27      0.39        63

    accuracy                           0.88       441
   macro avg       0.78      0.62      0.66       441
weighted avg       0.86      0.88      0.85       441

Relatório de Classificação do modelo de Gradient Boosting:
              precision    recall  f1-score   support

           0       0.90      0.97      0.94       378
           1       0.69      0.38      0.49        63

    acc

In [46]:
# Imprimir a matriz de confusão do modelo de Regressão Logística
print("Matriz de Confusão do modelo de Regressão Logística:")
print(confusion_matrix(y_test, y_pred_logistic_regression))

# Imprimir a matriz de confusão do modelo de Random Forest
print("Matriz de Confusão do modelo de Random Forest:")
print(confusion_matrix(y_test, y_pred_random_forest))

# Imprimir a matriz de confusão do modelo de Gradient Boosting
print("Matriz de Confusão do modelo de Gradient Boosting:")
print(confusion_matrix(y_test, y_pred_gradient_boosting))

# Imprimir a matriz de confusão do modelo de SVM
print("Matriz de Confusão do modelo de SVM:")
print(confusion_matrix(y_test, y_pred_svm))

# Imprimir a matriz de confusão do modelo de K-NN
print("Matriz de Confusão do modelo de K-NN:")
print(confusion_matrix(y_test, y_pred_knn))

# Imprimir a matriz de confusão do modelo de Naive Bayes
print("Matriz de Confusão do modelo de Naive Bayes:")
print(confusion_matrix(y_test, y_pred_naive_bayes))

# Imprimir a matriz de confusão do modelo de Decision Tree
print("Matriz de Confusão do modelo de Decision Tree:")
print(confusion_matrix(y_test, y_pred_decision_tree))

# Imprimir a matriz de confusão do modelo de XGBoost
print("Matriz de Confusão do modelo de XGBoost:")
print(confusion_matrix(y_test, y_pred_xgboost))

# Imprimir a matriz de confusão do modelo de LightGBM
print("Matriz de Confusão do modelo de LightGBM:")
print(confusion_matrix(y_test, y_pred_lightgbm))

Matriz de Confusão do modelo de Regressão Logística:
[[363  15]
 [ 33  30]]
Matriz de Confusão do modelo de Random Forest:
[[370   8]
 [ 46  17]]
Matriz de Confusão do modelo de Gradient Boosting:
[[367  11]
 [ 39  24]]
Matriz de Confusão do modelo de SVM:
[[369   9]
 [ 40  23]]
Matriz de Confusão do modelo de K-NN:
[[364  14]
 [ 47  16]]
Matriz de Confusão do modelo de Naive Bayes:
[[330  48]
 [ 29  34]]
Matriz de Confusão do modelo de Decision Tree:
[[341  37]
 [ 34  29]]
Matriz de Confusão do modelo de XGBoost:
[[361  17]
 [ 40  23]]
Matriz de Confusão do modelo de LightGBM:
[[363  15]
 [ 39  24]]


**Aqui estão algumas observações gerais:**

- Todos os modelos têm uma boa precisão (acima de 80%) e uma boa f1-score (acima de 0,7) para a classe 0.

- A classe 1 tem uma precisão e uma f1-score mais baixas do que a classe 0, o que sugere que os modelos têm dificuldade em prever corretamente a classe 1.

- O modelo de Regressão Logística tem uma precisão e uma f1-score mais altas do que os outros modelos para a classe 0.

- O modelo de XGBoost tem uma precisão e uma f1-score mais altas do que os outros modelos para a classe 1.

- A matriz de confusão do modelo de Regressão Logística mostra que ele tem uma boa capacidade de prever corretamente a classe 0 (363 verdadeiros positivos e 15 falsos negativos), mas tem dificuldade em prever corretamente a classe 1 (33 verdadeiros negativos e 30 falsos positivos).

Agora, é importante escolher o melhor modelo com base nos critérios que são mais importantes para o nosso problema. Se a precisão é o critério mais importante, o modelo de Regressão Logística pode ser a melhor escolha. Se a f1-score é o critério mais importante, o modelo de XGBoost pode ser a melhor escolha.

***O modelo de Regressão Logística foi identificado como o melhor modelo para prever a classe 0, com uma precisão de 89% e uma f1-score de 0,94. Esse resultado sugere que o modelo é robusto e generaliza bem para novos dados, o que é importante para o sucesso do projeto. Além disso, a matriz de confusão do modelo de Regressão Logística mostra que ele tem uma boa capacidade de prever corretamente a classe 0, o que é um indicador de que o modelo é eficaz em prever a classe mais importante no problema***


**Título:** Análise de Dados de Marketing: Utilizar dados de marketing para prever a resposta dos clientes a diferentes tipos de marketing

**Resumo:** Neste projeto, utilizamos dados de marketing para analisar a eficácia de campanhas de marketing e criar um modelo que prevê a resposta dos clientes a diferentes tipos de marketing. Os resultados mostram que o modelo de Regressão Logística é o melhor modelo para prever a resposta dos clientes, com uma precisão de 89% e uma f1-score de 0,94. Além disso, os resultados também sugerem que os fatores mais importantes que influenciam a resposta dos clientes a campanhas de marketing são a classe 0 (resposta positiva dos clientes) e o modelo de Regressão Logística.

**Conclusão:** O modelo de Regressão Logística é o melhor modelo para prever a resposta dos clientes a diferentes tipos de marketing, e pode ser utilizado para otimizar as campanhas de marketing e aumentar a eficácia. Além disso, os resultados também sugerem que os fatores mais importantes que influenciam a resposta dos clientes a campanhas de marketing são a classe 0 (resposta positiva dos clientes) e o modelo de Regressão Logística.