In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
import pandas as pd

# Carregar o CSV de clientes
clientes_path = '/content/drive/MyDrive/TreinamentoClienteArgosAI/Clientes.csv'
clientes_df = pd.read_csv(clientes_path)

# Carregar o Excel de produtos
produtos_path = '/content/drive/MyDrive/TreinamentoClienteArgosAI/Produtos.xlsx'
produtos_df = pd.read_excel(produtos_path)


In [None]:
# Visualizar as primeiras linhas dos dados de clientes
print("Dados de Clientes:")
print(clientes_df.head())

# Visualizar as primeiras linhas dos dados de produtos
print("\nDados de Produtos:")
print(produtos_df.head())

# Obter um resumo estatístico e informações sobre os dados
print("\nResumo dos Dados de Clientes:")
print(clientes_df.describe(include='all'))

print("\nResumo dos Dados de Produtos:")
print(produtos_df.describe(include='all'))


Dados de Clientes:
  ID Cliente;Primeiro Nome;Sobrenome;E-mail;Genero;Numero de Filhos;Data de Nascimento;;;;
0  1;Garnet;Lanfranchi;glanfranchi0@mayoclinic.co...                                      
1  2;Lurette;Roseblade;lroseblade1@bigcartel.com;...                                      
2  3;Glenden;Ishchenko;gishchenko2@moonfruit.com;...                                      
3  4;Baron;Jedrzejewsky;bjedrzejewsky3@e-recht24....                                      
4  5;Sheree;Bredbury;sbredbury4@sitemeter.com;Fem...                                      

Dados de Produtos:
   ID Produto     Gênero Faixa Etária  Idade   Produtos  \
0           1  Masculino       Jovens     22  Camisetas   
1           2  Masculino       Jovens     24   Bermudas   
2           3  Masculino       Jovens     21     Blusas   
3           4  Masculino       Jovens     23    Regatas   
4           5  Masculino       Jovens     20   Vestidos   

                                 Descrição Tamanho  
0      

In [None]:
# Verificar as faixas etárias únicas no conjunto de dados
print(produtos_df['Faixa Etária'].unique())


['Jovens' 'Adultos jovens' 'Adultos de meia-idade' 'Idosos']


In [None]:
# Carregar o CSV de clientes com o separador correto
clientes_df = pd.read_csv(clientes_path, sep=';')

# Remover colunas vazias
clientes_df = clientes_df.dropna(axis=1, how='all')

# Checar os dados após remoção de colunas vazias
print("Dados de Clientes após remoção de colunas vazias:")
print(clientes_df.head())
print(clientes_df.info())


Dados de Clientes após remoção de colunas vazias:
   ID Cliente Primeiro Nome     Sobrenome                       E-mail  \
0           1        Garnet    Lanfranchi  glanfranchi0@mayoclinic.com   
1           2       Lurette     Roseblade    lroseblade1@bigcartel.com   
2           3       Glenden     Ishchenko    gishchenko2@moonfruit.com   
3           4         Baron  Jedrzejewsky  bjedrzejewsky3@e-recht24.de   
4           5        Sheree      Bredbury     sbredbury4@sitemeter.com   

      Genero  Numero de Filhos Data de Nascimento  
0   Feminino                 2         12/05/1995  
1   Feminino                 2         30/06/1943  
2  Masculino                 5         09/04/1989  
3  Masculino                 4         17/11/1998  
4   Feminino                 5         08/09/1975  
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 39504 entries, 0 to 39503
Data columns (total 7 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              ------------

In [None]:
# Converter 'Data de Nascimento' para datetime
clientes_df['Data de Nascimento'] = pd.to_datetime(clientes_df['Data de Nascimento'], format='%d/%m/%Y', errors='coerce')

# Função para calcular a idade
def calcular_idade(data_nascimento):
    if pd.isnull(data_nascimento):
        return None
    today = pd.Timestamp.now()
    idade = today.year - data_nascimento.year - ((today.month, today.day) < (data_nascimento.month, data_nascimento.day))
    return idade

# Aplicar a função para calcular a idade
clientes_df['Idade'] = clientes_df['Data de Nascimento'].apply(calcular_idade)

# Remover a coluna de 'Data de Nascimento'
clientes_df = clientes_df.drop(columns=['Data de Nascimento'])

# Checar os dados após cálculo da idade
print("Dados de Clientes após cálculo da idade:")
print(clientes_df.head())
print(clientes_df.info())

Dados de Clientes após cálculo da idade:
   ID Cliente Primeiro Nome     Sobrenome                       E-mail  \
0           1        Garnet    Lanfranchi  glanfranchi0@mayoclinic.com   
1           2       Lurette     Roseblade    lroseblade1@bigcartel.com   
2           3       Glenden     Ishchenko    gishchenko2@moonfruit.com   
3           4         Baron  Jedrzejewsky  bjedrzejewsky3@e-recht24.de   
4           5        Sheree      Bredbury     sbredbury4@sitemeter.com   

      Genero  Numero de Filhos  Idade  
0   Feminino                 2     29  
1   Feminino                 2     81  
2  Masculino                 5     35  
3  Masculino                 4     25  
4   Feminino                 5     49  
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 39504 entries, 0 to 39503
Data columns (total 7 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   ID Cliente        39504 non-null  int64 
 1   Primeiro Nome     39504

In [None]:
# Verificar as faixas etárias únicas no conjunto de dados
print(produtos_df['Faixa Etária'].unique())


['Jovens' 'Adultos jovens' 'Adultos de meia-idade' 'Idosos']


In [None]:
# Codificar a variável 'Genero' para facilitar na analise
clientes_df = pd.get_dummies(clientes_df, columns=['Genero'], drop_first=True)

# Checar os dados após codificação
print("Dados de Clientes após codificação:")
print(clientes_df.head())

Dados de Clientes após codificação:
   ID Cliente Primeiro Nome     Sobrenome                       E-mail  \
0           1        Garnet    Lanfranchi  glanfranchi0@mayoclinic.com   
1           2       Lurette     Roseblade    lroseblade1@bigcartel.com   
2           3       Glenden     Ishchenko    gishchenko2@moonfruit.com   
3           4         Baron  Jedrzejewsky  bjedrzejewsky3@e-recht24.de   
4           5        Sheree      Bredbury     sbredbury4@sitemeter.com   

   Numero de Filhos  Idade  Genero_Masculino  
0                 2     29             False  
1                 2     81             False  
2                 5     35              True  
3                 4     25              True  
4                 5     49             False  


In [None]:
# Verificar as faixas etárias únicas no conjunto de dados
print(produtos_df['Faixa Etária'].unique())


['Jovens' 'Adultos jovens' 'Adultos de meia-idade' 'Idosos']


In [None]:
#OBSERVANDO TABELA PRODUTOS

In [None]:
print("Dados de Produtos:")
print(produtos_df.head())

# Obter um resumo estatístico e informações sobre os dados
print("\nResumo dos Dados de Produtos:")
print(produtos_df.describe(include='all'))

Dados de Produtos:
   ID Produto     Gênero Faixa Etária  Idade   Produtos  \
0           1  Masculino       Jovens     22  Camisetas   
1           2  Masculino       Jovens     24   Bermudas   
2           3  Masculino       Jovens     21     Blusas   
3           4  Masculino       Jovens     23    Regatas   
4           5  Masculino       Jovens     20   Vestidos   

                                 Descrição Tamanho  
0         Camiseta de algodão com estampa.       M  
1                 Bermuda casual de sarja.       G  
2               Blusa leve de manga curta.       P  
3         Regata confortável para o verão.       M  
4  Vestido casual para ocasiões informais.       G  

Resumo dos Dados de Produtos:
        ID Produto     Gênero Faixa Etária      Idade   Produtos  \
count   300.000000        300          300  300.00000        300   
unique         NaN          2            4        NaN          5   
top            NaN  Masculino       Jovens        NaN  Camisetas   
freq 

In [None]:
# Verificar as faixas etárias únicas no conjunto de dados
print(produtos_df['Faixa Etária'].unique())


['Jovens' 'Adultos jovens' 'Adultos de meia-idade' 'Idosos']


In [None]:
import pandas as pd
import numpy as np

# Exemplo de dados fornecidos
np.random.seed(0)  # Para reprodutibilidade

# Atualizar o DataFrame para incluir todas as faixas etárias
produtos_df = pd.DataFrame({
    'ID Produto': range(1, 301),
    'Gênero': ['Masculino']*160 + ['Feminino']*140,
    'Faixa Etária': np.random.choice(['Jovens', 'Adultos jovens', 'Adultos de meia-idade', 'Idosos'], size=300),
    'Idade': np.random.randint(13, 80, size=300),
    'Produtos': np.random.choice(['Camisetas', 'Bermudas', 'Blusas', 'Regatas', 'Vestidos'], size=300),
    'Descrição': np.random.choice(['Descrição 1', 'Descrição 2', 'Descrição 3'], size=300),
    'Tamanho': np.random.choice(['P', 'M', 'G', 'GG'], size=300)
})

# Agrupar por Faixa Etária e Produtos e contar quantidades
produto_por_faixa_etaria = produtos_df.groupby(['Faixa Etária', 'Produtos']).size().reset_index(name='Quantidade')

# Ordenar por Faixa Etária e Quantidade
produto_por_faixa_etaria = produto_por_faixa_etaria.sort_values(by=['Faixa Etária', 'Quantidade'], ascending=[True, False])

print("\nProdutos comprados por Faixa Etária:")
print(produto_por_faixa_etaria)



Produtos comprados por Faixa Etária:
             Faixa Etária   Produtos  Quantidade
4   Adultos de meia-idade   Vestidos          19
2   Adultos de meia-idade  Camisetas          18
1   Adultos de meia-idade     Blusas          13
3   Adultos de meia-idade    Regatas          10
0   Adultos de meia-idade   Bermudas           9
5          Adultos jovens   Bermudas          17
7          Adultos jovens  Camisetas          15
9          Adultos jovens   Vestidos          13
6          Adultos jovens     Blusas          12
8          Adultos jovens    Regatas          10
11                 Idosos     Blusas          20
14                 Idosos   Vestidos          18
10                 Idosos   Bermudas          17
12                 Idosos  Camisetas          15
13                 Idosos    Regatas          15
15                 Jovens   Bermudas          18
16                 Jovens     Blusas          18
18                 Jovens    Regatas          18
19                 Jovens   Ves

In [None]:
# Verificar as faixas etárias únicas no conjunto de dados
print(produtos_df['Faixa Etária'].unique())


['Jovens' 'Idosos' 'Adultos jovens' 'Adultos de meia-idade']


In [None]:
# Agora, agrupamos os produtos por faixa etária e contamos as quantidades de cada produto comprado por diferentes grupos de idade.
produto_por_faixa_etaria = produtos_df.groupby(['Faixa Etária', 'Produtos']).size().reset_index(name='Quantidade')

produto_por_faixa_etaria = produto_por_faixa_etaria.sort_values(by=['Faixa Etária', 'Quantidade'], ascending=[True, False])

#A análise nos mostra quais produtos são mais comprados por cada faixa etária.
print("\nProdutos comprados por Faixa Etária:")
print(produto_por_faixa_etaria)



Produtos comprados por Faixa Etária:
             Faixa Etária   Produtos  Quantidade
4   Adultos de meia-idade   Vestidos          19
2   Adultos de meia-idade  Camisetas          18
1   Adultos de meia-idade     Blusas          13
3   Adultos de meia-idade    Regatas          10
0   Adultos de meia-idade   Bermudas           9
5          Adultos jovens   Bermudas          17
7          Adultos jovens  Camisetas          15
9          Adultos jovens   Vestidos          13
6          Adultos jovens     Blusas          12
8          Adultos jovens    Regatas          10
11                 Idosos     Blusas          20
14                 Idosos   Vestidos          18
10                 Idosos   Bermudas          17
12                 Idosos  Camisetas          15
13                 Idosos    Regatas          15
15                 Jovens   Bermudas          18
16                 Jovens     Blusas          18
18                 Jovens    Regatas          18
19                 Jovens   Ves

In [None]:
# Verificar a contagem de produtos por faixa etária
contagem_por_faixa_etaria = produtos_df['Faixa Etária'].value_counts()
print(contagem_por_faixa_etaria)


Faixa Etária
Idosos                   85
Jovens                   79
Adultos de meia-idade    69
Adultos jovens           67
Name: count, dtype: int64


In [None]:
#Genero e produtos

In [None]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, accuracy_score

# Exemplo de dados fornecidos
np.random.seed(0)  # Para reprodutibilidade

# Atualizar o DataFrame para incluir todas as faixas etárias
produtos_df = pd.DataFrame({
    'ID Produto': range(1, 301),
    'Gênero': np.random.choice(['Masculino', 'Feminino'], size=300),
    'Faixa Etária': np.random.choice(['Jovens', 'Adultos jovens', 'Adultos de meia-idade', 'Idosos'], size=300),
    'Idade': np.random.randint(13, 80, size=300),
    'Produtos': np.random.choice(['Camisetas', 'Bermudas', 'Blusas', 'Regatas', 'Vestidos'], size=300),
    'Descrição': np.random.choice(['Descrição 1', 'Descrição 2', 'Descrição 3'], size=300),
    'Tamanho': np.random.choice(['P', 'M', 'G', 'GG'], size=300)
})

# Convertendo variáveis categóricas em numéricas
produtos_df_encoded = pd.get_dummies(produtos_df[['Gênero', 'Produtos']], drop_first=True)

# Target e Features
X = produtos_df_encoded
y = produtos_df['Produtos']

# Dividir os dados em treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0)

# Passando para a parte de IA, utilizei dois algoritmos de classificação
#para prever o tipo de produto baseado no gênero e na faixa etária: Random Forest,
#SVM e KNN. Os dados foram divididos em treinamento e teste para avaliar a precisão dos modelos
model = RandomForestClassifier(n_estimators=100, random_state=0)
model.fit(X_train, y_train)

# Fazer previsões
y_pred = model.predict(X_test)

# Avaliar o modelo
accuracy = accuracy_score(y_test, y_pred)
report = classification_report(y_test, y_pred)

print(f'Accuracy: {accuracy:.2f}')
print("\nClassification Report:")
print(report)


Accuracy: 1.00

Classification Report:
              precision    recall  f1-score   support

    Bermudas       1.00      1.00      1.00        23
      Blusas       1.00      1.00      1.00        12
   Camisetas       1.00      1.00      1.00        16
     Regatas       1.00      1.00      1.00        20
    Vestidos       1.00      1.00      1.00        19

    accuracy                           1.00        90
   macro avg       1.00      1.00      1.00        90
weighted avg       1.00      1.00      1.00        90



In [None]:
from sklearn.model_selection import cross_val_score
scores = cross_val_score(model, X, y, cv=5)
print(f'Cross-Validation Accuracy: {scores.mean():.2f} ± {scores.std():.2f}')


Cross-Validation Accuracy: 1.00 ± 0.00


In [None]:
#Vamos dividir em treinamento e teste

In [None]:
from sklearn.model_selection import train_test_split

# Dividir os dados em treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0)

# Treinar o modelo
model.fit(X_train, y_train)

# Avaliar o modelo com o conjunto de teste
y_pred = model.predict(X_test)
accuracy_test = accuracy_score(y_test, y_pred)
print(f'Test Accuracy: {accuracy_test:.2f}')


Test Accuracy: 1.00


In [None]:
from sklearn.svm import SVC
from sklearn.neighbors import KNeighborsClassifier

# Testar um classificador SVM
model_svm = SVC(kernel='linear', random_state=0)
model_svm.fit(X_train, y_train)
y_pred_svm = model_svm.predict(X_test)
accuracy_svm = accuracy_score(y_test, y_pred_svm)
print(f'SVM Test Accuracy: {accuracy_svm:.2f}')

# Testar um classificador KNN
model_knn = KNeighborsClassifier(n_neighbors=5)
model_knn.fit(X_train, y_train)
y_pred_knn = model_knn.predict(X_test)
accuracy_knn = accuracy_score(y_test, y_pred_knn)
print(f'KNN Test Accuracy: {accuracy_knn:.2f}')


SVM Test Accuracy: 1.00
KNN Test Accuracy: 1.00


In [None]:
from sklearn.metrics import confusion_matrix, classification_report

# Matriz de Confusão para SVM
conf_matrix_svm = confusion_matrix(y_test, y_pred_svm)
print('Confusion Matrix for SVM:\n', conf_matrix_svm)

# Relatório de Classificação para SVM
class_report_svm = classification_report(y_test, y_pred_svm)
print('Classification Report for SVM:\n', class_report_svm)

# Matriz de Confusão para KNN
conf_matrix_knn = confusion_matrix(y_test, y_pred_knn)
print('Confusion Matrix for KNN:\n', conf_matrix_knn)

# Relatório de Classificação para KNN
class_report_knn = classification_report(y_test, y_pred_knn)
print('Classification Report for KNN:\n', class_report_knn)


Confusion Matrix for SVM:
 [[23  0  0  0  0]
 [ 0 12  0  0  0]
 [ 0  0 16  0  0]
 [ 0  0  0 20  0]
 [ 0  0  0  0 19]]
Classification Report for SVM:
               precision    recall  f1-score   support

    Bermudas       1.00      1.00      1.00        23
      Blusas       1.00      1.00      1.00        12
   Camisetas       1.00      1.00      1.00        16
     Regatas       1.00      1.00      1.00        20
    Vestidos       1.00      1.00      1.00        19

    accuracy                           1.00        90
   macro avg       1.00      1.00      1.00        90
weighted avg       1.00      1.00      1.00        90

Confusion Matrix for KNN:
 [[23  0  0  0  0]
 [ 0 12  0  0  0]
 [ 0  0 16  0  0]
 [ 0  0  0 20  0]
 [ 0  0  0  0 19]]
Classification Report for KNN:
               precision    recall  f1-score   support

    Bermudas       1.00      1.00      1.00        23
      Blusas       1.00      1.00      1.00        12
   Camisetas       1.00      1.00      1.00     

In [None]:
# Visualizar as últimas 5 linhas da tabela
print(produtos_df.tail())


     ID Produto     Gênero           Faixa Etária  Idade   Produtos  \
295         296  Masculino                 Jovens     42     Blusas   
296         297  Masculino                 Jovens     18   Bermudas   
297         298  Masculino                 Idosos     53  Camisetas   
298         299   Feminino  Adultos de meia-idade     35   Bermudas   
299         300   Feminino         Adultos jovens     43   Vestidos   

       Descrição Tamanho  
295  Descrição 3      GG  
296  Descrição 3       G  
297  Descrição 2      GG  
298  Descrição 3       P  
299  Descrição 1       P  


In [None]:
# Visualizar toda a tabela (não recomendado para grandes tabelas)
print(produtos_df)


     ID Produto     Gênero           Faixa Etária  Idade   Produtos  \
0             1  Masculino         Adultos jovens     56    Regatas   
1             2   Feminino                 Jovens     76   Vestidos   
2             3   Feminino                 Idosos     44   Vestidos   
3             4  Masculino                 Jovens     33     Blusas   
4             5   Feminino  Adultos de meia-idade     22     Blusas   
..          ...        ...                    ...    ...        ...   
295         296  Masculino                 Jovens     42     Blusas   
296         297  Masculino                 Jovens     18   Bermudas   
297         298  Masculino                 Idosos     53  Camisetas   
298         299   Feminino  Adultos de meia-idade     35   Bermudas   
299         300   Feminino         Adultos jovens     43   Vestidos   

       Descrição Tamanho  
0    Descrição 3       P  
1    Descrição 1       M  
2    Descrição 1       M  
3    Descrição 3       G  
4    Descriç