## <font color='red'>Pré-Processamento de Dados Para E-Commerce Analytics</font>
Embora a etapa de modelagem preditiva não seja abordada neste trabalho, o projeto foca na preparação dos dados, uma fase crítica para garantir a qualidade e eficácia da análise posterior.

__Contexto do Problema:__  
A análise foca em uma empresa internacional de comércio eletrônico que:
- Armazena produtos em um armazém central e realiza entregas globais por navio, avião ou caminhão.
- Oferece descontos com base no peso dos produtos comprados.
- Possui suporte ao cliente para dúvidas e problemas durante o processo de compra.
- Coleta avaliações de clientes sobre a experiência de compra.
- Disponibiliza informações sobre o gênero dos clientes como dado pessoal único.

In [3]:
# Imports
import sklearn
import numpy as np
import pandas as pd
from sklearn.preprocessing import LabelEncoder, MinMaxScaler, StandardScaler

## Carregando o Dataset (Gerado ao Final do Estudo de Caso 4)

In [5]:
# Carrega o dataset
df = pd.read_csv('dados/df_eng.csv', index_col = 0)

In [6]:
df.shape

(10643, 16)

In [7]:
df.head()

Unnamed: 0,ID,corredor_armazem,modo_envio,numero_chamadas_cliente,avaliacao_cliente,custo_produto,compras_anteriores,prioridade_produto,genero,desconto,peso_gramas,entregue_no_prazo,performance_prioridade_envio,performance_modo_envio,faixa_desconto,performance_faixa_desconto
0,1,D,Aviao,4,2,177,3,baixa,F,44,1233,1,Não Houve Atraso,Não Houve Atraso,Desconto Acima da Media,Entrega no Prazo com Desconto Acima da Media
1,2,F,Aviao,4,5,216,2,baixa,M,59,3088,1,Não Houve Atraso,Não Houve Atraso,Desconto Acima da Media,Entrega no Prazo com Desconto Acima da Media
2,3,A,Aviao,2,2,183,4,baixa,M,48,3374,1,Não Houve Atraso,Não Houve Atraso,Desconto Acima da Media,Entrega no Prazo com Desconto Acima da Media
3,4,B,Aviao,3,3,176,4,media,M,10,1177,1,Não Houve Atraso,Não Houve Atraso,Desconto Abaixo da Media,Entrega no Prazo com Desconto Abaixo da Media
4,5,C,Aviao,2,2,184,3,media,F,46,2484,1,Não Houve Atraso,Não Houve Atraso,Desconto Acima da Media,Entrega no Prazo com Desconto Acima da Media


In [8]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 10643 entries, 0 to 10999
Data columns (total 16 columns):
 #   Column                        Non-Null Count  Dtype 
---  ------                        --------------  ----- 
 0   ID                            10643 non-null  int64 
 1   corredor_armazem              10643 non-null  object
 2   modo_envio                    10643 non-null  object
 3   numero_chamadas_cliente       10643 non-null  int64 
 4   avaliacao_cliente             10643 non-null  int64 
 5   custo_produto                 10643 non-null  int64 
 6   compras_anteriores            10643 non-null  int64 
 7   prioridade_produto            10643 non-null  object
 8   genero                        10643 non-null  object
 9   desconto                      10643 non-null  int64 
 10  peso_gramas                   10643 non-null  int64 
 11  entregue_no_prazo             10643 non-null  int64 
 12  performance_prioridade_envio  10643 non-null  object
 13  performance_modo_envi

In [9]:
df.columns

Index(['ID', 'corredor_armazem', 'modo_envio', 'numero_chamadas_cliente',
       'avaliacao_cliente', 'custo_produto', 'compras_anteriores',
       'prioridade_produto', 'genero', 'desconto', 'peso_gramas',
       'entregue_no_prazo', 'performance_prioridade_envio',
       'performance_modo_envio', 'faixa_desconto',
       'performance_faixa_desconto'],
      dtype='object')

## Label Encoding

Leia o manual em pdf no Capítulo 6 com a definição de Label Encoding.

### Método 1

In [10]:
# Variável categórica ordinal
df.prioridade_produto.value_counts()

prioridade_produto
baixa    5174
media    4587
alta      882
Name: count, dtype: int64

In [11]:
# Dicionário de mapeamento
dic_prioridade_produto = {'baixa' : 1, 'media' : 2, 'alta' : 0}

In [12]:
df['prioridade_produto'] = df['prioridade_produto'].map(dic_prioridade_produto)

In [13]:
df.prioridade_produto.value_counts()

prioridade_produto
1    5174
2    4587
0     882
Name: count, dtype: int64

In [14]:
df.head()

Unnamed: 0,ID,corredor_armazem,modo_envio,numero_chamadas_cliente,avaliacao_cliente,custo_produto,compras_anteriores,prioridade_produto,genero,desconto,peso_gramas,entregue_no_prazo,performance_prioridade_envio,performance_modo_envio,faixa_desconto,performance_faixa_desconto
0,1,D,Aviao,4,2,177,3,1,F,44,1233,1,Não Houve Atraso,Não Houve Atraso,Desconto Acima da Media,Entrega no Prazo com Desconto Acima da Media
1,2,F,Aviao,4,5,216,2,1,M,59,3088,1,Não Houve Atraso,Não Houve Atraso,Desconto Acima da Media,Entrega no Prazo com Desconto Acima da Media
2,3,A,Aviao,2,2,183,4,1,M,48,3374,1,Não Houve Atraso,Não Houve Atraso,Desconto Acima da Media,Entrega no Prazo com Desconto Acima da Media
3,4,B,Aviao,3,3,176,4,2,M,10,1177,1,Não Houve Atraso,Não Houve Atraso,Desconto Abaixo da Media,Entrega no Prazo com Desconto Abaixo da Media
4,5,C,Aviao,2,2,184,3,2,F,46,2484,1,Não Houve Atraso,Não Houve Atraso,Desconto Acima da Media,Entrega no Prazo com Desconto Acima da Media


In [15]:
# Variável categórica ordinal (passível de interpretação)
df.modo_envio.value_counts()

modo_envio
Navio       7212
Aviao       1728
Caminhao    1703
Name: count, dtype: int64

In [16]:
# Dicionário de mapeamento
dic_modo_envio = {'Navio' : 0, 'Aviao' : 1, 'Caminhao' : 2}

In [17]:
df['modo_envio'] = df['modo_envio'].map(dic_modo_envio)

In [18]:
df.modo_envio.value_counts()

modo_envio
0    7212
1    1728
2    1703
Name: count, dtype: int64

In [19]:
df.head()

Unnamed: 0,ID,corredor_armazem,modo_envio,numero_chamadas_cliente,avaliacao_cliente,custo_produto,compras_anteriores,prioridade_produto,genero,desconto,peso_gramas,entregue_no_prazo,performance_prioridade_envio,performance_modo_envio,faixa_desconto,performance_faixa_desconto
0,1,D,1,4,2,177,3,1,F,44,1233,1,Não Houve Atraso,Não Houve Atraso,Desconto Acima da Media,Entrega no Prazo com Desconto Acima da Media
1,2,F,1,4,5,216,2,1,M,59,3088,1,Não Houve Atraso,Não Houve Atraso,Desconto Acima da Media,Entrega no Prazo com Desconto Acima da Media
2,3,A,1,2,2,183,4,1,M,48,3374,1,Não Houve Atraso,Não Houve Atraso,Desconto Acima da Media,Entrega no Prazo com Desconto Acima da Media
3,4,B,1,3,3,176,4,2,M,10,1177,1,Não Houve Atraso,Não Houve Atraso,Desconto Abaixo da Media,Entrega no Prazo com Desconto Abaixo da Media
4,5,C,1,2,2,184,3,2,F,46,2484,1,Não Houve Atraso,Não Houve Atraso,Desconto Acima da Media,Entrega no Prazo com Desconto Acima da Media


### Método 2

In [20]:
# Variável categórica nominal
df.genero.value_counts()

genero
F    5357
M    5286
Name: count, dtype: int64

In [21]:
# Cria o objeto encoder
le = LabelEncoder()

In [22]:
# Treina o objeto (normalmente fazemos isso somente com dados de treino)
le.fit(df.genero)

In [23]:
list(le.classes_)

['F', 'M']

In [24]:
# Aplicamos o objeto encoder treinado 
# (fazemos isso em dados de treino e teste e também em novos dados usados no modelo)
df.genero = le.transform(df.genero)

In [25]:
df.genero.value_counts()

genero
0    5357
1    5286
Name: count, dtype: int64

## One-Hot Encoding

Leia o manual em pdf no Capítulo 6 com a definição de One-Hot Encoding.

![title](imagens/one-hot-encoding.png)

In [26]:
df.head()

Unnamed: 0,ID,corredor_armazem,modo_envio,numero_chamadas_cliente,avaliacao_cliente,custo_produto,compras_anteriores,prioridade_produto,genero,desconto,peso_gramas,entregue_no_prazo,performance_prioridade_envio,performance_modo_envio,faixa_desconto,performance_faixa_desconto
0,1,D,1,4,2,177,3,1,0,44,1233,1,Não Houve Atraso,Não Houve Atraso,Desconto Acima da Media,Entrega no Prazo com Desconto Acima da Media
1,2,F,1,4,5,216,2,1,1,59,3088,1,Não Houve Atraso,Não Houve Atraso,Desconto Acima da Media,Entrega no Prazo com Desconto Acima da Media
2,3,A,1,2,2,183,4,1,1,48,3374,1,Não Houve Atraso,Não Houve Atraso,Desconto Acima da Media,Entrega no Prazo com Desconto Acima da Media
3,4,B,1,3,3,176,4,2,1,10,1177,1,Não Houve Atraso,Não Houve Atraso,Desconto Abaixo da Media,Entrega no Prazo com Desconto Abaixo da Media
4,5,C,1,2,2,184,3,2,0,46,2484,1,Não Houve Atraso,Não Houve Atraso,Desconto Acima da Media,Entrega no Prazo com Desconto Acima da Media


In [27]:
# Variável categórica nominal
df.corredor_armazem.value_counts()

corredor_armazem
F    3539
B    1778
D    1777
A    1777
C    1772
Name: count, dtype: int64

In [28]:
# Variável categórica nominal
df.performance_prioridade_envio.value_counts()

performance_prioridade_envio
Não Houve Atraso       6282
Atraso Tolerável       2134
Atraso Problemático    1917
Atraso Crítico          310
Name: count, dtype: int64

In [29]:
# Variável categórica nominal
df.performance_modo_envio.value_counts()

performance_modo_envio
Não Houve Atraso                               6282
Atraso Tolerável na Entrega Por Navio          1453
Atraso Problemático na Entrega Por Navio       1307
Atraso Tolerável na Entrega Por Caminhao        350
Atraso Tolerável na Entrega Por Aviao           331
Atraso Problemático na Entrega Por Caminhao     310
Atraso Problemático na Entrega Por Aviao        300
Atraso Crítico na Entrega Por Navio             194
Atraso Crítico na Entrega Por Aviao              65
Atraso Crítico na Entrega Por Caminhao           51
Name: count, dtype: int64

In [30]:
# Variável categórica nominal
df.faixa_desconto.value_counts()

faixa_desconto
Desconto Abaixo da Media    8269
Desconto Acima da Media     2374
Name: count, dtype: int64

In [31]:
# Variável categórica nominal
df.performance_faixa_desconto.value_counts()

performance_faixa_desconto
Atraso na Entrega com Desconto Abaixo da Media    4361
Entrega no Prazo com Desconto Abaixo da Media     3908
Entrega no Prazo com Desconto Acima da Media      2374
Name: count, dtype: int64

In [32]:
# Aplicando One-Hot Encoding
for cat in ['corredor_armazem', 
            'performance_prioridade_envio', 
            'performance_modo_envio', 
            'faixa_desconto', 
            'performance_faixa_desconto']:
    onehots = pd.get_dummies(df[cat], prefix = cat)
    df = df.join(onehots)

In [33]:
df.columns

Index(['ID', 'corredor_armazem', 'modo_envio', 'numero_chamadas_cliente',
       'avaliacao_cliente', 'custo_produto', 'compras_anteriores',
       'prioridade_produto', 'genero', 'desconto', 'peso_gramas',
       'entregue_no_prazo', 'performance_prioridade_envio',
       'performance_modo_envio', 'faixa_desconto',
       'performance_faixa_desconto', 'corredor_armazem_A',
       'corredor_armazem_B', 'corredor_armazem_C', 'corredor_armazem_D',
       'corredor_armazem_F', 'performance_prioridade_envio_Atraso Crítico',
       'performance_prioridade_envio_Atraso Problemático',
       'performance_prioridade_envio_Atraso Tolerável',
       'performance_prioridade_envio_Não Houve Atraso',
       'performance_modo_envio_Atraso Crítico na Entrega Por Aviao',
       'performance_modo_envio_Atraso Crítico na Entrega Por Caminhao',
       'performance_modo_envio_Atraso Crítico na Entrega Por Navio',
       'performance_modo_envio_Atraso Problemático na Entrega Por Aviao',
       'performance

In [34]:
df.head()

Unnamed: 0,ID,corredor_armazem,modo_envio,numero_chamadas_cliente,avaliacao_cliente,custo_produto,compras_anteriores,prioridade_produto,genero,desconto,...,performance_modo_envio_Atraso Problemático na Entrega Por Navio,performance_modo_envio_Atraso Tolerável na Entrega Por Aviao,performance_modo_envio_Atraso Tolerável na Entrega Por Caminhao,performance_modo_envio_Atraso Tolerável na Entrega Por Navio,performance_modo_envio_Não Houve Atraso,faixa_desconto_Desconto Abaixo da Media,faixa_desconto_Desconto Acima da Media,performance_faixa_desconto_Atraso na Entrega com Desconto Abaixo da Media,performance_faixa_desconto_Entrega no Prazo com Desconto Abaixo da Media,performance_faixa_desconto_Entrega no Prazo com Desconto Acima da Media
0,1,D,1,4,2,177,3,1,0,44,...,False,False,False,False,True,False,True,False,False,True
1,2,F,1,4,5,216,2,1,1,59,...,False,False,False,False,True,False,True,False,False,True
2,3,A,1,2,2,183,4,1,1,48,...,False,False,False,False,True,False,True,False,False,True
3,4,B,1,3,3,176,4,2,1,10,...,False,False,False,False,True,True,False,False,True,False
4,5,C,1,2,2,184,3,2,0,46,...,False,False,False,False,True,False,True,False,False,True


In [35]:
# Não precisaremos mais das colunas originais após aplicar One-Hot Encoding
df = df.drop(columns = ['corredor_armazem', 
                        'performance_prioridade_envio', 
                        'performance_modo_envio', 
                        'faixa_desconto', 
                        'performance_faixa_desconto'])

In [36]:
# Podemos remover a coluna ID
df = df.drop(columns = ['ID'])

In [37]:
df.head()

Unnamed: 0,modo_envio,numero_chamadas_cliente,avaliacao_cliente,custo_produto,compras_anteriores,prioridade_produto,genero,desconto,peso_gramas,entregue_no_prazo,...,performance_modo_envio_Atraso Problemático na Entrega Por Navio,performance_modo_envio_Atraso Tolerável na Entrega Por Aviao,performance_modo_envio_Atraso Tolerável na Entrega Por Caminhao,performance_modo_envio_Atraso Tolerável na Entrega Por Navio,performance_modo_envio_Não Houve Atraso,faixa_desconto_Desconto Abaixo da Media,faixa_desconto_Desconto Acima da Media,performance_faixa_desconto_Atraso na Entrega com Desconto Abaixo da Media,performance_faixa_desconto_Entrega no Prazo com Desconto Abaixo da Media,performance_faixa_desconto_Entrega no Prazo com Desconto Acima da Media
0,1,4,2,177,3,1,0,44,1233,1,...,False,False,False,False,True,False,True,False,False,True
1,1,4,5,216,2,1,1,59,3088,1,...,False,False,False,False,True,False,True,False,False,True
2,1,2,2,183,4,1,1,48,3374,1,...,False,False,False,False,True,False,True,False,False,True
3,1,3,3,176,4,2,1,10,1177,1,...,False,False,False,False,True,True,False,False,True,False
4,1,2,2,184,3,2,0,46,2484,1,...,False,False,False,False,True,False,True,False,False,True


## Fature Scaling

Leia os manuais em pdf no Capítulo 6. Abaixo um resumo:

- O dimensionamento de recursos (Fature Scaling) consiste em transformar o valor dos recursos em uma faixa semelhante, para que os algoritmos de aprendizado de máquina se comportem melhor, resultando em modelos ideais.

- Padronização e normalização são duas técnicas mais comuns para dimensionamento de recursos.

- A normalização é transformar os valores dos recursos para que caiam dentro dos intervalos limitados (min e max).

- A padronização é transformar os valores de recursos para cair em torno da média como 0 com desvio padrão como 1.

- A padronização mantém informações úteis sobre valores discrepantes e torna o algoritmo menos sensível a eles em contraste com o dimensionamento mínimo-máximo.

- A classe MinMaxScaler() de sklearn.preprocessing é usada para normalização de recursos.

- A classe StandardScaler() de sklearn.preprocessing é usada para padronização de recursos.

In [38]:
df.head()

Unnamed: 0,modo_envio,numero_chamadas_cliente,avaliacao_cliente,custo_produto,compras_anteriores,prioridade_produto,genero,desconto,peso_gramas,entregue_no_prazo,...,performance_modo_envio_Atraso Problemático na Entrega Por Navio,performance_modo_envio_Atraso Tolerável na Entrega Por Aviao,performance_modo_envio_Atraso Tolerável na Entrega Por Caminhao,performance_modo_envio_Atraso Tolerável na Entrega Por Navio,performance_modo_envio_Não Houve Atraso,faixa_desconto_Desconto Abaixo da Media,faixa_desconto_Desconto Acima da Media,performance_faixa_desconto_Atraso na Entrega com Desconto Abaixo da Media,performance_faixa_desconto_Entrega no Prazo com Desconto Abaixo da Media,performance_faixa_desconto_Entrega no Prazo com Desconto Acima da Media
0,1,4,2,177,3,1,0,44,1233,1,...,False,False,False,False,True,False,True,False,False,True
1,1,4,5,216,2,1,1,59,3088,1,...,False,False,False,False,True,False,True,False,False,True
2,1,2,2,183,4,1,1,48,3374,1,...,False,False,False,False,True,False,True,False,False,True
3,1,3,3,176,4,2,1,10,1177,1,...,False,False,False,False,True,True,False,False,True,False
4,1,2,2,184,3,2,0,46,2484,1,...,False,False,False,False,True,False,True,False,False,True


In [39]:
df.columns

Index(['modo_envio', 'numero_chamadas_cliente', 'avaliacao_cliente',
       'custo_produto', 'compras_anteriores', 'prioridade_produto', 'genero',
       'desconto', 'peso_gramas', 'entregue_no_prazo', 'corredor_armazem_A',
       'corredor_armazem_B', 'corredor_armazem_C', 'corredor_armazem_D',
       'corredor_armazem_F', 'performance_prioridade_envio_Atraso Crítico',
       'performance_prioridade_envio_Atraso Problemático',
       'performance_prioridade_envio_Atraso Tolerável',
       'performance_prioridade_envio_Não Houve Atraso',
       'performance_modo_envio_Atraso Crítico na Entrega Por Aviao',
       'performance_modo_envio_Atraso Crítico na Entrega Por Caminhao',
       'performance_modo_envio_Atraso Crítico na Entrega Por Navio',
       'performance_modo_envio_Atraso Problemático na Entrega Por Aviao',
       'performance_modo_envio_Atraso Problemático na Entrega Por Caminhao',
       'performance_modo_envio_Atraso Problemático na Entrega Por Navio',
       'performance_m

**ATENÇÃO**: No caso de normalizar o conjunto de dados de treinamento e teste, o estimador MinMaxScaler() terá o fit() no conjunto de dados de treinamento e o mesmo estimador será usado para transformar o conjunto de dados de treinamento e teste. O mesmo estimador também deve ser usado em novos dados ao fazer previsões com o modelo.

In [40]:
df.peso_gramas.sample(5)

9142    1132
4027    4562
6026    1280
4012    5284
9645    4605
Name: peso_gramas, dtype: int64

In [41]:
df['peso_gramas'] = MinMaxScaler().fit_transform(df['peso_gramas'].values.reshape(len(df), 1))

In [42]:
df.peso_gramas.sample(5)

9016     0.668079
10115    0.572096
9988     0.718481
6909     0.119211
3634     0.685026
Name: peso_gramas, dtype: float64

In [43]:
df.custo_produto.sample(5)

4913    166
4157    243
4943    135
649     162
2351    237
Name: custo_produto, dtype: int64

In [44]:
df['custo_produto'] = MinMaxScaler().fit_transform(df['custo_produto'].values.reshape(len(df), 1))

In [45]:
df.custo_produto.sample(10)

5528     0.710280
7884     0.588785
1382     0.602804
8017     0.658879
10909    0.621495
6214     0.929907
9111     0.359813
3161     0.630841
3916     0.822430
3615     0.457944
Name: custo_produto, dtype: float64

**ATENÇÃO**: No caso de padronizar o conjunto de dados de treinamento e teste, o estimador StandardScaler() terá o fit() no conjunto de dados de treinamento e o mesmo estimador será usado para transformar o conjunto de dados de treinamento e teste. O mesmo estimador também deve ser usado em novos dados ao fazer previsões com o modelo.

In [46]:
df['desconto'] = StandardScaler().fit_transform(df['desconto'].values.reshape(len(df), 1))

In [47]:
df.desconto.sample(10)

10283   -0.702279
4698    -0.702279
7984    -0.768984
10400   -0.302046
5398    -0.702279
2287    -0.502162
7159    -0.635573
7982    -0.502162
9614    -0.235340
4805    -0.502162
Name: desconto, dtype: float64

In [48]:
df['numero_chamadas_cliente'] = StandardScaler().fit_transform(df['numero_chamadas_cliente'].values.reshape(len(df), 
                                                                                                            1))

In [49]:
df.numero_chamadas_cliente.sample(10)

710    -0.930527
7411   -0.057348
9521    0.815832
9074   -0.930527
6116    0.815832
9052    0.815832
133     0.815832
9338    0.815832
6011    2.562190
7373    0.815832
Name: numero_chamadas_cliente, dtype: float64

In [50]:
df['avaliacao_cliente'] = StandardScaler().fit_transform(df['avaliacao_cliente'].values.reshape(len(df), 1))

In [51]:
df.avaliacao_cliente.sample(10)

8705   -1.408469
2260   -0.700376
3632   -1.408469
3626    0.007718
3745   -1.408469
1480   -1.408469
2971    0.007718
7887    0.007718
1342    0.715811
9756   -1.408469
Name: avaliacao_cliente, dtype: float64

In [52]:
df['compras_anteriores'] = StandardScaler().fit_transform(df['compras_anteriores'].values.reshape(len(df), 1))

In [53]:
df.compras_anteriores.sample(10)

7080    0.416201
1450    1.968008
6470   -0.359702
7305    1.968008
908     0.416201
9060   -0.359702
7846   -1.135605
9925    0.416201
982     0.416201
1870    0.416201
Name: compras_anteriores, dtype: float64

In [54]:
df.head()

Unnamed: 0,modo_envio,numero_chamadas_cliente,avaliacao_cliente,custo_produto,compras_anteriores,prioridade_produto,genero,desconto,peso_gramas,entregue_no_prazo,...,performance_modo_envio_Atraso Problemático na Entrega Por Navio,performance_modo_envio_Atraso Tolerável na Entrega Por Aviao,performance_modo_envio_Atraso Tolerável na Entrega Por Caminhao,performance_modo_envio_Atraso Tolerável na Entrega Por Navio,performance_modo_envio_Não Houve Atraso,faixa_desconto_Desconto Abaixo da Media,faixa_desconto_Desconto Acima da Media,performance_faixa_desconto_Atraso na Entrega com Desconto Abaixo da Media,performance_faixa_desconto_Entrega no Prazo com Desconto Abaixo da Media,performance_faixa_desconto_Entrega no Prazo com Desconto Acima da Media
0,1,-0.057348,-0.700376,0.378505,-0.359702,1,0,2.099353,0.033893,1,...,False,False,False,False,True,False,True,False,False,True
1,1,-0.057348,1.423904,0.560748,-1.135605,1,1,3.099936,0.304894,1,...,False,False,False,False,True,False,True,False,False,True
2,1,-1.803706,-0.700376,0.406542,0.416201,1,1,2.366175,0.346676,1,...,False,False,False,False,True,False,True,False,False,True
3,1,-0.930527,0.007718,0.373832,0.416201,2,1,-0.168635,0.025712,1,...,False,False,False,False,True,True,False,False,True,False
4,1,-1.803706,-0.700376,0.411215,-0.359702,2,0,2.232764,0.216654,1,...,False,False,False,False,True,False,True,False,False,True


In [55]:
df.to_csv('dados/dataset_final.csv', sep = ',', encoding = 'utf-8')

# Fim