<a href="https://colab.research.google.com/github/Igor-R-Amorim/Soulcode-Academy/blob/main/Projeto%20Individual/Projeto_individual_1_Igor.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Notebook: Igor Rocha Amorim

**Projeto Individual: Marketing_campaign**


# 📗 Diretrizes do Projeto:



Nivel Infra

- O Dataset deve ser salvo em ambiente cloud(Cloud Storage)
- O arquivo original e tratado deve ser salvo em MongoDB Atlas em coleções diferentes
- O Dataset devem ser obrigatoriamente salvos em uma bucket do CloudStorage


Nivel Pandas
- O arquivo está em outra linguagem e deve ter seus dados traduzidos para Português-BR
- Realizar a extração corretamente para um dataframe
- Verificar a existência de dados inconsistentes e realizar a limpeza para NaN ou NA explicando o porque da decisão
- Realizar o drop(se necessário) de colunas do dataframe realizando o comentário do porque da exclusão 


Nivel PySpark 

- Deverá ser montada a estrutura do DataFrame utilizando o StructType.
- Verificar a existência de dados inconsistentes, nulos e realizar a limpeza.
- Verificar a necessidade de drop em colunas ou linhas. Caso seja necessário, fazer comentário do porque.
- Realizar a mudança de nome de pelo menos 2 colunas
- Deverá criar pelo menos duas novas colunas contendo alguma informação relevante sobre as outras colunas já existentes (Funções de Agrupamento, Agregação ou Joins). (Use a sua capacidade analítica)
- Deverá utilizar filtros, ordenação e agrupamento, trazendo dados relevantes para o negócio em questão. (Use a sua capacidade analítica)
- Utilizar pelo menos duas Window Functions

# ⚒ Instalando e Importando as Bibliotecas

In [None]:
!pip install fsspec==0.7.4
!pip install conda
!pip install gcsfs
!pip install pyspark
!pip install pandera
!pip install pymongo[srv]

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting fsspec==0.7.4
  Downloading fsspec-0.7.4-py3-none-any.whl (75 kB)
[K     |████████████████████████████████| 75 kB 3.1 MB/s 
[?25hInstalling collected packages: fsspec
  Attempting uninstall: fsspec
    Found existing installation: fsspec 2022.7.1
    Uninstalling fsspec-2022.7.1:
      Successfully uninstalled fsspec-2022.7.1
Successfully installed fsspec-0.7.4
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting conda
  Downloading conda-4.3.16.tar.gz (299 kB)
[K     |████████████████████████████████| 299 kB 10.3 MB/s 
[?25hCollecting pycosat>=0.6.1
  Downloading pycosat-0.6.3.zip (66 kB)
[K     |████████████████████████████████| 66 kB 4.8 MB/s 
Collecting ruamel.yaml>=0.11.14
  Downloading ruamel.yaml-0.17.21-py3-none-any.whl (109 kB)
[K     |████████████████████████████████| 109 kB 28.2 MB/s 
Collecting ruamel.ya

In [None]:
#BIBLIOTECAS NECESSÁRIAS PARA ACESSO AO MongoDB
import pymongo
from pymongo import MongoClient
from pyspark import SparkContext

#BIBLIOTECAS NECESSÁRIAS PARA MANIPULAÇÃO DO PANDAS 
import pandas as pd
import pandera as pa
import numpy as np

#BIBLIOTECAS NECESSÁRIAS PARA MANIPULAÇÃO DO PYSPARK
from pyspark.sql import SparkSession
from pyspark import SparkConf
from pyspark.sql import SQLContext
import pyspark.sql.functions as F
from pyspark.sql.types import *
from pyspark.sql.window import Window

#IMPORTAR BIBLIOTECAS DO CLOUD STORAGE
from google.cloud import storage
import os

## ⚙ Configurações e Conectores

In [None]:
# INTEGRANDO O GOOGLE COLAB AO GOOGLE DRIVE
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
# AUMENTANDO A QUANTIDADE MAXIMA DE COLUNAS A SEREM VISUALIZADAS POR EXIBIÇÃO (display())
pd.set_option('display.max_columns',100)

In [None]:
# CONFIGURAÇÃO DA CHAVE DE SEGURANÇA
serviceAccount = '/content/drive/MyDrive/Acess_Key/e0ec6f19ed5fd1283440290789ff82a5aa62386f.json'
os.environ['GOOGLE_APPLICATION_CREDENTIALS'] = serviceAccount

In [None]:
# CÓDIGOS DE ACESSO A BUCKET PARA CRIAR UM DATAFRAME A PARTIR DO DATASET
client = storage.Client()

# CRIAR UMA VARIÁVEL PARA RECEBER O NOME DA BUCKET
bucket = client.get_bucket('bc23-aula-igor-bucket')

# ESCOLHER O ARQUIVO DENTRO DA BUCKET
bucket.blob('marketing_campaign_csv.csv')

# CRIAR UMA VARIÁVEL QUE VAI RECEBER O CAMINHO DO ARQUIVO
path = 'gs://bc23-aula-igor-bucket/Projeto-Individual/marketing_campaign_csv.csv'

In [None]:
# CONECTOR MONGO
client = pymongo.MongoClient(r'mongodb+srv://soulcode:a1b2c3@igordb-bc23-soulcode.ovdcyab.mongodb.net/?retryWrites=true&w=majority')

In [None]:
# SELEÇÃO DA BASE DE DADOS E DA COLEÇÃO
db = client['PROJETO-FINAL']
colecao = db.DATA_RAW
colecao.count_documents({})

0

In [None]:
''' 
CERTIFICAR QUE A COLEÇÃO ESTÁ VAZIA PARA RECEBER OS 
DADOS CRU EM CASO DE REPETIR O CODIGO DO COMEÇO, USE APENAS CASO
A COLEÇÃO EXIBIDA NA LINHA ANTERIR ESTEJA POPULADA
AFIM DE NAO DUPLICAR OS DADOS.
'''

colecao.drop()

In [None]:
# Parar a spark session
# spark.stop()

In [None]:
# CONFIGURAÇÃO DE INICIALIZAÇÃO DA SPARK SESSION 
spark = (
    SparkSession.builder
                .master('local')
                .appName('spark-gcs-mongo')
                .config('spark.ui.port', '4050')
                .config("spark.jars", 'https://storage.googleapis.com/hadoop-lib/gcs/gcs-connector-hadoop2-latest.jar')
                .config('spark.jars.packages', 'org.mongodb.spark:mongo-spark-connector_2.11:2.3.2')
                .config("spark.mongodb.input.readPreference.name", "secondaryPreferred")
                .config("spark.mongodb.input.uri", "mongodb://ac-ihdjbkt-shard-00-02.ovdcyab.mongodb.net:27017/PROJETO-FINAL.DATA_RAW")
                .config("spark.mongodb.output.uri", "mongodb://ac-ihdjbkt-shard-00-02.ovdcyab.mongodb.net:27017/PROJETO-FINAL.DATA_RAW")
                .getOrCreate()
)

In [None]:
spark

# 🔽 Extração de dados E do ETL

O csv trás para a gente a coluna DT_Costumer como object, pois seu formato de data esta como dia, mes, ano o qual é diferente do tipo datetime reconhecido como data para o computador, sendo assim, optei por dar um parse já no carregamento do csv ao inves de trata-la na etapa de Transformação. 

In [None]:
# Lendo o csv pelo pandas e criando o DataFrame (DF)
df = pd.read_csv(path,parse_dates=['Dt_Customer'],dayfirst=True)

In [None]:
# Descrever o DF 
# Para arquivos muito grandes na ordem de GB+ use:df.shape

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2240 entries, 0 to 2239
Data columns (total 29 columns):
 #   Column               Non-Null Count  Dtype         
---  ------               --------------  -----         
 0   ID                   2240 non-null   int64         
 1   Year_Birth           2240 non-null   int64         
 2   Education            2240 non-null   object        
 3   Marital_Status       2240 non-null   object        
 4   Income               2216 non-null   float64       
 5   Kidhome              2240 non-null   int64         
 6   Teenhome             2240 non-null   int64         
 7   Dt_Customer          2240 non-null   datetime64[ns]
 8   Recency              2240 non-null   int64         
 9   MntWines             2240 non-null   int64         
 10  MntFruits            2240 non-null   int64         
 11  MntMeatProducts      2240 non-null   int64         
 12  MntFishProducts      2240 non-null   int64         
 13  MntSweetProducts     2240 non-nul

In [None]:
'''
Insere o novo DF (nomeado de df_dict) formado por uma lista onde 
cada "dicionario" é um documento para o DB.

O parâmetros ‘records’ : retorna uma lista assim:
[{column -> value}, … , {column -> value}]
'''

df_dict = df.to_dict("records")
colecao.insert_many(df_dict)

# A inserção é feita para aumentar a disponibilidade dos dados além do Bucket.

<pymongo.results.InsertManyResult at 0x7fefe17d8fd0>

In [None]:
# Conformando a quantidade de documentos Inseridos no DataBase (DB)
colecao.count_documents({})

6720

In [None]:
# Verificando o que e como foi inserido no BD
for x in colecao.find()[:10]:
  print(x)
print("")
colecao.count_documents({})

{'_id': ObjectId('6310ed78d4a606dfeb260efe'), 'ID': 5524, 'Year_Birth': 1957, 'Education': 'Graduation', 'Marital_Status': 'Single', 'Income': 58138.0, 'Kidhome': 0, 'Teenhome': 0, 'Dt_Customer': datetime.datetime(2012, 9, 4, 0, 0), 'Recency': 58, 'MntWines': 635, 'MntFruits': 88, 'MntMeatProducts': 546, 'MntFishProducts': 172, 'MntSweetProducts': 88, 'MntGoldProds': 88, 'NumDealsPurchases': 3, 'NumWebPurchases': 8, 'NumCatalogPurchases': 10, 'NumStorePurchases': 4, 'NumWebVisitsMonth': 7, 'AcceptedCmp3': 0, 'AcceptedCmp4': 0, 'AcceptedCmp5': 0, 'AcceptedCmp1': 0, 'AcceptedCmp2': 0, 'Complain': 0, 'Z_CostContact': 3, 'Z_Revenue': 11, 'Response': 1}
{'_id': ObjectId('6310ed78d4a606dfeb260eff'), 'ID': 2174, 'Year_Birth': 1954, 'Education': 'Graduation', 'Marital_Status': 'Single', 'Income': 46344.0, 'Kidhome': 1, 'Teenhome': 1, 'Dt_Customer': datetime.datetime(2014, 3, 8, 0, 0), 'Recency': 38, 'MntWines': 11, 'MntFruits': 1, 'MntMeatProducts': 6, 'MntFishProducts': 2, 'MntSweetProducts':

6720

# ⏩ Transformação T do ETL







In [None]:
# Criando backup do DF em tempo de memoria para retorno em caso de operação 
# mal sucedida

df_bkp = df.copy()

In [None]:
# restaurando o BKP

df = df_bkp.copy()

## Pré-Tratamento

In [None]:
# Podemos observar que a coluna de 'Income' apresenta alguns valores em vazio
# diferente do restante das colunas
df.info()

In [None]:
#Id é forte candidato a rótulo dos dados

df.ID.is_unique

In [None]:
df.Year_Birth.is_unique

In [None]:
df.Income.is_unique

In [None]:
df.Dt_Customer.is_unique

In [None]:
df.Recency.is_unique

In [None]:
# Muitas Colunas estão no formato de int64, portanto acredito que uma 
# forma rapida de avaliar os dados seja avaliando os dados estatisticos através
# do .describe()  

df.describe()

**ID**: 
> -Todas as 2240 linhas preenchidas.

> -Valores variando de 0 a 11191, aparentemente o ID nao é incrementado de 1 em 1 para ter essa dimensão tão maior que o numero de linhas do DF.

> -Não consigo inferir nada a partir do desvio padrão ou da média.


**Year_Birh**: 
> -Todas as 2240 linhas preenchidas.

> -Valores variando de 1893 a 1996 não indicando numero fora do formato esperado, apesar da diferença de mais de 100 anos entre as datas minimas e maximas, necessario analisar a relevancia de acordo com o contexto junto ao resto das colunas.

> -Desvio padrão pequeno e média em 1968.


**Income**: 
> -Algumas linhas não preenchidas.

> -Valores variando de 1730 a 666666, Enorme discrepancia e valores improvaveis para uma renda anual.

> -O desvio padrão confirma a discrepancia, principalmente usando a média como referencia.


**Kid home e teen home**: 
> -Todas as 2240 linhas preenchidas.

> -Ambos os valores variando de 0 a 2, não indicando numero fora do formato esperado.

> -Média e desvio padrão similares e compativeis.


**Recency**: 
> -Todas as 2240 linhas preenchidas.

> -Valores variando de 0 a 99, não indicando numero fora do formato esperado.

> -Média e desvio padrão compativel.


**MntWines	MntFruits	MntMeatProducts	MntFishProducts	MntSweetProducts	MntGoldProds**: 
> -Todas as 2240 linhas preenchidas em todos os atributos.

> -Valores de minimo e maximo variados, mas aparentemente não indica numero fora do formato esperado apesar dos numeros altos da quantidade de vinhos e carnes.

> -Média e desvio padrão compativel.

**NumDealsPurchases	NumWebPurchases	NumCatalogPurchases	NumStorePurchases NumWebVisitsMonth**:
> -Todas as 2240 linhas preenchidas em todos os atributos.

> -Valores de minimo e maximo variados, mas aparentemente não indica numero fora do formato esperado.

> -Média e desvio padrão compativel.

**AcceptedCmp1	AcceptedCmp2  AcceptedCmp3	AcceptedCmp4	AcceptedCmp5 Complain Response**:
> -Todas as 2240 linhas preenchidas em todos os atributos.

> -Valores de minimo e maximo variando de 0 a 1 em todas as colunas, aparentemente não indica numero fora do formato esperado.

> -Média e desvio padrão pequenos, mas compativel.

**Z_CostContact	Z_Revenue**:
> -Todas as 2240 linhas preenchidas em ambos os atributos.

> -Valores de minimo e maximo iguais a 3 e 11 respectivamente, indicando que não há variação de numero dentro da coluna.

> -Média igual ao proprio numero e desvio padrão igual a zero, comprovam a não variação dos numeros.


In [None]:
df.head(2)

In [None]:
# Traduzindo e visualizando as colunas
df.rename(columns={'ID':'Id',
                   'Year_Birth':'AnoDeNascimento',
                   'Education':'Educacao',
                   'Marital_Status':'EstadoCivil',
                   'Income':'Renda',
                   'Kidhome':'FilhosPequenos',
                   'Teenhome':'Adolecentes',
                   'Dt_Customer':'DataCadastro',
                   'Recency':'VacanciaEmDias',
                   'MntWines':'QtdVinhos', 
                   'MntFruits':'QtdFrutas',
                   'MntMeatProducts':'QtdProteinaAnimal',
                   'MntFishProducts':'QtdPeixes',
                   'MntSweetProducts':'QtdDoces',
                   'MntGoldProds':'QtdProdOuro',
                   'NumDealsPurchases':'ComprasComDesconto',
                   'NumWebPurchases':'ComprasPelaWeb',
                   'NumCatalogPurchases':'ComprasPeloCatalogo',
                   'NumStorePurchases':'ComprasPelaLoja',
                   'NumWebPurchases':'ComprasPelaNet',
                   'NumWebVisitsMonth':'VisitasWebPorMes',
                   'Complain':'HouveReclamacao',
                   'AcceptedCmp1':'AceitacaoCampanha1',
                   'AcceptedCmp2':'AceitacaoCampanha2',
                   'AcceptedCmp3':'AceitacaoCampanha3',
                   'AcceptedCmp4':'AceitacaoCampanha4',
                   'AcceptedCmp5':'AceitacaoCampanha5',
                   'Response':'UltimaCampanha',
                   'Z_Revenue':'Receita_Z',
                   'Z_CostContact':'CustoDeContato_Z'
                   }
          )

In [None]:
# Renomeando as Colunas
'''
Optei por nao usar acentos e caracteres especiais para facilitar a 
migração de dados entre Banco de Dados, Programas e plataformas'''

df.rename(columns={'ID':'Id',
                   'Year_Birth':'AnoDeNascimento',
                   'Education':'Educacao',
                   'Marital_Status':'EstadoCivil',
                   'Income':'Renda',
                   'Kidhome':'FilhosPequenos',
                   'Teenhome':'Adolecentes',
                   'Dt_Customer':'DataCadastro',
                   'Recency':'VacanciaEmDias',
                   'MntWines':'QtdVinhos', 
                   'MntFruits':'QtdFrutas',
                   'MntMeatProducts':'QtdProteinaAnimal',
                   'MntFishProducts':'QtdPeixes',
                   'MntSweetProducts':'QtdDoces',
                   'MntGoldProds':'QtdProdOuro',
                   'NumDealsPurchases':'ComprasComDesconto',
                   'NumCatalogPurchases':'ComprasPeloCatalogo',
                   'NumStorePurchases':'ComprasPelaLoja',
                   'NumWebPurchases':'ComprasPelaWeb',
                   'NumWebVisitsMonth':'VisitasWebPorMes',
                   'Complain':'HouveReclamacao',
                   'AcceptedCmp1':'AceitacaoCampanha1',
                   'AcceptedCmp2':'AceitacaoCampanha2',
                   'AcceptedCmp3':'AceitacaoCampanha3',
                   'AcceptedCmp4':'AceitacaoCampanha4',
                   'AcceptedCmp5':'AceitacaoCampanha5',
                   'Response':'UltimaCampanha',
                   'Z_Revenue':'Receita_Z',
                   'Z_CostContact':'CustoDeContato_Z'
                   },
          inplace=True
          )

A partir das colunas Renomeadas, podemos observar que os registros das colunas de Educação e de Estado Civil encontram-se com seu conteúdo em inglês.

-------------------------------------------------------------------
- Coluna de Educação

In [None]:
'Verificando a coluna de educação antes de traduzir seus registros'

pd.unique(df['Educacao'])


NameError: ignored

In [None]:
# Temos Apenas 5 tipos de registros distintos.  
# A pessoa pode ter concluido o grau de:
# PhD / Mestrado / Especialização / Graduação / Fundamental 

df.Educacao.replace('Graduation', 'Graduacao', inplace=True)
df.Educacao.replace('Master', 'Mestrado', inplace=True)
df.Educacao.replace('Basic', 'Fundamental', inplace=True)
df.Educacao.replace('2n Cycle', 'Especializacao', inplace=True)
#preferi deixar PhD como PhD mesmo que é uma palavra comum no Brasil


df.Educacao[:20]

In [None]:
# Verificando as alterações
pd.unique(df['Educacao'])

-------------------------------------------------------------------
- Coluna de Estado Civil

In [None]:
'Verificando a coluna de estado civil antes de traduzir seus registros'

pd.unique(df['EstadoCivil'])

In [None]:
# Temos Apenas 8 tipos de registros distintos.  
# A pessoa pode estar:
# Solteira / Juntada / Casada / Divorciada / Viuva / Solitaria / Absurd / YOLO

df.EstadoCivil.replace('Single', 'Solteira', inplace=True)
df.EstadoCivil.replace('Together', 'Uniao Estavel', inplace=True)
df.EstadoCivil.replace('Married', 'Casada', inplace=True)
df.EstadoCivil.replace('Divorced', 'Divorciada', inplace=True)
df.EstadoCivil.replace('Widow', 'Viuva', inplace=True)
df.EstadoCivil.replace('Alone', 'Solitaria', inplace=True)
# Não vou traduzir os outros por agora, preciso avaliar melhor o contexto  
# de Absurd / YOLO, nos tratamentos seguintes vou tentar pegar o significado
# conforme esse registro se relaciona com as outras colunas.

df.EstadoCivil[:20]

In [None]:
# Verificando as alterações
pd.unique(df['EstadoCivil'])

In [None]:
df.head(2)

## Limpeza dos Dados

In [None]:
# Atualizando o backup do DF em tempo de memoria para retorno em caso de 
# operação mal sucedida

df_bkp = df.copy()

In [None]:
# restaurando o BKP

df = df_bkp.copy()

Para efetuar a limpeza, devemos olhar mais a fundo alguns pontos levantados no describe() e nas traduções.

- Verificar o contexto das pessoas em estado civil **Solitaria, Absurd e YOLO**

- Verificar se os valores de **AcceptedCmp1 AcceptedCmp2 AcceptedCmp3 AcceptedCmp4 AcceptedCmp5 Complain Response** estao variando de 0 a 1 ou se eles são apenas binarios.

- Verificar se realmente os valores de **Z_CostContact e Z_Revenue** são de fato invariantes no DF inteiro.


In [None]:
'''
Antes de decidir a validade do status YOLO e Absurd vamos relembrar a
quantidade de itens vazios no DF
'''

df.isna().sum()

In [None]:
'''
Como observado no .describe() o atributo de 'renda' é o unico com 
registros vazios.
'''

#Localizando onde os registros de Vazio se encontram

filtro1=df.Renda.isna()
df.loc[filtro1]

In [None]:
'''
Somente a renda está em branco e não a linha inteira, portando não é 
necessario remover nenhuma das linhas onde o dado se encontra. 
'''

df.Renda.nunique()

--------------------------------------------------------------------------
### Verificar o contexto das pessoas em estado civil Solitaria, Absurd e YOLO

In [None]:
#Localizando onde os registros de YOLO se encontram

filtro1= (df.EstadoCivil == 'YOLO')
df.loc[filtro1]

In [None]:
# Observando que a unica diferente entre os registros é a aceitação na ultima 
# campanha, o restante das quantidade, data de cadastro, compras, vacancia e 
# ano de nascimento são exatamente iguais
'''
A pessoa possui um consumo de vinho e produtos premium proximo da media, 
mas possui um adolescente em casa. Pela data de nascimento a pessoa já
poderia estar legamente casada e/ou divorciada. Portanto nao consigo supor 
se ela é solteira ou casada e porque tem uma crianca em casa. 

Na duvida é preferivel eliminar o estado civil dela.
'''
df.EstadoCivil.replace('YOLO',np.NAN,inplace=True)
pd.unique(df['EstadoCivil'])


In [None]:
#Localizando onde os registros de Absurd se encontram

filtro1= (df.EstadoCivil == 'Absurd')
df.loc[filtro1]

In [None]:
# Observando que os registros dessa vez aparentam ser diferentes pessoas. mean 303 167 44
'''
Ambas as pessoas não possuem crianças, a pessoa mais nova possui uma adesão bem,
maior aos produtos que a mais velha. Ambas tem idade suficiente para estarem 
legalmente ou casadas, ou divorciadas. Portanto devido a falta de correlação
entre os outros dados nao posso supor se a pessoa é solteira ou casada. 

Mais uma vez, na duvida é preferivel eliminar o estado civil dela.
'''

df.EstadoCivil.replace('Absurd',np.NAN,inplace=True)
pd.unique(df['EstadoCivil'])

In [None]:
#Por fim procurar saber quantos registro são de 'Solitarios'

df.groupby(['EstadoCivil'],dropna=False).size().sort_values(ascending=False) 

In [None]:
filtro1= (df.EstadoCivil == 'Solitaria')
df.loc[filtro1]

In [None]:
# Apenas 3 registros como 'Solitarios', por ser uma situação análoga a 'Solteiro'
# vou enquandrar esses registros em 'Solteiro'

df.EstadoCivil.replace('Solitaria','Solteira',inplace=True)
pd.unique(df['EstadoCivil'])

--------------------------------------------------------------------------
### Verificar se os valores de **AcceptedCmp1 AcceptedCmp2 AcceptedCmp3 AcceptedCmp4 AcceptedCmp5 Complain Response** estao variando de 0 a 1 ou se eles são apenas binarios.
 

In [None]:
display(df['AceitacaoCampanha1'].value_counts(normalize=True).map("{:.2%}".format))
display(df['AceitacaoCampanha2'].value_counts(normalize=True).map("{:.2%}".format))
display(df['AceitacaoCampanha3'].value_counts(normalize=True).map("{:.2%}".format))
display(df['AceitacaoCampanha4'].value_counts(normalize=True).map("{:.2%}".format))
display(df['AceitacaoCampanha5'].value_counts(normalize=True).map("{:.2%}".format))
display(df['HouveReclamacao'].value_counts(normalize=True).map("{:.2%}".format))
display(df['UltimaCampanha'].value_counts(normalize=True).map("{:.2%}".format))

In [None]:
# Os valores realmente são binarios, o que facilitará a analise posteriormente.

--------------------------------------------------------------------------
### Verificar se realmente os valores de Z_CostContact e Z_Revenue são de fato invariantes no DF inteiro.

In [None]:
sorted(pd.unique(df['CustoDeContato_Z']))

In [None]:
sorted(pd.unique(df['Receita_Z']))

In [None]:
'''
Realmente ambos os Valores são invariantes em todo o DF.
Sem contribuiçoes numericas aos outros dados, pode-se 
excluir a coluna afim de liberar espaço e facilitar a analise
'''

df.drop(['CustoDeContato_Z', 'Receita_Z'], axis=1, inplace=True)
df.head(2)

### Conferindo agora a quantidade atual de registros vazios

In [None]:
df.isna().sum()

### Validação dos dados

In [None]:
df.info()

In [None]:
schema = pa.DataFrameSchema(
    columns= {
        'AnoDeNascimento':pa.Column(pa.Int, nullable=True), #se inserido valor != de inteiro mostra onde está o erro
        'Educacao':pa.Column(pa.String, nullable=True), #se inserido valor != de String na coluna mostra erro
        'EstadoCivil':pa.Column(pa.String, nullable=True),
        'Renda':pa.Column(pa.Float, nullable=True),
        'FilhosPequenos':pa.Column(pa.Int, nullable=True),
        'Adolecentes':pa.Column(pa.Int, nullable=True),
        'DataCadastro':pa.Column(pa.DateTime, nullable=True), #verifica as datas se está dentro do padrão, se estiver != de valores convencionais de data exibe onde esta a diferença
        'VacanciaEmDias':pa.Column(pa.Int, nullable=True),
        'QtdVinhos':pa.Column(pa.Int, nullable=True),
        'QtdFrutas':pa.Column(pa.Int, nullable=True),
        'QtdProteinaAnimal':pa.Column(pa.Int, nullable=True),
        'QtdPeixes':pa.Column(pa.Int, nullable=True),
        'QtdDoces':pa.Column(pa.Int, nullable=True),
        'QtdProdOuro':pa.Column(pa.Int, nullable=True),
        'ComprasComDesconto':pa.Column(pa.Int, nullable=True),
        'ComprasPeloCatalogo':pa.Column(pa.Int, nullable=True),
        'ComprasPelaLoja':pa.Column(pa.Int, nullable=True),
        'ComprasPelaWeb':pa.Column(pa.Int, nullable=True),
        'VisitasWebPorMes':pa.Column(pa.Int, nullable=True),
        'AceitacaoCampanha1':pa.Column(pa.Int, nullable=True),
        'AceitacaoCampanha2':pa.Column(pa.Int, nullable=True),
        'AceitacaoCampanha3':pa.Column(pa.Int, nullable=True),
        'AceitacaoCampanha4':pa.Column(pa.Int, nullable=True),
        'AceitacaoCampanha5':pa.Column(pa.Int, nullable=True),
        'UltimaCampanha':pa.Column(pa.Int, nullable=True),
        'HouveReclamacao':pa.Column(pa.Int, nullable=True)
        }
)

In [None]:
schema.validate(df)

## PySpark

In [None]:
# Vou utilizar o nome 'df' a partir desse ponto como um DF de pyspark, portanto
# vou salvar as modificaçoes em 'pandasDF'  
pandasDF = df.copy()

In [None]:
pandasDF.info()

In [None]:
# StructType - DEFINE O ESQUEMA PARA O DATAFRAME
esquema = (
    StructType([
        StructField('Id',IntegerType()),
        StructField('AnoDeNascimento',IntegerType()),
        StructField('Escolaridade', StringType()),
        StructField('EstadoCivil', StringType()),
        StructField('RendaPorAno', FloatType()),
        StructField('FilhosPequenos', IntegerType()), 
        StructField('Adolecentes', IntegerType()),
        StructField('DataCadastro', DateType()),
        StructField('VacanciaEmDias', IntegerType()),
        StructField('QtdVinhos', IntegerType()),
        StructField('QtdFrutas', IntegerType()),
        StructField('QtdCarneVermelha', IntegerType()),
        StructField('QtdFrutosDoMar', IntegerType()),
        StructField('QtdDoces', IntegerType()),
        StructField('QtdProdPremium', IntegerType()),
        StructField('ComprasComDesconto', IntegerType()),
        StructField('ComprasPelaWeb', IntegerType()),
        StructField('ComprasPeloCatalogo', IntegerType()),
        StructField('ComprasPelaLoja', IntegerType()),
        StructField('VisitasWebPorMes', IntegerType()),
        StructField('AceitacaoCampanha3', IntegerType()),
        StructField('AceitacaoCampanha4', IntegerType()),
        StructField('AceitacaoCampanha5', IntegerType()),
        StructField('AceitacaoCampanha1', IntegerType()),
        StructField('AceitacaoCampanha2', IntegerType()),
        StructField('HouveReclamacao', IntegerType()),
        StructField('UltimaCampanha', IntegerType())
        ])
)

#Aproveitei a criação do Schema para melhorar a tradução de alguns tópicos
# 'Educacao' -> 'Escolaridade'

# 'QtdProteinaAnimal' -> 'QtdCarneVermelha'
# 'QtdPeixe' -> 'QtdFrutosDoMar'
# Visto que proteina animal englobava tudo isso

# 'QtdProdOuro' -> 'QtdProdPremium'


df = spark.createDataFrame(pandasDF,schema=esquema)

df.show(2)
pandasDF.head(2)

In [None]:
df.printSchema()

### Limpeza dos Dados 

In [None]:
# Atualizando o backup do DF em tempo de memoria para retorno em caso de 
# operação mal sucedida

DFbkp = df

In [None]:
# restaurando o BKP

df = DFbkp

In [None]:
#Visão Geral do conteúdo das Colunas
df.summary().show()

---
#### Como visto no momento da tadução de 'YOLO' existe chance dos dados estarem duplicados, portanto deve-se averiguar   

In [None]:
# como o Id é o unico atributo sem duplicação, vamos dropa-lo para
# nao atrapalhar na comparação das demais colunas.

df1 = df.drop('Id')

In [None]:
# Juntando o DF atual com a contagem das duplicadas
# retornando uma coluna com as linhas em duplicidade

df1 = df1.join(
       df1.groupBy(df1.columns).agg((F.count("*")>1).cast("int").alias("Duplicado")),
       on=df1.columns,
       how="inner"
      )

df1.filter(df1.Duplicado >= 1).show()

NameError: ignored

In [None]:
#Dropando as duplicadas e a coluna recem criada pelo GroupBy

df1 = df1.drop('Duplicado')
df1 = df1.dropDuplicates()

In [None]:
# Apontando a quantidade de regristros duplicados que foram deletados
df.count() - df1.count()

---
#### Como visto no Pré-Tratamento durante as analises estatisticas, alguns numeros do ano de nascimento dos clientes parecem ser maiores que 100 anos, portanto deve-se averiguar se esses dados não são outliers

In [None]:
df_Aux = df1.withColumn('Ano', F.substring(F.col('DataCadastro'), 0, 4))
df_Aux = df_Aux.withColumn('Ano', df_Aux.Ano.cast(IntegerType()))
df_Aux = df_Aux.select('*',
                  (df_Aux["Ano"]-df_Aux["AnoDeNascimento"]).
                   alias("diferenca"))

In [None]:
df_Aux.show(2)

In [None]:
df_Aux.select(F.col('AnoDeNascimento'), 
              F.col('DataCadastro'), 
              F.col('VacanciaEmDias'), 
              F.col('diferenca')).orderBy(
                                          F.col('diferenca'),
                                          ascending=False).show(10)

In [None]:
# Temos diferenças entre o ano de nascimento e de cadastro superior a 100 anos
# onde a vacancia é menor que 100 dias, essas idades são pouco provaveis de 
# serem reais, portanto é aconcelhavel a dropa-las ao inves de inserir um dado
# duvidoso

df_Aux = df_Aux.filter(df_Aux.diferenca <= 100)

In [None]:
df_Aux.filter(df_Aux.diferenca >= 100).show()
df_Aux.select(F.col('AnoDeNascimento'), 
              F.col('DataCadastro'), 
              F.col('VacanciaEmDias'), 
              F.col('diferenca')).orderBy(
                                          F.col('diferenca'),
                                          ascending=False).show(10)

In [None]:
# Para comprar bebidas alcoolicas nos EUA's os clientes precisar ser maior de 
# 21, portanto vamos investigar os cliente com compras de vinho e com diferenca
# entre o cadastro e o ano de nascimento menor que 21.

df_Aux.select(F.col('AnoDeNascimento'), 
              F.col('DataCadastro'),
              F.col('QtdVinhos'),
              F.col('VacanciaEmDias'), 
              F.col('diferenca')).orderBy(
                                          F.col('diferenca'),
                                          ascending=True).show()

In [None]:
# Para acontecer essa situação, a data de cadastro ou a data de nascimento do 
# cliente esta errada, levando em consideração que a data de cadastro é enviada
# pelo sistema e a data de nascimento é informada pelo ususario, vou assumir 
# que foi o usuario que informou errado ou foi um erro de digitação, portanto
# vou desconsiderar as datas de nascimento nessa situação.

df_Aux = df_Aux.filter((F.col('diferenca') >20) | (F.col('QtdVinhos') < 1))

In [None]:

df_Aux.select(F.col('AnoDeNascimento'), 
              F.col('DataCadastro'),
              F.col('QtdVinhos'),
              F.col('VacanciaEmDias'), 
              F.col('diferenca')).orderBy(
                                          F.col('diferenca'),
                                          ascending=True).show()

In [None]:
# Deletar as Colunas Auxiliares criadas no processo
df1 = df_Aux.drop('Ano','diferenca')
df1.show(2)

In [None]:
# Apontando a quantidade de regristros que foram deletados comparados ao df
# original
df.count() - df1.count()

---
#### Também foi visto no Pré-Tratamento durante as analises estatisticas, que alguns numeros da renda parecem muito distante da média, portanto deve-se averiguar se não são outliers

666,666.00 / 12 = 55,555.55 Dolares por mes

In [None]:
df_Aux = df1

In [None]:
df_Aux.select(F.col('AnoDeNascimento'), 
              F.col('Escolaridade'),
              F.col('EstadoCivil'),
              F.col('DataCadastro'), 
              F.col('RendaPorAno')).orderBy(
                                          F.col('RendaPorAno'),
                                          ascending=False).show(27)

In [None]:
# Certamente essa renda de 666,666.00 é um outlier. 
# foi um erro de digitação, valor de renda conjunta visto que o cliente é juntado
# ou um valor aleatorio inserido pelo cliente, pois o valor está muito discrepante 
# do resto das rendas.

#Removendo o dado

df_Aux = df_Aux.filter((F.col('RendaPorAno') != 666666))

In [None]:
df_Aux.select(F.col('AnoDeNascimento'), 
              F.col('Escolaridade'),
              F.col('EstadoCivil'),
              F.col('DataCadastro'), 
              F.col('RendaPorAno')).orderBy(
                                          F.col('RendaPorAno'),
                                          ascending=False).show(27)

In [None]:
df1 = df_Aux 

In [None]:
# Apontando a quantidade de regristros que foram deletados comparados ao df
# original
df.count() - df1.count()

### Analise e Exploração dos Dados

In [None]:
df_Aux = df1
df_Aux.show(2)

In [None]:
# foi identificado durante a passagem do DF Pandas para PySpark
# que como temos carnes e peixes a coluna nao ficaria bem traduzida como
# Proteina Animal, mas se eu juntar o consumo de ambas, eu posso ter uma coluna
# de Proteina Animal.

df_Aux = df_Aux.select('*',
                  (df_Aux["QtdCarneVermelha"]+df_Aux["QtdFrutosDoMar"]).
                   alias("QtdProteinaAnimal"))
df_Aux.show(2)

In [None]:
# A quantidade de Menores de idade tambem fica chato de olhar ao ver adolecentes
# e criancas pequenas em nichos separados, portanto vamos junta-los em uma 
# categoria unica.

df_Aux = df_Aux.select('*',
                  (df_Aux["FilhosPequenos"]+df_Aux["Adolecentes"]).
                   alias("DependentesMenores"))
df_Aux.show(2)

In [None]:
# Seria interessante ter uma visão geral das qtd de produtos adiquiridos
# somando todas as categorias.

df_Aux = df_Aux.select('*',
                  (df_Aux["QtdVinhos"]+df_Aux["QtdFrutas"]+df_Aux["QtdProteinaAnimal"]+df_Aux["QtdDoces"]+df_Aux["QtdProdPremium"]).
                   alias("QtdTotalProdutos"))
df_Aux.show(2)

In [None]:
# Juntar as quantidade de campanha tambem ajuda a Quantificar depois qual 
# perfil de cliente (Idade e Estado Civil) esta mais engajado nas publicidades

df_Aux = df_Aux.select('*',
                  (df_Aux["AceitacaoCampanha1"]+
                   df_Aux["AceitacaoCampanha2"]+
                   df_Aux["AceitacaoCampanha3"]+
                   df_Aux["AceitacaoCampanha4"]+
                   df_Aux["AceitacaoCampanha5"]+ 
                   df_Aux["UltimaCampanha"]
                  ).alias("QtdCampanhasAceitas"))
df_Aux.show(2)



In [None]:
# Salvando as alteraçoes no DF tratado
df1 = df_Aux

---
Janelas

In [None]:
w0 = Window.partitionBy(F.col('QtdCampanhasAceitas')).orderBy('RendaPorAno')
df_Aux = df_Aux.withColumn('Renda/Campanha', F.dense_rank().over(w0))
df_Aux.show(2)

In [None]:
df_Aux.select(F.col('AnoDeNascimento'), 
              F.col('Escolaridade'),
              F.col('EstadoCivil'),
              F.col('RendaPorAno'),
              F.col('QtdCampanhasAceitas'),
              F.col('Renda/Campanha')).orderBy(
                                          F.col('Renda/Campanha'),
                                          ascending=True).show(30)

As pessoas que mais aceitaram as campanhas são em geral casadas e/ou juntadas em união estavel, predominantemente graduados, mas nao necessariamente os de maior renda

In [None]:
w0 = Window.partitionBy(F.col('QtdCampanhasAceitas')).orderBy('DependentesMenores')
df_Aux = df_Aux.withColumn('Campanha/Dependentes', F.dense_rank().over(w0))
df_Aux.show(2)

In [None]:
df_Aux.select(F.col('AnoDeNascimento'), 
              F.col('DependentesMenores'),
              F.col('EstadoCivil'),
              F.col('RendaPorAno'),
              F.col('QtdCampanhasAceitas'),
              F.col('Campanha/Dependentes')).orderBy(
                                          F.col('Campanha/Dependentes'),
                                          ascending=False).show(30)


As pessoas que possuem mais dependentes são as que aceitam menos as camapnhas 

# 🔼 Carregamento L do ETL

In [None]:
df1.show(2)

+---------------+------------+-------------+-----------+--------------+-----------+------------+--------------+---------+---------+----------------+--------------+--------+--------------+------------------+--------------+-------------------+---------------+----------------+------------------+------------------+------------------+------------------+------------------+---------------+--------------+-----------------+------------------+----------------+-------------------+
|AnoDeNascimento|Escolaridade|  EstadoCivil|RendaPorAno|FilhosPequenos|Adolecentes|DataCadastro|VacanciaEmDias|QtdVinhos|QtdFrutas|QtdCarneVermelha|QtdFrutosDoMar|QtdDoces|QtdProdPremium|ComprasComDesconto|ComprasPelaWeb|ComprasPeloCatalogo|ComprasPelaLoja|VisitasWebPorMes|AceitacaoCampanha3|AceitacaoCampanha4|AceitacaoCampanha5|AceitacaoCampanha1|AceitacaoCampanha2|HouveReclamacao|UltimaCampanha|QtdProteinaAnimal|DependentesMenores|QtdTotalProdutos|QtdCampanhasAceitas|
+---------------+------------+-------------+------

In [None]:
# PROJETO-FINAL.DATA_RAW
spark.save(
  df.write
    .option("spark.mongodb.output.uri", "mongodb://127.0.0.1/PROJETO-FINAL.DATA_RAW")
    .mode("overwrite"))

In [None]:
df1.write.format("mongodb").mode("append").save()

In [None]:
df1.write.format("mongo").mode("append").option("database",
"people").option("collection", "contacts").save()

In [None]:
#Converter o DataFrame do Pyspark para Pandas
df = df1.toPandas()
df[:2]


In [None]:
df.DataCadastro = pd.to_datetime(df.DataCadastro)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2038 entries, 0 to 2037
Data columns (total 30 columns):
 #   Column               Non-Null Count  Dtype         
---  ------               --------------  -----         
 0   AnoDeNascimento      2038 non-null   int32         
 1   Escolaridade         2038 non-null   object        
 2   EstadoCivil          2038 non-null   object        
 3   RendaPorAno          2014 non-null   float32       
 4   FilhosPequenos       2038 non-null   int32         
 5   Adolecentes          2038 non-null   int32         
 6   DataCadastro         2038 non-null   datetime64[ns]
 7   VacanciaEmDias       2038 non-null   int32         
 8   QtdVinhos            2038 non-null   int32         
 9   QtdFrutas            2038 non-null   int32         
 10  QtdCarneVermelha     2038 non-null   int32         
 11  QtdFrutosDoMar       2038 non-null   int32         
 12  QtdDoces             2038 non-null   int32         
 13  QtdProdPremium       2038 non-nul

In [None]:
#Preciso modificar novamente o nome das colunas antes de passar pela validação

schema = pa.DataFrameSchema(
    columns= {
        'AnoDeNascimento':pa.Column(pa.Int32, nullable=True), #se inserido valor != de inteiro mostra onde está o erro
        'Escolaridade':pa.Column(pa.String, nullable=True), #se inserido valor != de String na coluna mostra erro
        'EstadoCivil':pa.Column(pa.String, nullable=True),
        'RendaPorAno':pa.Column(pa.Float32, nullable=True),
        'FilhosPequenos':pa.Column(pa.Int32, nullable=True),
        'Adolecentes':pa.Column(pa.Int32, nullable=True),
        'DataCadastro':pa.Column(pa.DateTime, nullable=True), #verifica as datas se está dentro do padrão, se estiver != de valores convencionais de data exibe onde esta a diferença
        'VacanciaEmDias':pa.Column(pa.Int32, nullable=True),
        'QtdVinhos':pa.Column(pa.Int32, nullable=True),
        'QtdFrutas':pa.Column(pa.Int32, nullable=True),
        'QtdCarneVermelha':pa.Column(pa.Int32, nullable=True),
        'QtdFrutosDoMar':pa.Column(pa.Int32, nullable=True),
        'QtdDoces':pa.Column(pa.Int32, nullable=True),
        'QtdProdPremium':pa.Column(pa.Int32, nullable=True),
        'ComprasComDesconto':pa.Column(pa.Int32, nullable=True),
        'ComprasPeloCatalogo':pa.Column(pa.Int32, nullable=True),
        'ComprasPelaLoja':pa.Column(pa.Int32, nullable=True),
        'ComprasPelaWeb':pa.Column(pa.Int32, nullable=True),
        'VisitasWebPorMes':pa.Column(pa.Int32, nullable=True),
        'AceitacaoCampanha1':pa.Column(pa.Int32, nullable=True),
        'AceitacaoCampanha2':pa.Column(pa.Int32, nullable=True),
        'AceitacaoCampanha3':pa.Column(pa.Int32, nullable=True),
        'AceitacaoCampanha4':pa.Column(pa.Int32, nullable=True),
        'AceitacaoCampanha5':pa.Column(pa.Int32, nullable=True),
        'UltimaCampanha':pa.Column(pa.Int32, nullable=True),
        'HouveReclamacao':pa.Column(pa.Int32, nullable=True)
        }
)

In [None]:
# Validação Final antes do carregamento
schema.validate(df)

Unnamed: 0,AnoDeNascimento,Escolaridade,EstadoCivil,RendaPorAno,FilhosPequenos,Adolecentes,DataCadastro,VacanciaEmDias,QtdVinhos,QtdFrutas,QtdCarneVermelha,QtdFrutosDoMar,QtdDoces,QtdProdPremium,ComprasComDesconto,ComprasPelaWeb,ComprasPeloCatalogo,ComprasPelaLoja,VisitasWebPorMes,AceitacaoCampanha3,AceitacaoCampanha4,AceitacaoCampanha5,AceitacaoCampanha1,AceitacaoCampanha2,HouveReclamacao,UltimaCampanha,QtdProteinaAnimal,DependentesMenores,QtdTotalProdutos,QtdCampanhasAceitas
0,1977,Mestrado,Uniao Estavel,57954.0,1,1,2014-06-18,52,456,4,24,0,0,9,7,8,2,6,7,0,1,0,0,0,0,0,24,2,493,1
1,1945,PhD,Uniao Estavel,71604.0,0,0,2013-11-17,3,345,53,528,98,75,97,1,8,3,5,4,1,0,0,0,0,0,1,626,0,1196,2
2,1973,Graduacao,Divorciada,71128.0,1,0,2012-10-06,80,958,159,447,20,0,31,3,2,10,12,7,0,0,0,0,0,0,0,467,1,1615,0
3,1982,Mestrado,Solteira,75777.0,0,0,2013-07-04,12,712,26,538,69,13,80,1,3,6,11,1,0,1,1,0,0,0,1,607,0,1438,3
4,1982,Graduacao,Uniao Estavel,45203.0,2,0,2014-03-23,4,35,3,67,10,8,24,1,3,1,3,6,0,0,0,0,0,0,1,77,2,147,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2033,1975,Graduacao,Divorciada,83829.0,0,0,2013-10-08,78,897,161,430,186,161,27,0,4,7,6,1,1,0,1,1,0,0,1,616,0,1862,4
2034,1955,Graduacao,Casada,65210.0,0,1,2014-03-10,25,626,0,70,0,7,28,2,9,3,8,6,0,1,0,1,0,0,0,70,1,731,2
2035,1947,Graduacao,Uniao Estavel,70321.0,0,0,2013-01-16,6,303,23,751,82,26,191,1,6,5,13,4,0,0,0,0,0,0,1,833,0,1376,1
2036,1953,PhD,Solteira,46231.0,2,1,2012-11-26,87,189,2,55,0,5,12,4,6,1,4,9,0,0,0,0,0,0,0,55,3,263,0


In [None]:
#Selecionar Database e Coleção
db = client['PROJETO-INDIVIDUAL']
colecao = db.DATA_TREATED
colecao.count_documents({})

2038

In [None]:
#Executar caso a coleção ja esteja cheia com dados errados

colecao.drop()
colecao.count_documents({})

0

In [None]:
# Copia o DF transformado como dicionario e inseri ele como documentos {JSON} no DB 

df_dict = df.to_dict("records")
colecao.insert_many(df_dict)

<pymongo.results.InsertManyResult at 0x7f4353c8ca50>

In [None]:
display(df.head(3))
print()

for x in colecao.find()[:3]:
  print(x)

print()
colecao.count_documents({})

Unnamed: 0,AnoDeNascimento,Escolaridade,EstadoCivil,RendaPorAno,FilhosPequenos,Adolecentes,DataCadastro,VacanciaEmDias,QtdVinhos,QtdFrutas,QtdCarneVermelha,QtdFrutosDoMar,QtdDoces,QtdProdPremium,ComprasComDesconto,ComprasPelaWeb,ComprasPeloCatalogo,ComprasPelaLoja,VisitasWebPorMes,AceitacaoCampanha3,AceitacaoCampanha4,AceitacaoCampanha5,AceitacaoCampanha1,AceitacaoCampanha2,HouveReclamacao,UltimaCampanha,QtdProteinaAnimal,DependentesMenores,QtdTotalProdutos,QtdCampanhasAceitas
0,1977,Mestrado,Uniao Estavel,57954.0,1,1,2014-06-18,52,456,4,24,0,0,9,7,8,2,6,7,0,1,0,0,0,0,0,24,2,493,1
1,1945,PhD,Uniao Estavel,71604.0,0,0,2013-11-17,3,345,53,528,98,75,97,1,8,3,5,4,1,0,0,0,0,0,1,626,0,1196,2
2,1973,Graduacao,Divorciada,71128.0,1,0,2012-10-06,80,958,159,447,20,0,31,3,2,10,12,7,0,0,0,0,0,0,0,467,1,1615,0



{'_id': ObjectId('6310e086dce4b0da0ed6e4d1'), 'AnoDeNascimento': 1977, 'Escolaridade': 'Mestrado', 'EstadoCivil': 'Uniao Estavel', 'RendaPorAno': 57954.0, 'FilhosPequenos': 1, 'Adolecentes': 1, 'DataCadastro': datetime.datetime(2014, 6, 18, 0, 0), 'VacanciaEmDias': 52, 'QtdVinhos': 456, 'QtdFrutas': 4, 'QtdCarneVermelha': 24, 'QtdFrutosDoMar': 0, 'QtdDoces': 0, 'QtdProdPremium': 9, 'ComprasComDesconto': 7, 'ComprasPelaWeb': 8, 'ComprasPeloCatalogo': 2, 'ComprasPelaLoja': 6, 'VisitasWebPorMes': 7, 'AceitacaoCampanha3': 0, 'AceitacaoCampanha4': 1, 'AceitacaoCampanha5': 0, 'AceitacaoCampanha1': 0, 'AceitacaoCampanha2': 0, 'HouveReclamacao': 0, 'UltimaCampanha': 0, 'QtdProteinaAnimal': 24, 'DependentesMenores': 2, 'QtdTotalProdutos': 493, 'QtdCampanhasAceitas': 1}
{'_id': ObjectId('6310e086dce4b0da0ed6e4d2'), 'AnoDeNascimento': 1945, 'Escolaridade': 'PhD', 'EstadoCivil': 'Uniao Estavel', 'RendaPorAno': 71604.0, 'FilhosPequenos': 0, 'Adolecentes': 0, 'DataCadastro': datetime.datetime(2013,

2038

In [None]:
# Salvar o DF tratado para inseri-lo no bucket de dataset tratado
df.to_csv('/content/drive/MyDrive/Datasets/DATA_TREATED.csv', index=False)