# **NÍVEL PANDAS**

## **Instalando as Api's: Pyspark, GCSFS e PyMongo**

Vamos começar instalando todas as Apis que iremos utilizar nesse projeto, que são elas: Pandas e PySpark

In [None]:
!pip install pyspark
!pip install gcsfs
!pip install pymongo[srv]

## **Importando as bibliotecas:**

Nesse momento, estaremos importando as seguintes bibliotecas para utilizá-las no nosso projeto:


*   Google Cloud - Para acessarmos o nosso bucket que está em cloud;
*   Pandas - Para tratarmos o nosso DF fazendo todo processo de limpeza e normalização de dados; 
*   OS - Para utilizar alguns parâmetros do sistema.
*   MongoClient - Para podermos tranferir o dataframe tratado para um bd NoSql







In [None]:
import pandas as pd
from google.cloud import storage
import os
import pymongo
from pymongo import MongoClient

## **Configurando o acesso do Colab ao bucket.**

In [None]:
from  google.colab import drive
drive.mount('/content/drive')

In [None]:
serviceAccount = '/content/drive/MyDrive/[CHAVE DE IMPORTAÇÃO DO CUCKET]'
os.environ['GOOGLE_APPLICATION_CREDENTIALS'] = serviceAccount

In [None]:
client = storage.Client()
bucket = client.get_bucket('projeto-individual-sc')
bucket.blob('marketing_campaign.csv')
path = '[LINK DO ARQUIVO NO BUCKET]'

## **Configurando a vizualização do dataframe através do Pandas**

In [None]:
df_pandas = pd.read_csv(path, sep=',')
df_pandas.head()

## **Outras Configurações do Pandas**

In [None]:
#Comando utilizado para retirar o limite de visualização de colunas no Pandas
pd.set_option('display.max_columns', None)

In [None]:
#Reduzindo o nome da variável que carrega o dataframe
df = df_pandas

## **Criando um backup do dataframe**

In [None]:
#Criando um backup do dataframe
df2 = df.copy()
dfori = df.copy()

## **Traduzindo o dataframe de EN para PT-BR**

*Traduzindo as Colunas*

In [None]:
df.rename(columns={'Year_Birth':'Ano_de_Nascimento', 'Education':'Escolaridade', 'Marital_Status':'Estado_Civil', 'Income':'Rendimento', \
                   'Kidhome':'Qtd_de_criancas', 'Teenhome':'Qtd_de_adolescentes', 'Dt_Customer':'Data_de_inscricao', 'Recency':'Qtd_dias_ultima_compra', \
                   'MntWines':'Despesa_vinho', 'MntFruits':'Despesa_frutas', 'MntMeatProducts':'Despesa_carne', 'MntFishProducts':'Despesa_peixe', \
                   'MntSweetProducts':'Despesa_doces', 'MntGoldProds':'Despesa_Ouro', 'NumDealsPurchases':'Qtd_desconto_compras', 'NumWebPurchases':'Qtd_compras_web', \
                   'NumCatalogPurchases':'Qtd_compras_catalogo', 'NumStorePurchases':'Qtd_compras_loja', 'NumWebVisitsMonth':'Qtd_visita_site_mes', \
                   'AcceptedCmp3':'Tentativa3', 'AcceptedCmp4':'Tentativa4', 'AcceptedCmp5':'Tentativa5', 'AcceptedCmp1':'Tentativa1', \
                   'AcceptedCmp2':'Tentativa2', 'Complain':'Criticas', 'Z_CostContact':'Custos_de _contato', 'Z_Revenue':'Renda', 'Response':'Resposta'},inplace=True)

*Traduzindo os campos*

*OBS: Existiam três valores (YOLO, Absurd, Alone) nessa coluna que por algum motivo não era permitido trocar os valores por NA. Pesquisado na internet, e foi verificado que tal erro, ocorre que há um desacordo entre o Numpy e o Python nativo sobre o que deve acontecer quando você compara uma string com os tipos numéricos do numpy. O erro que aparece no código é:*



"/usr/local/lib/python3.7/dist-packages/pandas/core/missing.py:94: FutureWarning: elementwise comparison failed; returning scalar instead, but in the future will perform elementwise comparison   mask |= arr == x"




*O Aviso indica que no futuro esse comportamento pode mudar, quando python/numpy decidir adotar o melhor estilo.*

In [None]:
df.Escolaridade.replace('Graduation','Graduação', inplace=True)
df.Escolaridade.replace('Master','Mestrado', inplace=True)
df.Escolaridade.replace('Basic','Fundamental', inplace=True)
df.Escolaridade.replace('2n Cycle','Pós graduação', inplace=True)
df.Estado_Civil.replace('Single','Solteiro', inplace=True)
df.Estado_Civil.replace('Together','União estável', inplace=True)
df.Estado_Civil.replace('Married','Casado', inplace=True)
df.Estado_Civil.replace('Divorced','Divorciado', inplace=True)
df.Estado_Civil.replace('Widow','Viúvo(a)', inplace=True)
#Passamos os valores para 'pd.NA' no formato string devido ao erro que encontramos
df.Estado_Civil.replace('YOLO', 'pd.NA', inplace=True)
df.Estado_Civil.replace('Absurd', 'pd.NA', inplace=True)
df.Estado_Civil.replace('Alone', 'pd.NA', inplace=True)

## **Transformando o formato da coluna data que estava em string em formato date**

Estamos transformando os valores da coluna [Data_de_inscrição] em formato de datas, pois a mesma estava vindo originalmente em formato string.

In [None]:
df['Data_de_inscricao'] = pd.to_datetime(df['Data_de_inscricao'])

## **Verificando a quantidade de valores e o tipo de cada coluna do dataframe**

In [None]:
#Comando utilizado para verificar a quantidade de valores em cada coluna
df.info()

## **Verificando os valores contidos em cada colunas**

Para saber se existe alguma inconscistência nos valores

In [None]:
pd.unique(df['ID'])

In [None]:
pd.unique(df['Ano_de_Nascimento'])

In [None]:
pd.unique(df['Escolaridade'])

In [None]:
pd.unique(df['Estado_Civil'])

In [None]:
pd.unique(df['Rendimento'])

In [None]:
pd.unique(df['Qtd_de_criancas'])

In [None]:
pd.unique(df['Qtd_de_adolescentes'])

In [None]:
pd.unique(df['Data_de_inscricao'])

In [None]:
pd.unique(df['Qtd_dias_ultima_compra'])

In [None]:
pd.unique(df['Despesa_vinho'])

In [None]:
pd.unique(df['Despesa_frutas'])

In [None]:
pd.unique(df['Despesa_carne'])

In [None]:
pd.unique(df['Despesa_peixe'])

In [None]:
pd.unique(df['Despesa_doces'])

In [None]:
pd.unique(df['Despesa_Ouro'])

In [None]:
pd.unique(df['Qtd_desconto_compras'])

In [None]:
pd.unique(df['Qtd_compras_web'])

In [None]:
pd.unique(df['Qtd_compras_catalogo'])

In [None]:
pd.unique(df['Qtd_compras_loja'])

In [None]:
pd.unique(df['Qtd_visita_site_mes'])

In [None]:
pd.unique(df['Tentativa1'])

In [None]:
pd.unique(df['Tentativa2'])

In [None]:
pd.unique(df['Tentativa3'])

In [None]:
pd.unique(df['Tentativa4'])

In [None]:
pd.unique(df['Tentativa5'])

In [None]:
pd.unique(df['Criticas'])

In [None]:
pd.unique(df['Custos_de _contato'])

In [None]:
pd.unique(df['Renda'])

In [None]:
pd.unique(df['Resposta'])

## **Verificando a Quantidade de cada valor contido em cada coluna.**

In [None]:
df['ID'].value_counts()

In [None]:
df['Ano_de_Nascimento'].value_counts()

In [None]:
df['Escolaridade'].value_counts()

In [None]:
df['Estado_Civil'].value_counts()

In [None]:
df['Rendimento'].value_counts()

In [None]:
df['Qtd_de_criancas'].value_counts()

In [None]:
df['Qtd_de_adolescentes'].value_counts()

In [None]:
df['Data_de_inscricao'].value_counts()

In [None]:
df['Qtd_dias_ultima_compra'].value_counts()

In [None]:
df['Despesa_vinho'].value_counts()

In [None]:
df['Despesa_frutas'].value_counts()

In [None]:
df['Despesa_carne'].value_counts()

In [None]:
df['Despesa_peixe'].value_counts()

In [None]:
df['Despesa_doces'].value_counts()

In [None]:
df['Despesa_Ouro'].value_counts()

In [None]:
df['Qtd_desconto_compras'].value_counts()

In [None]:
df['Qtd_compras_web'].value_counts()

In [None]:
df['Qtd_compras_catalogo'].value_counts()

In [None]:
df['Qtd_compras_loja'].value_counts()

In [None]:
df['Qtd_visita_site_mes'].value_counts()

In [None]:
df['Tentativa1'].value_counts()

In [None]:
df['Tentativa2'].value_counts()

In [None]:
df['Tentativa3'].value_counts()

In [None]:
df['Tentativa4'].value_counts()

In [None]:
df['Tentativa5'].value_counts()

In [None]:
df['Criticas'].value_counts()

In [None]:
df['Custos_de _contato'].value_counts()

In [None]:
df['Renda'].value_counts()

In [None]:
df['Resposta'].value_counts()

## **Dropando uma coluna**

Estaremos dropando a coluna [Renda], pois a mesma tem apenas um valor único, 11.

In [None]:
df.drop(['Renda'],axis=1,inplace=True)

## **Subindo o dataframe tratado em Pandas para o nosso bucket.**

In [None]:
df.to_csv('gs://projeto-individual-sc/DATASET TRANSFORMADO/DS-PANDAS/marketing_campaign_pandas.csv',index=False)

## **Subindo o dataframe tratado em Pandas para o Mongodb**

In [None]:
#conector Mongo Atlas (pega no site mongo atlas -> connect -> connect your aplication)
client = MongoClient('mongodb+srv://reraell:RaFa1226@clusterscrenato.gepfd.mongodb.net/myFirstDatabase?retryWrites=true&w=majority')

In [None]:
db = client['Projteste1']
collection = db['Projteste1pd']

In [None]:
#df.reset_index(inplace=True)
df_dict = df.to_dict("records")
collection.insert_many(df_dict)

## **Subindo o dataframe original para o Mongodb**

In [None]:
#conector Mongo Atlas (pega no site mongo atlas -> connect -> connect your aplication)
client = MongoClient('mongodb+srv://reraell:RaFa1226@clusterscrenato.gepfd.mongodb.net/myFirstDatabase?retryWrites=true&w=majority')

In [None]:
db = client['ProjIndDFOri1']
collection = db['ProjIndivOrig1']

In [None]:
#df.reset_index(inplace=True)
df_dict = dfori.to_dict("records")
collection.insert_many(df_dict)