# Insper Jr Challenge 2022 - Análise de dados (01/06)
## Equipe:
- Rafael Pascarelli Niccheri
- Vinícius Matheus Morales
___
### Objetivo:
Desenvolver uma análise completa dos dados da empresa e preparar um Dashboard em PowerBI para a visualização dos dados e dos resultados obtidos. Toda a etapa de Coleta, Tratamento, Análise e Visualização dos Dados devem estar claras. A entrega será feita via GitHub ou GoogleDrive, com a postagem do Dashboard pelo PowerBI
___
#### Obs.:
- A estratégia pode mudar de um commit para outro, caso a equipe julgue necessário
- A organização desse arquivo pode mudar de um commit para outro, caso a equipe julgue necessário
- Metodologias ágeis de desenvolvimento estão sendo utilizadas para uma melhor eficiência
___

# Primeira parte
### Importar as bibliotecas padrões e necessárias
___

In [None]:
# Imports principais
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import time, datetime, os, sys


In [None]:
print(f'Estamos trabalhando na pasta\n{os.getcwd()}')


# Segunda parte
### Ler e armazenar cada db em uma variável
___

In [None]:
# Lendo cada base de dados
clientes_db = pd.read_excel('Base de Dados/clientes.xlsx')
clientes_db


In [None]:
geoloc_db = pd.read_excel('Base de Dados/geolocalizacao.xlsx')
geoloc_db


In [None]:
itens_db = pd.read_excel('Base de Dados/itens.xlsx')
itens_db


In [None]:
pagamento_db = pd.read_excel('Base de Dados/pagamento.xlsx')
pagamento_db


In [None]:
pedidos_db = pd.read_excel('Base de Dados/pedidos.xlsx')
pedidos_db


In [None]:
produtos_db = pd.read_excel('Base de Dados/produtos.xlsx')
produtos_db


In [None]:
reviews_db = pd.read_excel('Base de Dados/reviews.xlsx')
reviews_db


In [None]:
vendedores_db = pd.read_excel('Base de Dados/vendedores.xlsx')
vendedores_db


In [None]:
# Removendo as linhas que não estão no padrão aceitável de reviews_db, como review_score do tipo datetime.datetime


In [None]:
# De onde veio o produto?
# def do_everything(produto_id:str=None, cliente_id:str=None, vendedor_id:str=None):
# Encontrar o CEP do vendedor (De onde veio o produto?)
# vendedor_id = input('Informe o id do vendedor: ')
# cliente_id = input('Informe o id do cliente: ')
# produto_id = input('Informe o id do produto: ')

# cep_vendedor = vendedores_db.loc[vendedores_db['vendedor_id'] == vendedor_id, 'vendedor_CEP']
# lati_vendedor = geoloc_db.loc[geoloc_db['geolocalizacao_CEP'] == cep_vendedor, 'geolocalizacao_latitude']
# long_vendedor = geoloc_db.loc[geoloc_db['geolocalizacao_CEP'] == cep_vendedor, 'geolocalizacao_longitude']

# # Encontrar o CEP do cliente (Para onde foi o produto?)
# cep_cliente = clientes_db.loc[clientes_db['cliente_id'] == cliente_id, 'cliente_CEP']
# lati_cliente = geoloc_db.loc[geoloc_db['geolocalizacao_CEP'] == cep_cliente, 'geolocalizacao_latitude']
# long_cliente = geoloc_db.loc[geoloc_db['geolocalizacao_CEP'] == cep_cliente, 'geolocalizacao_longitude']

# ----- Relacionar os dois com base no produto
# Primeiro selecionar apenas as colunas vendedor_id e vendedor_CEP de vendedores_db
df1 = vendedores_db[['vendedor_id', 'vendedor_CEP']].sort_values('vendedor_id')

# Depois selecionar apenas as colunas pedido_id, numero_de_itens, produto_id, vendedor_id, preco e preco_frete de itens_db
df2 = itens_db[['pedido_id', 'numero_de_itens', 'produto_id', 'vendedor_id', 'preco', 'preco_frete']].sort_values('vendedor_id')

df3 = pd.concat([df1, df2], axis=1).sort_values('pedido_id')

# Selecionar pedido_id, review_score, review_titulo e review_comentario de reviews_db
# PRECISA REMOVER TODAS AS LINHAS COM DATETIME.DATETIME NO PEDIDO_ID
print(isinstance(reviews_db['review_score'], int))
df4 = reviews_db[['pedido_id', 'review_score', 'review_titulo', 'review_comentario']].sort_values('pedido_id')

df5 = pd.concat([df3, df4], axis=1).sort_values('produto_id')

# Selecionar apenas as colunas produto_id, produto_categoria, produto_comprimento_nome e produto_comprimento_descricao de produtos_db
df6 = produtos_db[['produto_id', 'produto_categoria', 'produto_comprimento_nome', 'produto_comprimento_descricao']].sort_values('produto_id')

# Selecionar todo o pagamentos_db
df7 = pagamento_db.sort_values('produto_id')

df8 = pd.concat([df5, df6, df7], axis=1).sort_values('pedido_id')

# Selecionar pedido_id, cliente_id e pedido_status de pedidos_db
df9 = pedidos_db[['pedido_id', 'cliente_id', 'pedido_status']].sort_values('pedido_id')

df10 = pd.concat([df8, df9], axis=1).sort_values('cliente_id')

# Selecionar cliente_id e cliente_CEP de clientes_db
df11 = clientes_db[['cliente_id', 'cliente_CEP']].sort_values('cliente_id')

df = pd.concat([df10, df11], axis=1)
    
df

# Terceira parte
### Fazer uma análise superficial dos dados (ordenações, filtros, etc)
___

In [None]:
# Entendendo clientes_db

# Verificando se algum CEP se repete (True: repete; False: não repete)
print(len(clientes_db['cliente_CEP']) != len(set(clientes_db['cliente_CEP'])))
print(f'Lista cliente_CEP: {len(clientes_db.cliente_CEP)}\nSet cliente_CEP: {len(set(clientes_db.cliente_CEP))}')
print(f'CEPs repetidos: {len(clientes_db.cliente_CEP) - len(set(clientes_db.cliente_CEP))}\n')

# Verificando se algum cliente_id se repete (True: repete; False: não repete)
print(len(clientes_db['cliente_id']) != len(set(clientes_db['cliente_id'])))
print(f'Lista cliente_id: {len(clientes_db.cliente_id)}\nSet cliente_CEP: {len(set(clientes_db.cliente_id))}')
print(f'IDs repetidos: {len(clientes_db.cliente_id) - len(set(clientes_db.cliente_id))}\n')

# Verificando se algum cliente_id_unico repete (True: repete; False: não repete)
print(len(clientes_db['cliente_id_unico']) != len(set(clientes_db['cliente_id_unico'])))
print(f'Lista cliente_id_unico: {len(clientes_db.cliente_id_unico)}\nSet cliente_CEP: {len(set(clientes_db.cliente_id_unico))}')
print(f'IDs únicos repetidos: {len(clientes_db.cliente_id_unico) - len(set(clientes_db.cliente_id_unico))}\n')


In [None]:
# Definindo o tipo de cliente_estado como o tipo 'category'
clientes_db['cliente_estado'] = clientes_db['cliente_estado'].astype('category')

# Vendo todos os estados presentes no db
print(clientes_db['cliente_estado'].cat.categories)

# Vendo quantos estados estão presentes (se 27, então, todos + DF)
print(len(clientes_db['cliente_estado'].cat.categories))


In [None]:
# Vendo quantos clientes tem em cada estado
clientes_db['cliente_estado'].value_counts()


In [None]:
# Vendo as quantidades relativas de estados em x%
clientes_db['cliente_estado'].value_counts(True).round(4)*100


In [None]:
clientes_db['cliente_estado'].value_counts().index.values


In [None]:
# Separando os dataframes por estado

# São Paulo
sp_mask = clientes_db['cliente_estado'] == 'SP'
sp_data = clientes_db.loc[sp_mask, :]
sp_data


In [None]:
# Rio de Janeiro
rj_mask = clientes_db['cliente_estado'] == 'RJ'
rj_data = clientes_db.loc[rj_mask, :]
rj_data


In [None]:
# Minas Gerais
mg_mask = clientes_db['cliente_estado'] == 'MG'
mg_data = clientes_db.loc[mg_mask, :]
mg_data


In [None]:
# Rio Grande do Sul
rs_mask = clientes_db['cliente_estado'] == 'RS'
rs_data = clientes_db.loc[rs_mask, :]
rs_data


In [None]:
# Paraná
pr_mask = clientes_db['cliente_estado'] == 'PR'
pr_data = clientes_db.loc[pr_mask, :]
pr_data


In [None]:
# Santa Catarina
sc_mask = clientes_db['cliente_estado'] == 'SC'
sc_data = clientes_db.loc[sc_mask, :]
sc_data


In [None]:
# Bahia
ba_mask = clientes_db['cliente_estado'] == 'BA'
ba_data = clientes_db.loc[ba_mask, :]
ba_data


In [None]:
# Distrito Federal
df_mask = clientes_db['cliente_estado'] == 'DF'
df_data = clientes_db.loc[df_mask, :]
df_data


In [None]:
# Espírito Santo
es_mask = clientes_db['cliente_estado'] == 'ES'
es_data = clientes_db.loc[es_mask, :]
es_data


In [None]:
# Goiás
go_mask = clientes_db['cliente_estado'] == 'GO'
go_data = clientes_db.loc[go_mask, :]
go_data


In [None]:
# Pernambuco
pe_mask = clientes_db['cliente_estado'] == 'PE'
pe_data = clientes_db.loc[pe_mask, :]
pe_data


In [None]:
# Ceará
ce_mask = clientes_db['cliente_estado'] == 'CE'
ce_data = clientes_db.loc[ce_mask, :]
ce_data


In [None]:
# Pará
pa_mask = clientes_db['cliente_estado'] == 'PA'
pa_data = clientes_db.loc[pa_mask, :]
pa_data


In [None]:
# Mato Grosso
mt_mask = clientes_db['cliente_estado'] == 'MT'
mt_data = clientes_db.loc[mt_mask, :]
mt_data


In [None]:
# Maranhão
ma_mask = clientes_db['cliente_estado'] == 'MA'
ma_data = clientes_db.loc[ma_mask, :]
ma_data


In [None]:
# Mato Grosso do Sul
ms_mask = clientes_db['cliente_estado'] == 'MS'
ms_data = clientes_db.loc[ms_mask, :]
ms_data


In [None]:
# Paraíba
pb_mask = clientes_db['cliente_estado'] == 'PB'
pb_data = clientes_db.loc[pb_mask, :]
pb_data


In [None]:
# Piauí
pi_mask = clientes_db['cliente_estado'] == 'PI'
pi_data = clientes_db.loc[pi_mask, :]
pi_data


In [None]:
# Rio Grande do Norte
rn_mask = clientes_db['cliente_estado'] == 'RN'
rn_data = clientes_db.loc[rn_mask, :]
rn_data


In [None]:
# Alagoas
al_mask = clientes_db['cliente_estado'] == 'AL'
al_data = clientes_db.loc[al_mask, :]
al_data


In [None]:
# Sergipe
se_mask = clientes_db['cliente_estado'] == 'SE'
se_data = clientes_db.loc[se_mask, :]
se_data


In [None]:
# Tocantins
to_mask = clientes_db['cliente_estado'] == 'TO'
to_data = clientes_db.loc[to_mask, :]
to_data


In [None]:
# Rondônia
ro_mask = clientes_db['cliente_estado'] == 'RO'
ro_data = clientes_db.loc[ro_mask, :]
ro_data


In [None]:
# Amazonas
am_mask = clientes_db['cliente_estado'] == 'AM'
am_data = clientes_db.loc[am_mask, :]
am_data


In [None]:
# Acre
ac_mask = clientes_db['cliente_estado'] == 'AC'
ac_data = clientes_db.loc[ac_mask, :]
ac_data


In [None]:
# Amapá
ap_mask = clientes_db['cliente_estado'] == 'AP'
ap_data = clientes_db.loc[ap_mask, :]
ap_data


In [None]:
# Roraima
rr_mask = clientes_db['cliente_estado'] == 'RR'
rr_data = clientes_db.loc[rr_mask, :]
rr_data


# Quarta parte
### Fazer o preprocessamento de dados
___

# Quinta parte
### Fazer análises estatísticas com auxílios gráficos
___

# Sexta parte
### Preparar o ambiente para o machine learning
___

# Sétima parte
### Testar o machine learning
___

# Oitava parte
### Fazer uma nova análise estatística com auxílios gráficos
___

# Nona parte
### Preparar o Dashboard em PowerBI
___