# Exploration

#### Objetivo do Projeto:

Combinar dados de duas empresas que fizeram uma fusão, portanto eles precisam dos dados da Empresa A e da Empresa B juntos em um só arquivo para ser disponibilizado para a equipe de Business Intelligence (BI).

#### Etapas:
- [Extração de Dados](#extração-de-dados)
- Tranformação de Dados

### Extração de Dados
 
**Objetivo:** Obter dados de fontes diferentes e conseguir carregar eles no notebook.

#### Extraindo dados da Empresa A (.json)

Para trabalhar com dados .json ([JavaScript Object Notation](https://www.json.org/json-en.html)), é muito comúm utilizar a biblioteca nativa do Python chamada [json](https://docs.python.org/pt-br/3/library/json.html). Essa biblioteca permite fazer manipulações de diversos tipos em arquivos .json e até mesmo converter arquivos de outros tipos em .json, é uma das bibliotecas mais útilizadas em Python, devido ser comúm a maioria dos dados de APIs e Sistemas serem transitados em .json.

In [20]:
#importando lib
import json

#Caminho do arquivo .json empresa A
path_json = '../data_raw/dados_empresaA.json'

#Abrindo .json e atribuindo a variável dados_json
with open(path_json, 'r') as file:
    dados_json = json.load(file)

#Identificando tipo dos dados
print(type(dados_json))

#Imprimindo o segundo item do .json
dados_json[1]


<class 'list'>


{'Nome do Produto': 'Lápis de sobrancelha',
 'Categoria do Produto': 'Eletrodomésticos',
 'Preço do Produto (R$)': 85.47,
 'Quantidade em Estoque': 78,
 'Filial': 'Filial 8'}

#### Extraindo dados da Empresa B (.csv)

Para trabalhar com dados em formato .csv ([Comma Separated Values](https://pt.wikipedia.org/wiki/Comma-separated_values)), é muito utilizada a biblioteca [csv](https://docs.python.org/3/library/csv.html), que por sua vez possui diversos metodos de manipulação de dados de formato .csv. Esse tipo de dado é muito comúm em tarefas administrativas onde se usa com frequência Excel e SQL.

>Dentro do contexto do projeto, os dados da Empresa B (.csv), precisam ser um pouco mais trabalhados para que o retorno seja uma uma Lista de Dicionários Python.

In [21]:
#importando lib csv
import csv

#Caminho do arquivo .csv empresa B
path_csv = '../data_raw/dados_empresaB.csv'

#Criando lista vazia
dados_csv = []

#Abrindo .csv
with open(path_csv, 'r') as file:
    
    #Atribuindo dados na variavel spamreader
    spamreader = csv.DictReader(file, delimiter=',')
    
    #Para cada linha do spamreader 
    for row in spamreader:
        #Adiciona linha (dict) na lista dados_csv
        dados_csv.append(row)

#Identificando tipo dos dados
type(dados_csv)
      
#Imprimindo o segundo item do .json
dados_csv[1]

{'Nome do Item': 'Batom matte',
 'Classificação do Produto': 'Eletrônicos',
 'Valor em Reais (R$)': '74.15',
 'Quantidade em Estoque': '48',
 'Nome da Loja': 'Filial 9',
 'Data da Venda': '2023-06-03 18:58:06.794203'}

### Anotação

In [22]:
dados_csv[0]

{'Nome do Item': 'Lápis de sobrancelha',
 'Classificação do Produto': 'Roupas',
 'Valor em Reais (R$)': '55.17',
 'Quantidade em Estoque': '62',
 'Nome da Loja': 'Filial 1',
 'Data da Venda': '2023-04-13 18:58:06.794203'}

In [23]:
dados_json[0]

{'Nome do Produto': 'Blush em pó',
 'Categoria do Produto': 'Eletrodomésticos',
 'Preço do Produto (R$)': 79.41,
 'Quantidade em Estoque': 7,
 'Filial': 'Filial 7'}

In [24]:
# Como os os nome das colunas são diferentes, precisamos igualar o schema entre as duas bases

#passando nomes de coluna para lista
nome_colunas_json = list(dados_json[0].keys())
nome_colunas_json

['Nome do Produto',
 'Categoria do Produto',
 'Preço do Produto (R$)',
 'Quantidade em Estoque',
 'Filial']

In [8]:
#contando o número de colunas
len(nome_colunas_json)

5

In [25]:
#fazendo o mesmo para o csv
nome_colunas_csv = list(dados_csv[0].keys())
nome_colunas_csv

['Nome do Item',
 'Classificação do Produto',
 'Valor em Reais (R$)',
 'Quantidade em Estoque',
 'Nome da Loja',
 'Data da Venda']

In [26]:
#contando o número de colunas ( csv tem mais colunas que o json - que é o data da venda)
len(nome_colunas_csv)

#Quando não se souber qual o conteúdo de cada campo, deve se buscar a documentação da base ou consultar o time de BI

#Qual nome faz mais sentido o do json ou do csv? Nesse caso tanto faz, o ideal é enviar as opções para o time de BI ou Negócio para definir o schema ideal.
#Conversando com o time de analytics, foi definido que os nome de campo da empesa A foi escolhido.

6

In [33]:
#Como a estrutura de dados escolhida para cada base era uma lista de dicionários, será necessário passar item a item da lista para alterar o nome
#de cada registro. Existem outras formas de fazer essas alterações, mas seguiremos com essa.


key_mapping = {'Nome do Item':'Nome do Produto',
               'Classificação do Produto':'Categoria do Produto',
               'Valor em Reais (R$)':'Preço do Produto (R$)',
               'Quantidade em Estoque':'Quantidade em Estoque',
               'Nome da Loja':'Filial',
               'Data da Venda':'Data da Venda'}

key_mapping

{'Nome do Item': 'Nome do Produto',
 'Classificação do Produto': 'Categoria do Produto',
 'Valor em Reais (R$)': 'Preço do Produto (R$)',
 'Quantidade em Estoque': 'Quantidade em Estoque',
 'Nome da Loja': 'Filial',
 'Data da Venda': 'Data da Venda'}

In [34]:
new_dados_csv = []

#pega um dic antigo da lista dados_csv
for old_dict in dados_csv:
    #dicionario temporário
    dict_temp = {}
    #pega a chave antiga e o valor do dict antigo
    for old_key, value in old_dict.items():
        #Salvando novas chaves e atribuindo valor a elas
        dict_temp[key_mapping[old_key]] = value
    #adicionando dados corrigidos na lista
    new_dados_csv.append(dict_temp)

new_dados_csv[0]

{'Nome do Produto': 'Lápis de sobrancelha',
 'Categoria do Produto': 'Roupas',
 'Preço do Produto (R$)': '55.17',
 'Quantidade em Estoque': '62',
 'Filial': 'Filial 1',
 'Data da Venda': '2023-04-13 18:58:06.794203'}