### Desafio: trabalhando em outros contextos

#### Etapa 1

- Projeto desafio 1: vendas online 

O objetivo desse projeto é realizar uma análise dos resultados de um evento com os clientes de uma empresa de vendas online. Foi coletado um conjunto de dados que contém os clientes que mais gastaram com produtos dentro de 5 dias de vendas, que é o período de duração do evento. Essa análise vai identificar o cliente com a maior compra na semana, que irá receber um prêmio da loja, e posteriormente, ela pode ajudar a empresa a criar novas estratégias para atrair mais clientes.

A base de dados utilizada nessa análise é a [dados_vendas_clientes.json](https://cdn3.gnarususercontent.com.br/2928-transformacao-manipulacao-dados/dados_vendas_clientes.json) e contém informações importantes sobre os clientes como, o nome de cadastro do cliente, o valor total pago na compra e o dia da compra.

Sabendo essas informações, o desafio do projeto 1: vendas online será abrir a base de dados com Pandas e aplicar o ```json_normalize```.

In [None]:
import pandas as pd

In [None]:
url = 'pandas-dados/dados_vendas_clientes.json'

In [None]:
dados_projeto1 = pd.read_json(url)
dados_projeto1.head()

In [None]:
dados_projeto1 = pd.json_normalize(dados_projeto1['dados_vendas'])
dados_projeto1

#### Etapa 2

- Projeto desafio 1: vendas online

Lemos a base de dados no desafio anterior, agora podemos avançar nas transformações desses dados. Então, o novo desafio do projeto 1 será dividido em algumas metas:

- Remover os dados em listas dentro do DataFrame;
- Verificar os tipos de dados;
- Identificar colunas numéricas;
- Transformar a coluna numérica para o tipo numérico.

In [None]:
colunas_explode = list(dados_projeto1.columns[1:3])
colunas_explode


In [None]:
dados_projeto1 = dados_projeto1.explode(colunas_explode, ignore_index=True)
dados_projeto1

Identificar colunas numericas

In [None]:
dados_projeto1.info()

Transformar a coluna identificada para o tipo numerico

In [None]:
import numpy as np

In [None]:
dados_projeto1['Valor da compra'] = dados_projeto1['Valor da compra'].apply(lambda x : x.replace('R$', '').replace(',', '.').strip().strip()).astype(np.float64)

In [None]:
dados_projeto1.info()

#### Etapa 3

- Projeto desafio 1: vendas online

Na etapa 2, trabalhamos na transformação dos dados numéricos. Agora, podemos trabalhar com valores textuais.

Devido a uma instabilidade no site da empresa, tivemos problemas com os nomes dos clientes durante o salvamento. Isso resultou em uma coluna de nomes de clientes com uma mistura de letras, maiúsculas e minúsculas, números e outros caracteres.

Sabendo disso, manipule os textos presentes na coluna Cliente para que seja obtido como resultado os nomes dos clientes em letras minúsculas, com a ausência de caracteres especiais ou números.

In [None]:
dados_projeto1

In [None]:
dados_projeto1['Cliente'] = dados_projeto1['Cliente'].str.replace('[^a-zA-ZÀ-ÖØ-öø-ÿ ]+','', regex = True).str.lower().str.strip()

In [None]:
dados_projeto1

#### Etapa 4

- Projeto desafio 1: vendas online

Nas etapas anteriores, já trabalhamos com vários tipos de dados, agora podemos trabalhar com os dados de tempo.

Na coluna ```Data de venda```, temos datas em formato 'dia/mês/ano' (```dd/mm/AAAA```). Transforme esses dados para o tipo datetime e busque uma forma de visualização de subconjunto que possa contribuir no objetivo do contexto que os dados estão inseridos.

Se você não lembra o problema do projeto desafio 1, vou deixar abaixo o texto da situação para facilitar o encontro da informação:

```
O objetivo desse projeto é realizar uma análise dos resultados de um evento com os clientes de uma empresa de vendas online. Foi coletado um conjunto de dados que contém os clientes que mais gastaram com produtos dentro de 5 dias de vendas, que é o período de duração do evento. Essa análise vai identificar o cliente com a maior compra na semana, que irá receber um prêmio da loja, e posteriormente, ela pode ajudar a empresa a criar novas estratégias para atrair mais clientes.

```


In [None]:
dados_projeto1.info()

In [None]:
dados_projeto1['Data de venda'] = pd.to_datetime(dados_projeto1['Data de venda'])
dados_projeto1.info()

In [None]:
dados_projeto1.head()

In [None]:
dados_projeto1['Data de venda'] = dados_projeto1['Data de venda'].dt.strftime('%Y-%m')

In [None]:
dados_projeto1

In [None]:
dados_projeto1.groupby(['Data de venda','Cliente'])[['Valor da compra']].sum()

In [None]:
ranking_compras = dados_projeto1.groupby('Cliente')[['Valor da compra']].sum().sort_values('Valor da compra',ascending=False)

In [None]:
ranking_compras