# <font color=#bf7c2a> **Aula 1**

#### <font color=#9c9c9c> Desafio referente à Aula 1. "Entendendo o problema" do curso **"Pandas: transformação e manipulação de dados"**, da *Alura*.

Chegou a hora de pôr em prática tudo o que aprendemos durante as aulas. Preparei dois projetos extras para desenvolvermos durante o curso, para garantir que possamos praticar bastante! Para isso, vamos trabalhar com 2 novos conjuntos de dados, mas que dessa vez serão bem menores. As bases de dados estão disponíveis para download abaixo:

- Projeto desafio 1: vendas online - [dados_vendas_clientes.json](https://cdn3.gnarususercontent.com.br/2928-transformacao-manipulacao-dados/dados_vendas_clientes.json);
- Projeto desafio 2: administração de condomínios - [dados_locacao_imoveis.json](https://cdn3.gnarususercontent.com.br/2928-transformacao-manipulacao-dados/dados_locacao_imoveis.json).

Em cada aula, desenvolveremos uma etapa dos projetos. Portanto, salve seu código de construção em cada desafio para que possa aplicá-lo nos desafios posteriores.

In [None]:
# Importa a biblioteca Pandas
import pandas as pd

### <font color=#c09c6f> **Etapa 1** </font>

- <font color=#5f503e>**Projeto desafio 1: vendas online**</font>

O objetivo desse projeto é realizar uma análise dos resultados de um evento com os clientes de uma empresa de vendas online. Foi coletado um conjunto de dados que contém os clientes que mais gastaram com produtos dentro de 5 dias de vendas, que é o período de duração do evento. Essa análise vai identificar o cliente com a maior compra na semana, que irá receber um prêmio da loja, e posteriormente, ela pode ajudar a empresa a criar novas estratégias para atrair mais clientes.

A base de dados utilizada nessa análise é a [dados_vendas_clientes.json](https://cdn3.gnarususercontent.com.br/2928-transformacao-manipulacao-dados/dados_vendas_clientes.json) e contém informações importantes sobre os clientes como, o nome de cadastro do cliente, o valor total pago na compra e o dia da compra.

Sabendo essas informações, o **desafio do projeto 1: vendas online** será abrir a base de dados com Pandas e aplicar o [json_normalize](https://pandas.pydata.org/docs/reference/api/pandas.json_normalize.html).

In [None]:
# Carrega e exibe estado da base de dados
dados_vendas = pd.read_json('dados_vendas_clientes.json')
dados_vendas.head()


In [None]:
# Normaliza os dados aninhados do arquivo JSON
dados_vendas = pd.json_normalize(dados_vendas['dados_vendas'])
dados_vendas

- <font color=#5f503e>**Projeto desafio 2: administração de condomínios**</font>

A administração de condomínios é uma tarefa que requer muita atenção e organização. Entre as diversas responsabilidades da gestão está o recebimento dos aluguéis dos locatários. Para garantir uma boa saúde financeira do empreendimento, é fundamental que esses pagamentos sejam feitos de forma regular e pontual. No entanto, sabemos que nem sempre isso acontece.

Pensando nisso, proponho um desafio de tratamento de dados com o objetivo de **analisar o atraso no pagamento de aluguéis no condomínio** de alguns moradores. Disponibilizo a base de dados [dados_locacao_imoveis.json](https://cdn3.gnarususercontent.com.br/2928-transformacao-manipulacao-dados/dados_locacao_imoveis.json), que contém informações sobre o apartamento dos locatários, o dia acordado para o pagamento do aluguel, o dia da efetivação do pagamento de aluguel e o valor do aluguel.

Com essas informações, o desafio do projeto 2: administração de condomínios será similar ao desafio do projeto 1, abrir a base de dados com Pandas e aplicar o [json_normalize](https://pandas.pydata.org/docs/reference/api/pandas.json_normalize.html) no DataFrame.

In [None]:
# Carrega e exibe o estado da base de dados
dados_locacao = pd.read_json('dados_locacao_imoveis.json')
dados_locacao.head()

In [None]:
# Normaliza os dados aninhados no arquivo JSON
dados_locacao = pd.json_normalize(dados_locacao['dados_locacao'])
dados_locacao

---

# <font color=#bf7c2a> **Aula 2**

#### <font color=#9c9c9c> Desafio referente à Aula 2. "Dados numéricos" do curso **"Pandas: transformação e manipulação de dados"**, da *Alura*.

Voltemos a pôr em prática tudo o que aprendemos durante as aulas. Disponibilizei novamente os 2 novos conjuntos de dados para download abaixo:

- Projeto desafio 1: vendas online - [dados_vendas_clientes.json](https://cdn3.gnarususercontent.com.br/2928-transformacao-manipulacao-dados/dados_vendas_clientes.json);
- Projeto desafio 2: administração de condomínios - [dados_locacao_imoveis.json](https://cdn3.gnarususercontent.com.br/2928-transformacao-manipulacao-dados/dados_locacao_imoveis.json).

**Lembrando:** São dois projetos de tratamento que serão construídos durante o andamento do curso. Portanto, salve seu código de construção em cada desafio para que possa aplicá-lo nos desafios posteriores.

### <font color=#c09c6f> **Etapa 2** </font>

- <font color=#5f503e>**Projeto desafio 1: vendas online** </font>

Lemos a base de dados no desafio anterior, agora podemos avançar nas transformações desses dados. Então, o novo desafio do projeto 1 será dividido em algumas metas:

- Remover os dados em listas dentro do DataFrame;
- Verificar os tipos de dados;
- Identificar colunas numéricas;
- Transformar a coluna numérica para o tipo numérico.

In [None]:
# Armazena as colunas em uma lista
colunas = list(dados_vendas.columns)

In [None]:
# Retira as listas do DataFrame
dados_vendas = dados_vendas.explode(colunas[1:])
dados_vendas

In [None]:
# Reseta a coluna de index
dados_vendas.reset_index(inplace=True, drop=True)
dados_vendas.head()

In [None]:
# Verifica o tipo de dados das colunas
dados_vendas.info()

In [None]:
# Importa a biblioteca NumPy
import numpy as np

In [None]:
# Retira os caracteres 'R$'
dados_vendas['Valor da compra'] = dados_vendas['Valor da compra'].astype(str).apply(lambda x: x.replace('R', '').replace('$', '').replace(',','.').strip())
dados_vendas

In [None]:
# Coverte a coluna 'Valor da compra' para float
dados_vendas['Valor da compra'] = dados_vendas['Valor da compra'].astype(np.float64)
dados_vendas.head()

In [None]:
# Verifica os tipos das colunas
dados_vendas.info()

In [None]:
# Converte a coluna 'Data de venda' para o formato de data
dados_vendas['Data de venda'] = pd.to_datetime(dados_vendas['Data de venda'])
dados_vendas

In [None]:
# Confere os formatos das colunas
dados_vendas.info()

- <font color=#5f503e>**Projeto desafio 2: administração de condomínios**</font>

Lemos a base de dados no desafio anterior, agora podemos avançar nas transformações desses dados. Então, da mesma forma que o projeto 1, o desafio do projeto 2 está listado em algumas metas:

- Remover os dados em listas dentro do DataFrame;
- Verificar os tipos de dados;
- Identificar colunas numéricas;
- Transformar a coluna numérica para o tipo numérico.

In [None]:
# Exibe o DataFrame de locação de imóveis
dados_locacao

In [None]:
colunas_locacao = list(dados_locacao.columns)
colunas_locacao

In [None]:
# Retira as listas das colunas do DataFrame
dados_locacao = dados_locacao.explode(colunas_locacao[1:])
dados_locacao

In [None]:
# Reseta a coluna de index do DataFrame
dados_locacao.reset_index(inplace=True, drop=True)
dados_locacao

In [None]:
dados_locacao['valor_aluguel'] = dados_locacao['valor_aluguel'].apply(lambda x: x.replace('$','').replace(',','.').replace('reais','').strip())

In [None]:
# Converte os dados da coluna 'valor_aluguel' para float
dados_locacao['valor_aluguel'] = dados_locacao['valor_aluguel'].astype(np.float64)

In [None]:
# Verifica os formatos das colunas do DataFrame
dados_locacao.info()

---

# <font color=#bf7c2a> **Aula 3**

#### <font color=#9c9c9c> Desafio referente à Aula 3. "Dados textuais" do curso **"Pandas: transformação e manipulação de dados"**, da *Alura*.

Voltemos a pôr em prática tudo o que aprendemos durante as aulas. Disponibilizei novamente os 2 novos conjuntos de dados para download abaixo:

- Projeto desafio 1: vendas online - [dados_vendas_clientes.json](https://cdn3.gnarususercontent.com.br/2928-transformacao-manipulacao-dados/dados_vendas_clientes.json);
- Projeto desafio 2: administração de condomínios - [dados_locacao_imoveis.json](https://cdn3.gnarususercontent.com.br/2928-transformacao-manipulacao-dados/dados_locacao_imoveis.json).

**Lembrando:** São dois projetos de tratamento que serão construídos durante o andamento do curso. Portanto, salve seu código de construção em cada desafio para que possa aplicá-lo nos desafios posteriores.

### <font color=#c09c6f> **Etapa 3** </font>

- <font color=#5f503e>**Projeto desafio 1: vendas online** </font>

Na etapa 2, trabalhamos na transformação dos dados numéricos. Agora, podemos trabalhar com valores textuais.

Devido a uma instabilidade no site da empresa, tivemos problemas com os nomes dos clientes durante o salvamento. Isso resultou em uma coluna de nomes de clientes com uma mistura de letras, maiúsculas e minúsculas, números e outros caracteres.

Sabendo disso, manipule os textos presentes na coluna `Cliente` para que seja obtido como resultado os nomes dos clientes em letras minúsculas, com a ausência de caracteres especiais ou números.

In [None]:
# Exibe a coluna "CLiente"
dados_vendas['Cliente']

In [None]:
# Coloca todas as letras da coluna em minúsculo
dados_vendas['Cliente'] = dados_vendas['Cliente'].str.lower()

In [None]:
# Retira os números e caracteres indesejados da coluna
dados_vendas['Cliente'] = dados_vendas['Cliente'].str.replace('[^a-z]', ' ', regex=True)
dados_vendas['Cliente']

In [None]:
# Retira os espaços duplos da coluna
dados_vendas['Cliente'] = dados_vendas['Cliente'].str.replace('  ', ' ')


In [None]:
# Apara os textos da coluna
dados_vendas['Cliente'] = dados_vendas['Cliente'].str.strip()

In [None]:
# Coloca os nomes em letra maiúscula
dados_vendas['Cliente'] = dados_vendas['Cliente'].str.title()

- <font color=#5f503e>**Projeto desafio 2: administração de condomínios** </font>

**Na etapa 2**, trabalhamos na transformação dos dados numéricos. Agora, podemos trabalhar com valores textuais.

Buscando explicar a organização da identificação dos apartamentos, durante a criação do conjunto de dados, foi adicionado o texto `(blocoAP)`. Esse texto informa que os nomes dos apartamentos estão organizados com a letra do bloco seguida do número do apartamento. No entanto, isso não traz nenhuma informação para nossos dados, sendo interessante realizar a remoção desse texto no conjunto de dados.

Com isso, manipule os textos na coluna `apartamento` para remover o texto `(blocoAP)` do DataFrame.

In [None]:
# Exibe a coluna "apartamento"
dados_locacao['apartamento']

In [None]:
# Retira o texto "(blocoAP)" da coluna
dados_locacao['apartamento'] = dados_locacao['apartamento'].str.replace('(blocoAP)', '')

In [None]:
# Exibe a coluna após o tratamento
dados_locacao['apartamento']

---

# <font color=#bf7c2a> **Aula 4. Dados de Tempo**

#### <font color=#9c9c9c> Desafio referente à Aula 4. "Dados de tempo" do curso **"Pandas: transformação e manipulação de dados"**, da *Alura*.

Voltemos a pôr em prática tudo o que aprendemos durante as aulas. Disponibilizei novamente os 2 novos conjuntos de dados para download abaixo:

- Projeto desafio1: vendas online - [dados_vendas_clientes.json](https://cdn3.gnarususercontent.com.br/2928-transformacao-manipulacao-dados/dados_vendas_clientes.json);
- Projeto desafio 2: administração de condomínios - [dados_locacao_imoveis.json](https://cdn3.gnarususercontent.com.br/2928-transformacao-manipulacao-dados/dados_locacao_imoveis.json).

**Lembrando:** Esses dois projetos de tratamento foram construídos durante o andamento do curso. Portanto, considere os desenvolvimentos anteriores para a realização dessa etapa final.

### <font color=#c09c6f> **Etapa 4** </font>

- <font color=#5f503e>**Projeto desafio 1: vendas online** </font>

Nas etapas anteriores, já trabalhamos com vários tipos de dados, agora podemos trabalhar com os dados de tempo.

Na coluna `Data de venda`, temos datas em formato 'dia/mês/ano' (`dd/mm/AAAA`). Transforme esses dados para o tipo datetime e busque uma forma de visualização de subconjunto que possa contribuir no objetivo do contexto que os dados estão inseridos.

Se você não lembra o problema do projeto desafio 1, vou deixar abaixo o texto da situação para facilitar o encontro da informação:

> O objetivo desse projeto é realizar uma análise dos resultados de um evento com os clientes de uma empresa de vendas online. Foi coletado um conjunto de dados que contém os clientes que mais gastaram com produtos dentro de 5 dias de vendas, que é o período de duração do evento. Essa análise vai identificar o cliente com a maior compra na semana, que irá receber um prêmio da loja, e posteriormente, ela pode ajudar a empresa a criar novas estratégias para atrair mais clientes.

In [None]:
# Exibe as primeiras 5 linhas do Dataframe
dados_vendas.head()

In [None]:
# Converte a coluna 'Data de Venda' para datetime
dados_vendas['Data de venda'] = dados_vendas['Data de venda'].dt.strftime('%d-%m-%Y')

In [None]:
# Exibe os tipos das colunas do DataFrame
dados_vendas.info()

In [None]:
# Encontra o cliente com o maior valor de compras nos 5 dias
dados_vendas.groupby(dados_vendas['Cliente'])['Valor da compra'].sum().idxmax()

- <font color=#5f503e>**Projeto desafio 2: administração de condomínios** </font>

Assim como no projeto desafio 1, trabalhamos com todas as colunas exceto as que envolvem datas.

Nas colunas `datas_de_pagamento` e `datas_combinadas_pagamento`, temos datas em formato 'dia/mês/ano' (`dd/mm/AAAA`). Transforme esses dados para o tipo datetime e busque uma forma de visualização de subconjunto que possa contribuir no objetivo do contexto que os dados estão inseridos.

Se você não lembra o problema do projeto desafio 2, vou deixar abaixo o texto da situação para facilitar o encontro da informação:

> A administração de condomínios é uma tarefa que requer muita atenção e organização. Entre as diversas responsabilidades da gestão está o recebimento dos aluguéis dos locatários. Para garantir uma boa saúde financeira do empreendimento, é fundamental que esses pagamentos sejam feitos de forma regular e pontual. No entanto, sabemos que nem sempre isso acontece. Pensando nisso, proponho um desafio de tratamento de dados com o objetivo de analisar o atraso no pagamento de aluguéis no condomínio fictício de alguns moradores.

In [None]:
# Exibe as primeiras 5 linhas do DataFrame
dados_locacao.head()

In [None]:
# Verifica o tipo de dados das colunas
dados_locacao.info()

In [None]:
# Transforma as colunas em datetime
dados_locacao['datas_combinadas_pagamento'] = pd.to_datetime(dados_locacao['datas_combinadas_pagamento'], errors='coerce')
dados_locacao['datas_de_pagamento'] = pd.to_datetime(dados_locacao['datas_de_pagamento'], errors='coerce')

In [None]:
# Verifica o tipo de dados das colunas
dados_locacao.info()

In [None]:
# Cria a coluna que informa a diferença entre a data combinada e a data de pagamento
dados_locacao['dias_de_atraso_adiantamento'] = dados_locacao['datas_combinadas_pagamento'] - dados_locacao['datas_de_pagamento']

In [None]:
# Reseta a coluna de índices do DataFrame
dados_locacao.reset_index(drop=True)

In [None]:
# Calcula a média de dias de atraso no pagamento dos aluguéis
dados_locacao['dias_de_atraso_adiantamento'].mean()

---