# Pandas: transformação e manipulação de dados

In [85]:
import pandas as pd

## json_normalize()

O método json_normalize() é usado para normalizar um objeto JSON que pode ter uma ou várias hierarquias. Quando o objeto é transformado para um formato de tabela com múltiplas colunas, cada coluna representa uma chave do JSON e cada linha representa um registro. É uma forma de tornar os dados mais fáceis de manipular e analisar.

In [86]:
dados = pd.json_normalize(dados['info_moveis'])
dados

KeyError: 'info_moveis'

### Desafio: trabalhando em outros contextos

Projeto desafio 1: vendas online

O objetivo desse projeto é realizar uma análise dos resultados de um evento com os clientes de uma empresa de vendas online. Foi coletado um conjunto de dados que contém os clientes que mais gastaram com produtos dentro de 5 dias de vendas, que é o período de duração do evento. Essa análise vai identificar o cliente com a maior compra na semana, que irá receber um prêmio da loja, e posteriormente, ela pode ajudar a empresa a criar novas estratégias para atrair mais clientes.


A base de dados utilizada nessa análise é a dados_vendas_clientes.json e contém informações importantes sobre os clientes como, o nome de cadastro do cliente, o valor total pago na compra e o dia da compra.


Sabendo essas informações, o desafio do projeto 1: vendas online será abrir a base de dados com Pandas e aplicar o json_normalize.

In [None]:
desafio_dados_vendas = pd.read_json("C:\\Users\\tamir\\OneDrive\\Área de Trabalho\\Curso - Python para Data\\Data Science - Python\\Pandas transformação e manipulação de dados\\dados_vendas_clientes.json")
desafio_dados_vendas

Unnamed: 0,dados_vendas
0,"{'Data de venda': '06/06/2022', 'Cliente': ['@..."
1,"{'Data de venda': '07/06/2022', 'Cliente': ['I..."
2,"{'Data de venda': '08/06/2022', 'Cliente': ['I..."
3,"{'Data de venda': '09/06/2022', 'Cliente': ['J..."
4,"{'Data de venda': '10/06/2022', 'Cliente': ['M..."


In [None]:
desafio_dados_vendas = pd.json_normalize(desafio_dados_vendas['dados_vendas'])
desafio_dados_vendas

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,"[@ANA _LUCIA 321, DieGO ARMANDIU 210, DieGO AR...","[R$ 836,5, R$ 573,33, R$ 392,8, R$ 512,34]"
1,07/06/2022,"[Isabely JOanes 738, Isabely JOanes 738, Isabe...","[R$ 825,31, R$ 168,07, R$ 339,18, R$ 314,69]"
2,08/06/2022,"[Isabely JOanes 738, JOãO Gabriel 671, Julya m...","[R$ 682,05, R$ 386,34, R$ 622,65, R$ 630,79]"
3,09/06/2022,"[Julya meireles 914, MaRIA Julia 444, MaRIA Ju...","[R$ 390,3, R$ 759,16, R$ 334,47, R$ 678,78]"
4,10/06/2022,"[MaRIA Julia 444, PEDRO PASCO 812, Paulo castr...","[R$ 314,24, R$ 311,15, R$ 899,16, R$ 885,24]"


Projeto desafio 2: administração de condomínios


A administração de condomínios é uma tarefa que requer muita atenção e organização. Entre as diversas responsabilidades da gestão está o recebimento dos aluguéis dos locatários. Para garantir uma boa saúde financeira do empreendimento, é fundamental que esses pagamentos sejam feitos de forma regular e pontual. No entanto, sabemos que nem sempre isso acontece.

Pensando nisso, proponho um desafio de tratamento de dados com o objetivo de analisar o atraso no pagamento de aluguéis no condomínio de alguns moradores. Disponibilizo a base de dados dados_locacao_imoveis.json, que contém informações sobre o apartamento dos locatários, o dia acordado para o pagamento do aluguel, o dia da efetivação do pagamento de aluguel e o valor do aluguel.

Com essas informações, o desafio do projeto 2: administração de condomínios será similar ao desafio do projeto 1, abrir a base de dados com Pandas e aplicar o json_normalize no DataFrame.

In [None]:
desafio_dados_locacao = pd.read_json("C:\\Users\\tamir\\OneDrive\\Área de Trabalho\\Curso - Python para Data\\Data Science - Python\\Pandas transformação e manipulação de dados\\dados_locacao_imoveis.json")
desafio_dados_locacao

Unnamed: 0,dados_locacao
0,"{'apartamento': 'A101 (blocoAP)', 'datas_combi..."
1,"{'apartamento': 'A102 (blocoAP)', 'datas_combi..."
2,"{'apartamento': 'B201 (blocoAP)', 'datas_combi..."
3,"{'apartamento': 'B202 (blocoAP)', 'datas_combi..."
4,"{'apartamento': 'C301 (blocoAP)', 'datas_combi..."
5,"{'apartamento': 'C302 (blocoAP)', 'datas_combi..."
6,"{'apartamento': 'D401 (blocoAP)', 'datas_combi..."
7,"{'apartamento': 'D402 (blocoAP)', 'datas_combi..."
8,"{'apartamento': 'E501 (blocoAP)', 'datas_combi..."
9,"{'apartamento': 'E502 (blocoAP)', 'datas_combi..."


In [None]:
desafio_dados_locacao = pd.json_normalize(desafio_dados_locacao['dados_locacao'])
desafio_dados_locacao

Unnamed: 0,apartamento,datas_combinadas_pagamento,datas_de_pagamento,valor_aluguel
0,A101 (blocoAP),"[01/06/2022, 01/07/2022]","[05/06/2022, 03/07/2022]","[$ 1000,0 reais, $ 2500,0 reais]"
1,A102 (blocoAP),"[02/06/2022, 02/07/2022]","[02/06/2022, 06/07/2022]","[$ 1100,0 reais, $ 2600,0 reais]"
2,B201 (blocoAP),"[03/06/2022, 03/07/2022]","[07/06/2022, 03/07/2022]","[$ 1200,0 reais, $ 2700,0 reais]"
3,B202 (blocoAP),"[04/06/2022, 04/07/2022]","[07/06/2022, 05/07/2022]","[$ 1300,0 reais, $ 2800,0 reais]"
4,C301 (blocoAP),"[05/06/2022, 05/07/2022]","[10/06/2022, 09/07/2022]","[$ 1400,0 reais, $ 2900,0 reais]"
5,C302 (blocoAP),"[06/06/2022, 06/07/2022]","[08/06/2022, 12/07/2022]","[$ 1500,0 reais, $ 1200,0 reais]"
6,D401 (blocoAP),"[07/06/2022, 07/07/2022]","[07/06/2022, 09/07/2022]","[$ 1600,0 reais, $ 1300,0 reais]"
7,D402 (blocoAP),"[08/06/2022, 08/07/2022]","[10/06/2022, 14/07/2022]","[$ 1700,0 reais, $ 1400,0 reais]"
8,E501 (blocoAP),"[09/06/2022, 09/07/2022]","[10/06/2022, 09/07/2022]","[$ 1800,0 reais, $ 1500,0 reais]"
9,E502 (blocoAP),"[10/06/2022, 10/07/2022]","[16/06/2022, 12/07/2022]","[$ 1900,0 reais, $ 1600,0 reais]"


## Dados Numericos

Para desagrupar esses dados, podemos utilizar o método .explode(), que separa as informações em linhas. Ele requer que enviemos o nome das colunas que serão transformadas, então o primeiro passo é coletar esses nomes.

In [None]:
colunas = list(dados.columns)
colunas

['avaliacao_geral',
 'experiencia_local',
 'max_hospedes',
 'descricao_local',
 'descricao_vizinhanca',
 'quantidade_banheiros',
 'quantidade_quartos',
 'quantidade_camas',
 'modelo_cama',
 'comodidades',
 'taxa_deposito',
 'taxa_limpeza',
 'preco']

### Usando o .explode() para desagrupar dados

Como queremos que nosso dataframe não possua dados agrupados em listas, vamos reatribuir essas informações para os dados já destrinchados em linhas. Para isso, passamos o método .explode() especificando as colunas de dados que queremos que sejam separados em linhas. Ou seja, a lista colunas a partir do índice 3, seguido de :, que indica que deve ir até o último valor da lista.

In [None]:
dados = dados.explode(colunas[3:])
dados

Unnamed: 0,avaliacao_geral,experiencia_local,max_hospedes,descricao_local,descricao_vizinhanca,quantidade_banheiros,quantidade_quartos,quantidade_camas,modelo_cama,comodidades,taxa_deposito,taxa_limpeza,preco
0,10.0,--,1,This clean and comfortable one bedroom sits ri...,Lower Queen Anne is near the Seattle Center (s...,1,1,1,Real Bed,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",$0,$0,$110.00
0,10.0,--,1,Our century old Upper Queen Anne house is loca...,"Upper Queen Anne is a really pleasant, unique ...",1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",$0,$0,$45.00
0,10.0,--,1,Cozy room in two-bedroom apartment along the l...,The convenience of being in Seattle but on the...,1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",$0,$0,$55.00
0,10.0,--,1,Very lovely and cozy room for one. Convenientl...,"Ballard is lovely, vibrant and one of the most...",1,1,1,Pull-out Sofa,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",$0,$20.00,$52.00
0,10.0,--,1,The “Studio at Mibbett Hollow' is in a Beautif...,--,1,1,1,Real Bed,"{""Wireless Internet"",Kitchen,""Free Parking on ...",$0,$15.00,$85.00
...,...,...,...,...,...,...,...,...,...,...,...,...,...
68,,--,8,Beautiful craftsman home in the historic Wedgw...,--,3,4,5,Real Bed,"{TV,""Cable TV"",Internet,""Wireless Internet"",""A...","$1,000.00",$178.00,$299.00
68,,--,8,Located in a very easily accessible area of Se...,"Quiet, dead end street near I-5. The proximity...",2,4,4,Real Bed,"{TV,""Cable TV"",Internet,""Wireless Internet"",Ki...",$0,$99.00,$199.00
68,,--,8,This home is fully furnished and available wee...,--,1,3,4,Real Bed,"{TV,""Cable TV"",Internet,""Wireless Internet"",""A...",$0,$0,$400.00
69,,--,9,This business-themed modern home features: *H...,Your hosts made Madison Valley their home when...,2,3,6,Real Bed,"{TV,""Cable TV"",Internet,""Wireless Internet"",""A...","$1,000.00",$150.00,$250.00


Perceba, porém, que o índice não está correto, pois o zero se repete diversas vezes, assim como outros números. Precisamos, então, resetar os índices.

### Resetando os índices para ordenar os dados

Para isso, usaremos o método .reset_index() passando os parâmetros inplace=True e drop=True. O primeiro substitui os índices no dataframe, já o segundo trata-se da criação de uma coluna com os índices antigos, porém, sendo True, não teremos essa criação. Por fim, passamos a visualização dos primeiros registros com dados.head().

In [None]:
dados.reset_index(inplace=True, drop=True)
dados.head()

Unnamed: 0,avaliacao_geral,experiencia_local,max_hospedes,descricao_local,descricao_vizinhanca,quantidade_banheiros,quantidade_quartos,quantidade_camas,modelo_cama,comodidades,taxa_deposito,taxa_limpeza,preco
0,10.0,--,1,This clean and comfortable one bedroom sits ri...,Lower Queen Anne is near the Seattle Center (s...,1,1,1,Real Bed,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",$0,$0,$110.00
1,10.0,--,1,Our century old Upper Queen Anne house is loca...,"Upper Queen Anne is a really pleasant, unique ...",1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",$0,$0,$45.00
2,10.0,--,1,Cozy room in two-bedroom apartment along the l...,The convenience of being in Seattle but on the...,1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",$0,$0,$55.00
3,10.0,--,1,Very lovely and cozy room for one. Convenientl...,"Ballard is lovely, vibrant and one of the most...",1,1,1,Pull-out Sofa,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",$0,$20.00,$52.00
4,10.0,--,1,The “Studio at Mibbett Hollow' is in a Beautif...,--,1,1,1,Real Bed,"{""Wireless Internet"",Kitchen,""Free Parking on ...",$0,$15.00,$85.00


### Verificando os tipos de dados

In [None]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3818 entries, 0 to 3817
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0   avaliacao_geral       3818 non-null   object
 1   experiencia_local     3818 non-null   object
 2   max_hospedes          3818 non-null   object
 3   descricao_local       3818 non-null   object
 4   descricao_vizinhanca  3818 non-null   object
 5   quantidade_banheiros  3818 non-null   object
 6   quantidade_quartos    3818 non-null   object
 7   quantidade_camas      3818 non-null   object
 8   modelo_cama           3818 non-null   object
 9   comodidades           3818 non-null   object
 10  taxa_deposito         3818 non-null   object
 11  taxa_limpeza          3818 non-null   object
 12  preco                 3818 non-null   object
dtypes: object(13)
memory usage: 387.9+ KB


Perceba que a coluna "Dtype" traz todos os dados como sendo do tipo object. Há três possibilidades para que um dado seja identificado assim:

por termos tipos diferentes de dados em uma mesma coluna;
quando os dados possuem um tipo específico que não foi identificado na leitura do Pandas;
todos os tipos são strings.

### Tratando dados numéricos: convertendo para tipo inteiro

In [None]:
import numpy as np

In [None]:
dados['max_hospedes'].astype(np.int64)
# o método .astype() passando o tipo de dado para o qual vamos alterar, no caso, np.int64, que é um tipo específico de inteiro com precisão de 64 bits.

0       1
1       1
2       1
3       1
4       1
       ..
3813    8
3814    8
3815    8
3816    9
3817    9
Name: max_hospedes, Length: 3818, dtype: int64

Resta, ainda, fazer a atribuição desses dados para a coluna "max_hospedes".

In [None]:
dados['max_hospedes'] = dados['max_hospedes'].astype(np.int64)

In [None]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3818 entries, 0 to 3817
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0   avaliacao_geral       3818 non-null   object
 1   experiencia_local     3818 non-null   object
 2   max_hospedes          3818 non-null   int64 
 3   descricao_local       3818 non-null   object
 4   descricao_vizinhanca  3818 non-null   object
 5   quantidade_banheiros  3818 non-null   object
 6   quantidade_quartos    3818 non-null   object
 7   quantidade_camas      3818 non-null   object
 8   modelo_cama           3818 non-null   object
 9   comodidades           3818 non-null   object
 10  taxa_deposito         3818 non-null   object
 11  taxa_limpeza          3818 non-null   object
 12  preco                 3818 non-null   object
dtypes: int64(1), object(12)
memory usage: 387.9+ KB


In [None]:
col_numericas = ['quantidade_banheiros','quantidade_quartos','quantidade_camas']

In [None]:
dados[col_numericas] = dados[col_numericas].astype(np.int64)

In [None]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3818 entries, 0 to 3817
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0   avaliacao_geral       3818 non-null   object
 1   experiencia_local     3818 non-null   object
 2   max_hospedes          3818 non-null   int64 
 3   descricao_local       3818 non-null   object
 4   descricao_vizinhanca  3818 non-null   object
 5   quantidade_banheiros  3818 non-null   int64 
 6   quantidade_quartos    3818 non-null   int64 
 7   quantidade_camas      3818 non-null   int64 
 8   modelo_cama           3818 non-null   object
 9   comodidades           3818 non-null   object
 10  taxa_deposito         3818 non-null   object
 11  taxa_limpeza          3818 non-null   object
 12  preco                 3818 non-null   object
dtypes: int64(4), object(9)
memory usage: 387.9+ KB


### Tratando dados numéricos: convertendo para tipo float

In [None]:
dados['avaliacao_geral'] = dados['avaliacao_geral'].astype(np.float64)

In [None]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3818 entries, 0 to 3817
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   avaliacao_geral       3162 non-null   float64
 1   experiencia_local     3818 non-null   object 
 2   max_hospedes          3818 non-null   int64  
 3   descricao_local       3818 non-null   object 
 4   descricao_vizinhanca  3818 non-null   object 
 5   quantidade_banheiros  3818 non-null   int64  
 6   quantidade_quartos    3818 non-null   int64  
 7   quantidade_camas      3818 non-null   int64  
 8   modelo_cama           3818 non-null   object 
 9   comodidades           3818 non-null   object 
 10  taxa_deposito         3818 non-null   object 
 11  taxa_limpeza          3818 non-null   object 
 12  preco                 3818 non-null   object 
dtypes: float64(1), int64(4), object(8)
memory usage: 387.9+ KB


### Usando .apply para tratamento

Para isso, usaremos o método .apply() com lambda, que aplica uma função específica a cada elemento, no caso, a remoção dos caracteres.

Dentro de .apply(), passamos uma função lambda que lerá cada elemento x, ou seja, os dados de cada linha. Feito isso, usaremos o método .replace() para substituir os caracteres de cifrão e vírgula por nada, ou seja, por uma string vazia. Depois, usaremos .strip() para remover qualquer caractere antes ou depois do elemento.

In [None]:
dados['preco'] = dados['preco'].apply(lambda x: x.replace('$', '').replace(',','').strip())

In [None]:
dados['preco'] = dados['preco'].astype(np.float64)

In [None]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3818 entries, 0 to 3817
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   avaliacao_geral       3162 non-null   float64
 1   experiencia_local     3818 non-null   object 
 2   max_hospedes          3818 non-null   int64  
 3   descricao_local       3818 non-null   object 
 4   descricao_vizinhanca  3818 non-null   object 
 5   quantidade_banheiros  3818 non-null   int64  
 6   quantidade_quartos    3818 non-null   int64  
 7   quantidade_camas      3818 non-null   int64  
 8   modelo_cama           3818 non-null   object 
 9   comodidades           3818 non-null   object 
 10  taxa_deposito         3818 non-null   object 
 11  taxa_limpeza          3818 non-null   object 
 12  preco                 3818 non-null   float64
dtypes: float64(2), int64(4), object(7)
memory usage: 387.9+ KB


### Aplicar o .applymap()

Quando tratamos da conversão de um dataframe, no qual passaremos por cada elemento, é mais viável utilizarmos o método .applymap().

In [None]:
dados[['taxa_deposito','taxa_limpeza']]

Unnamed: 0,taxa_deposito,taxa_limpeza
0,$0,$0
1,$0,$0
2,$0,$0
3,$0,$20.00
4,$0,$15.00
...,...,...
3813,"$1,000.00",$178.00
3814,$0,$99.00
3815,$0,$0
3816,"$1,000.00",$150.00


In [None]:
dados[['taxa_deposito','taxa_limpeza']] = dados[['taxa_deposito','taxa_limpeza']].applymap(lambda x: x.replace('$', '').replace(',','').strip())
dados[['taxa_deposito','taxa_limpeza']]

  dados[['taxa_deposito','taxa_limpeza']] = dados[['taxa_deposito','taxa_limpeza']].applymap(lambda x: x.replace('$', '').replace(',','').strip())


Unnamed: 0,taxa_deposito,taxa_limpeza
0,0,0
1,0,0
2,0,0
3,0,20.00
4,0,15.00
...,...,...
3813,1000.00,178.00
3814,0,99.00
3815,0,0
3816,1000.00,150.00


In [None]:
dados[['taxa_deposito','taxa_limpeza']] = dados[['taxa_deposito','taxa_limpeza']].astype(np.float64)

In [None]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3818 entries, 0 to 3817
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   avaliacao_geral       3162 non-null   float64
 1   experiencia_local     3818 non-null   object 
 2   max_hospedes          3818 non-null   int64  
 3   descricao_local       3818 non-null   object 
 4   descricao_vizinhanca  3818 non-null   object 
 5   quantidade_banheiros  3818 non-null   int64  
 6   quantidade_quartos    3818 non-null   int64  
 7   quantidade_camas      3818 non-null   int64  
 8   modelo_cama           3818 non-null   object 
 9   comodidades           3818 non-null   object 
 10  taxa_deposito         3818 non-null   float64
 11  taxa_limpeza          3818 non-null   float64
 12  preco                 3818 non-null   float64
dtypes: float64(4), int64(4), object(5)
memory usage: 387.9+ KB


## Desafio: trabalhando em outros contextos

Projeto desafio 1: vendas online


Lemos a base de dados no desafio anterior, agora podemos avançar nas transformações desses dados. Então, o novo desafio do projeto 1 será dividido em algumas metas:

Remover os dados em listas dentro do DataFrame;

Verificar os tipos de dados;

Identificar colunas numéricas;

Transformar a coluna numérica para o tipo numérico.

In [None]:
desafio_dados_vendas.head()

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,"[@ANA _LUCIA 321, DieGO ARMANDIU 210, DieGO AR...","[R$ 836,5, R$ 573,33, R$ 392,8, R$ 512,34]"
1,07/06/2022,"[Isabely JOanes 738, Isabely JOanes 738, Isabe...","[R$ 825,31, R$ 168,07, R$ 339,18, R$ 314,69]"
2,08/06/2022,"[Isabely JOanes 738, JOãO Gabriel 671, Julya m...","[R$ 682,05, R$ 386,34, R$ 622,65, R$ 630,79]"
3,09/06/2022,"[Julya meireles 914, MaRIA Julia 444, MaRIA Ju...","[R$ 390,3, R$ 759,16, R$ 334,47, R$ 678,78]"
4,10/06/2022,"[MaRIA Julia 444, PEDRO PASCO 812, Paulo castr...","[R$ 314,24, R$ 311,15, R$ 899,16, R$ 885,24]"


In [None]:
colunas = list(desafio_dados_vendas.columns)
colunas

['Data de venda', 'Cliente', 'Valor da compra']

In [None]:
desafio_dados_vendas = desafio_dados_vendas.explode(colunas[1:])
desafio_dados_vendas

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,@ANA _LUCIA 321,"R$ 836,5"
0,06/06/2022,DieGO ARMANDIU 210,"R$ 573,33"
0,06/06/2022,DieGO ARMANDIU 210,"R$ 392,8"
0,06/06/2022,DieGO ARMANDIU 210,"R$ 512,34"
1,07/06/2022,Isabely JOanes 738,"R$ 825,31"
1,07/06/2022,Isabely JOanes 738,"R$ 168,07"
1,07/06/2022,Isabely JOanes 738,"R$ 339,18"
1,07/06/2022,Isabely JOanes 738,"R$ 314,69"
2,08/06/2022,Isabely JOanes 738,"R$ 682,05"
2,08/06/2022,JOãO Gabriel 671,"R$ 386,34"


In [None]:
desafio_dados_vendas.reset_index(inplace=True, drop=True)
desafio_dados_vendas.head()

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,@ANA _LUCIA 321,8365.0
1,06/06/2022,DieGO ARMANDIU 210,57333.0
2,06/06/2022,DieGO ARMANDIU 210,3928.0
3,06/06/2022,DieGO ARMANDIU 210,51234.0
4,07/06/2022,Isabely JOanes 738,82531.0


In [None]:
desafio_dados_vendas['Valor da compra'] = desafio_dados_vendas['Valor da compra'].apply(lambda x: x.replace('R$', '').replace(',','').strip())
desafio_dados_vendas['Valor da compra'] = desafio_dados_vendas['Valor da compra'].astype(np.float64)

AttributeError: 'float' object has no attribute 'replace'

In [None]:
desafio_dados_vendas.info()

<class 'pandas.core.frame.DataFrame'>
Index: 20 entries, 0 to 4
Data columns (total 3 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Data de venda    20 non-null     object 
 1   Cliente          20 non-null     object 
 2   Valor da compra  20 non-null     float64
dtypes: float64(1), object(2)
memory usage: 640.0+ bytes


Projeto desafio 2: administração de condomínios


Lemos a base de dados no desafio anterior, agora podemos avançar nas transformações desses dados. Então, da mesma forma que o projeto 1, o desafio do projeto 2 está listado em algumas metas:

Remover os dados em listas dentro do DataFrame;

Verificar os tipos de dados;

Identificar colunas numéricas;

Transformar a coluna numérica para o tipo numérico.

In [None]:
desafio_dados_locacao.head()

Unnamed: 0,apartamento,datas_combinadas_pagamento,datas_de_pagamento,valor_aluguel
0,A101 (blocoAP),"[01/06/2022, 01/07/2022]","[05/06/2022, 03/07/2022]","[$ 1000,0 reais, $ 2500,0 reais]"
1,A102 (blocoAP),"[02/06/2022, 02/07/2022]","[02/06/2022, 06/07/2022]","[$ 1100,0 reais, $ 2600,0 reais]"
2,B201 (blocoAP),"[03/06/2022, 03/07/2022]","[07/06/2022, 03/07/2022]","[$ 1200,0 reais, $ 2700,0 reais]"
3,B202 (blocoAP),"[04/06/2022, 04/07/2022]","[07/06/2022, 05/07/2022]","[$ 1300,0 reais, $ 2800,0 reais]"
4,C301 (blocoAP),"[05/06/2022, 05/07/2022]","[10/06/2022, 09/07/2022]","[$ 1400,0 reais, $ 2900,0 reais]"


In [None]:
colunas = list(desafio_dados_locacao.columns)
colunas

['apartamento',
 'datas_combinadas_pagamento',
 'datas_de_pagamento',
 'valor_aluguel']

In [None]:
desafio_dados_locacao = desafio_dados_locacao.explode(colunas[1:])
desafio_dados_locacao.reset_index(drop=True,inplace=True)
desafio_dados_locacao.head()

Unnamed: 0,apartamento,datas_combinadas_pagamento,datas_de_pagamento,valor_aluguel
0,A101 (blocoAP),01/06/2022,05/06/2022,"$ 1000,0 reais"
1,A101 (blocoAP),01/07/2022,03/07/2022,"$ 2500,0 reais"
2,A102 (blocoAP),02/06/2022,02/06/2022,"$ 1100,0 reais"
3,A102 (blocoAP),02/07/2022,06/07/2022,"$ 2600,0 reais"
4,B201 (blocoAP),03/06/2022,07/06/2022,"$ 1200,0 reais"


In [None]:
desafio_dados_locacao.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30 entries, 0 to 29
Data columns (total 4 columns):
 #   Column                      Non-Null Count  Dtype 
---  ------                      --------------  ----- 
 0   apartamento                 30 non-null     object
 1   datas_combinadas_pagamento  30 non-null     object
 2   datas_de_pagamento          30 non-null     object
 3   valor_aluguel               30 non-null     object
dtypes: object(4)
memory usage: 1.1+ KB


In [None]:
desafio_dados_locacao['valor_aluguel'] = desafio_dados_locacao['valor_aluguel'].apply(lambda x: x.replace('$ ', '').replace(',','.').replace('reais', ' ').strip())
desafio_dados_locacao['valor_aluguel'] = desafio_dados_locacao['valor_aluguel'].astype(np.float64)


In [None]:
desafio_dados_locacao.head()

Unnamed: 0,apartamento,datas_combinadas_pagamento,datas_de_pagamento,valor_aluguel
0,A101 (blocoAP),01/06/2022,05/06/2022,1000.0
1,A101 (blocoAP),01/07/2022,03/07/2022,2500.0
2,A102 (blocoAP),02/06/2022,02/06/2022,1100.0
3,A102 (blocoAP),02/07/2022,06/07/2022,2600.0
4,B201 (blocoAP),03/06/2022,07/06/2022,1200.0


## Dados textuais

Podemos tratar esses textos buscando criar uma estrutura mais acessível para realizar essa análise textual. Nessa aula, realizaremos a manipulação dos textos de cada coluna textual para criar uma estrutura de tokenização simples.

A tokenização é a divisão do texto em tokens, ou seja, unidades menores. Esses tokens podem ser palavras, sílabas, conjuntos de palavras e assim por diante, dependendo do tipo de aplicação.

### Manipulação dos textos

In [None]:
dados['descricao_local']
# Podemos observar que temos letras maiúsculas nos textos. Para converter todos esses elementos para letras minúsculas, 
# podemos utilizar o método str(). Com ele, conseguimos ler a nossa série como se ela fosse elementos de strings, de modo similar aos métodos apply e applymap.

0       This clean and comfortable one bedroom sits ri...
1       Our century old Upper Queen Anne house is loca...
2       Cozy room in two-bedroom apartment along the l...
3       Very lovely and cozy room for one. Convenientl...
4       The “Studio at Mibbett Hollow' is in a Beautif...
                              ...                        
3813    Beautiful craftsman home in the historic Wedgw...
3814    Located in a very easily accessible area of Se...
3815    This home is fully furnished and available wee...
3816    This business-themed modern home features:  *H...
3817    This welcoming home is in the quiet residentia...
Name: descricao_local, Length: 3818, dtype: object

Então, se queremos transformar essas letras para minúsculas, utilizaremos o método lower():

In [None]:
dados['descricao_local'] = dados['descricao_local'].str.lower()

In [None]:
dados.head(3)

Unnamed: 0,avaliacao_geral,experiencia_local,max_hospedes,descricao_local,descricao_vizinhanca,quantidade_banheiros,quantidade_quartos,quantidade_camas,modelo_cama,comodidades,taxa_deposito,taxa_limpeza,preco
0,10.0,--,1,this clean and comfortable one bedroom sits ri...,Lower Queen Anne is near the Seattle Center (s...,1,1,1,Real Bed,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",0.0,0.0,110.0
1,10.0,--,1,our century old upper queen anne house is loca...,"Upper Queen Anne is a really pleasant, unique ...",1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",0.0,0.0,45.0
2,10.0,--,1,cozy room in two-bedroom apartment along the l...,The convenience of being in Seattle but on the...,1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",0.0,0.0,55.0


df['experiencias_clientes'] = df['experiencias_clientes'].apply(lambda x: x.upper())

O apply é utilizado para aplicar uma função a cada elemento de uma coluna. Nesse caso, a função lambda é utilizada para transformar todas as letras da coluna experiencias_clientes em maiúsculas. Ao utilizar a função lambda dentro do método apply, estamos aplicando a função elemento a elemento na coluna.



### Removendo Caracteres com regex

Regex é uma expressão regular que se caracteriza por um conjunto de caracteres que fazem uma pesquisa no texto. O Regex é muito utilizado para fazer a busca, validação e manipulação de dados porque, a partir dessa sequência padronizada de caracteres, conseguimos definir os caracteres que queremos ou não selecionar.

Os caracteres especiais que iremos remover incluem pontos, vírgulas, pontos de interrogação, pontos de exclamação, barras, aspas duplas e assim por diante. Esses sinais possuem significado gramatical no texto, mas não fornecem informações relevantes para a nossa análise textual. Por isso, é necessário removê-los.

In [None]:
dados['descricao_local'][3169]

"built, run and supported by seattle tech and start up veterans, grokhome's focus is to create a supportive environment for smart people working on interesting projects, start ups and more. this listing is an upper bunk, in a 2-person shared room. *note: this fall, there will be major renovations happening on one kitchen and bathroom at a time. there will always be two other working kitchens and two working bathrooms in the house. we'll work to minimize the impact these renovations have on your stay. **this listing is only available to those working in the tech/science space. live in a hacker house, and immerse yourself in the seattle tech scene. you can expect to be surrounded by smart people solving big problems or working on something fun. we have frequent demo nights, and love when our guests share something they are passionate about. if you're new to the city, our deep ties to the seattle tech scene can help you get involved. expand your network, develop your ideas, and learn some

Vamos entender sua estrutura. Nós abrimos e fechamos colchetes e, dentro deles, começamos a expressão com um sinal circunflexo (^), que nega os próximos valores. Ou seja, colocamos em seguida os valores que ele não vai selecionar:

a-z: todas as letras, do "a" ao "z", minúsculas;

A-Z: todas as letras, do "A" ao "Z", maiúsculas;

0-9: todos os números, de 0 a 9;

\-: hífen;

\': apóstrofo.

In [None]:
dados['descricao_local'] = dados['descricao_local'].str.replace('[^a-zA-Z0-9\-\']', ' ', regex=True)

  dados['descricao_local'] = dados['descricao_local'].str.replace('[^a-zA-Z0-9\-\']', ' ', regex=True)


### Removendo hifens fora de palavras compostas

In [None]:
dados['descricao_local'] = dados['descricao_local'].str.replace('(?<!\w)-(?!\w)', '', regex=True)

  dados['descricao_local'] = dados['descricao_local'].str.replace('(?<!\w)-(?!\w)', '', regex=True)


Para um processo de tokenização mais completo, poderíamos também remover as stopwords: artigos, preposições e outras composições que não trazem informação ao texto.

### Método split()

Para criar tokens, basta separar cada uma das palavras como elementos de uma lista. Para transformar uma string numa lista, usamos o método split(). Podemos aplicá-lo na nossa coluna por meio do str, que já nos acostumamos a utilizar!

In [None]:
dados['descricao_local'] = dados['descricao_local'].str.split()
dados.head()

Unnamed: 0,avaliacao_geral,experiencia_local,max_hospedes,descricao_local,descricao_vizinhanca,quantidade_banheiros,quantidade_quartos,quantidade_camas,modelo_cama,comodidades,taxa_deposito,taxa_limpeza,preco
0,10.0,--,1,"[this, clean, and, comfortable, one, bedroom, ...",Lower Queen Anne is near the Seattle Center (s...,1,1,1,Real Bed,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",0.0,0.0,110.0
1,10.0,--,1,"[our, century, old, upper, queen, anne, house,...","Upper Queen Anne is a really pleasant, unique ...",1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",0.0,0.0,45.0
2,10.0,--,1,"[cozy, room, in, two-bedroom, apartment, along...",The convenience of being in Seattle but on the...,1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",0.0,0.0,55.0
3,10.0,--,1,"[very, lovely, and, cozy, room, for, one, conv...","Ballard is lovely, vibrant and one of the most...",1,1,1,Pull-out Sofa,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",0.0,20.0,52.0
4,10.0,--,1,"[the, studio, at, mibbett, hollow', is, in, a,...",--,1,1,1,Real Bed,"{""Wireless Internet"",Kitchen,""Free Parking on ...",0.0,15.0,85.0


Nossa coluna descricao_local está totalmente tokenizada: as palavras estão separadas por vírgulas.

### Coluna comodidades

Ao examinar o dataframe, percebemos que as palavras estão entre chaves e separadas por vírgulas. Embora essa estrutura possa se assemelhar a um dicionário, na realidade não se trata da estrutura de um dicionário.

Primeiramente, removeremos as chaves e aspas - caracteres que não nos ajudarão a tokenizar nossa coluna de comodidades. Já sabemos fazer isso usando o método replace() e o Regex: vamos identificar os caracteres em questão e substituí-los.

In [None]:
dados['comodidades'] = dados['comodidades'].str.replace('\{|}|\"','',regex=True)

  dados['comodidades'] = dados['comodidades'].str.replace('\{|}|\"','',regex=True)


Agora, criaremos a nossa lista de tokens. Faremos o mesmo que fizemos com a coluna descricao_local, utilizando o método split().

In [None]:
dados['comodidades'] = dados['comodidades'].str.split(',')
dados.head()

Unnamed: 0,avaliacao_geral,experiencia_local,max_hospedes,descricao_local,descricao_vizinhanca,quantidade_banheiros,quantidade_quartos,quantidade_camas,modelo_cama,comodidades,taxa_deposito,taxa_limpeza,preco
0,10.0,--,1,"[this, clean, and, comfortable, one, bedroom, ...",Lower Queen Anne is near the Seattle Center (s...,1,1,1,Real Bed,"[Internet, Wireless Internet, Kitchen, Free Pa...",0.0,0.0,110.0
1,10.0,--,1,"[our, century, old, upper, queen, anne, house,...","Upper Queen Anne is a really pleasant, unique ...",1,1,1,Futon,"[TV, Internet, Wireless Internet, Kitchen, Fre...",0.0,0.0,45.0
2,10.0,--,1,"[cozy, room, in, two-bedroom, apartment, along...",The convenience of being in Seattle but on the...,1,1,1,Futon,"[TV, Internet, Wireless Internet, Kitchen, Fre...",0.0,0.0,55.0
3,10.0,--,1,"[very, lovely, and, cozy, room, for, one, conv...","Ballard is lovely, vibrant and one of the most...",1,1,1,Pull-out Sofa,"[Internet, Wireless Internet, Kitchen, Free Pa...",0.0,20.0,52.0
4,10.0,--,1,"[the, studio, at, mibbett, hollow', is, in, a,...",--,1,1,1,Real Bed,"[Wireless Internet, Kitchen, Free Parking on P...",0.0,15.0,85.0


## Desafio: faça você mesmo

Portanto, nessa atividade, proponho que você faça o processo de tokenização para a coluna descricao_vizinhanca presente no conjunto de dados dados_hospedagem.json.

Fique à vontade para seguir com os mesmos passos dados em aula ou, se preferir, realizar outros aprimoramentos, como a remoção de algum caractere ou de stopwords. Na seção “Opinião da pessoa instrutora”, você vai encontrar uma possibilidade de resolução para essa atividade.

In [None]:
dados['descricao_vizinhanca'] = dados['descricao_vizinhanca'].str.lower()


In [None]:
dados['descricao_vizinhanca'] = dados['descricao_vizinhanca'].str.replace('[^a-zA-Z0-9\-\']', ' ', regex=True)

  dados['descricao_vizinhanca'] = dados['descricao_vizinhanca'].str.replace('[^a-zA-Z0-9\-\']', ' ', regex=True)


In [None]:
dados['descricao_vizinhanca'] = dados['descricao_vizinhanca'].str.replace('(?<!\w)-(?!\w)', '', regex=True)

  dados['descricao_vizinhanca'] = dados['descricao_vizinhanca'].str.replace('(?<!\w)-(?!\w)', '', regex=True)


In [None]:
dados['descricao_vizinhanca'] = dados['descricao_vizinhanca'].str.split()
dados.head()

Unnamed: 0,avaliacao_geral,experiencia_local,max_hospedes,descricao_local,descricao_vizinhanca,quantidade_banheiros,quantidade_quartos,quantidade_camas,modelo_cama,comodidades,taxa_deposito,taxa_limpeza,preco
0,10.0,--,1,"[this, clean, and, comfortable, one, bedroom, ...","[lower, queen, anne, is, near, the, seattle, c...",1,1,1,Real Bed,"[Internet, Wireless Internet, Kitchen, Free Pa...",0.0,0.0,110.0
1,10.0,--,1,"[our, century, old, upper, queen, anne, house,...","[upper, queen, anne, is, a, really, pleasant, ...",1,1,1,Futon,"[TV, Internet, Wireless Internet, Kitchen, Fre...",0.0,0.0,45.0
2,10.0,--,1,"[cozy, room, in, two-bedroom, apartment, along...","[the, convenience, of, being, in, seattle, but...",1,1,1,Futon,"[TV, Internet, Wireless Internet, Kitchen, Fre...",0.0,0.0,55.0
3,10.0,--,1,"[very, lovely, and, cozy, room, for, one, conv...","[ballard, is, lovely, vibrant, and, one, of, t...",1,1,1,Pull-out Sofa,"[Internet, Wireless Internet, Kitchen, Free Pa...",0.0,20.0,52.0
4,10.0,--,1,"[the, studio, at, mibbett, hollow', is, in, a,...",[],1,1,1,Real Bed,"[Wireless Internet, Kitchen, Free Parking on P...",0.0,15.0,85.0


## Desafio: trabalhando em outros contextos

Projeto desafio 1: vendas online

Devido a uma instabilidade no site da empresa, tivemos problemas com os nomes dos clientes durante o salvamento. Isso resultou em uma coluna de nomes de clientes com uma mistura de letras, maiúsculas e minúsculas, números e outros caracteres.

Sabendo disso, manipule os textos presentes na coluna Cliente para que seja obtido como resultado os nomes dos clientes em letras minúsculas, com a ausência de caracteres especiais ou números.

In [None]:
desafio_dados_vendas['Cliente'] = desafio_dados_vendas['Cliente'].str.lower()

In [None]:
desafio_dados_vendas['Cliente'] = desafio_dados_vendas['Cliente'].str.replace('[^a-z ]', '', regex=True).str.strip()


In [None]:
desafio_dados_vendas.head(3)

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,ana lucia,8365.0
1,06/06/2022,diego armandiu,57333.0
2,06/06/2022,diego armandiu,3928.0


Projeto desafio 2: administração de condomínios

Buscando explicar a organização da identificação dos apartamentos, durante a criação do conjunto de dados, foi adicionado o texto (blocoAP). Esse texto informa que os nomes dos apartamentos estão organizados com a letra do bloco seguida do número do apartamento. No entanto, isso não traz nenhuma informação para nossos dados, sendo interessante realizar a remoção desse texto no conjunto de dados.

Com isso, manipule os textos na coluna apartamento para remover o texto (blocoAP) do DataFrame.

In [90]:
desafio_dados_locacao['apartamento'] = desafio_dados_locacao['apartamento'].str.replace(' \(blocoAP\)', '', regex=True)
desafio_dados_locacao.head()

  desafio_dados_locacao['apartamento'] = desafio_dados_locacao['apartamento'].str.replace(' \(blocoAP\)', '', regex=True)


Unnamed: 0,apartamento,datas_combinadas_pagamento,datas_de_pagamento,valor_aluguel
0,A101,01/06/2022,05/06/2022,1000.0
1,A101,01/07/2022,03/07/2022,2500.0
2,A102,02/06/2022,02/06/2022,1100.0
3,A102,02/07/2022,06/07/2022,2600.0
4,B201,03/06/2022,07/06/2022,1200.0


## Dados Tempo

In [91]:
import datetime

# criando um objeto datetime com a data e hora atual
agora = datetime.datetime.now()

print("Data e hora atual:", agora)

Data e hora atual: 2024-06-02 15:38:53.383561


In [92]:
import datetime
# criando um objeto date com a data de hoje
hoje = datetime.date.today()

print("Data de hoje:", hoje)

Data de hoje: 2024-06-02


In [95]:
import datetime

# criando dois objetos date com datas diferentes
data_1 = datetime.date(1987, 9, 29)
data_2 = datetime.date.today()

# calculando a diferença entre as duas datas
diferenca = data_2 - data_1

print("Diferença entre as duas datas:", diferenca)

Diferença entre as duas datas: 13396 days, 0:00:00


### Transformando os dados para tempo

In [96]:
dt_data = pd.read_json("C:\\Users\\tamir\\OneDrive\\Área de Trabalho\\Curso - Python para Data\\Data Science - Python\Pandas transformação e manipulação de dados\\moveis_disponiveis.json")
dt_data.head()


  dt_data = pd.read_json("C:\\Users\\tamir\\OneDrive\\Área de Trabalho\\Curso - Python para Data\\Data Science - Python\Pandas transformação e manipulação de dados\\moveis_disponiveis.json")


Unnamed: 0,id,data,vaga_disponivel,preco
0,857,2016-01-04,False,
1,857,2016-01-05,False,
2,857,2016-01-06,False,
3,857,2016-01-07,False,
4,857,2016-01-08,False,


In [97]:
dt_data.info()


<class 'pandas.core.frame.DataFrame'>
Index: 365000 entries, 0 to 364999
Data columns (total 4 columns):
 #   Column           Non-Null Count   Dtype 
---  ------           --------------   ----- 
 0   id               365000 non-null  int64 
 1   data             365000 non-null  object
 2   vaga_disponivel  365000 non-null  bool  
 3   preco            270547 non-null  object
dtypes: bool(1), int64(1), object(2)
memory usage: 11.5+ MB


In [99]:
dt_data['data'] = pd.to_datetime(dt_data['data'])


dados['Data de venda'] = pd.to_datetime(dados['Data de venda'], format='%d/%m/%Y')

O formato especificado %d/%m/%Y corresponde ao formato original da data em string. Utilizando a função pd.to_datetime convertemos a coluna “Data de venda” e com o parâmetro format='%d/%m/%Y' podemos indicar o formato correto da string, que é "dia/mês/ano".

### Manipulando dados temporais

In [101]:
dt_data.head()

Unnamed: 0,id,data,vaga_disponivel,preco
0,857,2016-01-04,False,
1,857,2016-01-05,False,
2,857,2016-01-06,False,
3,857,2016-01-07,False,
4,857,2016-01-08,False,


Fora dos colchetes, adicionaremos um ponto, o comando dt para chamar o tipo datetime (assim como fizemos com o str), outro ponto, e por fim, o strftime() que fará a formatação do tempo.

In [103]:
dt_data['data'].dt.strftime('%Y-%m')

0         2016-01
1         2016-01
2         2016-01
3         2016-01
4         2016-01
           ...   
364995    2016-12
364996    2016-12
364997    2016-12
364998    2017-01
364999    2017-01
Name: data, Length: 365000, dtype: object

In [105]:
subset = dt_data.groupby(dt_data['data'].dt.strftime('%Y-%m'))['vaga_disponivel'].sum()
subset

data
2016-01    16543
2016-02    20128
2016-03    23357
2016-04    22597
2016-05    23842
2016-06    23651
2016-07    22329
2016-08    22529
2016-09    22471
2016-10    23765
2016-11    23352
2016-12    24409
2017-01     1574
Name: vaga_disponivel, dtype: int64

Com esta manipulação, construímos um subconjunto de dados que indicam a oferta dos imóveis disponíveis. Acreditamos que isso ajudará bastante a equipe de análise de dados.

## Desafio: faça você mesmo

In [111]:
dt_data.head()

Unnamed: 0,id,data,vaga_disponivel,preco
0,857,2016-01-04,False,
1,857,2016-01-05,False,
2,857,2016-01-06,False,
3,857,2016-01-07,False,
4,857,2016-01-08,False,


In [113]:
dt_data['preco'].fillna('0.0', inplace = True)

In [114]:
dt_data['preco'] = dt_data['preco'].apply(lambda x: x.replace('$', '').replace(',',''))

In [115]:
dt_data['preco'] = dt_data['preco'].astype(np.float64)

In [116]:
dt_data.head()

Unnamed: 0,id,data,vaga_disponivel,preco
0,857,2016-01-04,False,0.0
1,857,2016-01-05,False,0.0
2,857,2016-01-06,False,0.0
3,857,2016-01-07,False,0.0
4,857,2016-01-08,False,0.0


## Desafio: trabalhando em outros contextos

Projeto desafio 1: vendas online


Na coluna Data de venda, temos datas em formato 'dia/mês/ano' (dd/mm/AAAA). Transforme esses dados para o tipo datetime e busque uma forma de visualização de subconjunto que possa contribuir no objetivo do contexto que os dados estão inseridos.

Se você não lembra o problema do projeto desafio 1, vou deixar abaixo o texto da situação para facilitar o encontro da informação:

O objetivo desse projeto é realizar uma análise dos resultados de um evento com os clientes de uma empresa de vendas online. Foi coletado um conjunto de dados que contém os clientes que mais gastaram com produtos dentro de 5 dias de vendas, que é o período de duração do evento. Essa análise vai identificar o cliente com a maior compra na semana, que irá receber um prêmio da loja, e posteriormente, ela pode ajudar a empresa a criar novas estratégias para atrair mais clientes.

In [117]:
desafio_dados_vendas.head()

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,ana lucia,8365.0
1,06/06/2022,diego armandiu,57333.0
2,06/06/2022,diego armandiu,3928.0
3,06/06/2022,diego armandiu,51234.0
4,07/06/2022,isabely joanes,82531.0


In [120]:
desafio_dados_vendas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 3 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   Data de venda    20 non-null     datetime64[ns]
 1   Cliente          20 non-null     object        
 2   Valor da compra  20 non-null     float64       
dtypes: datetime64[ns](1), float64(1), object(1)
memory usage: 612.0+ bytes


In [122]:
desafio_dados_vendas['Data de venda'] = pd.to_datetime(desafio_dados_vendas['Data de venda'], format='%d/%m/%Y')

In [123]:
total_compras = desafio_dados_vendas.groupby(['Cliente'])['Valor da compra'].sum()
total_compras

Cliente
 ana  lucia          8365.0
diego armandiu     112495.0
isabely joanes     232930.0
jo o gabriel        38634.0
julya meireles     129247.0
maria julia        208665.0
paulo castro        89916.0
pedro pasco         31115.0
thiago fritzz       88524.0
Name: Valor da compra, dtype: float64

Projeto desafio 2: administração de condomínios


Nas colunas datas_de_pagamento e datas_combinadas_pagamento, temos datas em formato 'dia/mês/ano' (dd/mm/AAAA). Transforme esses dados para o tipo datetime e busque uma forma de visualização de subconjunto que possa contribuir no objetivo do contexto que os dados estão inseridos.

Se você não lembra o problema do projeto desafio 2, vou deixar abaixo o texto da situação para facilitar o encontro da informação:

A administração de condomínios é uma tarefa que requer muita atenção e organização. Entre as diversas responsabilidades da gestão está o recebimento dos aluguéis dos locatários. Para garantir uma boa saúde financeira do empreendimento, é fundamental que esses pagamentos sejam feitos de forma regular e pontual. No entanto, sabemos que nem sempre isso acontece. Pensando nisso, proponho um desafio de tratamento de dados com o objetivo de analisar o atraso no pagamento de aluguéis no condomínio fictício de alguns moradores.

In [124]:
desafio_dados_locacao.head()

Unnamed: 0,apartamento,datas_combinadas_pagamento,datas_de_pagamento,valor_aluguel
0,A101,01/06/2022,05/06/2022,1000.0
1,A101,01/07/2022,03/07/2022,2500.0
2,A102,02/06/2022,02/06/2022,1100.0
3,A102,02/07/2022,06/07/2022,2600.0
4,B201,03/06/2022,07/06/2022,1200.0


In [126]:
desafio_dados_locacao['datas_combinadas_pagamento'] = pd.to_datetime(desafio_dados_locacao['datas_combinadas_pagamento'], format='%d/%m/%Y')

In [127]:
desafio_dados_locacao['datas_de_pagamento'] = pd.to_datetime(desafio_dados_locacao['datas_de_pagamento'], format='%d/%m/%Y')

In [128]:
desafio_dados_locacao.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30 entries, 0 to 29
Data columns (total 4 columns):
 #   Column                      Non-Null Count  Dtype         
---  ------                      --------------  -----         
 0   apartamento                 30 non-null     object        
 1   datas_combinadas_pagamento  30 non-null     datetime64[ns]
 2   datas_de_pagamento          30 non-null     datetime64[ns]
 3   valor_aluguel               30 non-null     float64       
dtypes: datetime64[ns](2), float64(1), object(1)
memory usage: 1.1+ KB


In [132]:
desafio_dados_locacao['atraso'] = (desafio_dados_locacao['datas_de_pagamento'] - desafio_dados_locacao['datas_combinadas_pagamento']).dt.days
desafio_dados_locacao.head()

Unnamed: 0,apartamento,datas_combinadas_pagamento,datas_de_pagamento,valor_aluguel,atraso
0,A101,2022-06-01,2022-06-05,1000.0,4
1,A101,2022-07-01,2022-07-03,2500.0,2
2,A102,2022-06-02,2022-06-02,1100.0,0
3,A102,2022-07-02,2022-07-06,2600.0,4
4,B201,2022-06-03,2022-06-07,1200.0,4


In [131]:
media_atraso = desafio_dados_locacao.groupby(['apartamento'])['atraso'].mean()
media_atraso

apartamento
A101    3.0
A102    2.0
B201    2.0
B202    2.0
C301    4.5
C302    4.0
D401    1.0
D402    4.0
E501    0.5
E502    4.0
F601    4.0
F602    1.5
G701    6.5
G702    2.0
H801    2.0
Name: atraso, dtype: float64