### Projeto desafio 2: administração de condomínios
Lemos a base de dados no desafio anterior, agora podemos avançar nas transformações desses dados. Então, da mesma forma que o projeto 1, o desafio do projeto 2 está listado em algumas metas:

Remover os dados em listas dentro do DataFrame;
Verificar os tipos de dados;
Identificar colunas numéricas;
Transformar a coluna numérica para o tipo numérico

In [4]:
# Importa a biblioteca pandas, essencial para manipulação e análise de dados em Python.
# Usamos o apelido 'pd' por convenção para facilitar
import pandas as pd
import json

In [5]:
# Define uma variável com o caminho (localização) do arquivo de dados.
dados = pd.read_json('dados_locacao_imoveis.json')
dados

Unnamed: 0,dados_locacao
0,"{'apartamento': 'A101 (blocoAP)', 'datas_combi..."
1,"{'apartamento': 'A102 (blocoAP)', 'datas_combi..."
2,"{'apartamento': 'B201 (blocoAP)', 'datas_combi..."
3,"{'apartamento': 'B202 (blocoAP)', 'datas_combi..."
4,"{'apartamento': 'C301 (blocoAP)', 'datas_combi..."
5,"{'apartamento': 'C302 (blocoAP)', 'datas_combi..."
6,"{'apartamento': 'D401 (blocoAP)', 'datas_combi..."
7,"{'apartamento': 'D402 (blocoAP)', 'datas_combi..."
8,"{'apartamento': 'E501 (blocoAP)', 'datas_combi..."
9,"{'apartamento': 'E502 (blocoAP)', 'datas_combi..."


In [6]:
# Normalizando os dados da tabela Pasciente_2
df_normalizado = pd.json_normalize(dados['dados_locacao'])

In [7]:
df_normalizado

Unnamed: 0,apartamento,datas_combinadas_pagamento,datas_de_pagamento,valor_aluguel
0,A101 (blocoAP),"[01/06/2022, 01/07/2022]","[05/06/2022, 03/07/2022]","[$ 1000,0 reais, $ 2500,0 reais]"
1,A102 (blocoAP),"[02/06/2022, 02/07/2022]","[02/06/2022, 06/07/2022]","[$ 1100,0 reais, $ 2600,0 reais]"
2,B201 (blocoAP),"[03/06/2022, 03/07/2022]","[07/06/2022, 03/07/2022]","[$ 1200,0 reais, $ 2700,0 reais]"
3,B202 (blocoAP),"[04/06/2022, 04/07/2022]","[07/06/2022, 05/07/2022]","[$ 1300,0 reais, $ 2800,0 reais]"
4,C301 (blocoAP),"[05/06/2022, 05/07/2022]","[10/06/2022, 09/07/2022]","[$ 1400,0 reais, $ 2900,0 reais]"
5,C302 (blocoAP),"[06/06/2022, 06/07/2022]","[08/06/2022, 12/07/2022]","[$ 1500,0 reais, $ 1200,0 reais]"
6,D401 (blocoAP),"[07/06/2022, 07/07/2022]","[07/06/2022, 09/07/2022]","[$ 1600,0 reais, $ 1300,0 reais]"
7,D402 (blocoAP),"[08/06/2022, 08/07/2022]","[10/06/2022, 14/07/2022]","[$ 1700,0 reais, $ 1400,0 reais]"
8,E501 (blocoAP),"[09/06/2022, 09/07/2022]","[10/06/2022, 09/07/2022]","[$ 1800,0 reais, $ 1500,0 reais]"
9,E502 (blocoAP),"[10/06/2022, 10/07/2022]","[16/06/2022, 12/07/2022]","[$ 1900,0 reais, $ 1600,0 reais]"


In [8]:
df_normalizado.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15 entries, 0 to 14
Data columns (total 4 columns):
 #   Column                      Non-Null Count  Dtype 
---  ------                      --------------  ----- 
 0   apartamento                 15 non-null     object
 1   datas_combinadas_pagamento  15 non-null     object
 2   datas_de_pagamento          15 non-null     object
 3   valor_aluguel               15 non-null     object
dtypes: object(4)
memory usage: 612.0+ bytes


In [9]:
# --- Transformação dos Dados ---
# Transforma cada item das listas nas colunas especificadas em uma nova linha.
# Isso "desagrupa" os dados, criando uma linha para cada venda individual.
# O DataFrame original é substituído pelo novo, já "explodido".
colunas = ['datas_combinadas_pagamento', 'datas_de_pagamento', 'valor_aluguel']
dados_explodidos = df_normalizado.explode(colunas)

In [10]:
# --- Limpeza Final ---

# Reorganiza o índice do DataFrame.
# Após o 'explode', o índice fica com valores repetidos (ex: 0, 0, 0, 1, 1...).
# 'reset_index' cria um novo índice sequencial (0, 1, 2, 3, 4...).
# 'drop=True' impede que o índice antigo seja adicionado como uma nova coluna.
# 'inplace=True' modifica o DataFrame 'dados' diretamente, sem precisar criar uma nova variável caso queira
dados_final = dados_explodidos.reset_index(drop=True)

In [11]:
# Imprime as 5 primeiras linhas do DataFrame final para verificar o resultado.
# '.head()' é um método muito útil para inspecionar rapidamente a estrutura dos dados.
print("\n--- DataFrame Final (sem listas e com índice corrigido) ---")
print(dados_final.head())


--- DataFrame Final (sem listas e com índice corrigido) ---
      apartamento datas_combinadas_pagamento datas_de_pagamento  \
0  A101 (blocoAP)                 01/06/2022         05/06/2022   
1  A101 (blocoAP)                 01/07/2022         03/07/2022   
2  A102 (blocoAP)                 02/06/2022         02/06/2022   
3  A102 (blocoAP)                 02/07/2022         06/07/2022   
4  B201 (blocoAP)                 03/06/2022         07/06/2022   

    valor_aluguel  
0  $ 1000,0 reais  
1  $ 2500,0 reais  
2  $ 1100,0 reais  
3  $ 2600,0 reais  
4  $ 1200,0 reais  


In [12]:
import numpy as np

In [13]:
# --- ETAPA 1: Limpeza da Coluna (String) ---

# Seleciona a coluna 'Valor da compra'.
# O método .apply() executa uma função para CADA valor (linha) da coluna.
# A função (lambda x: ...) faz o seguinte para cada valor 'x':
#   1. x.replace('R$',''): Remove o símbolo da moeda "R$".
#   2. .replace(',','.'): Substitui a vírgula do decimal por um ponto, que é o padrão para números em Python.
#   3. .strip(): Remove espaços em branco extras no início ou no fim da string.
# O resultado é uma coluna com strings "limpas", prontas para a conversão. Ex: "R$ 836,5 " -> "836.5"
dados_final['valor_aluguel'] = dados_final['valor_aluguel'].apply(lambda x : x.replace('$','').replace(',','.').replace('reais','').strip())


In [14]:
# Seleciona a coluna 'Valor da compra' novamente.
# O método .astype(np.float64) converte (ou "cast") todos os valores da coluna para o tipo numérico de ponto flutuante (float64).
# Isso é o que permite que você some, tire médias, etc., dos valores.
# np.float64 é o tipo de dado numérico padrão e de alta precisão do NumPy/pandas.
dados_final['valor_aluguel'] = dados_final['valor_aluguel'].astype(np.float64)

In [15]:
dados_final.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30 entries, 0 to 29
Data columns (total 4 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   apartamento                 30 non-null     object 
 1   datas_combinadas_pagamento  30 non-null     object 
 2   datas_de_pagamento          30 non-null     object 
 3   valor_aluguel               30 non-null     float64
dtypes: float64(1), object(3)
memory usage: 1.1+ KB


In [16]:
dados_final

Unnamed: 0,apartamento,datas_combinadas_pagamento,datas_de_pagamento,valor_aluguel
0,A101 (blocoAP),01/06/2022,05/06/2022,1000.0
1,A101 (blocoAP),01/07/2022,03/07/2022,2500.0
2,A102 (blocoAP),02/06/2022,02/06/2022,1100.0
3,A102 (blocoAP),02/07/2022,06/07/2022,2600.0
4,B201 (blocoAP),03/06/2022,07/06/2022,1200.0
5,B201 (blocoAP),03/07/2022,03/07/2022,2700.0
6,B202 (blocoAP),04/06/2022,07/06/2022,1300.0
7,B202 (blocoAP),04/07/2022,05/07/2022,2800.0
8,C301 (blocoAP),05/06/2022,10/06/2022,1400.0
9,C301 (blocoAP),05/07/2022,09/07/2022,2900.0


In [None]:
# Usando DateTime
# Transformando a data no tipo DateTime
dados_final['datas_combinadas_pagamento'] = pd.to_datetime(dados_final['datas_combinadas_pagamento'],  format='%d/%m/%Y')

In [19]:
dados_final['datas_de_pagamento'] = pd.to_datetime(dados_final['datas_de_pagamento'],  format='%d/%m/%Y')

In [20]:
dados_final

Unnamed: 0,apartamento,datas_combinadas_pagamento,datas_de_pagamento,valor_aluguel
0,A101 (blocoAP),2022-06-01,2022-06-05,1000.0
1,A101 (blocoAP),2022-07-01,2022-07-03,2500.0
2,A102 (blocoAP),2022-06-02,2022-06-02,1100.0
3,A102 (blocoAP),2022-07-02,2022-07-06,2600.0
4,B201 (blocoAP),2022-06-03,2022-06-07,1200.0
5,B201 (blocoAP),2022-07-03,2022-07-03,2700.0
6,B202 (blocoAP),2022-06-04,2022-06-07,1300.0
7,B202 (blocoAP),2022-07-04,2022-07-05,2800.0
8,C301 (blocoAP),2022-06-05,2022-06-10,1400.0
9,C301 (blocoAP),2022-07-05,2022-07-09,2900.0


In [21]:
dados_final.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30 entries, 0 to 29
Data columns (total 4 columns):
 #   Column                      Non-Null Count  Dtype         
---  ------                      --------------  -----         
 0   apartamento                 30 non-null     object        
 1   datas_combinadas_pagamento  30 non-null     datetime64[ns]
 2   datas_de_pagamento          30 non-null     datetime64[ns]
 3   valor_aluguel               30 non-null     float64       
dtypes: datetime64[ns](2), float64(1), object(1)
memory usage: 1.1+ KB


In [22]:
# Para contribuir na solução do contexto é possível calcular a diferença de dias
# entre a data combinada e a data de pagamento com dt.days
dados_final['atraso'] = (dados_final['datas_de_pagamento'] - dados_final['datas_combinadas_pagamento']).dt.days


In [23]:
dados_final.head()

Unnamed: 0,apartamento,datas_combinadas_pagamento,datas_de_pagamento,valor_aluguel,atraso
0,A101 (blocoAP),2022-06-01,2022-06-05,1000.0,4
1,A101 (blocoAP),2022-07-01,2022-07-03,2500.0,2
2,A102 (blocoAP),2022-06-02,2022-06-02,1100.0,0
3,A102 (blocoAP),2022-07-02,2022-07-06,2600.0,4
4,B201 (blocoAP),2022-06-03,2022-06-07,1200.0,4


In [24]:
# Calcular a média de tempo de atraso por apartamentos
media_atraso = dados_final.groupby(['apartamento'])['atraso'].mean()

# Visualizar o resultado
media_atraso

apartamento
A101 (blocoAP)    3.0
A102 (blocoAP)    2.0
B201 (blocoAP)    2.0
B202 (blocoAP)    2.0
C301 (blocoAP)    4.5
C302 (blocoAP)    4.0
D401 (blocoAP)    1.0
D402 (blocoAP)    4.0
E501 (blocoAP)    0.5
E502 (blocoAP)    4.0
F601 (blocoAP)    4.0
F602 (blocoAP)    1.5
G701 (blocoAP)    6.5
G702 (blocoAP)    2.0
H801 (blocoAP)    2.0
Name: atraso, dtype: float64