In [12]:
import pandas as pd


## 1 - Leitura e Tratamento de JSON

### 1.1 - Leitura JSON

Já vimos sobre leitura de JSON anteriormente, aqui temos apenas a leitura de um arquivo json em uma estrutura:

```json
{
    "info_moveis": [{...}, {...}, {...}]
}
```

Então o que acontecerá é conseguirmos fazer a estruturação do DataFrame com `read_json()`, porém precisaremos normalizar o DataFrame posteriormente!

In [13]:
hospedagem = pd.read_json('in/dados_hospedagem.json', )
hospedagem.head()


Unnamed: 0,info_moveis
0,"{'avaliacao_geral': '10.0', 'experiencia_local..."
1,"{'avaliacao_geral': '10.0', 'experiencia_local..."
2,"{'avaliacao_geral': '10.0', 'experiencia_local..."
3,"{'avaliacao_geral': '10.0', 'experiencia_local..."
4,"{'avaliacao_geral': '10.0', 'experiencia_local..."


### 1.2 - Normalização de JSON

Como podemos ver anteriormente os dados estão em um formato em que cada registro está em um objeto, para tratar esse problema precisaremos normalizar essa lista.

Isso será feito usando o `json_normalize()`, pois já temos o json estruturado em um DataFrame, caso o problema de normalização fosse na contrução do DataFrame (leitura inicial dos dados) poderíamos usar o param `orint` do próprio `read_json()`, porém não é o caso.

In [14]:
hospedagem_norm = pd.json_normalize(hospedagem['info_moveis'])
hospedagem_norm.head()


Unnamed: 0,avaliacao_geral,experiencia_local,max_hospedes,descricao_local,descricao_vizinhanca,quantidade_banheiros,quantidade_quartos,quantidade_camas,modelo_cama,comodidades,taxa_deposito,taxa_limpeza,preco
0,10.0,--,1,[This clean and comfortable one bedroom sits r...,[Lower Queen Anne is near the Seattle Center (...,"[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...","[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...","[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...","[Real Bed, Futon, Futon, Pull-out Sofa, Real B...","[{Internet,""Wireless Internet"",Kitchen,""Free P...","[$0, $0, $0, $0, $0, $350.00, $350.00, $350.00...","[$0, $0, $0, $20.00, $15.00, $28.00, $35.00, $...","[$110.00, $45.00, $55.00, $52.00, $85.00, $50...."
1,10.0,--,10,[Welcome to the heart of the 'Ballard Brewery ...,"[--, Capital Hill is the heart of Seattle, bor...","[2, 3, 2, 3, 3, 3, 2, 1, 2, 2, 2]","[3, 4, 2, 3, 3, 3, 3, 3, 3, 4, 3]","[5, 6, 8, 3, 3, 5, 4, 5, 6, 7, 4]","[Real Bed, Real Bed, Real Bed, Real Bed, Real ...","[{TV,Internet,""Wireless Internet"",Kitchen,""Fre...","[$500.00, $300.00, $0, $300.00, $300.00, $360....","[$125.00, $100.00, $85.00, $110.00, $110.00, $...","[$350.00, $300.00, $425.00, $300.00, $285.00, ..."
2,10.0,--,11,[New modern house built in 2013. Spectacular ...,[Upper Queen Anne is a charming neighborhood f...,[4],[5],[7],[Real Bed],"[{TV,""Cable TV"",Internet,""Wireless Internet"",""...","[$1,000.00]",[$300.00],[$975.00]
3,10.0,--,12,[Our NW style home is 3200+ sq ft with 3 level...,[The Views from our top floor! Wallingford ha...,"[3, 3, 3, 3, 3, 3, 3, 3]","[6, 6, 5, 5, 5, 5, 4, 4]","[6, 6, 7, 8, 7, 7, 6, 6]","[Real Bed, Real Bed, Real Bed, Real Bed, Real ...","[{Internet,""Wireless Internet"",Kitchen,""Free P...","[$500.00, $500.00, $500.00, $500.00, $500.00, ...","[$225.00, $300.00, $250.00, $250.00, $250.00, ...","[$490.00, $550.00, $350.00, $350.00, $350.00, ..."
4,10.0,--,14,"[Perfect for groups. 2 bedrooms, full bathroom...",[Safeway grocery store within walking distance...,"[2, 3]","[2, 6]","[3, 9]","[Real Bed, Real Bed]","[{TV,Internet,""Wireless Internet"",Kitchen,""Fre...","[$300.00, $2,000.00]","[$40.00, $150.00]","[$200.00, $545.00]"


### 1.3 - Desagrupando listas

Para desagruparmos listas podemos utilizar o método `.explode()`, para isso precisamos passar quais as colunas que devem ser transformadas.

Com isso as colunas que tinham listas terão uma linha no DataFrame para cada registro.

PS: Esse conteúdo está na aula 1 do segundo módulo, mas para fazer mais sentido com o conteúdo agrupei no tópico 1

In [15]:
colunas = hospedagem_norm.columns.to_list()
print('Lista completa:', colunas)
print('-'*5)
print('A lista completa tem algumas colunas que não estão em listas, é o caso das 3 primeiras colunas:', colunas[:3])
print('Mas as outras colunas tem listas, então vamos tratá-las:', colunas[3:])


Lista completa: ['avaliacao_geral', 'experiencia_local', 'max_hospedes', 'descricao_local', 'descricao_vizinhanca', 'quantidade_banheiros', 'quantidade_quartos', 'quantidade_camas', 'modelo_cama', 'comodidades', 'taxa_deposito', 'taxa_limpeza', 'preco']
-----
A lista completa tem algumas colunas que não estão em listas, é o caso das 3 primeiras colunas: ['avaliacao_geral', 'experiencia_local', 'max_hospedes']
Mas as outras colunas tem listas, então vamos tratá-las: ['descricao_local', 'descricao_vizinhanca', 'quantidade_banheiros', 'quantidade_quartos', 'quantidade_camas', 'modelo_cama', 'comodidades', 'taxa_deposito', 'taxa_limpeza', 'preco']


In [16]:
dados_hospedagem = hospedagem_norm.explode(colunas[3:]).reset_index(drop=True)
dados_hospedagem.head()


Unnamed: 0,avaliacao_geral,experiencia_local,max_hospedes,descricao_local,descricao_vizinhanca,quantidade_banheiros,quantidade_quartos,quantidade_camas,modelo_cama,comodidades,taxa_deposito,taxa_limpeza,preco
0,10.0,--,1,This clean and comfortable one bedroom sits ri...,Lower Queen Anne is near the Seattle Center (s...,1,1,1,Real Bed,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",$0,$0,$110.00
1,10.0,--,1,Our century old Upper Queen Anne house is loca...,"Upper Queen Anne is a really pleasant, unique ...",1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",$0,$0,$45.00
2,10.0,--,1,Cozy room in two-bedroom apartment along the l...,The convenience of being in Seattle but on the...,1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",$0,$0,$55.00
3,10.0,--,1,Very lovely and cozy room for one. Convenientl...,"Ballard is lovely, vibrant and one of the most...",1,1,1,Pull-out Sofa,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",$0,$20.00,$52.00
4,10.0,--,1,The “Studio at Mibbett Hollow' is in a Beautif...,--,1,1,1,Real Bed,"{""Wireless Internet"",Kitchen,""Free Parking on ...",$0,$15.00,$85.00


In [17]:
dados_hospedagem.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3818 entries, 0 to 3817
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0   avaliacao_geral       3818 non-null   object
 1   experiencia_local     3818 non-null   object
 2   max_hospedes          3818 non-null   object
 3   descricao_local       3818 non-null   object
 4   descricao_vizinhanca  3818 non-null   object
 5   quantidade_banheiros  3818 non-null   object
 6   quantidade_quartos    3818 non-null   object
 7   quantidade_camas      3818 non-null   object
 8   modelo_cama           3818 non-null   object
 9   comodidades           3818 non-null   object
 10  taxa_deposito         3818 non-null   object
 11  taxa_limpeza          3818 non-null   object
 12  preco                 3818 non-null   object
dtypes: object(13)
memory usage: 387.9+ KB


Como podemos observar todas as colunas estão como object (mesmo aquelas que deveriam ser numéricas). Isso significa que temos dados com erro de tipagem e que devem ser tratados para conseguirmos usar como colunas numéricas, assim gerando estatísticas com elas!

## 2 - Lidando com Colunas Numéricas

### 2.1 Convertendo dados numéricos

Com o uso do `astype()` podemos converter o tipo de uma coluna, sendo que isso é necessário para que podemos usar os métodos corretos para aquele tipo de dados (por exemplo somar dados numéricos).

Quando lidamos com valores numéricos temos diferentes types, tipos como int64 e float64 ocupam mais memória, o que é ruim para otimização, mas bom no que diz respeito do limite no tamanho dos dados. Então é algo que precisa ser ponderado quando estamos definindo o tipo dos dados.

In [18]:
print(dados_hospedagem['max_hospedes'].unique())

print('Utilizando o astype podemos alterar o tipo dos dados')
dados_hospedagem['max_hospedes'].astype('int64').dtype


['1' '10' '11' '12' '14' '16' '2' '3' '4' '5' '6' '7' '8' '9' '15']
Utilizando o astype podemos alterar o tipo dos dados


dtype('int64')

In [19]:
cols_int = ['max_hospedes', 'quantidade_banheiros', 'quantidade_quartos', 'quantidade_camas']

dados_hospedagem[cols_int] = dados_hospedagem[cols_int].astype('int64')

dados_hospedagem.dtypes


avaliacao_geral         object
experiencia_local       object
max_hospedes             int64
descricao_local         object
descricao_vizinhanca    object
quantidade_banheiros     int64
quantidade_quartos       int64
quantidade_camas         int64
modelo_cama             object
comodidades             object
taxa_deposito           object
taxa_limpeza            object
preco                   object
dtype: object

### 2.2 Transformando Strings

Em alguns casos precisaremos alterar os valores de registros para que seja possível utilizar o `astype()`, como no caso de valores monetários com $.

Para isso temos 2 abordagens:
- utilizar o `.str.replace()`, que é mais otimizado e rápido, porém não tem recursos como `.split()`.
- Ou utilizarmos o `apply()` e executarmos uma função para cada registro, menos performático, mas temos mais opção de métodos. 

In [29]:
def transform_monetary_value(value: str) -> str:
    return value.replace('$', '').replace(',', '').strip()

# Outra forma de resolver o problema:
# dados_hospedagem['preco'].str.replace('$', '').replace(',', '').astype('float64')

dados_hospedagem['preco'].apply(transform_monetary_value).astype('float64')


0       110.0
1        45.0
2        55.0
3        52.0
4        85.0
        ...  
3813    299.0
3814    199.0
3815    400.0
3816    250.0
3817    350.0
Name: preco, Length: 3818, dtype: float64

### 2.3 Transformando DataFrames de Strings

Assim como podemos transformar e alterar Series podemos também utilizar métodos para transformar DataFrames, dessa forma fazemos essas transformações para diferentes colunas.

Para isso novamente temos duas formas de resolver o problema:
- Usando `map()`, que funciona de forma similar ao `apply()`, aplicando uma mesma função para cada registro separadamente. (mais lento, mais mais controle)
- Ou podemos usar o `apply()` com `axis=0`, dessa forma aplicamos as função de transformação com `.str` e alteramos diretamente cada `Series`. (o que da menos opção mais é mais rápido!)

In [28]:
cols_float = ['avaliacao_geral', 'taxa_deposito', 'taxa_limpeza', 'preco']

# Outra forma de resolver o problema:
# dados_hospedagem[cols_float[1:]].apply(lambda x: x.str.replace('$', '').replace(',', ''), axis=0)

dados_hospedagem[cols_float[1:]] = dados_hospedagem[cols_float[1:]].map(transform_monetary_value)
dados_hospedagem[cols_float] = dados_hospedagem[cols_float].astype('float64')

dados_hospedagem.dtypes


Unnamed: 0,taxa_deposito,taxa_limpeza,preco
0,0,0,110.00
1,0,0,45.00
2,0,0,55.00
3,0,20.00,52.00
4,0,15.00,85.00
...,...,...,...
3813,1000.00,178.00,299.00
3814,0,99.00,199.00
3815,0,0,400.00
3816,1000.00,150.00,250.00
