In [None]:
import pandas as pd

In [None]:
url = 'pandas-dados/dados_hospedagem.json'

In [None]:
dados = pd.read_json(url)
dados.head()
# percebemos que os dados estao aninhados em dicionarios, e precisamos destrinchar eles

In [None]:
# o metodo json_normalize vai destrinchar e normalizar os dados
dados = pd.json_normalize(dados['info_moveis'])
dados

In [None]:
# iremos utilizar o metodo explode que separa os itens agrupados em novas linhas
# para fazer isso preciso enviar todas as colunas que eu quero separar em linhas

colunas = list(dados. columns)
colunas

In [None]:
dados = dados.explode(colunas[3:])
dados

In [None]:
# como posso perceber o index se repete varias vezes e nao esta como antes que era uma sequencia, portanto, preciso resetar o index

dados.reset_index(inplace=True, drop=True)
dados.head()

In [None]:
dados.info()

#### Tratando dados númericos: Convertendo para tipo Inteiro

In [None]:
import numpy as np

In [None]:
dados['max_hospedes'] = dados['max_hospedes'].astype(np.int64)

In [None]:
dados.info()

In [None]:
col_numericas = ['quantidade_banheiros','quantidade_quartos','quantidade_camas']

In [None]:
dados[col_numericas] = dados[col_numericas].astype(np.int64)

In [None]:
dados.info()

#### Tratando dados númericos: Convertendo para tipo Float

In [None]:
dados['avaliacao_geral'] = dados['avaliacao_geral'].astype(np.float64)

In [None]:
dados.info()

In [None]:
dados['preco'] = dados['preco'].apply(lambda x : x.replace('$','').replace(',','').strip()).astype(np.float64)

In [None]:
dados.info()

In [None]:
dados[['taxa_deposito','taxa_limpeza']] = dados[['taxa_deposito','taxa_limpeza']].applymap(lambda x : x.replace('$','').replace(',','').strip()).astype(np.float64)

In [None]:
dados.info()

#### Tratando dados textuais

In [None]:
dados['descricao_local'] = dados['descricao_local'].str.lower()

In [None]:
dados['descricao_local'][3169]

In [None]:
dados['descricao_local'] = dados['descricao_local'].str.replace('[^a-zA-Z0-9\-\']', ' ', regex=True)

In [None]:
dados['descricao_local']

Removendo hífens fora de palavra compostas

In [None]:
# a primeira parte do regex ele verifica se tem um caractere antes do hifen, e a segunda parte do regex também faz o mesmo
dados['descricao_local'] = dados['descricao_local'].str.replace('(?<!\w)-(?!\w)', ' ', regex=True)

In [None]:
dados['descricao_local']

In [None]:
dados['descricao_local'] = dados['descricao_local'].str.split()

In [None]:
dados['descricao_local']

In [None]:
dados.head()

In [None]:
# da coluna comodidade, preciso remover o {} e as aspas
dados['comodidades'] = dados['comodidades'].str.replace('\{|}|\"', '', regex=True)

In [None]:
dados

In [None]:
dados['comodidades'] = dados['comodidades'].str.split(',')
dados.head()

Desafio: faça você mesmo

Aprendemos a manipular os elementos textuais com o comando str. Depois, utilizamos de regex para limpar elementos indesejados no texto e, por fim, transformamos o texto tratado em uma lista, construindo um token.

Durante as aulas, transformamos duas colunas, descricao_local e comodidades, buscando a tokenização. Mas ainda falta a coluna descricao_vizinhanca, que também vale ser transformada.

Portanto, nessa atividade, proponho que você faça o processo de tokenização para a coluna descricao_vizinhanca presente no conjunto de dados dados_hospedagem.json.

In [None]:
# Transformamos o texto em letras minúsculas
dados['descricao_vizinhanca'] = dados['descricao_vizinhanca'].str.lower()
# Substituimos os caractere especiais
dados['descricao_vizinhanca'] = dados['descricao_vizinhanca'].str.replace('[^a-zA-Z0-9\-\']', ' ', regex=True)
dados['descricao_vizinhanca'] = dados['descricao_vizinhanca'].str.replace('(?<!\w)-(?!\w)', '', regex=True)
# Transformamos o texto em lista, formando o token
dados['descricao_vizinhanca'] = dados['descricao_vizinhanca'].str.split()
dados.head()

In [None]:
dt_data = pd.read_json('pandas-dados/moveis_disponiveis.json')

In [None]:
dt_data.head()

In [None]:
dt_data.info()

In [None]:
# verificamos que a coluna data nao esta no tipo correto, portanto precisamos converter ela
dt_data['data'] = pd.to_datetime(dt_data['data'])

In [None]:
dt_data.info()

In [None]:
dt_data.head()

In [None]:
dt_data['data'].dt.strftime('%Y-%m')

In [None]:
subset = dt_data.groupby(dt_data['data'].dt.strftime('%Y-%m'))['vaga_disponivel'].sum()
subset

Desafio: faça você mesmo

Nessa aula, aprendemos a manipular os dados temporais através do tipo datetime. Entendemos como transformar uma coluna para datetime e, depois, manipulamos esses dados. Mesmo assim, nem todos os dados do conjunto ```moveis_disponiveis.json``` foram tratados.

Durante as aulas desse curso, descobrimos como transformar e trabalhar com valores numéricos, por exemplo, removendo valores numéricos dentro de um texto e transformando-os em um tipo numérico, como ```int64``` ou ```float64```.

Sabendo disso, nessa atividade, proponho que você faça a transformação dos dados na coluna preco do conjunto de dados ```moveis_disponiveis.json``` para o tipo numérico ```float64```. Lembrando que, antes de fazer isso, você precisa preencher os valores vazios na coluna por um valor. Uma sugestão: substitua pela string ```'0.0'```.

Fique à vontade para seguir com os mesmos passos dados em aula ou, se preferir, realizar outros aprimoramentos, como a remoção de algum caractere ou de stopwords. Na seção “Opinião da pessoa instrutora”, você vai encontrar uma possibilidade de resolução para essa atividade.

In [None]:
dt_data

In [None]:
dt_data.info()

In [None]:
dt_data.tail(200)

In [None]:
dt_data['preco'] = dt_data['preco'].fillna('0.0').str.replace('$', '').str.replace(',','').str.strip().astype(np.float64)
dt_data.info()

In [None]:
dt_data.tail(200)