# 01 - Entendendo o problema

### A área de dados possui muitas aplicações, em diversos tipos de negócio — entre eles, o turismo.

### Como exemplo, podemos aplicá-la na precificação do aluguel de imóveis a curto prazo.
### Neste curso, faremos uma ***preparação de dados***. Isso significa que não faremos uma análise deles, mas sim a sua ***transformação e manipulação***, para que atinjam um objetivo — neste caso, a solução do nosso problema.
### Nossa aplicação visa realizar um estudo dos nossos dados, com o objetivo de criar uma solução com ***precificação inteligente***.

## **Precificação Inteligente**
Trata-se de um algoritmo capaz de analisar as características de um imóvel — como comodidade, tamanho, ocupação do espaço em determinado período — e sugerir à pessoa anfitriã um preço a ser cobrado por diárias que garanta o lucro em momentos de alta demanda.

O problema está na estrutura dos nossos dados. Vamos conhecê-los e analisá-los.

## **Conhecendo os dados**
Para conhecer os nossos dados, utilizaremos o Google Colab. Ele deve estar vazio e conectado.

Vamos retirar as opções da barra de ferramentas superior, acessando-a e clicando no botão "Alternar a visibilidade do cabeçalho", no canto superior direito.

Vamos importar os dados. Para isso, acessaremos a barra de ferramentas lateral, à esquerda da tela, onde clicaremos no botão "Arquivos".

Com isso, será aberta uma barra secundária à direita, onde veremos o conteúdo da pasta "Arquivos".

Nela, clicaremos no botão "Fazer upload para o armazenamento da sessão" que abrirá uma janela com o explorador do nosso computador. Neste, por sua vez, buscaremos as bases de dados abaixo, que já deverão ter sido baixadas.

*   [dados_hospedagem.json](https://cdn3.gnarususercontent.com.br/2928-transformacao-manipulacao-dados/dados_hospedagem.json)
*   [moveis_disponiveis.json](https://cdn3.gnarususercontent.com.br/2928-transformacao-manipulacao-dados/moveis_disponiveis.json)

<br>

Clicaremos no arquivo dados_hospedagem.json e no botão "Abrir". Com isso, realizaremos o upload dos primeiros dados a serem trabalhados em nosso Notebook do Google Colab.

Vamos esperar o arquivo ser carregado. Quando este processo terminar, veremos na barra secundária lateral o nome do nosso arquivo.

Para conhecer os dados, utilizaremos a biblioteca **Pandas**. Para isso, na primeira linha de código, adicionaremos o ***import pandas***.

Além disso, incluiremos o comando ***as pd*** para podermos utilizar o ***pd*** quando chamarmos esta biblioteca. Por fim, pressionaremos "Shift+Enter", o que descerá o cursor para a linha 2.

Vamos ler o arquivo que importamos. Para isso, precisaremos do método ***read_json()***, já que nosso arquivo é do tipo JSON.

Na linha atual, atribuiremos um novo dataframe, chamado ***dados***. Ele receberá os dados de hospedagem por meio do ***pd.read_json()***.



In [10]:
!pip install pandas # Instala a biblioteca pandas no terminal local para poder usar a ferramente. Após instalar é só importar.



In [11]:
import pandas as pd

Entre os parênteses do método, adicionaremos o caminho até o arquivo que importamos. Para coletá-lo, voltaremos à barra secundária à direita, onde o buscaremos e clicaremos no botão à sua direita, que possui um ícone de três pontos.

Será aberta uma lista suspensa, onde selecionaremos a opção "copiar caminho". Com isso, teremos o caminho do arquivo vinculado à nossa área de transferência.

Voltando à linha 2, entre os parênteses do ***read_json()***, abriremos e fecharemos aspas simples, para criar uma string. Entre elas, pressionaremos "Ctrl+V", o que colará todo o caminho para a leitura do arquivo JSON.

Pressionaremos "Ctrl+Enter" para descer de linha e rodaremos o ***dados.head()***
<br>
para conseguir visualizar as primeiras cinco linhas do nosso arquivo.

Pressionaremos "Shift+Enter" e veremos o resultado abaixo:


In [12]:
dados = pd.read_json('/content/dados_hospedagem.json')
dados.head()

Unnamed: 0,info_moveis
0,"{'avaliacao_geral': '10.0', 'experiencia_local..."
1,"{'avaliacao_geral': '10.0', 'experiencia_local..."
2,"{'avaliacao_geral': '10.0', 'experiencia_local..."
3,"{'avaliacao_geral': '10.0', 'experiencia_local..."
4,"{'avaliacao_geral': '10.0', 'experiencia_local..."


Temos uma visualização de como é o nosso arquivo, na qual percebemos que os ***dados estão aninhados em formato de dicionário***. Isso dificulta o entendimento.

Por exemplo, observaremos que a linha 0 é um dicionário que possui a chave ***avaliacao_geral***, o valor **10.0** e outra chave com o nome exibido parcialmente **(experiencia_local...)**.

No próximo vídeo, precisamos desaninhar os dados para conseguir observar melhor os valores e os resultados que temos neste ***dataframe***.

Continuaremos a leitura e o desbravamento dos nossos dados.

Anteriormente, descobrimos que eles estão ***aninhados em dicionários***. Para estudá-los e identificar onde podemos prepará-los, tratá-los e transformá-los, precisamos que estejam destrinchados.

Vamos fechar a aba secundária "Arquivos", à direita, para termos uma visualização ampla do nosso código.

Na primeira célula disponível abaixo do último retorno, utilizaremos o método ***json_normalize()*** que fará exatamente o que precisamos: a **normalização** desses dados — neste caso, da coluna ***info_moveis***.

Reatribuiremos os dados do dataframe para que o novo dataframe seja normalizado. Para isso, rodaremos o comando ***dados = pd.json_normalize()***. Dentro dos parênteses, adicionaremos como parâmetro um **dados**, junto a um bloco de colchetes. Este receberá em seu interior, entre aspas simples, a coluna a ser normalizada: ***info_moveis***.

No final desta linha, fora do ***json_normalize()***, pressionaremos "Enter" para descer de linha. Nesta, pediremos uma observação dos nossos dados normalizados, digitando **dados**.

Pressionando "Shift+Enter", veremos um retorno de 70 linhas, dentre as quais exibimos abaixo algumas linhas como exemplo:

In [13]:
dados = pd.json_normalize(dados['info_moveis'])
dados

Unnamed: 0,avaliacao_geral,experiencia_local,max_hospedes,descricao_local,descricao_vizinhanca,quantidade_banheiros,quantidade_quartos,quantidade_camas,modelo_cama,comodidades,taxa_deposito,taxa_limpeza,preco
0,10.0,--,1,[This clean and comfortable one bedroom sits r...,[Lower Queen Anne is near the Seattle Center (...,"[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...","[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...","[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...","[Real Bed, Futon, Futon, Pull-out Sofa, Real B...","[{Internet,""Wireless Internet"",Kitchen,""Free P...","[$0, $0, $0, $0, $0, $350.00, $350.00, $350.00...","[$0, $0, $0, $20.00, $15.00, $28.00, $35.00, $...","[$110.00, $45.00, $55.00, $52.00, $85.00, $50...."
1,10.0,--,10,[Welcome to the heart of the 'Ballard Brewery ...,"[--, Capital Hill is the heart of Seattle, bor...","[2, 3, 2, 3, 3, 3, 2, 1, 2, 2, 2]","[3, 4, 2, 3, 3, 3, 3, 3, 3, 4, 3]","[5, 6, 8, 3, 3, 5, 4, 5, 6, 7, 4]","[Real Bed, Real Bed, Real Bed, Real Bed, Real ...","[{TV,Internet,""Wireless Internet"",Kitchen,""Fre...","[$500.00, $300.00, $0, $300.00, $300.00, $360....","[$125.00, $100.00, $85.00, $110.00, $110.00, $...","[$350.00, $300.00, $425.00, $300.00, $285.00, ..."
2,10.0,--,11,[New modern house built in 2013. Spectacular ...,[Upper Queen Anne is a charming neighborhood f...,[4],[5],[7],[Real Bed],"[{TV,""Cable TV"",Internet,""Wireless Internet"",""...","[$1,000.00]",[$300.00],[$975.00]
3,10.0,--,12,[Our NW style home is 3200+ sq ft with 3 level...,[The Views from our top floor! Wallingford ha...,"[3, 3, 3, 3, 3, 3, 3, 3]","[6, 6, 5, 5, 5, 5, 4, 4]","[6, 6, 7, 8, 7, 7, 6, 6]","[Real Bed, Real Bed, Real Bed, Real Bed, Real ...","[{Internet,""Wireless Internet"",Kitchen,""Free P...","[$500.00, $500.00, $500.00, $500.00, $500.00, ...","[$225.00, $300.00, $250.00, $250.00, $250.00, ...","[$490.00, $550.00, $350.00, $350.00, $350.00, ..."
4,10.0,--,14,"[Perfect for groups. 2 bedrooms, full bathroom...",[Safeway grocery store within walking distance...,"[2, 3]","[2, 6]","[3, 9]","[Real Bed, Real Bed]","[{TV,Internet,""Wireless Internet"",Kitchen,""Fre...","[$300.00, $2,000.00]","[$40.00, $150.00]","[$200.00, $545.00]"
...,...,...,...,...,...,...,...,...,...,...,...,...,...
65,,--,5,[Our cozy little bungalow is the perfect place...,[The Queen Anne neighborhood is one of the mos...,"[1, 3, 2, 2, 2, 1, 2, 1, 1, 1, 2, 3, 2, 2, 2, ...","[2, 2, 2, 3, 2, 2, 2, 2, 2, 2, 2, 3, 2, 2, 2, ...","[3, 2, 2, 3, 3, 2, 3, 2, 2, 3, 3, 3, 2, 3, 2, ...","[Real Bed, Real Bed, Real Bed, Real Bed, Real ...","[{""Cable TV"",""Wireless Internet"",Kitchen,""Free...","[$250.00, $200.00, $0, $0, $0, $200.00, $350.0...","[$35.00, $50.00, $100.00, $100.00, $0, $30.00,...","[$150.00, $200.00, $143.00, $150.00, $350.00, ..."
66,,--,6,[Bright clean 2 bedroom 1 bath appartment in t...,[Ballard is the most interesting and ecclectic...,"[1, 1, 3, 2, 1, 3, 2, 2, 1, 2, 2, 2, 1, 2, 1, ...","[2, 3, 3, 2, 2, 3, 2, 3, 2, 2, 2, 2, 4, 3, 3, ...","[3, 3, 2, 3, 3, 3, 2, 3, 3, 3, 2, 2, 4, 4, 3, ...","[Real Bed, Real Bed, Real Bed, Real Bed, Real ...","[{TV,""Cable TV"",Internet,""Wireless Internet"",K...","[$200.00, $200.00, $100.00, $0, $0, $750.00, $...","[$0, $0, $100.00, $0, $75.00, $140.00, $112.00...","[$99.00, $185.00, $250.00, $200.00, $275.00, $..."
67,,--,7,[Beautiful end-unit townhome with lots of dayl...,"[Cherry blossoms (Sakura) in the spring, every...","[4, 3, 1, 2, 2, 1, 2, 1, 2, 2]","[3, 4, 3, 3, 3, 3, 3, 3, 3, 4]","[3, 5, 1, 5, 3, 2, 3, 4, 4, 4]","[Real Bed, Real Bed, Real Bed, Real Bed, Real ...","[{TV,""Cable TV"",Internet,""Wireless Internet"",""...","[$750.00, $350.00, $500.00, $500.00, $0, $200....","[$300.00, $90.00, $250.00, $100.00, $109.00, $...","[$218.00, $350.00, $450.00, $149.00, $99.00, $..."
68,,--,8,[Heart of Ballard new townhome with 4 BRs + ba...,"[--, --, The suite is conveniently located off...","[2, 2, 3, 1, 1, 2, 1, 3, 2, 1, 2, 1, 2, 2, 2, ...","[4, 2, 3, 4, 3, 3, 4, 4, 3, 5, 2, 3, 3, 4, 5, ...","[4, 4, 3, 3, 5, 5, 5, 5, 3, 5, 4, 5, 5, 4, 1, ...","[Real Bed, Real Bed, Real Bed, Real Bed, Real ...","[{TV,Internet,""Wireless Internet"",""Air Conditi...","[$500.00, $150.00, $250.00, $800.00, $0, $500....","[$50.00, $85.00, $150.00, $75.00, $100.00, $80...","[$275.00, $199.00, $400.00, $325.00, $300.00, ..."


Nele, vemos dados numéricos, de texto e também listas com os dois tipos.

Para realizar o tratamento focado em cada tipo de dado, precisaremos realizar um desagrupamento, removendo-os das listas. Faremos isso a seguir.

