# Transformação e manipulação de dados com Pandas

#### **Conhecendo os Dados**

In [None]:
import pandas as pd

In [None]:
caminho_arquivo = '../../data_extra/dados_hospedagem.json'

In [None]:
dados_hospedagem = pd.read_json(caminho_arquivo)
dados_hospedagem.head()

Unnamed: 0,info_moveis
0,"{'avaliacao_geral': '10.0', 'experiencia_local..."
1,"{'avaliacao_geral': '10.0', 'experiencia_local..."
2,"{'avaliacao_geral': '10.0', 'experiencia_local..."
3,"{'avaliacao_geral': '10.0', 'experiencia_local..."
4,"{'avaliacao_geral': '10.0', 'experiencia_local..."


#### **Compreendendo os Dados**

In [None]:
dados_hospedagem = pd.json_normalize(dados_hospedagem['info_moveis'])
dados_hospedagem.head()

Unnamed: 0,avaliacao_geral,experiencia_local,max_hospedes,descricao_local,descricao_vizinhanca,quantidade_banheiros,quantidade_quartos,quantidade_camas,modelo_cama,comodidades,taxa_deposito,taxa_limpeza,preco
0,10.0,--,1,[This clean and comfortable one bedroom sits r...,[Lower Queen Anne is near the Seattle Center (...,"[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...","[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...","[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...","[Real Bed, Futon, Futon, Pull-out Sofa, Real B...","[{Internet,""Wireless Internet"",Kitchen,""Free P...","[$0, $0, $0, $0, $0, $350.00, $350.00, $350.00...","[$0, $0, $0, $20.00, $15.00, $28.00, $35.00, $...","[$110.00, $45.00, $55.00, $52.00, $85.00, $50...."
1,10.0,--,10,[Welcome to the heart of the 'Ballard Brewery ...,"[--, Capital Hill is the heart of Seattle, bor...","[2, 3, 2, 3, 3, 3, 2, 1, 2, 2, 2]","[3, 4, 2, 3, 3, 3, 3, 3, 3, 4, 3]","[5, 6, 8, 3, 3, 5, 4, 5, 6, 7, 4]","[Real Bed, Real Bed, Real Bed, Real Bed, Real ...","[{TV,Internet,""Wireless Internet"",Kitchen,""Fre...","[$500.00, $300.00, $0, $300.00, $300.00, $360....","[$125.00, $100.00, $85.00, $110.00, $110.00, $...","[$350.00, $300.00, $425.00, $300.00, $285.00, ..."
2,10.0,--,11,[New modern house built in 2013. Spectacular ...,[Upper Queen Anne is a charming neighborhood f...,[4],[5],[7],[Real Bed],"[{TV,""Cable TV"",Internet,""Wireless Internet"",""...","[$1,000.00]",[$300.00],[$975.00]
3,10.0,--,12,[Our NW style home is 3200+ sq ft with 3 level...,[The Views from our top floor! Wallingford ha...,"[3, 3, 3, 3, 3, 3, 3, 3]","[6, 6, 5, 5, 5, 5, 4, 4]","[6, 6, 7, 8, 7, 7, 6, 6]","[Real Bed, Real Bed, Real Bed, Real Bed, Real ...","[{Internet,""Wireless Internet"",Kitchen,""Free P...","[$500.00, $500.00, $500.00, $500.00, $500.00, ...","[$225.00, $300.00, $250.00, $250.00, $250.00, ...","[$490.00, $550.00, $350.00, $350.00, $350.00, ..."
4,10.0,--,14,"[Perfect for groups. 2 bedrooms, full bathroom...",[Safeway grocery store within walking distance...,"[2, 3]","[2, 6]","[3, 9]","[Real Bed, Real Bed]","[{TV,Internet,""Wireless Internet"",Kitchen,""Fre...","[$300.00, $2,000.00]","[$40.00, $150.00]","[$200.00, $545.00]"


#### **Vamos entender o que cada coluna traz de informação** ✅

✅**avaliacao_geral**: refere-se à média de notas dadas para a avaliação da hospedagem no imóvel.

✅**experiencia_local**: descreve as experiências oferecidas durante a hospedagem no imóvel.

✅**max_hospedes**: informa a quantidade máxima de hóspedes que o local permite.

✅**descricao_local**: descreve o imóvel.

✅**descricao_vizinhanca**: descreve a vizinhança ao redor do imóvel.

✅**quantidade_banheiros**: informa a quantidade de banheiros disponíveis.

✅**quantidade_quartos**: informa a quantidade de quartos disponíveis.

✅**quantidade_camas**: informa a quantidade de camas disponíveis.

✅**modelo_cama**: informa o modelo de cama oferecido.

✅**comodidades**: informa as comodidades oferecidas pelo imóvel.

✅**taxa_deposito**: informa a taxa de depósito mínima para segurança de hospedagem.

✅**taxa_limpeza**: informa a taxa cobrada para o serviço de limpeza.

✅**preco**: refere-se ao preço base a ser cobrado pela diária no imóvel.
 Dis

In [None]:
# criando uma lista de colunas
colunas = list(dados_hospedagem.columns)
colunas

['avaliacao_geral',
 'experiencia_local',
 'max_hospedes',
 'descricao_local',
 'descricao_vizinhanca',
 'quantidade_banheiros',
 'quantidade_quartos',
 'quantidade_camas',
 'modelo_cama',
 'comodidades',
 'taxa_deposito',
 'taxa_limpeza',
 'preco']

In [None]:
# desagrapando lista no dataframe usando explode
dados_hospedagem = dados_hospedagem.explode(colunas[3:])
dados_hospedagem.head()

Unnamed: 0,avaliacao_geral,experiencia_local,max_hospedes,descricao_local,descricao_vizinhanca,quantidade_banheiros,quantidade_quartos,quantidade_camas,modelo_cama,comodidades,taxa_deposito,taxa_limpeza,preco
0,10.0,--,1,This clean and comfortable one bedroom sits ri...,Lower Queen Anne is near the Seattle Center (s...,1,1,1,Real Bed,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",$0,$0,$110.00
0,10.0,--,1,Our century old Upper Queen Anne house is loca...,"Upper Queen Anne is a really pleasant, unique ...",1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",$0,$0,$45.00
0,10.0,--,1,Cozy room in two-bedroom apartment along the l...,The convenience of being in Seattle but on the...,1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",$0,$0,$55.00
0,10.0,--,1,Very lovely and cozy room for one. Convenientl...,"Ballard is lovely, vibrant and one of the most...",1,1,1,Pull-out Sofa,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",$0,$20.00,$52.00
0,10.0,--,1,The “Studio at Mibbett Hollow' is in a Beautif...,--,1,1,1,Real Bed,"{""Wireless Internet"",Kitchen,""Free Parking on ...",$0,$15.00,$85.00


In [None]:
# Resetando o Index do Dataframe
dados_hospedagem.reset_index(inplace=True, drop=True)
dados_hospedagem.head()

Unnamed: 0,avaliacao_geral,experiencia_local,max_hospedes,descricao_local,descricao_vizinhanca,quantidade_banheiros,quantidade_quartos,quantidade_camas,modelo_cama,comodidades,taxa_deposito,taxa_limpeza,preco
0,10.0,--,1,This clean and comfortable one bedroom sits ri...,Lower Queen Anne is near the Seattle Center (s...,1,1,1,Real Bed,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",$0,$0,$110.00
1,10.0,--,1,Our century old Upper Queen Anne house is loca...,"Upper Queen Anne is a really pleasant, unique ...",1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",$0,$0,$45.00
2,10.0,--,1,Cozy room in two-bedroom apartment along the l...,The convenience of being in Seattle but on the...,1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",$0,$0,$55.00
3,10.0,--,1,Very lovely and cozy room for one. Convenientl...,"Ballard is lovely, vibrant and one of the most...",1,1,1,Pull-out Sofa,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",$0,$20.00,$52.00
4,10.0,--,1,The “Studio at Mibbett Hollow' is in a Beautif...,--,1,1,1,Real Bed,"{""Wireless Internet"",Kitchen,""Free Parking on ...",$0,$15.00,$85.00


In [None]:
dados_hospedagem.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3818 entries, 0 to 3817
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0   avaliacao_geral       3818 non-null   object
 1   experiencia_local     3818 non-null   object
 2   max_hospedes          3818 non-null   object
 3   descricao_local       3818 non-null   object
 4   descricao_vizinhanca  3818 non-null   object
 5   quantidade_banheiros  3818 non-null   object
 6   quantidade_quartos    3818 non-null   object
 7   quantidade_camas      3818 non-null   object
 8   modelo_cama           3818 non-null   object
 9   comodidades           3818 non-null   object
 10  taxa_deposito         3818 non-null   object
 11  taxa_limpeza          3818 non-null   object
 12  preco                 3818 non-null   object
dtypes: object(13)
memory usage: 387.9+ KB


#### **Convertendo dados Numericos**

In [None]:
import numpy as np

In [None]:
colunas_numericas = ['quantidade_banheiros','quantidade_quartos','quantidade_camas','max_hospedes']

In [None]:
dados_hospedagem[colunas_numericas] = dados_hospedagem[colunas_numericas].astype(np.int64)
dados_hospedagem.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3818 entries, 0 to 3817
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0   avaliacao_geral       3818 non-null   object
 1   experiencia_local     3818 non-null   object
 2   max_hospedes          3818 non-null   int64 
 3   descricao_local       3818 non-null   object
 4   descricao_vizinhanca  3818 non-null   object
 5   quantidade_banheiros  3818 non-null   int64 
 6   quantidade_quartos    3818 non-null   int64 
 7   quantidade_camas      3818 non-null   int64 
 8   modelo_cama           3818 non-null   object
 9   comodidades           3818 non-null   object
 10  taxa_deposito         3818 non-null   object
 11  taxa_limpeza          3818 non-null   object
 12  preco                 3818 non-null   object
dtypes: int64(4), object(9)
memory usage: 387.9+ KB


In [None]:
dados_hospedagem['avaliacao_geral'] = dados_hospedagem['avaliacao_geral'].astype(np.float64)
dados_hospedagem.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3818 entries, 0 to 3817
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   avaliacao_geral       3162 non-null   float64
 1   experiencia_local     3818 non-null   object 
 2   max_hospedes          3818 non-null   int64  
 3   descricao_local       3818 non-null   object 
 4   descricao_vizinhanca  3818 non-null   object 
 5   quantidade_banheiros  3818 non-null   int64  
 6   quantidade_quartos    3818 non-null   int64  
 7   quantidade_camas      3818 non-null   int64  
 8   modelo_cama           3818 non-null   object 
 9   comodidades           3818 non-null   object 
 10  taxa_deposito         3818 non-null   object 
 11  taxa_limpeza          3818 non-null   object 
 12  preco                 3818 non-null   object 
dtypes: float64(1), int64(4), object(8)
memory usage: 387.9+ KB


In [None]:
lista_colunas = ['taxa_deposito',	'taxa_limpeza',	'preco']

In [None]:
dados_hospedagem[lista_colunas] = dados_hospedagem[lista_colunas].replace(r'\$', '', regex=True).replace(r',', '', regex=True)
dados_hospedagem[lista_colunas] = dados_hospedagem[lista_colunas].astype(np.float64)
dados_hospedagem

Unnamed: 0,avaliacao_geral,experiencia_local,max_hospedes,descricao_local,descricao_vizinhanca,quantidade_banheiros,quantidade_quartos,quantidade_camas,modelo_cama,comodidades,taxa_deposito,taxa_limpeza,preco
0,10.0,--,1,This clean and comfortable one bedroom sits ri...,Lower Queen Anne is near the Seattle Center (s...,1,1,1,Real Bed,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",0.0,0.0,110.0
1,10.0,--,1,Our century old Upper Queen Anne house is loca...,"Upper Queen Anne is a really pleasant, unique ...",1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",0.0,0.0,45.0
2,10.0,--,1,Cozy room in two-bedroom apartment along the l...,The convenience of being in Seattle but on the...,1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",0.0,0.0,55.0
3,10.0,--,1,Very lovely and cozy room for one. Convenientl...,"Ballard is lovely, vibrant and one of the most...",1,1,1,Pull-out Sofa,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",0.0,20.0,52.0
4,10.0,--,1,The “Studio at Mibbett Hollow' is in a Beautif...,--,1,1,1,Real Bed,"{""Wireless Internet"",Kitchen,""Free Parking on ...",0.0,15.0,85.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...
3813,,--,8,Beautiful craftsman home in the historic Wedgw...,--,3,4,5,Real Bed,"{TV,""Cable TV"",Internet,""Wireless Internet"",""A...",1000.0,178.0,299.0
3814,,--,8,Located in a very easily accessible area of Se...,"Quiet, dead end street near I-5. The proximity...",2,4,4,Real Bed,"{TV,""Cable TV"",Internet,""Wireless Internet"",Ki...",0.0,99.0,199.0
3815,,--,8,This home is fully furnished and available wee...,--,1,3,4,Real Bed,"{TV,""Cable TV"",Internet,""Wireless Internet"",""A...",0.0,0.0,400.0
3816,,--,9,This business-themed modern home features: *H...,Your hosts made Madison Valley their home when...,2,3,6,Real Bed,"{TV,""Cable TV"",Internet,""Wireless Internet"",""A...",1000.0,150.0,250.0
