## Extração de dados de um arquivo JSON

In [5]:
import pandas as pd

In [6]:
df = pd.read_json(r'C:\Users\carlo\OneDrive\Área de Trabalho\Arquivos Gerais\Dev-Carlos\dashboard_compras_pandas_streamlit\trasnformacao_pandas\dados_hospedagem.json')

In [7]:
df.head()

Unnamed: 0,info_moveis
0,"{'avaliacao_geral': '10.0', 'experiencia_local..."
1,"{'avaliacao_geral': '10.0', 'experiencia_local..."
2,"{'avaliacao_geral': '10.0', 'experiencia_local..."
3,"{'avaliacao_geral': '10.0', 'experiencia_local..."
4,"{'avaliacao_geral': '10.0', 'experiencia_local..."


In [8]:
df = pd.json_normalize(df['info_moveis'])

In [9]:
df.head(1)

Unnamed: 0,avaliacao_geral,experiencia_local,max_hospedes,descricao_local,descricao_vizinhanca,quantidade_banheiros,quantidade_quartos,quantidade_camas,modelo_cama,comodidades,taxa_deposito,taxa_limpeza,preco
0,10.0,--,1,[This clean and comfortable one bedroom sits r...,[Lower Queen Anne is near the Seattle Center (...,"[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...","[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...","[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...","[Real Bed, Futon, Futon, Pull-out Sofa, Real B...","[{Internet,""Wireless Internet"",Kitchen,""Free P...","[$0, $0, $0, $0, $0, $350.00, $350.00, $350.00...","[$0, $0, $0, $20.00, $15.00, $28.00, $35.00, $...","[$110.00, $45.00, $55.00, $52.00, $85.00, $50...."


In [10]:
colunas = list(df.columns)
colunas

['avaliacao_geral',
 'experiencia_local',
 'max_hospedes',
 'descricao_local',
 'descricao_vizinhanca',
 'quantidade_banheiros',
 'quantidade_quartos',
 'quantidade_camas',
 'modelo_cama',
 'comodidades',
 'taxa_deposito',
 'taxa_limpeza',
 'preco']

In [11]:
df = df.explode(colunas[3:])
# A função explode serve para liberar todas as listas dentro de um df
#algo comum em aquivos JSON, a extrategia deve ser usar json_normalize para
#liberar a maior lista e usar o explode para liberar as sub listas

In [12]:
df.shape
df.reset_index(inplace=True, drop=True)

In [13]:
df.head(2)

Unnamed: 0,avaliacao_geral,experiencia_local,max_hospedes,descricao_local,descricao_vizinhanca,quantidade_banheiros,quantidade_quartos,quantidade_camas,modelo_cama,comodidades,taxa_deposito,taxa_limpeza,preco
0,10.0,--,1,This clean and comfortable one bedroom sits ri...,Lower Queen Anne is near the Seattle Center (s...,1,1,1,Real Bed,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",$0,$0,$110.00
1,10.0,--,1,Our century old Upper Queen Anne house is loca...,"Upper Queen Anne is a really pleasant, unique ...",1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",$0,$0,$45.00


In [14]:
df.to_csv('baseDeDados.csv', index=False, decimal=',')

In [15]:
df.dtypes

avaliacao_geral         object
experiencia_local       object
max_hospedes            object
descricao_local         object
descricao_vizinhanca    object
quantidade_banheiros    object
quantidade_quartos      object
quantidade_camas        object
modelo_cama             object
comodidades             object
taxa_deposito           object
taxa_limpeza            object
preco                   object
dtype: object

## Conversão de dados númericos

In [16]:
df.head(2)

Unnamed: 0,avaliacao_geral,experiencia_local,max_hospedes,descricao_local,descricao_vizinhanca,quantidade_banheiros,quantidade_quartos,quantidade_camas,modelo_cama,comodidades,taxa_deposito,taxa_limpeza,preco
0,10.0,--,1,This clean and comfortable one bedroom sits ri...,Lower Queen Anne is near the Seattle Center (s...,1,1,1,Real Bed,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",$0,$0,$110.00
1,10.0,--,1,Our century old Upper Queen Anne house is loca...,"Upper Queen Anne is a really pleasant, unique ...",1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",$0,$0,$45.00


In [17]:
import numpy as np

In [18]:
# Convertendo coluna de obj para inteiro64 com astype e numpy
df['max_hospedes'] = df['max_hospedes'].astype(np.int64)

In [19]:
# Covertendo várias colunas em tipo int64
cols = ['max_hospedes', 'quantidade_banheiros', 'quantidade_quartos', 'quantidade_camas']
df[cols] = df[cols].astype(np.int64)

In [20]:
# Convertendo coluna em float64
df['avaliacao_geral'] = df['avaliacao_geral'].astype(np.float64)

In [21]:
cols = ['taxa_deposito', 'taxa_limpeza', 'preco']
df[cols] = df[cols].apply(lambda x : x.astype(str).str.replace('$' , '', regex=False).str.replace(',' , '', regex=False)).astype(np.float64)

In [22]:
df.dtypes

avaliacao_geral         float64
experiencia_local        object
max_hospedes              int64
descricao_local          object
descricao_vizinhanca     object
quantidade_banheiros      int64
quantidade_quartos        int64
quantidade_camas          int64
modelo_cama              object
comodidades              object
taxa_deposito           float64
taxa_limpeza            float64
preco                   float64
dtype: object

In [23]:
max_value = df['preco'].max()
min_value = df['preco'].min()
print(f'O maior valor R$ {max_value} e o menor valor R$ {min_value}')

O maior valor R$ 1000.0 e o menor valor R$ 20.0


## Conversões de dados textuais 1

In [24]:
# Normalizando os dados de texto, os convertendo para lower()
cols = ['descricao_local', 'descricao_vizinhanca']
df[cols] =  df[cols].apply(lambda x : x.str.lower())

In [25]:
# Usando regex para retirar caracters estranhos das descrições
df[cols] = df[cols].apply(lambda x : x.str.replace(r"[^a-zA-Z0-9\-']", " ", regex = True)) #O r antes do "" serve para evitar problemas de caracters especiais 

In [26]:
# Usando regex para retirar caracters estranhos das descrições com o auxilio do \w para ajustes de exceções
df[cols] = df[cols].apply(lambda x : x.str.replace(r"[^\w\-']", " ", regex = True)) #O r antes do "" serve para evitar problemas de caracters especiais 

In [27]:
# Usando regex par aremover o ifen quando não é palavra composta
df[cols] = df[cols].apply(lambda x : x.str.replace(r"(?<!\w)-(?<!\w)", " ", regex =True))

## Conversões de dados textuais 2

In [28]:
df.head(3)

Unnamed: 0,avaliacao_geral,experiencia_local,max_hospedes,descricao_local,descricao_vizinhanca,quantidade_banheiros,quantidade_quartos,quantidade_camas,modelo_cama,comodidades,taxa_deposito,taxa_limpeza,preco
0,10.0,--,1,this clean and comfortable one bedroom sits ri...,lower queen anne is near the seattle center s...,1,1,1,Real Bed,"{Internet,""Wireless Internet"",Kitchen,""Free Pa...",0.0,0.0,110.0
1,10.0,--,1,our century old upper queen anne house is loca...,upper queen anne is a really pleasant unique ...,1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",0.0,0.0,45.0
2,10.0,--,1,cozy room in two-bedroom apartment along the l...,the convenience of being in seattle but on the...,1,1,1,Futon,"{TV,Internet,""Wireless Internet"",Kitchen,""Free...",0.0,0.0,55.0


In [29]:
# Tokenizando os dados das coluas de descrição
df[cols] = df[cols].apply(lambda x : x.astype(str).str.split())
# A tolkenização consiste em pegar uma str e comvertela em uma serie de tolkes(palavras inividuais) para consultas

In [30]:
# Aplicando regex para retirar os {} e ficar no padrão para a tolkenização
df['comodidades'] = df['comodidades'].str.replace(r"\{|}|\'", "", regex= True)

In [31]:
# Aplicando tolkenização para com , como separador
df['comodidades'] =  df['comodidades'].str.split(",")
# Esse parâmetro do split finciona similarmente ao sep do csv, ele serve para especificacar o ponto dos cortes

In [32]:
df.head(3)

Unnamed: 0,avaliacao_geral,experiencia_local,max_hospedes,descricao_local,descricao_vizinhanca,quantidade_banheiros,quantidade_quartos,quantidade_camas,modelo_cama,comodidades,taxa_deposito,taxa_limpeza,preco
0,10.0,--,1,"[this, clean, and, comfortable, one, bedroom, ...","[lower, queen, anne, is, near, the, seattle, c...",1,1,1,Real Bed,"[Internet, ""Wireless Internet"", Kitchen, ""Free...",0.0,0.0,110.0
1,10.0,--,1,"[our, century, old, upper, queen, anne, house,...","[upper, queen, anne, is, a, really, pleasant, ...",1,1,1,Futon,"[TV, Internet, ""Wireless Internet"", Kitchen, ""...",0.0,0.0,45.0
2,10.0,--,1,"[cozy, room, in, two-bedroom, apartment, along...","[the, convenience, of, being, in, seattle, but...",1,1,1,Futon,"[TV, Internet, ""Wireless Internet"", Kitchen, ""...",0.0,0.0,55.0
