# PANDAS AVANÇADO
---

# CARREGANDO OS DADOS
---

## Configurações do projeto

### Importando pacotes

In [63]:
import pandas as pd

In [64]:
pd.__version__

'1.4.1'

### Opções de configuração

[Documentação](https://pandas.pydata.org/pandas-docs/stable/user_guide/options.html)

In [65]:
pd.get_option("display.max_rows")

30

In [66]:
pd.get_option("display.max_columns")

1000

[Opções disponíveis](https://pandas.pydata.org/pandas-docs/stable/user_guide/options.html#available-options)

In [67]:
# verificando todas as opções de configurações disponíveis
pd.describe_option()

compute.use_bottleneck : bool
    Use the bottleneck library to accelerate if it is installed,
    the default is True
    Valid values: False,True
    [default: True] [currently: True]
compute.use_numba : bool
    Use the numba engine option for select operations if it is installed,
    the default is False
    Valid values: False,True
    [default: False] [currently: False]
compute.use_numexpr : bool
    Use the numexpr library to accelerate computation if it is installed,
    the default is True
    Valid values: False,True
    [default: True] [currently: True]
display.chop_threshold : float or None
    if set to a float value, all float values smaller then the given threshold
    will be displayed as exactly 0 by repr and friends.
    [default: None] [currently: None]
display.colheader_justify : 'left'/'right'
    Controls the justification of column headers. used by DataFrameFormatter.
    [default: right] [currently: right]
display.column_space No description available.
    [defa

In [68]:
# Setando configurações
pd.set_option("display.max_columns", 1000)

In [69]:
pd.set_option("display.max_rows", 30)

## Carregando os dados

### Arquivos JSON - `read_json`

[Documentação](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_json.html)

## JSON

JSON (**J**ava**S**cript **O**bject **N**otation - Notação de Objetos JavaScript) é uma formatação leve de troca de dados. Para seres humanos, é fácil de ler e escrever. Para máquinas, é fácil de interpretar e gerar. Está baseado em um subconjunto da linguagem de programação JavaScript, Standard ECMA-262 3a Edição - Dezembro - 1999. JSON é em formato texto e completamente independente de linguagem, pois usa convenções que são familiares às linguagens C e familiares, incluindo C++, C#, Java, JavaScript, Perl, Python e muitas outras. Estas propriedades fazem com que JSON seja um formato ideal de troca de dados.

[fonte](https://www.json.org/json-pt.html)

[Online JSON Viewer](http://jsonviewer.stack.hu/)

In [70]:
data_json = '{"A": [1, 2, 3, 4], "B": [5, 6, 7, 8], "C": [9, 10, 11, 12]}'
data_json

'{"A": [1, 2, 3, 4], "B": [5, 6, 7, 8], "C": [9, 10, 11, 12]}'

In [71]:
dados = pd.read_json(
    path_or_buf=data_json,
    orient='columns'
)
dados

Unnamed: 0,A,B,C
0,1,5,9
1,2,6,10
2,3,7,11
3,4,8,12


In [72]:
dados = pd.read_json(
    path_or_buf=data_json,
    orient='index'
)
dados

Unnamed: 0,0,1,2,3
A,1,2,3,4
B,5,6,7,8
C,9,10,11,12


In [73]:
dados = pd.read_json(
    path_or_buf='data/realestates.json',
    orient='columns'
)
dados

Unnamed: 0,normal,highlights
output,{'listings': [{'imovel': {'tipos': {'proprieda...,{'listings': [{'imovel': {'tipos': {'proprieda...


### Arquivos EXCEL - `read_excel`

[Documentação](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html)

In [74]:
bairros = pd.read_excel(
    io = 'data/bairros.xlsx',
    sheet_name='Preço médio por tipo',
    usecols='C:E',
    header=2,
    index_col=[0, 1],
    names=['bairros', 'tipo', 'valor_m2_bairro']
)
bairros

Unnamed: 0_level_0,Unnamed: 1_level_0,valor_m2_bairro
bairros,tipo,Unnamed: 2_level_1
São Cristóvão,Casa,13793
São Cristóvão,Apartamento,6306
São Cristóvão,Cobertura,11695
São Cristóvão,Consultório,6991
São Cristóvão,Imóvel Comercial,19633
...,...,...
Vista Alegre,Cobertura,16567
Vista Alegre,Consultório,5812
Vista Alegre,Imóvel Comercial,12895
Vista Alegre,Loja,6182


# TRANSFORMANDO E TRATANDO OS DADOS
---

## Transformando dados no formato JSON para uma tabela

In [75]:
dados

Unnamed: 0,normal,highlights
output,{'listings': [{'imovel': {'tipos': {'proprieda...,{'listings': [{'imovel': {'tipos': {'proprieda...


### `json_normalize`

[Documentação](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.json_normalize.html)

In [76]:
dados_normal = pd.json_normalize(data=dados.normal)
dados_normal

Unnamed: 0,listings
0,"[{'imovel': {'tipos': {'propriedade': 'Casa'},..."


In [77]:
dados_normal['listings'].iloc[0]

[{'imovel': {'tipos': {'propriedade': 'Casa'},
   'endereco': {'bairro': 'Barra da Tijuca',
    'localizacao': {'type': 'Point',
     'coordinates': [-43.3039086, -23.0139692]}},
   'vagasGaragem': 4,
   'area': 279,
   'caracteristicas': {'propriedade': "['Área de Serviço', 'Terraço', 'Churrasqueira', 'Quarto/WC Empregada', 'Sauna', 'Varanda', 'Gás Encanado', 'Closet', 'Piscina', 'Mobiliado', 'Armários Planejados', 'Acessibilidade']",
    'condominio': "['Churrasqueira', 'Salão de Jogos', 'Sauna', 'Estacionamento Visitantes', 'Playground', 'Salão de Festas', 'Porteiro 24 Horas', 'Estacionamento Coberto', 'Aceita Pet', 'Sistema de Incêndio', 'Segurança Interna', 'Bicicletário', 'Acessibilidade']",
    'entorno': "['Próximo a Escola Particular', 'Próximo ao Metrô', 'Próximo a Serviços de Saúde', 'Próximo a Centro Empresarial', 'Próximo a Restaurante', 'Próximo a Academia', 'Próximo a Praia', 'Próximo a Escola Pública', 'Próximo a Farmácia', 'Próximo a Parques e Áreas Verdes', 'Próximo a

In [78]:
type(dados_normal['listings'].iloc[0])

list

In [79]:
len(dados_normal['listings'].iloc[0])

50

In [80]:
dados_normal_listings = pd.json_normalize(data=dados_normal['listings'].iloc[0], sep='_')
dados_normal_listings

Unnamed: 0,imovel_tipos_propriedade,imovel_endereco_bairro,imovel_endereco_localizacao_type,imovel_endereco_localizacao_coordinates,imovel_vagasGaragem,imovel_area,imovel_caracteristicas_propriedade,imovel_caracteristicas_condominio,imovel_caracteristicas_entorno,anuncio_tipos_publicacao,anuncio_tipos_listagem,anuncio_valores_venda,anuncio_valores_aluguel,anuncio_valores_condominio,anuncio_valores_iptu,anuncio_descricao
0,Casa,Barra da Tijuca,Point,"[-43.3039086, -23.0139692]",4,279,"['Área de Serviço', 'Terraço', 'Churrasqueira'...","['Churrasqueira', 'Salão de Jogos', 'Sauna', '...","['Próximo a Escola Particular', 'Próximo ao Me...",Padrão,Lançamento,2400000.0,0.0,790.0,5700.0,"Amplo imóvel para venda com 3 quartos, sendo 1..."
1,Apartamento,Campo Grande,Point,"[0, 0]",1,60,['Sauna'],"['Elevador', 'Playground', 'Salão de Festas', ...","['Próximo ao Shopping', 'Próximo a Áreas de La...",Padrão,Usado,200000.0,0.0,0.0,0.0,"Amplo imóvel para venda com 2 quartos, sendo 0..."
2,Cobertura,Barra da Tijuca,Point,"[-43.3037186, -22.9951304]",2,380,"['Acessibilidade', 'Área de Serviço', 'Sauna',...","['Sauna', 'Playground', 'Quadra Poliesportiva'...",['Próximo a Escola Particular'],Premium,Usado,4400000.0,0.0,1200.0,850.0,"Amplo imóvel para venda com 5 quartos, sendo 4..."
3,Cobertura,Barra da Tijuca,Point,"[-43.3548121, -23.0097423]",1,73,"['Vista Panorâmica', 'Piscina', 'Sauna', 'Clos...","['Quadra Poliesportiva', 'Aceita Pet', 'Playgr...","['Próximo a Farmácia', 'Próximo a Academia', '...",Padrão,Usado,1100000.0,0.0,1300.0,364.0,"Amplo imóvel para venda com 2 quartos, sendo 1..."
4,Sala Comercial,Glória,Point,"[-43.1779703, -22.9174894]",1,32,['Armários Planejados'],"['Quadra Poliesportiva', 'Porteiro 24 Horas', ...","['Próximo a Centro Empresarial', 'Próximo a Ár...",Padrão,Usado,260000.0,0.0,450.0,800.0,"Amplo imóvel para venda com 0 quartos, sendo 0..."
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
45,Cobertura,Copacabana,Point,"[-43.1888153, -22.9778673]",2,250,"['Ambientes Integrados', 'Sauna', 'Piscina', '...","['Estacionamento Visitantes', 'Estacionamento ...","['Próximo a Serviços de Saúde', 'Próximo a Aca...",Destaque,Lançamento,3000000.0,0.0,1800.0,500.0,"Amplo imóvel para venda com 3 quartos, sendo 1..."
46,Apartamento,Rocha,Point,"[-43.2499016, -22.9017852]",0,67,"['Acessibilidade', 'Gás Encanado', 'Área de Se...","['Segurança Interna', 'Depósito Privativo', 'A...","['Próximo a Comércio Diversos', 'Próximo a Esc...",Super Destaque,Usado,320000.0,0.0,0.0,135.0,"Amplo imóvel para venda com 2 quartos, sendo 0..."
47,Casa,Barra da Tijuca,Point,"[-43.3413206, -22.99961]",0,370,"['Acessibilidade', 'Quarto/WC Empregada', 'Arm...","['Churrasqueira', 'Depósito Privativo', 'Quadr...","['Próximo a Restaurante', 'Próximo a Comércio ...",Super Destaque,Usado,3200000.0,0.0,2520.0,7600.0,"Amplo imóvel para venda com 4 quartos, sendo 1..."
48,Casa,Copacabana,Point,"[-43.1918012, -22.9756286]",0,30,"['Cozinha Americana', 'Mobiliado', 'Sauna', 'P...","['Estacionamento Coberto', 'Quadra Poliesporti...","['Próximo ao Shopping', 'Próximo a Mercado', '...",Padrão,Usado,650000.0,0.0,0.0,0.0,"Amplo imóvel para venda com 1 quartos, sendo 0..."


In [81]:
dados_normal_listings = pd.json_normalize(data=dados.normal, sep='_', record_path=['listings'])
dados_normal_listings

Unnamed: 0,imovel_tipos_propriedade,imovel_endereco_bairro,imovel_endereco_localizacao_type,imovel_endereco_localizacao_coordinates,imovel_vagasGaragem,imovel_area,imovel_caracteristicas_propriedade,imovel_caracteristicas_condominio,imovel_caracteristicas_entorno,anuncio_tipos_publicacao,anuncio_tipos_listagem,anuncio_valores_venda,anuncio_valores_aluguel,anuncio_valores_condominio,anuncio_valores_iptu,anuncio_descricao
0,Casa,Barra da Tijuca,Point,"[-43.3039086, -23.0139692]",4,279,"['Área de Serviço', 'Terraço', 'Churrasqueira'...","['Churrasqueira', 'Salão de Jogos', 'Sauna', '...","['Próximo a Escola Particular', 'Próximo ao Me...",Padrão,Lançamento,2400000.0,0.0,790.0,5700.0,"Amplo imóvel para venda com 3 quartos, sendo 1..."
1,Apartamento,Campo Grande,Point,"[0, 0]",1,60,['Sauna'],"['Elevador', 'Playground', 'Salão de Festas', ...","['Próximo ao Shopping', 'Próximo a Áreas de La...",Padrão,Usado,200000.0,0.0,0.0,0.0,"Amplo imóvel para venda com 2 quartos, sendo 0..."
2,Cobertura,Barra da Tijuca,Point,"[-43.3037186, -22.9951304]",2,380,"['Acessibilidade', 'Área de Serviço', 'Sauna',...","['Sauna', 'Playground', 'Quadra Poliesportiva'...",['Próximo a Escola Particular'],Premium,Usado,4400000.0,0.0,1200.0,850.0,"Amplo imóvel para venda com 5 quartos, sendo 4..."
3,Cobertura,Barra da Tijuca,Point,"[-43.3548121, -23.0097423]",1,73,"['Vista Panorâmica', 'Piscina', 'Sauna', 'Clos...","['Quadra Poliesportiva', 'Aceita Pet', 'Playgr...","['Próximo a Farmácia', 'Próximo a Academia', '...",Padrão,Usado,1100000.0,0.0,1300.0,364.0,"Amplo imóvel para venda com 2 quartos, sendo 1..."
4,Sala Comercial,Glória,Point,"[-43.1779703, -22.9174894]",1,32,['Armários Planejados'],"['Quadra Poliesportiva', 'Porteiro 24 Horas', ...","['Próximo a Centro Empresarial', 'Próximo a Ár...",Padrão,Usado,260000.0,0.0,450.0,800.0,"Amplo imóvel para venda com 0 quartos, sendo 0..."
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
45,Cobertura,Copacabana,Point,"[-43.1888153, -22.9778673]",2,250,"['Ambientes Integrados', 'Sauna', 'Piscina', '...","['Estacionamento Visitantes', 'Estacionamento ...","['Próximo a Serviços de Saúde', 'Próximo a Aca...",Destaque,Lançamento,3000000.0,0.0,1800.0,500.0,"Amplo imóvel para venda com 3 quartos, sendo 1..."
46,Apartamento,Rocha,Point,"[-43.2499016, -22.9017852]",0,67,"['Acessibilidade', 'Gás Encanado', 'Área de Se...","['Segurança Interna', 'Depósito Privativo', 'A...","['Próximo a Comércio Diversos', 'Próximo a Esc...",Super Destaque,Usado,320000.0,0.0,0.0,135.0,"Amplo imóvel para venda com 2 quartos, sendo 0..."
47,Casa,Barra da Tijuca,Point,"[-43.3413206, -22.99961]",0,370,"['Acessibilidade', 'Quarto/WC Empregada', 'Arm...","['Churrasqueira', 'Depósito Privativo', 'Quadr...","['Próximo a Restaurante', 'Próximo a Comércio ...",Super Destaque,Usado,3200000.0,0.0,2520.0,7600.0,"Amplo imóvel para venda com 4 quartos, sendo 1..."
48,Casa,Copacabana,Point,"[-43.1918012, -22.9756286]",0,30,"['Cozinha Americana', 'Mobiliado', 'Sauna', 'P...","['Estacionamento Coberto', 'Quadra Poliesporti...","['Próximo ao Shopping', 'Próximo a Mercado', '...",Padrão,Usado,650000.0,0.0,0.0,0.0,"Amplo imóvel para venda com 1 quartos, sendo 0..."


In [82]:
dados_highlights_listings = pd.json_normalize(data=dados.highlights, sep='_', record_path=['listings'])
dados_highlights_listings

Unnamed: 0,imovel_tipos_propriedade,imovel_endereco_bairro,imovel_endereco_localizacao_type,imovel_endereco_localizacao_coordinates,imovel_vagasGaragem,imovel_area,imovel_caracteristicas_propriedade,imovel_caracteristicas_condominio,imovel_caracteristicas_entorno,anuncio_tipos_publicacao,anuncio_tipos_listagem,anuncio_valores_venda,anuncio_valores_aluguel,anuncio_valores_condominio,anuncio_valores_iptu,anuncio_descricao
0,Casa,Engenho Novo,Point,"[-43.2634918, -22.8971768]",0,0,"['Sauna', 'Terraço', 'Acessibilidade', 'Mobili...","['Estacionamento Coberto', 'Estacionamento Vis...","['Próximo a Serviços de Saúde', 'Próximo ao Sh...",Padrão,Usado,195772.0,0.0,0.0,0.0,"Amplo imóvel para venda com 0 quartos, sendo 0..."
1,Cobertura,Vargem Grande,Point,"[-43.4907917, -22.988122]",1,61,[],"['Estacionamento Visitantes', 'Estacionamento ...","['Próximo ao Metrô', 'Próximo a Praia', 'Próxi...",Destaque,Usado,305000.0,0.0,667.0,162.0,"Amplo imóvel para venda com 2 quartos, sendo 0..."
2,Imóvel Comercial,Ribeira,Point,"[-43.1690005, -22.8239272]",4,180,"['Vista Panorâmica', 'Acessibilidade', 'Área d...","['Segurança Interna', 'Salão de Festas', 'Acad...","['Próximo a Restaurante', 'Próximo a Praia', '...",Padrão,Usado,1050000.0,0.0,0.0,315.0,"Amplo imóvel para venda com 3 quartos, sendo 1..."
3,Apartamento,Praça Seca,Point,"[0, 0]",1,50,"['Sauna', 'Quarto/WC Empregada']","['Salão de Jogos', 'Segurança Interna', 'Estac...","['Próximo ao Shopping', 'Próximo a Escola Part...",Padrão,Usado,250000.0,0.0,350.0,150.0,"Amplo imóvel para venda com 2 quartos, sendo 0..."
4,Apartamento,Honório Gurgel,Point,"[-43.3614243, -22.8416031]",0,148,"['Terraço', 'Piscina', 'Gás Encanado', 'Acessi...","['Sauna', 'Bicicletário', 'Academia', 'Serviço...","['Próximo a Serviços de Saúde', 'Próximo a Far...",Destaque,Lançamento,165000.0,0.0,270.0,0.0,"Amplo imóvel para venda com 2 quartos, sendo 0..."
5,Apartamento,Barra da Tijuca,Point,"[-43.3245375, -23.006984]",1,79,"['Terraço', 'Acessibilidade', 'Armários Planej...","['Salão de Festas', 'Estacionamento Visitantes...","['Próximo a Mercado', 'Próximo a Parques e Áre...",Premium,Usado,900000.0,0.0,1400.0,180.0,"Amplo imóvel para venda com 3 quartos, sendo 1..."
6,Consultório,Tijuca,Point,"[-43.2558939, -22.9444082]",1,126,"['Armários Planejados', 'Closet', 'Gás Encanad...","['Bicicletário', 'Salão de Jogos', 'Segurança ...","['Próximo a Praia', 'Próximo a Serviços de Saú...",Padrão,Usado,630000.0,0.0,0.0,1500.0,"Amplo imóvel para venda com 2 quartos, sendo 2..."
7,Apartamento,Recreio dos Bandeirantes,Point,"[-43.480981, -23.0160348]",1,126,"['Sauna', 'Cozinha Americana', 'Terraço', 'Gás...","['Estacionamento Visitantes', 'Salão de Festas...","['Próximo a Escola Pública', 'Próximo ao Metrô...",Padrão,Usado,475000.0,0.0,920.0,0.0,"Amplo imóvel para venda com 2 quartos, sendo 1..."
8,Apartamento,Tijuca,Point,"[-43.2266348, -22.9220052]",0,0,"['Ambientes Integrados', 'Varanda', 'Terraço',...","['Elevador', 'Acessibilidade', 'Estacionamento...",[],Padrão,Usado,0.0,0.0,0.0,0.0,"Amplo imóvel para venda com 0 quartos, sendo 0..."
9,Apartamento,Lagoa,Point,"[-43.2112318, -22.9625433]",1,56,"['Sauna', 'Piscina', 'Cozinha Americana', 'Vis...","['Quadra Poliesportiva', 'Bicicletário', 'Pisc...","['Próximo a Farmácia', 'Próximo a Áreas de Laz...",Padrão,Usado,1200000.0,0.0,1608.0,3284.0,"Amplo imóvel para venda com 1 quartos, sendo 1..."


## Trabalhando com dados textuais

### Transformando *strings* em listas do Python

In [83]:
dados_normal_listings.head(2)

Unnamed: 0,imovel_tipos_propriedade,imovel_endereco_bairro,imovel_endereco_localizacao_type,imovel_endereco_localizacao_coordinates,imovel_vagasGaragem,imovel_area,imovel_caracteristicas_propriedade,imovel_caracteristicas_condominio,imovel_caracteristicas_entorno,anuncio_tipos_publicacao,anuncio_tipos_listagem,anuncio_valores_venda,anuncio_valores_aluguel,anuncio_valores_condominio,anuncio_valores_iptu,anuncio_descricao
0,Casa,Barra da Tijuca,Point,"[-43.3039086, -23.0139692]",4,279,"['Área de Serviço', 'Terraço', 'Churrasqueira'...","['Churrasqueira', 'Salão de Jogos', 'Sauna', '...","['Próximo a Escola Particular', 'Próximo ao Me...",Padrão,Lançamento,2400000.0,0.0,790.0,5700.0,"Amplo imóvel para venda com 3 quartos, sendo 1..."
1,Apartamento,Campo Grande,Point,"[0, 0]",1,60,['Sauna'],"['Elevador', 'Playground', 'Salão de Festas', ...","['Próximo ao Shopping', 'Próximo a Áreas de La...",Padrão,Usado,200000.0,0.0,0.0,0.0,"Amplo imóvel para venda com 2 quartos, sendo 0..."


In [84]:
lista_str = dados_normal_listings.loc[0, 'imovel_caracteristicas_propriedade']
lista_str

"['Área de Serviço', 'Terraço', 'Churrasqueira', 'Quarto/WC Empregada', 'Sauna', 'Varanda', 'Gás Encanado', 'Closet', 'Piscina', 'Mobiliado', 'Armários Planejados', 'Acessibilidade']"

In [85]:
type(lista_str)

str

In [86]:
lista_str[0]

'['

#### Métodos de *strings*

[Documentação](https://docs.python.org/3.6/library/stdtypes.html#string-methods)

In [87]:
lista_str[1:-1]

"'Área de Serviço', 'Terraço', 'Churrasqueira', 'Quarto/WC Empregada', 'Sauna', 'Varanda', 'Gás Encanado', 'Closet', 'Piscina', 'Mobiliado', 'Armários Planejados', 'Acessibilidade'"

In [88]:
lista_str.strip('[]')

"'Área de Serviço', 'Terraço', 'Churrasqueira', 'Quarto/WC Empregada', 'Sauna', 'Varanda', 'Gás Encanado', 'Closet', 'Piscina', 'Mobiliado', 'Armários Planejados', 'Acessibilidade'"

In [89]:
lista_str[1:-1].replace("'", "")

'Área de Serviço, Terraço, Churrasqueira, Quarto/WC Empregada, Sauna, Varanda, Gás Encanado, Closet, Piscina, Mobiliado, Armários Planejados, Acessibilidade'

In [90]:
lista = lista_str[1:-1].replace("'", "").split(', ')
lista

['Área de Serviço',
 'Terraço',
 'Churrasqueira',
 'Quarto/WC Empregada',
 'Sauna',
 'Varanda',
 'Gás Encanado',
 'Closet',
 'Piscina',
 'Mobiliado',
 'Armários Planejados',
 'Acessibilidade']

In [91]:
type(lista)

list

In [92]:
texto = dados_normal_listings.loc[:, 'imovel_caracteristicas_propriedade']
texto

0     ['Área de Serviço', 'Terraço', 'Churrasqueira'...
1                                             ['Sauna']
2     ['Acessibilidade', 'Área de Serviço', 'Sauna',...
3     ['Vista Panorâmica', 'Piscina', 'Sauna', 'Clos...
4                               ['Armários Planejados']
                            ...                        
45    ['Ambientes Integrados', 'Sauna', 'Piscina', '...
46    ['Acessibilidade', 'Gás Encanado', 'Área de Se...
47    ['Acessibilidade', 'Quarto/WC Empregada', 'Arm...
48    ['Cozinha Americana', 'Mobiliado', 'Sauna', 'P...
49    ['Varanda', 'Closet', 'Armários Planejados', '...
Name: imovel_caracteristicas_propriedade, Length: 50, dtype: object

#### `str`

[Documentação](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.str.html)

In [93]:
texto.str

<pandas.core.strings.accessor.StringMethods at 0x1d8dd616ee0>

In [94]:
texto.str[1:-1]

0     'Área de Serviço', 'Terraço', 'Churrasqueira',...
1                                               'Sauna'
2     'Acessibilidade', 'Área de Serviço', 'Sauna', ...
3     'Vista Panorâmica', 'Piscina', 'Sauna', 'Close...
4                                 'Armários Planejados'
                            ...                        
45    'Ambientes Integrados', 'Sauna', 'Piscina', 'V...
46    'Acessibilidade', 'Gás Encanado', 'Área de Ser...
47    'Acessibilidade', 'Quarto/WC Empregada', 'Armá...
48    'Cozinha Americana', 'Mobiliado', 'Sauna', 'Pi...
49    'Varanda', 'Closet', 'Armários Planejados', 'P...
Name: imovel_caracteristicas_propriedade, Length: 50, dtype: object

In [95]:
texto.str[1:-1].replace("'", "")

0     'Área de Serviço', 'Terraço', 'Churrasqueira',...
1                                               'Sauna'
2     'Acessibilidade', 'Área de Serviço', 'Sauna', ...
3     'Vista Panorâmica', 'Piscina', 'Sauna', 'Close...
4                                 'Armários Planejados'
                            ...                        
45    'Ambientes Integrados', 'Sauna', 'Piscina', 'V...
46    'Acessibilidade', 'Gás Encanado', 'Área de Ser...
47    'Acessibilidade', 'Quarto/WC Empregada', 'Armá...
48    'Cozinha Americana', 'Mobiliado', 'Sauna', 'Pi...
49    'Varanda', 'Closet', 'Armários Planejados', 'P...
Name: imovel_caracteristicas_propriedade, Length: 50, dtype: object

In [96]:
texto.str[1:-1].str.replace("'", "")

0     Área de Serviço, Terraço, Churrasqueira, Quart...
1                                                 Sauna
2     Acessibilidade, Área de Serviço, Sauna, Ambien...
3     Vista Panorâmica, Piscina, Sauna, Closet, Mobi...
4                                   Armários Planejados
                            ...                        
45    Ambientes Integrados, Sauna, Piscina, Vista Pa...
46    Acessibilidade, Gás Encanado, Área de Serviço,...
47    Acessibilidade, Quarto/WC Empregada, Armários ...
48    Cozinha Americana, Mobiliado, Sauna, Piscina, ...
49    Varanda, Closet, Armários Planejados, Piscina,...
Name: imovel_caracteristicas_propriedade, Length: 50, dtype: object

In [97]:
texto = texto.str[1:-1].replace("'", "").str.split(", ")
texto

0     ['Área de Serviço', 'Terraço', 'Churrasqueira'...
1                                             ['Sauna']
2     ['Acessibilidade', 'Área de Serviço', 'Sauna',...
3     ['Vista Panorâmica', 'Piscina', 'Sauna', 'Clos...
4                               ['Armários Planejados']
                            ...                        
45    ['Ambientes Integrados', 'Sauna', 'Piscina', '...
46    ['Acessibilidade', 'Gás Encanado', 'Área de Se...
47    ['Acessibilidade', 'Quarto/WC Empregada', 'Arm...
48    ['Cozinha Americana', 'Mobiliado', 'Sauna', 'P...
49    ['Varanda', 'Closet', 'Armários Planejados', '...
Name: imovel_caracteristicas_propriedade, Length: 50, dtype: object

In [98]:
type(texto[0])

list

#### `filter`

[Documentação](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.filter.html)

In [99]:
columns = dados_normal_listings.filter(like='imovel_caracteristicas').columns

for column in columns:
    dados_normal_listings[column] = dados_normal_listings[column].str[1:-1].str.replace("'", "").str.split(", ")
    dados_highlights_listings[column] = dados_highlights_listings[column].str[1:-1].str.replace("'", "").str.split(", ")


In [100]:
dados_normal_listings.loc[0, 'imovel_caracteristicas_propriedade'][0]

'Área de Serviço'

# COMBINANDO CONJUNTOS DE DADOS
---

## Empilhando *DataFrames*

### `append`

[Documentação](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.append.html)

### `concat`

[Documentação](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.concat.html)

## Combinando *DataFrames* a partir de uma chave de ligação

### Tratando a variável de ligação

#### Selecionando a variável de ligação nos dois *DataFrames*

[Documentação: `get_level_values`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.MultiIndex.get_level_values.html)

#### Identificando e eliminando valores duplicados - `nunique` e `unique`

[Documentação: `nunique`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.nunique.html)

[Documentação: `unique`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.unique.html)

---

#### Verificando se existe correspondência entre as variáveis de ligação

[Documentação](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.isin.html)

#### Ajustando os valores

[Documentação](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.replace.html)

### Combinando os *DataFrames*

#### `merge`

[Documentação](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.merge.html)

```
pandas.merge(left, right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=False, suffixes='_x', '_y', copy=True, indicator=False, validate=None)
```

**Parameters**

- **left**: DataFrame


- **right**: DataFrame
    

- **how**: {‘left’, ‘right’, ‘outer’, ‘inner’}, *default* ‘inner’

        Tipo de junção que será realizada.

        - left: usa apenas as chaves do DataFrame especificado no parâmetro left.

        - right: usa apenas as chaves do DataFrame especificado no parâmetro right.

        - outer: considera todos os registros dos DataFrames especificados nos parâmetros left e right, isto é, faz a união das chaves.

        - inner: considera apenas a interseção das chaves dos DataFrames especificados nos parâmetros left e right.
    

- **on**: label ou list

        Nomes das colunas ou dos índices que serão utilizados na junção. Estes devem ser encontrados em ambos os DataFrames.
        

- **left_on**: label ou list, or array-like

        Nomes das colunas ou dos índices do DataFrame especificado em left que serão utilizados na junção.
        

- **right_on**: label or list, or array-like

        Nomes das colunas ou dos índices do DataFrame especificado em right que serão utilizados na junção.
    

- **left_index**: bool, *default False*

        Indica se o índice do DataFrame especificado no parâmetro left deve ser utilizado como chave de junção.
        

- **right_index**: bool, *default False*

        Indica se o índice do DataFrame especificado no parâmetro right deve ser utilizado como chave de junção.

# ADICIONANDO INFORMAÇÕES
---

## Criando as colunas `quartos`, `suites` e `banheiros`

### `str.extractall`

[Documentação](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.str.extractall.html)

### `unstack`

[Documentação](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.unstack.html)

### `droplevel`

[Documentação](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.droplevel.html)

## Criando novas classificações

### Com dados categóricos - `map`

[Documentação](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.map.html)

In [None]:
tipo_uso = {
    'Apartamento': 'Residencial',
    'Casa': 'Residencial',
    'Cobertura': 'Residencial',
    'Consultório': 'Comercial',
    'Imóvel Comercial': 'Comercial',
    'Loja': 'Comercial',
    'Sala Comercial': 'Comercial'
}

#### `insert`

[Documentação](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.insert.html)

### Com dados numéricos - `cut`

[Documentação](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.cut.html)

#### Utilizando classes fixas

#### Utilizando classes personalizadas

## Novas colunas derivadas das informações existentes

### Valor por m²

#### `apply`

[Documentação](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.apply.html)

### Piscina?

# TABULAÇÕES E SUMARIZAÇÕES
---

## Agrupamentos

### `aggregate`

[Documentação](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.aggregate.html)

### `groupby`

[Documentação](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.groupby.html)

### `value_counts`

[Documentação](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.value_counts.html)

#### `to_frame`

[Documentação](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.to_frame.html)

## Mudando o formato de um *DataFrame*

### `unstack`

Faz a rotação ou o pivoteamento das linhas para as colunas.

[Documentação](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.unstack.html)

### `stack`

Faz a rotação ou o pivoteamento das colunas de um *DataFrame* para as linhas.

[Documentação](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.stack.html)

## Criando tabelas dinâmicas

### `pivot`

[Documentação](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.pivot.html)

#### `droplevel`

[Documentação](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.droplevel.html)

#### `reset_index`

[Documentação](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.reset_index.html)

### `pivot_table`

[Documentação](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.pivot_table.html)

# TABULAÇÕES E ESTILIZAÇÃO
---

## Tabulações a partir de informações no formato de listas

### `explode`

[Documentação](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.explode.html)

#### `where`

[Documentação](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.where.html)

## Estilizando um DataFrame

### `style`

[Documentação](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.style.html)

#### `format`

[Documentação](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.io.formats.style.Styler.format.html)

#### `bar`

[Documentação](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.io.formats.style.Styler.bar.html)

#### `applymap`

[Documentação](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.io.formats.style.Styler.applymap.html)

#### `highlight_max` e `highlight_min`

[Documentação: `highlight_max`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.io.formats.style.Styler.highlight_max.html)

[Documentação: `highlight_min`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.io.formats.style.Styler.highlight_min.html)

#### `background_gradient`

[Documentação](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.io.formats.style.Styler.background_gradient.html)

#### `to_excel`

[Documentação](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.io.formats.style.Styler.to_excel.html)

# ANEXOS
---

### Opções para o parâmetro `cmap`

[Documentação](https://matplotlib.org/3.3.2/tutorials/colors/colormaps.html)

In [None]:
import numpy as np
import matplotlib as mpl
import matplotlib.pyplot as plt
from matplotlib import cm
from collections import OrderedDict

cmaps = OrderedDict()

In [None]:
cmaps['Perceptually Uniform Sequential'] = [
            'viridis', 'plasma', 'inferno', 'magma', 'cividis']

cmaps['Sequential'] = [
            'Greys', 'Purples', 'Blues', 'Greens', 'Oranges', 'Reds',
            'YlOrBr', 'YlOrRd', 'OrRd', 'PuRd', 'RdPu', 'BuPu',
            'GnBu', 'PuBu', 'YlGnBu', 'PuBuGn', 'BuGn', 'YlGn']

cmaps['Sequential (2)'] = [
            'binary', 'gist_yarg', 'gist_gray', 'gray', 'bone', 'pink',
            'spring', 'summer', 'autumn', 'winter', 'cool', 'Wistia',
            'hot', 'afmhot', 'gist_heat', 'copper']

cmaps['Diverging'] = [
            'PiYG', 'PRGn', 'BrBG', 'PuOr', 'RdGy', 'RdBu',
            'RdYlBu', 'RdYlGn', 'Spectral', 'coolwarm', 'bwr', 'seismic']

cmaps['Cyclic'] = ['twilight', 'twilight_shifted', 'hsv']

cmaps['Qualitative'] = ['Pastel1', 'Pastel2', 'Paired', 'Accent',
                        'Dark2', 'Set1', 'Set2', 'Set3',
                        'tab10', 'tab20', 'tab20b', 'tab20c']

cmaps['Miscellaneous'] = [
            'flag', 'prism', 'ocean', 'gist_earth', 'terrain', 'gist_stern',
            'gnuplot', 'gnuplot2', 'CMRmap', 'cubehelix', 'brg',
            'gist_rainbow', 'rainbow', 'jet', 'nipy_spectral',
            'gist_ncar']

In [None]:
nrows = max(len(cmap_list) for cmap_category, cmap_list in cmaps.items())
gradient = np.linspace(0, 1, 256)
gradient = np.vstack((gradient, gradient))


def plot_color_gradients(cmap_category, cmap_list, nrows):
    fig, axes = plt.subplots(nrows=nrows)
    fig.subplots_adjust(top=0.95, bottom=0.01, left=0.2, right=0.99)
    axes[0].set_title(cmap_category + ' colormaps', fontsize=14)

    for ax, name in zip(axes, cmap_list):
        ax.imshow(gradient, aspect='auto', cmap=plt.get_cmap(name))
        pos = list(ax.get_position().bounds)
        x_text = pos[0] - 0.01
        y_text = pos[1] + pos[3]/2.
        fig.text(x_text, y_text, name, va='center', ha='right', fontsize=10)

    # Turn off *all* ticks & spines, not just the ones with colormaps.
    for ax in axes:
        ax.set_axis_off()


for cmap_category, cmap_list in cmaps.items():
    plot_color_gradients(cmap_category, cmap_list, nrows)

plt.show()