# Comandos para filtrar algumas informações do DataFame

## - Tirando /São Paulo
## - Adicionando Coluna de zonas
## - Classificando cada bairro em zonas da cidade de São Paulo

In [1]:
%matplotlib inline
%reset -f
import math
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
from scipy import stats
from scipy.stats import norm, uniform, probplot
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split

In [2]:
#Definir seed
RANDOM_SEED = 69

In [3]:
#Abrindo a base de dados 

data = pd.read_csv("sao-paulo-properties-april-2019.csv")
data.drop(data.columns[[15, 14]], axis=1, inplace=True)

In [12]:
#Zonas de São Paulo

zona_sul = ['Campo Limpo', 'Capão Redondo', 'Vila Andrade', 'Cidade Dutra', 'Grajaú', 'Socorro', 'Cidade Ademar', 'Pedreira', 'Ipiranga', 'Sacomã', 'Jabaquara', "M'Boi Mirim", 'Jardim Ângela', 'Jardim Sao Luis', 'Parelheiros', 'Marsilac', 'Santo Amaro', 'Campo Belo', 'Campo Grande', 'Moema', 'Saúde', 'Vila Mariana', 'Brooklin', 'Vila Olimpia', 'Cursino', 'Jardim São Luis']
zona_leste = ['Aricanduva', 'Carrão', 'Vila Formosa', 'Cidade Tiradentes', 'Ermelino Matarazzo', 'Ponte Rasa', 'Guaianases', 'Lajeado', 'Itaim Paulista', 'Vila Curuça', 'Itaquera', 'Cidade Lider', 'José Bonifácio', 'Parque do Carmo', 'Mooca Água Rasa', 'Belém', 'Brás', 'Mooca', 'Pari', 'Tatuapé', 'Penha', 'Artur Alvim', 'Cangaíba', 'Penha', 'Vila Matilde', 'São Mateus', 'São Rafael', 'São Miguel', 'Jardim Helena', 'Vila Jacuí', 'Sapopemba', 'Vila Prudente', 'São Lucas', 'Água Rasa', 'Vila Curuçá', 'Cidade Líder', 'Guaianazes', 'Iguatemi'] 
zona_oeste = ['Butantã', 'Morumbi', 'Raposo Tavares', 'Rio Pequeno', 'Vila Sônia', 'Lapa', 'Barra Funda', 'Jaguara', 'Jaguaré', 'Perdizes', 'Vila Leopoldina', 'Pinheiros', 'Alto de Pinheiros', 'Itaim Bibi', 'Jardim Paulista', 'Pinheiros', 'Vila Madalena']
zona_norte = ['Casa Verde', 'Cachoeirinha', 'Limão', 'Brasilândia', 'Freguesia do Ó', 'Jaçanã', 'Tremembé', 'Perus', 'Anhanguera', 'Pirituba', 'Jaraguá', 'São Domingos', 'Santana', 'Tucuruvi', 'Mandaqui', 'Vila Maria', 'Vila Guilherme', 'Vila Medeiros', 'Medeiros']
centro = ['Sé Bela Vista', 'Bela Vista', 'Bom Retiro', 'Cambuci', 'Consolação', 'Liberdade', 'República', 'Santa Cecília', 'Sé']

In [13]:
#Tirando /São Paulo dos bairros

filtro = data.District.str.replace('/São Paulo', '')
filtro
data.District = filtro

In [14]:
#Adicionando zonas em função dos bairros para cada item do DataFrame

data.loc[(data.District).isin (zona_sul), 'Zone'] = 'ZS'
data.loc[(data.District).isin (zona_leste), 'Zone'] = 'ZL'
data.loc[(data.District).isin (zona_oeste), 'Zone'] = 'ZO'
data.loc[(data.District).isin (zona_norte), 'Zone'] = 'ZN'
data.loc[(data.District).isin (centro), 'Zone'] = 'Centro'

In [15]:
data

Unnamed: 0,Price,Condo,Size,Rooms,Toilets,Suites,Parking,Elevator,Furnished,Swimming Pool,New,District,Negotiation Type,Property Type,Zone
0,930,220,47,2,2,1,1,0,0,0,0,Artur Alvim,rent,apartment,ZL
1,1000,148,45,2,2,1,1,0,0,0,0,Artur Alvim,rent,apartment,ZL
2,1000,100,48,2,2,1,1,0,0,0,0,Artur Alvim,rent,apartment,ZL
3,1000,200,48,2,2,1,1,0,0,0,0,Artur Alvim,rent,apartment,ZL
4,1300,410,55,2,2,1,1,1,0,0,0,Artur Alvim,rent,apartment,ZL
5,1170,0,50,2,2,1,1,0,0,0,0,Artur Alvim,rent,apartment,ZL
6,1000,180,52,1,2,1,1,1,0,0,0,Artur Alvim,rent,apartment,ZL
7,900,150,40,2,2,1,1,0,0,0,0,Artur Alvim,rent,apartment,ZL
8,1000,0,65,2,2,1,1,0,0,0,0,Artur Alvim,rent,apartment,ZL
9,1000,0,100,2,2,1,1,0,0,0,0,Artur Alvim,rent,apartment,ZL


In [16]:
data.Zone.value_counts()

ZL        4161
ZS        3085
ZO        2607
ZN        2164
Centro    1623
Name: Zone, dtype: int64

In [17]:
data.District.value_counts()

Moema                293
Mooca                288
Brás                 255
Brooklin             250
Bela Vista           250
Pinheiros            249
Casa Verde           248
Cambuci              241
Perdizes             236
Alto de Pinheiros    230
Vila Prudente        221
Itaim Bibi           220
Bom Retiro           220
Consolação           218
Jardim Paulista      218
Liberdade            216
Campo Grande         210
Santa Cecília        209
Belém                205
Vila Mariana         204
Ipiranga             201
Tatuapé              194
Barra Funda          194
Mandaqui             193
Morumbi              193
Jabaquara            191
Carrão               188
Santo Amaro          184
Campo Belo           184
Vila Leopoldina      184
                    ... 
Cidade Tiradentes     95
Vila Jacuí            92
Sé                    90
Cachoeirinha          89
Capão Redondo         89
Cidade Dutra          88
José Bonifácio        87
Medeiros              86
Tremembé              85


In [18]:
data.Zone.isnull().sum()

0

In [19]:
data.District[data.Zone.isnull()].value_counts()

Series([], Name: District, dtype: int64)