In [1]:
import pandas as pd
pd.options.display.max_columns = None #tirando a limitação do numero maximo de colunas a mostrar

### link do download do dataset
https://www.kaggle.com/caiobsilva/sp-district-coordinates

In [2]:
# Função para ler arquivos do tipo JSON
spBairros = pd.read_json('sp_dist.json', encoding='utf-8')

In [3]:
# Demonstra a quantidade de linhas e colunas do dataset
spBairros.shape

(96, 4)

In [4]:
# Demonstra as colunas do dataset
spBairros.columns

Index(['Districts', 'Population', 'Longitude', 'Latitude'], dtype='object')

In [5]:
# Demonstra os 'n' primeiros elementos do dataset, n = parametro do método head(n)
spBairros.head(5)

Unnamed: 0,Districts,Population,Longitude,Latitude
1,Grajaú,444.593,-46.665575,-23.785798
2,Sapopemba,296.042,-46.509885,-23.604326
3,Jardim Ângela,291.798,-46.771206,-23.712246
4,Brasilândia,280.069,-46.690269,-23.448272
5,Capão Redondo,275.23,-46.767753,-23.658859


In [6]:
# Demonstra os 'n' ultimos elementos do dataset, n = parametro do método tail(n)
spBairros.tail(5)

Unnamed: 0,Districts,Population,Longitude,Latitude
92,Jaguara,24.114,-46.755315,-23.507446
93,Sé,21.564,-46.633446,-23.550443
94,Pari,16.144,-46.615849,-23.532976
95,Barra Funda,12.977,-46.667513,-23.525462
96,Marsilac,10.18,-46.71023,-23.937142


In [7]:
# Demonstra as informações do dataset
spBairros.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 96 entries, 1 to 96
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Districts   96 non-null     object 
 1   Population  96 non-null     float64
 2   Longitude   96 non-null     float64
 3   Latitude    96 non-null     float64
dtypes: float64(3), object(1)
memory usage: 3.8+ KB


In [8]:
# Demonstra estatisticas básicas do dataset, count, média, min, max, etc
spBairros.describe()

Unnamed: 0,Population,Longitude,Latitude
count,96.0,96.0,96.0
mean,115.099427,-46.610239,-23.536488
std,76.747126,0.154726,0.191037
min,10.18,-46.894846,-23.937142
25%,62.32525,-46.703449,-23.597389
50%,96.5985,-46.639039,-23.550175
75%,152.062,-46.542284,-23.507066
max,444.593,-45.547526,-22.195211


In [9]:
# Demonstra a coluna Districts
spBairros['Districts']

1            Grajaú
2         Sapopemba
3     Jardim Ângela
4       Brasilândia
5     Capão Redondo
          ...      
92          Jaguara
93               Sé
94             Pari
95      Barra Funda
96         Marsilac
Name: Districts, Length: 96, dtype: object

In [10]:
# Demonstra as colunas Latitude e Longitude do dataset
spBairros[['Latitude', 'Longitude']]

Unnamed: 0,Latitude,Longitude
1,-23.785798,-46.665575
2,-23.604326,-46.509885
3,-23.712246,-46.771206
4,-23.448272,-46.690269
5,-23.658859,-46.767753
...,...,...
92,-23.507446,-46.755315
93,-23.550443,-46.633446
94,-23.532976,-46.615849
95,-23.525462,-46.667513


In [11]:
#Demonstra o dataset em um certo intervalo
spBairros.loc[3:30]

Unnamed: 0,Districts,Population,Longitude,Latitude
3,Jardim Ângela,291.798,-46.771206,-23.712246
4,Brasilândia,280.069,-46.690269,-23.448272
5,Capão Redondo,275.23,-46.767753,-23.658859
6,Jardim São Luís,261.586,-46.737762,-23.683573
7,Cidade Ademar,248.215,-46.655281,-23.673012
8,Itaim Paulista,241.026,-46.399609,-23.501765
9,Sacomã,237.769,-46.602582,-23.601262
10,Jaraguá,220.292,-46.739512,-23.455682
11,Cidade Tiradentes,219.868,-46.409207,-23.582497
12,Campo Limpo,216.098,-46.758729,-23.64888


### Existe um problema nesse dataset, os dados de Population estão em float, logo devemos converter os mesmos para int para que seja possivel fazer calculos e evitar erros

Antes de converte-los para int, devem ser eliminados todos os '.' de cada linha da coluna Population, pois, se não 
fizermos isso, iremos acabar perdendo todos os números que estão depois do '.', (57.900 em um cast direto para int
ficaria 57)

In [12]:
# Primeiro vamos definir os dados como string usando a função astype()
spBairros['Population'] = spBairros['Population'].astype(str)

In [13]:
# Depois iremos utilizar a função replace(), e substituir todos os '.' por ''(vazio)
spBairros['Population'] = spBairros['Population'].str.replace('.', '')

In [14]:
# Agora podemos printar a coluna Population e ver que todos os dados foram tratados
spBairros['Population']

1     444593
2     296042
3     291798
4     280069
5      27523
       ...  
92     24114
93     21564
94     16144
95     12977
96      1018
Name: Population, Length: 96, dtype: object

In [15]:
# Agora devemos converter todos os dados de Population para int, por que somente assim podemos efetuar cálculos
spBairros['Population'] = spBairros['Population'].astype(int)

In [36]:
# Agora podemos observar que os dados da coluna Population se tratam do tipo int64
spBairros.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 96 entries, 1 to 96
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Districts   96 non-null     object 
 1   Population  96 non-null     int64  
 2   Longitude   96 non-null     float64
 3   Latitude    96 non-null     float64
dtypes: float64(2), int64(1), object(1)
memory usage: 6.2+ KB


In [17]:
# Após o tratamento dos dados podemos executar alguns métodos da pandas, o loc[] vai listar todos as linhas de uma
# Coluna que respeite alguma operação lógica sobre o mesmo

# listando todos os bairros com população maior que 150 mil
spBairros.loc[spBairros['Population'] < 20000]

Unnamed: 0,Districts,Population,Longitude,Latitude
58,Vila Formosa,8951,-46.546323,-23.566876
69,Parque do Carmo,6963,-46.458056,-23.578708
72,Campo Belo,6253,-46.669421,-23.626731
76,Liberdade,5786,-46.631809,-23.566703
80,Butantã,4804,-46.70809,-23.5719
94,Pari,16144,-46.615849,-23.532976
95,Barra Funda,12977,-46.667513,-23.525462
96,Marsilac,1018,-46.71023,-23.937142


In [18]:
# podemos usar várias operações com o loc
n = spBairros.loc[spBairros['Population'] < 150000]

In [19]:
# Listando os 20 primeiros bairros com população menor que 150 mil 
n.loc[1:20]

# Podemos ver que esse dataset está em ordem Decrescente, ou seja, do bairro mais populoso ao menos populoso

#PS: Houve um problema ao converter os dados de float para string, aparentemente ele desconsiderou o ultimo digito
# caso ele fosse 0

Unnamed: 0,Districts,Population,Longitude,Latitude
5,Capão Redondo,27523,-46.767753,-23.658859


In [20]:
# Com o método iloc podemos obter informações de um certo bairro somente pelo seu indice

spBairros.iloc[3]
# Nota-se que o método retornou o bairro Brasilândia, porém o mesmo na tabela estão como elemento número 4, e não 3
# então nesse caso especifico, devemos sempre lembrar que a contagem começa com 0

Districts     Brasilândia
Population         280069
Longitude        -46.6903
Latitude         -23.4483
Name: 4, dtype: object

In [21]:
# Caso quisermos realmente demonstrar o bairro cujo elemento é 3, devemos fazer iloc[n-1]

spBairros.iloc[2]

Districts     Jardim Ângela
Population           291798
Longitude          -46.7712
Latitude           -23.7122
Name: 3, dtype: object

In [22]:
# Com o método isnull() podemos checar se existe alguma informação vazia do dataset, geralmente muitos dataset contém
# dados "perdidos" por que muitas vezes se tratam de um grande volume de informações. Por isso a importancia de um
# bom tratamento dos dados
spBairros.isnull()

# Nesse caso, nosso dataset está bem definido, não contém nenhum dado nulo

Unnamed: 0,Districts,Population,Longitude,Latitude
1,False,False,False,False
2,False,False,False,False
3,False,False,False,False
4,False,False,False,False
5,False,False,False,False
...,...,...,...,...
92,False,False,False,False
93,False,False,False,False
94,False,False,False,False
95,False,False,False,False


### Podemos tratar valores nulos com as funções fillna() e dropna()

In [23]:
# Seta todos os valores nulos como 'n', no caso, 0
spBairros.fillna(0)

Unnamed: 0,Districts,Population,Longitude,Latitude
1,Grajaú,444593,-46.665575,-23.785798
2,Sapopemba,296042,-46.509885,-23.604326
3,Jardim Ângela,291798,-46.771206,-23.712246
4,Brasilândia,280069,-46.690269,-23.448272
5,Capão Redondo,27523,-46.767753,-23.658859
...,...,...,...,...
92,Jaguara,24114,-46.755315,-23.507446
93,Sé,21564,-46.633446,-23.550443
94,Pari,16144,-46.615849,-23.532976
95,Barra Funda,12977,-46.667513,-23.525462


In [24]:
# O método dropna() exclui todas as linhas que contém algum valor nulo
spBairros.dropna()

Unnamed: 0,Districts,Population,Longitude,Latitude
1,Grajaú,444593,-46.665575,-23.785798
2,Sapopemba,296042,-46.509885,-23.604326
3,Jardim Ângela,291798,-46.771206,-23.712246
4,Brasilândia,280069,-46.690269,-23.448272
5,Capão Redondo,27523,-46.767753,-23.658859
...,...,...,...,...
92,Jaguara,24114,-46.755315,-23.507446
93,Sé,21564,-46.633446,-23.550443
94,Pari,16144,-46.615849,-23.532976
95,Barra Funda,12977,-46.667513,-23.525462
