# Calculando médias de tendência central e dispersão com Pandas

In [1]:
import pandas as pd

## Leitura dos dados

In [2]:
dados = pd.read_html('https://pt.wikipedia.org/wiki/Lista_de_munic%C3%ADpios_do_Brasil_acima_de_cem_mil_habitantes_(2022)')

dados

[     Pos       Município Unidade federativa População[1]
 0      1       São Paulo          São Paulo   11 451 999
 1      2  Rio de Janeiro     Rio de Janeiro    6 211 223
 2      3        Brasília   Distrito Federal    2 817 381
 3      4       Fortaleza              Ceará    2 428 708
 4      5        Salvador              Bahia    2 417 678
 ..   ...             ...                ...          ...
 314  315      Manacapuru           Amazonas      101 883
 315  316          Balsas           Maranhão      101 767
 316  317         Lagarto            Sergipe      101 579
 317  318           Assis          São Paulo      101 409
 318  319       Itaperuna     Rio de Janeiro      101 041
 
 [319 rows x 4 columns],
                            vdeTópicos sobre o Brasil  \
 0                                            Cultura   
 1                                           Economia   
 2                                          Geografia   
 3                                           Hist

In [3]:
dados_populacao = dados[0]

dados_populacao

Unnamed: 0,Pos,Município,Unidade federativa,População[1]
0,1,São Paulo,São Paulo,11 451 999
1,2,Rio de Janeiro,Rio de Janeiro,6 211 223
2,3,Brasília,Distrito Federal,2 817 381
3,4,Fortaleza,Ceará,2 428 708
4,5,Salvador,Bahia,2 417 678
...,...,...,...,...
314,315,Manacapuru,Amazonas,101 883
315,316,Balsas,Maranhão,101 767
316,317,Lagarto,Sergipe,101 579
317,318,Assis,São Paulo,101 409


In [4]:
dados_populacao.columns = ['ranking', 'municipio', 'uf', 'populacao']

dados_populacao

Unnamed: 0,ranking,municipio,uf,populacao
0,1,São Paulo,São Paulo,11 451 999
1,2,Rio de Janeiro,Rio de Janeiro,6 211 223
2,3,Brasília,Distrito Federal,2 817 381
3,4,Fortaleza,Ceará,2 428 708
4,5,Salvador,Bahia,2 417 678
...,...,...,...,...
314,315,Manacapuru,Amazonas,101 883
315,316,Balsas,Maranhão,101 767
316,317,Lagarto,Sergipe,101 579
317,318,Assis,São Paulo,101 409


In [8]:
dados_populacao[:20]

Unnamed: 0,ranking,municipio,uf,populacao
0,1,São Paulo,São Paulo,11 451 999
1,2,Rio de Janeiro,Rio de Janeiro,6 211 223
2,3,Brasília,Distrito Federal,2 817 381
3,4,Fortaleza,Ceará,2 428 708
4,5,Salvador,Bahia,2 417 678
5,6,Belo Horizonte,Minas Gerais,2 315 560
6,7,Manaus,Amazonas,2 063 689
7,8,Curitiba,Paraná,1 773 718
8,9,Recife,Pernambuco,1 488 920
9,10,Goiânia,Goiás,1 437 366


In [9]:
dados_populacao.dtypes

ranking       int64
municipio    object
uf           object
populacao    object
dtype: object

In [5]:
dados_populacao['populacao'] = dados_populacao['populacao'].str.replace(r'\s', '', regex=True).astype(int)

dados_populacao

Unnamed: 0,ranking,municipio,uf,populacao
0,1,São Paulo,São Paulo,11451999
1,2,Rio de Janeiro,Rio de Janeiro,6211223
2,3,Brasília,Distrito Federal,2817381
3,4,Fortaleza,Ceará,2428708
4,5,Salvador,Bahia,2417678
...,...,...,...,...
314,315,Manacapuru,Amazonas,101883
315,316,Balsas,Maranhão,101767
316,317,Lagarto,Sergipe,101579
317,318,Assis,São Paulo,101409


## Calculando o desvio padrão

In [8]:
media_total = dados_populacao['populacao'].mean()
mediana_total = dados_populacao['populacao'].median()

print(f'Média do conjunto de dados completo: {media_total:,}')
print(f'Mediana do conjunto de dados completo: {mediana_total:,}')

Média do conjunto de dados completo: 362,520.1724137931
Mediana do conjunto de dados completo: 187,315.0


In [9]:
desvio_padrao = dados_populacao['populacao'].std()

print(f'Desvio padrão do conjunto de dados completo: {desvio_padrao:,}')

Desvio padrão do conjunto de dados completo: 792,866.9083592542


## Filtrando valores extremos

In [10]:
limite_superior = media_total + 2*desvio_padrao
limite_inferior = media_total - 2*desvio_padrao

print(f'Serão excluídos os valores fora da faixa [{limite_inferior:,}, {limite_superior:,}]')

Serão excluídos os valores fora da faixa [-1,223,213.6443047153, 1,948,253.9891323016]


In [11]:
dados_populacao['dentro_da_faixa'] = dados_populacao['populacao'] <= limite_superior

dados_populacao

Unnamed: 0,ranking,municipio,uf,populacao,dentro_da_faixa
0,1,São Paulo,São Paulo,11451999,False
1,2,Rio de Janeiro,Rio de Janeiro,6211223,False
2,3,Brasília,Distrito Federal,2817381,False
3,4,Fortaleza,Ceará,2428708,False
4,5,Salvador,Bahia,2417678,False
...,...,...,...,...,...
314,315,Manacapuru,Amazonas,101883,True
315,316,Balsas,Maranhão,101767,True
316,317,Lagarto,Sergipe,101579,True
317,318,Assis,São Paulo,101409,True


In [12]:
dados_populacao_reduzida = dados_populacao[dados_populacao['dentro_da_faixa']]

dados_populacao_reduzida

Unnamed: 0,ranking,municipio,uf,populacao,dentro_da_faixa
7,8,Curitiba,Paraná,1773718,True
8,9,Recife,Pernambuco,1488920,True
9,10,Goiânia,Goiás,1437366,True
10,11,Porto Alegre,Rio Grande do Sul,1332845,True
11,12,Belém,Pará,1303403,True
...,...,...,...,...,...
314,315,Manacapuru,Amazonas,101883,True
315,316,Balsas,Maranhão,101767,True
316,317,Lagarto,Sergipe,101579,True
317,318,Assis,São Paulo,101409,True


## Calculando medidas para o novo conjunto

In [13]:
media_reduzida = dados_populacao_reduzida['populacao'].mean()
mediana_reduzida = dados_populacao_reduzida['populacao'].median()

print(f'Média do conjunto de dados reduzido: {media_reduzida:,}')
print(f'Mediana do conjunto de dados reduzido: {mediana_reduzida:,}')

Média do conjunto de dados reduzido: 275,441.33653846156
Mediana do conjunto de dados reduzido: 183,003.5


In [14]:
dados_populacao_reduzida['uf'].mode()

0    São Paulo
Name: uf, dtype: object

In [15]:
dados_populacao_reduzida['uf'].value_counts()

uf
São Paulo              77
Minas Gerais           33
Rio de Janeiro         27
Paraná                 22
Rio Grande do Sul      19
Bahia                  17
Pará                   15
Goiás                  15
Santa Catarina         14
Pernambuco             12
Maranhão               10
Espírito Santo          9
Ceará                   7
Mato Grosso             6
Sergipe                 4
Rio Grande do Norte     4
Paraíba                 4
Mato Grosso do Sul      3
Alagoas                 2
Piauí                   2
Amapá                   2
Rondônia                2
Amazonas                2
Tocantins               2
Roraima                 1
Acre                    1
Name: count, dtype: int64