# Análise Estatística da População de Cidades Brasileiras com mais de 100 mil habitantes
Objetivo: Realizar uma análise das medidas estatísticas no conjunto de dados de cidades brasileiras com mais de 100 mil habitantes. 

In [2]:
# Importando a biblioteca necessária
import pandas as pd

## Leitura de Dados

In [4]:
# Lendo os dados diretamente da Wikipedia
url = 'https://pt.wikipedia.org/wiki/Lista_de_munic%C3%ADpios_do_Brasil_acima_de_cem_mil_habitantes'
dados = pd.read_html(url)
dados_populacao = dados[0]

In [5]:
'https://pt.wikipedia.org/wiki/Lista_de_munic%C3%ADpios_do_Brasil_acima_de_cem_mil_habitantes'

'https://pt.wikipedia.org/wiki/Lista_de_munic%C3%ADpios_do_Brasil_acima_de_cem_mil_habitantes'

In [6]:
# Renomeando as colunas para facilitar o uso
dados_populacao.columns = ['ranking', 'municipio', 'uf', 'populacao']

In [7]:
dados_populacao[:20] 

Unnamed: 0,ranking,municipio,uf,populacao
0,1,São Paulo,São Paulo,11 451 999
1,2,Rio de Janeiro,Rio de Janeiro,6 211 223
2,3,Brasília,Distrito Federal,2 817 381
3,4,Fortaleza,Ceará,2 428 708
4,5,Salvador,Bahia,2 417 678
5,6,Belo Horizonte,Minas Gerais,2 315 560
6,7,Manaus,Amazonas,2 063 689
7,8,Curitiba,Paraná,1 773 718
8,9,Recife,Pernambuco,1 488 920
9,10,Goiânia,Goiás,1 437 366


In [8]:
dados_populacao.dtypes

ranking       int64
municipio    object
uf           object
populacao    object
dtype: object

In [9]:
# Limpando os dados: removendo espaços em branco e convertendo a população para inteiro
dados_populacao['populacao'] = dados_populacao['populacao'].str.replace(r'\s', '', regex=True).astype(int)
dados_populacao

Unnamed: 0,ranking,municipio,uf,populacao
0,1,São Paulo,São Paulo,11451999
1,2,Rio de Janeiro,Rio de Janeiro,6211223
2,3,Brasília,Distrito Federal,2817381
3,4,Fortaleza,Ceará,2428708
4,5,Salvador,Bahia,2417678
...,...,...,...,...
314,315,Manacapuru,Amazonas,101883
315,316,Balsas,Maranhão,101767
316,317,Lagarto,Sergipe,101579
317,318,Assis,São Paulo,101409


## Calculando o Desvio Padrão

In [11]:
# Calculando as medidas estatísticas do conjunto completo
media_total = dados_populacao['populacao'].mean()
mediana_total = dados_populacao['populacao'].median()
desvio_padrao = dados_populacao['populacao'].std()

In [12]:
print(f'Média (todas as cidades): {media_total:,.0f}')
print(f'Mediana (todas as cidades): {mediana_total:,.0f}')
print(f'Desvio Padrão: {desvio_padrao:,.0f}')

Média (todas as cidades): 362,520
Mediana (todas as cidades): 187,315
Desvio Padrão: 792,867


## Filtrando Valores Externos

In [14]:
# Definindo limites para exclusão de valores extremos (outliers)
limite_superior = media_total + 2*desvio_padrao
limite_inferior = media_total - 2*desvio_padrao

print(f'Removendo cidades com população fora do intervalo [{limite_inferior:,.0f}, {limite_superior:,.0f}]')

Removendo cidades com população fora do intervalo [-1,223,214, 1,948,254]


In [15]:
# Filtrando os dados para remover os outliers
dados_populacao_reduzido = dados_populacao[
    (dados_populacao['populacao'] >= limite_inferior) & 
    (dados_populacao['populacao'] <= limite_superior)
]

## Calculando Medidas para o novo Conjunto

In [17]:
media_reduzido = dados_populacao_reduzido['populacao'].mean()
mediana_reduzido = dados_populacao_reduzido['populacao'].median()

In [18]:
print(f'\nApós remoção dos outliers:')
print(f'Média (dados filtrados): {media_reduzido:,.0f}')
print(f'Mediana (dados filtrados): {mediana_reduzido:,.0f}')


Após remoção dos outliers:
Média (dados filtrados): 275,441
Mediana (dados filtrados): 183,004


In [19]:
# Cálculo da moda das Unidades Federativas (UFs)
moda_uf = dados_populacao_reduzido['uf'].mode()[0]
contagem_uf = dados_populacao_reduzido['uf'].value_counts()

In [20]:
print(f'\nModa das UFs: {moda_uf}')
print('\nContagem de cidades por UF (após filtragem):')
print(contagem_uf)


Moda das UFs: São Paulo

Contagem de cidades por UF (após filtragem):
uf
São Paulo              77
Minas Gerais           33
Rio de Janeiro         27
Paraná                 22
Rio Grande do Sul      19
Bahia                  17
Pará                   15
Goiás                  15
Santa Catarina         14
Pernambuco             12
Maranhão               10
Espírito Santo          9
Ceará                   7
Mato Grosso             6
Sergipe                 4
Paraíba                 4
Rio Grande do Norte     4
Mato Grosso do Sul      3
Piauí                   2
Rondônia                2
Amapá                   2
Alagoas                 2
Tocantins               2
Amazonas                2
Roraima                 1
Acre                    1
Name: count, dtype: int64
