# Estimativas de Localização (Tendência Central)
***

É um processo natural queremos resumir nossa métrica em um único número e muitas vezes usamos algumas medidas como:

* Contagem
* Somatória
* Valor Mínimo
* Valor Máximo
* Média
* Mediana

Isso tudo tem o objetivo de resumir a métrica que está sendo analisada:

* A média das notas dos alunos da 5º série é de 7.5
* Hoje 4 alunos faltaram na aula de história.
* O valor recebido no mês de Março foi de R$ 3.965,15

In [1]:
import pandas as pd
import numpy as np

In [2]:
# https://pt.wikipedia.org/wiki/Lista_de_munic%C3%ADpios_do_Brasil_por_popula%C3%A7%C3%A3o_(2021)

df = pd.read_csv('pop_brasil.csv')

df.head()

Unnamed: 0,cidade,uf,populacao
0,SãoPaulo,SãoPaulo,12396372
1,RiodeJaneiro,RiodeJaneiro,6775561
2,Brasília,DistritoFederal,3094325
3,Salvador,Bahia,2900319
4,Fortaleza,Ceará,2703391


In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5570 entries, 0 to 5569
Data columns (total 3 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   cidade     5570 non-null   object
 1   uf         5570 non-null   object
 2   populacao  5570 non-null   int64 
dtypes: int64(1), object(2)
memory usage: 130.7+ KB


## > Métricas Simples

### Contagem
***

* __Nos ajuda a identificar a quantidade de linhas que temos em nosso conjunto de dados.__
* __Podemos contar de forma distinta ou não.__

In [4]:
# Quantidade de linhas
df.shape[0]

5570

In [5]:
# Quantidade de Estados Unicos
df['uf'].nunique()

27

### Máximo e Mínimo
***

* __Identificar o range de valores que a métrica tem.__

In [6]:
# Valor Minimo
np.min(df['populacao'])

771

In [7]:
# Valor Maximo
np.max(df['populacao'])

12396372

### Média
***

* __É a estimativa de localização mais básica!__
* __Leva em consideração todos os dados, SENSÍVEL A OUTLIERS.__

In [8]:
np.mean(df['populacao']).round(4)

38297.6013

### Mediana
***

* __É o número central!__
* __Para a mediana, o importante são os números centrais__
* __NÃO É SENSÍVEL A OUTLIERS.__

In [9]:
np.median(df['populacao']).round(4)

11732.0

### Então eu devo só utilizar a mediana?
***

# NÃO

Tudo vai depender do conjunto de dados que você está analisando! Pensei um pouco sobre o conjunto que analisamos acima.

Trata-se da quantidade de pessoas x cidade, é muito provável que tenhamos valores discrepantes espalhados ao longo do Brasil. Nesse caso a média pode te levar a um valor que não é tão real.

Mas se formos falar das notas de um curso, ou de uma comparação de tempo em uma corrida de F1. Muito provável que a média seja extremamente útil.

Então, sempre analise!

In [11]:
df.describe().round(2)

Unnamed: 0,populacao
count,5570.0
mean,38297.6
std,224288.15
min,771.0
25%,5454.0
50%,11732.0
75%,25764.75
max,12396372.0
