# Estatística x Estatística Descritiva x Inferência Estatística

Podemos dizer que a estatística é o estudo dos dados em geral, abrangendo desde o processo de coleta até a análise e interpretação.

A Estatística Descritiva, por outro lado, consiste em formas de resumir os dados. Como assim? Imagine que você tenha um conjunto de notas de um trimestre da sua faculdade ou escola e queira calcular a média. Isso é um exemplo de Estatística Descritiva. Você está pegando todos os seus dados (notas) e resumindo-os em um único valor (a média), e esse valor fornece uma descrição de todo o seu conjunto de dados, daí o termo "descritiva".

Já a Inferência Estatística é quando utilizamos técnicas para tirar conclusões a partir dos dados e deduzir propriedades de toda uma população com base em uma amostra.

# Variáveis

Na estatística, lidamos com o conceito de variáveis, que, embora possam ser relacionadas, são distintas das variáveis na programação. Vamos esclarecer isso: em estatística, as variáveis são características ou atributos de um conjunto de dados. Por exemplo, uma pessoa (um conjunto de dados) pode ter atributos como altura, peso, número de filhos, cor do cabelo e dos olhos, e todos esses são exemplos de variáveis. Da mesma forma, um carro (outro conjunto de dados) pode ter atributos como cor, quantidade de assentos, tipo de pneus, entre outros, que também são considerados variáveis.

Podemos categorizar as variáveis em dois tipos principais, e cada um desses tipos possui duas subcategorias. Se isso ainda não está claro, vou explicar de forma mais visual.

1. *Quantitativas, são aquelas que podemos medir.*

**Dicretas**, de uma forma bem simples e rápida de entender, são aquelas que podemos contar (número naturais), quantidade de filhos de uma pessoa, quantidade de steps de um veículo, quantidade de planetas em um sistema solar e por ai vai. 

**Continuas**, são aquelas que o seu valor está dentro de um intervalo limitado, são medidas atráves dos números racionais, altura, peso, velocidade de um carro.


2. *Qualitativas, são aquelas que não podemos medir, ou seja, não podemos atribuir um número a ela.*

**Nominais**, variáveis que não possuem ordenação. Exemplos: sexo, cor dos olhos, nacionalidade, cidade de nascimento, etc.

**Ordinais**, variáveis que possuem ordenação. Exemplos: escolaridade, classe social, etc.

# Medida de Tendência Central
As medidas da estatística descritiva, como discutimos anteriormente, são ferramentas que nos ajudam a identificar a tendência dos nossos dados. Através delas, podemos compreender como os nossos dados estão distribuídos e onde a maioria dos valores está concentrada.

1. Média
2. Mediana
3. Moda

In [1]:
import statistics as sts

notas = [10, 9, 7, 5]

print(f'Média: {sts.mean(notas)}')
print(f'Mediana: {sts.median(notas)}')
print(f'Moda: {sts.mode(notas)}')

Média: 7.75
Mediana: 8.0
Moda: 10


# Entendendo e aplicando medidas de tendência central

Em uma empresa com 100 funcionários, 30 deles ganham 1k, 50 ganham 1.2k, 15 ganham 900 e 5 executivos ganham 30k.

In [2]:
a = [1000] * 30
b = [1200] * 50
c = [900] * 15
d = [30_000] * 5

todos_salarios = a + b + c + d

In [3]:
print(sts.mode(todos_salarios))  # a moda, valor que mais se repete, é 1200, ou seja, o que a maior parte deles ganham
print(sts.mean(todos_salarios))  # a média é muito acima do salário de 95% dos funcionários, pq temos 5 outliers, que puxam o valor pra cima

1200
2535


# Medidas de Dispersão
Já vimos como funciona as medida de tedência central (média, mediana e moda), mas elas sozinhas não são capaz de mostrar como está meu conjunto de dados, mesmo dando uma visão muito boa deles, as medidas de dispersão vão mostrar o quão dispersos estão nossos dados.

Por exemplo:

A = {10, 10, 10, 10, 10} <br>
B = {50, 0, 0, 0, 0} <br>
C = {10, 13, 12, 15, 10} <br>

A média dos 3 conjuntos de dados acima é 10, mas mesmo assim, podemos ver que eles são bastantes diferentes um dos outros.


## Variância
![Fórmula Variância](https://d4y70tum9c2ak.cloudfront.net/contentImage/f1xr7mgXgAxHoy9D6TKL9HHx7W6LJF_xG%2BFzrqftA5E/resized.png)

**A variância vai somar o quadrado da diferênça de cada ponto da minha amostra para a média, e dividir pelo conjunto de pontos.** Com isso vamos ter uma noção, de quantos os nossos dados estão distantes da média.

## Desvio Padrão
O desvio padrão pega a fórmula acima e tira a raiz dos dois lados.

In [12]:
A = [10, 10, 10, 10, 10]
B = [50, 0, 0, 0, 0] 
C = [0, 13, 12, 15, 10]

print(f"Média A: {sts.mean(A)} | Média B: {sts.mean(B)} | Média C: {sts.mean(C)}")
print(f"Variância A: {sts.pvariance(A)} | Variância B: {sts.pvariance(B)} | Variância C: {sts.pvariance(C)}")
print(f"Desvio A: {sts.pstdev(A)} | Desvio B: {sts.pstdev(B)} | Desvio C: {sts.pstdev(C)}")

Média A: 10 | Média B: 10 | Média C: 10
Variância A: 0 | Variância B: 400 | Variância C: 27.6
Desvio A: 0.0 | Desvio B: 20.0 | Desvio C: 5.253570214625479
