# Estatística Básica
![img estatistica](https://databootcamp.nyc3.digitaloceanspaces.com/img/homer_simpson_as_pessoas_inventam_estatisticas_para_pro_l656rme.jpg)

### Precisamos conseguir entender nossos dados estatisticamente

Analisando os dados do Titanic, você consegue muitas informações estatísticas que ajudam a compreender melhor seu problema e resolver ele da melhor forma possível. Nosso problema pode ser resolvido com algoritmos de Machine Learning, mas também com algumas ferramentas simples de estatística que vamos ver aqui.


## Vamos precisar usar uma nova biblioteca científica do Python!

### SciPy
![scipy](https://databootcamp.nyc3.digitaloceanspaces.com/img/scipy.png)

### Processamento numérico e de matrizes

O Numpy é uma das principais principais bibliotecas do Python para computação científica. NumPy vem de _Numerical Python_ e é o pacote que permite que manipulemos matrizes e vetores de forma simples.

![numpy](https://databootcamp.nyc3.digitaloceanspaces.com/img/numpy.jpeg)



In [None]:
import numpy

# Métricas 
Para entendermos como são nossos dados, precisamos entender as métricas deles!

In [None]:
import pandas
titanic = pandas.read_csv("https://databootcamp.nyc3.digitaloceanspaces.com/titanic_2.csv")

In [None]:
titanic.head()

In [None]:
titanic.describe()

Essa visão é legal, mas nem tudo faz sentido...

Ids de passageiro, por exemplo. O que a média disso me diz?

**Não é porque podemos fazer algo que devemos fazê-lo**
![com grandes poderes vem grandes responsabilidades](https://i.pinimg.com/originals/d6/de/4f/d6de4f169843f3a587430e64b9354592.jpg)

## Média Artimética

É uma medida que tenta encontrar valores centrais de uma distribuição.

In [None]:
titanic.Age.mean()

### Vamos dar uma olhada mais a fundo pra gente revisar como as médias funcionam

É obtida somando todos os valores e dividindo pelo números de indivíduos da população. 

In [None]:
valores = [1,2,3,4,5]

def media(lista):
    return sum(lista) / len(lista)

media(valores)

**Ela é fortemente influenciada por valores extremos**

In [None]:
valores = [1,1,1,1,10000]

def media(lista):
    return sum(lista) / len(lista)

media(valores)

## Quartil / Percentil

São medidas que dividem a amostra ordenada (por ordem crescente dos dados). O percentil é essa medida em 100 partes.

In [None]:
titanic.Age.describe()[["25%", "50%", "75%"]]

#### Para pegarmos o Primeiro Quartil ou percentil 25?

In [None]:
titanic.Age.quantile(0.25)

Um quantil, por outro lado, é uma medida que depende de quantas partes usamos da população. Alguns quantis tem nomes especiais, como o os quartis (4-quantis) ou percentis (100-quantis). Eles recebem esse nome porque representam em quantas partes a população foi dividida (em 4 ou 100 no exemplo aqui, respectivamente).

## <font color='blue'>Como pegamos o percentil 80?</font>
![alt text](https://databootcamp.nyc3.digitaloceanspaces.com/img/atrasada-relogio-pulso-1116-1400x800.jpg)

In [None]:
#solução

## O percentil 50 também é chamado de MEDIANA
Ele é muito usado para encontrar um valor central da sua distribuição.

In [None]:
titanic.Age.quantile(0.50)

In [None]:
titanic.Age.median()

### Vamos dar uma olhada mais a fundo pra gente revisar como as mediana funcionam

![alt text](https://databootcamp.nyc3.digitaloceanspaces.com/img/maxresdefault.jpg)

É o valor médio de uma distribuição ordenada, no qual apresenta o mesmo número de valores abaixo e acima desse valor.
Se a distribuição tiver números ímpares ele é um único valor, se a distribuição tiver números pares é a média dos 2 valores centrais.

A mediana separa a distribuição em duas partes iguais. Metade da distribuição possui valores acima da mediana e, a outra metade, abaixo.

In [None]:
impar = [1, 10, 20, 30, 1000]

In [None]:
numpy.median(impar)

**Não sofre impacto dos valores extremos como a média**

In [None]:
numpy.mean(impar)

## <font color='blue'>Qual a mediana da distribuição [1,10,20,30]?</font>

Como ela é uma distribuição par, o valor da mediana vai ser a média entre os dois elementos centrais (10,20)

![alt text](https://databootcamp.nyc3.digitaloceanspaces.com/img/atrasada-relogio-pulso-1116-1400x800.jpg)

In [None]:
#solução

## Vamos aplicar um pouco essas métricas com BoxPlot

É um dos gráficos favoritos para analisar uma distribuição. 
Ele pega os dados que apresentamos no describe e exibe de forma gráfica.


O boxplot é como um histograma "visto de cima". A caixinha central contém 50% de todos os pontos da distribuição. Ou seja, é onde se concentra boa parte dos valores da distribuição. Com esse desenho, é possível ter uma noção sobre a simetria do conjunto, bem como outros detalhes importantes. Tudo isso com um recurso visual!

In [None]:
titanic.boxplot("Age")

### "O grande valor de uma imagem é quando ela nos obriga a notar o que nunca esperávamos ver." - Tukey

A interpretação do gráfico é:
- Exibe os percentis 25, 50, 75 em um retangulo que é chamado de IQR (Amplitude Interquartílica): Q3 - Q1
- A whisker inferior (limite inferior) é o percentil 25 (quartil 1) menos 1.5 multiplicado pelo IQR ($LI = Q1 - 1.5 * IQR$)
- A whisker superior (limite superior) é o percentil 75 (quartil 3) mais 1.5 multiplicado pelo IQR ($LS = Q3 + 1.5 * IQR$)
- Os pontos chamados de **outliers** (atípicos)

#### Vamos ver esses valores calculados para a coluna *Age* no Titanic

Aqui temos o IQR

In [None]:
iqr = titanic.Age.quantile(0.75) - titanic.Age.quantile(0.25)
iqr

Tendo o IQR conseguimos extrair o limite superior e inferior

In [None]:
limite_superior = titanic.Age.quantile(0.75) + 1.5 * iqr
limite_superior

In [None]:
limite_inferior = titanic.Age.quantile(0.25) - 1.5 * iqr
limite_inferior

![alt text](https://databootcamp.nyc3.digitaloceanspaces.com/img/Diagrama_de_caixa2.png)

É possível analisar 2 BoxPlots de forma comparativa agrupando por uma coluna.

In [None]:
titanic.boxplot("Age", by="Sex")

Essa visão é muito útil para ter alguma previsão sobre a resposta para alguns tipos de perguntas sobre os dados. Por exemplo, olhando assim, parece que temos alguma diferença entre a distribuição de idade por gênero?

O que eu precisaria enxergar aqui para mudar de opinião?

## <font color='blue'>Crie um BoxPlot com a coluna preenchida *AgeFillNaSexMean*</font>
![alt text](https://databootcamp.nyc3.digitaloceanspaces.com/img/atrasada-relogio-pulso-1116-1400x800.jpg)

In [None]:
#solução


## Moda

É o valor da distribuição que ocorre com a maior frequência, ou seja, o valor que mais se repete dentro de uma série de observações. 

![alt text](https://databootcamp.nyc3.digitaloceanspaces.com/img/histogram.png)

In [None]:
#a moda retorna uma lista pois podemos ter mais um de um elemento no top
titanic.Age.mode() 

#### Para pegarmos uma moda só podemos pegar a primeira

In [None]:
titanic.Age.mode()[0]

In [None]:
titanic.Age.value_counts()

## Variância
É uma medida de dispersão quadratica que mostra o quão distante cada valor desse conjunto está do valor central.

O cálculo da variância populacional é obtido através da soma dos quadrados da diferença entre cada valor e a média aritmética, dividida pela quantidade de elementos observados. 

![alt text](https://databootcamp.nyc3.digitaloceanspaces.com/img/aid867321-v4-728px-Calculate-Variance-Step-10.jpg)

### Vamos pensar no número de horas trabalhadas em uma empresa

Como sabemos quão disperso é o número de horas trabalhadas pelos nossos funcionários? Será que todos estão trabalhando um número de horas parecida em cada dia?

![alt text](https://databootcamp.nyc3.digitaloceanspaces.com/img/6y9Vnsw.png)

Vimos que a variância de horas do funcionário **A** durante a semana é 2.

### Como podemos tirar do GREGO e colocar em código?

Com o Numpy e com o Pandas já temos isso implementado.

In [None]:
numpy.var([10,9,11,12,8])

In [None]:
titanic.Age.var()

## <font color='blue'>Qual a variância de horas trabalhadas entre os funcionários por semana?</font>
Vimos a variância de horas na semana, mas e entre os funcionários? Existem pessoas trabalhando mais que as outras na semana?
![alt text](https://databootcamp.nyc3.digitaloceanspaces.com/img/atrasada-relogio-pulso-1116-1400x800.jpg)

In [None]:
#solução

### Cuidado! A variância é muito afetada por valores extremos

In [None]:
lista_de_exemplo = [1, 100, 50]
numpy.var(lista_de_exemplo)

## Desvio Padrão - stddev

Vimos que a variância é muito afetada por valores extremos. Para evitar isso, usamos o desvio padrão.

**desvio_padrao = √variancia**


Com o desvio padrão você é capaz de identificar o “erro” que podemos ter ao substituir um dos valores coletados pela média aritmética. Inclusive como já fizemos aqui!

No caso, vocês substituíram o valor de idade pela média. Podemos validar se isso é confiável!

In [None]:
titanic.Age.std()

Temos uma chance de erro aparentemente grande. **Uma variação de 14,52 na idade é muita coisa!**

Podemos ver a utilização do desvio padrão na apresentação da média aritmética, informando o quão “confiável” é esse valor.

**média aritmética (x) ± desvio padrão (dp)**

In [None]:
titanic.Age.mean()

Aqui teríamos 29,69 ± 14,52... Ou seja, substiuindo a média das idades por idades faltantes temos a chance de colocar a idade de 29 anos para quem tem mais de 40 anos ou para um adolescente de 15 anos!

In [None]:
titanic.Age.mean() - titanic.Age.std()

In [None]:
titanic.Age.mean() + titanic.Age.std()

## <font color='blue'>Mas e quando separamos por gênero? Será que diminui o erro?</font>
![alt text](https://databootcamp.nyc3.digitaloceanspaces.com/img/atrasada-relogio-pulso-1116-1400x800.jpg)

In [None]:
#solução