# Módulo 1 - Introduction to Statistics

### Medidas de Posição

- Moda: Valor mais frequente em um conjunto de dados;
- Mediana: Posição mais central de um conjunto de dados;
- Média: Soma das observações dividida pelo número de observações.

 Para calcular a **moda** de uma variável precisamos apenas da frequência dessa variável, já a **mediana** é necessário ordenar as realizações. A **média** só pode ser calculada para variáveis quantitativas.
 
Logo, para variáveis nominais só conseguimos trabalhar com a moda. Já as ordinais, conseguimos trabalhar com a moda e a mediana.

 In January 1986, the space shuttle Challenger broke apart shortly after liftoff. The accident was caused by a part that was not designed to fly at the unusually cold temperature of 29◦ F at launch.

In [1]:
#Launch-temperatures of the first 25 shuttle missions
launch_temperatures = [66,70,69,80,68,67,72,70,70,57,63,70,78,67,53,67,75,70,81,76,79,75,76,58,29]

In [14]:
import statistics
launch_temperatures_mean = statistics.mean(launch_temperatures)
launch_temperatures_mode = statistics.median(launch_temperatures)
launch_temperatures_median = statistics.mode(launch_temperatures)
print(f"Média {launch_temperatures_mean}, moda {launch_temperatures_mode} e mediana {launch_temperatures_median}")



Média 68.24, moda 70 e mediana 70


### Medidas de Dispersão

Uma única medida de posição pode não fornecer informações suficientes sobre a variabilidade de um conjunto de observações. O exemplo abaixo ilustra essa situação:

In [22]:
notas ={  
    'x':[3, 4, 5, 6, 7],
    'y':[1, 3, 5, 7, 9],
    'z':[5, 5, 5, 5, 5],
    'w':[3, 5, 5, 7,None],
    'v':[3, 5, 5, 6, 6]
}

In [25]:
import pandas as pd
df_notas = pd.DataFrame(notas)
df_notas.head()

Unnamed: 0,x,y,z,w,v
0,3,1,5,3.0,3
1,4,3,5,5.0,5
2,5,5,5,5.0,5
3,6,7,5,7.0,6
4,7,9,5,,6


In [26]:
df_notas.mean()

x    5.0
y    5.0
z    5.0
w    5.0
v    5.0
dtype: float64

Ao analisar os conjuntos de dados x, y, z, w e v, podemos observar que a a média é igual a 5 em todos os casos, isso não fornece informações sobre suas diferentes variabilidades. É importante considerar medidas que resumam a variabilidade de um conjunto de observações, permitindo-nos comparar conjuntos de valores diferentes de acordo com critérios estabelecidos. Duas medidas amplamente utilizadas para esse propósito são o desvio médio e a variância.

In [30]:
desvio_medio = df_notas['x'] - df_notas['x'].mean()
print(desvio_medio)


0   -2.0
1   -1.0
2    0.0
3    1.0
4    2.0
Name: x, dtype: float64


No exemplo dado para o grupo A, os desvios em relação à média são -2, -1, 0, 1, 2. É importante notar que a soma desses desvios é sempre igual a zero para qualquer conjunto de dados. Isso ocorre porque os valores acima da média são compensados pelos valores abaixo da média, resultando em um cancelamento e uma soma total igual a zero.

Porém, apenas a soma dos desvios não é uma medida adequada de dispersão, pois acaba se anulando. Nesse caso, não conseguimos ter uma noção clara da variabilidade dos dados.

In [31]:
df_notas.std()

x    1.581139
y    3.162278
z    0.000000
w    1.632993
v    1.224745
dtype: float64

Portanto, podemos concluir que, com base nos desvios padrão, as colunas 'y', 'w' e 'v' possuem uma maior dispersão em relação à média, enquanto as colunas 'x' e 'z' têm uma dispersão menor ou nula (todos os valores são iguais).

### Quantis Empíricos 

A média e o desvio padrão podem não ser adequados para representar um conjunto de dados, uma vez que:
- São afetados por valores extremos;
- Com apenas esse dois valores não conseguimos ter ideia da simetria ou assimetria do conjunto de dados.

Os quantis são medidas que nos permitem dividir os dados em partes iguais com base em uma proporção específica. Por exemplo, se falamos do quantil de ordem 0.5 (ou 50%), isso significa que metade dos dados está abaixo desse valor e metade está acima.

Podemos usar quantis para dividir os dados em diferentes proporções. Por exemplo, o quantil de ordem 0.25 (ou 25%) nos dá um valor tal que 25% dos dados estão abaixo dele e 75% estão acima. Da mesma forma, o quantil de ordem 0.75 (ou 75%) nos dá um valor em que 75% dos dados estão abaixo e 25% estão acima.

Em resumo, os quantis nos ajudam a entender como os dados estão distribuídos e como eles se comparam em relação a diferentes proporções. Eles nos permitem identificar valores que se encontram em diferentes partes da distribuição.

In [35]:
x = [15, 5, 3, 8, 10, 2, 7, 11, 12]
x.sort()
print(x)

[2, 3, 5, 7, 8, 10, 11, 12, 15]
