# Resumo rápido

Estatística é a ciência que se preocupa com:
    
    *Organização e descrição -> Estatística Descritiva
    *Análises e intepretações -> Estatística indutiva ou Estatística inferencial
    

# O que é estatística descritiva?

São métodos destinados a resumir a informação contida nos dados, destacando os aspectos mais marcantes.

Exemplo:

In [2]:
import pandas as pd 
# Leitura de dado de um arquivo 'santander.csv' 
# Delimitadores de controle, linhas, nomes de coluna com read_csv 
data = pd.read_csv("santander.csv") 
# Visualizar as primeiras 5 linhas dos dados carregados 
data.head()

Unnamed: 0,Categorias,Frequências Absolutas,Frequências relativas
0,Pessoa Física,580,58%
1,Van Gogh,210,21%
2,Select,108,"10,8%"
3,Private Banking,92,"9,2%"


# Características Numéricas de uma distribuição de dados

Em alguns momentos é necessário resumir certas características das distribuícões de dados através de certas quantidades. Essas quantidade são definidas são denominadas como ***Medidas***, pois quantificam alguns aspectos de nosso interesse.

# O que é Medida?

* Elas buscam sumarizar as informções disponíveis sobre o comportamento de uma variável. O foco é caracterizar o conjunto de dados através de medidas que resumam a informação nele contida.


* Ainda, podemos citar **Medidas de Posição** e **Medidas de dispersão**, tais medidas servem para localizar uma distribuição e caracterizar sua variabilidade, respectivamente.

Então vamos falar sobre **Medidas de Posição ou de Tendência Central**

O principal foco é localizar a distribuição dos dados brutos (ou frequências) sobre o eixo de variação da variável
em questão.

Os tipos mais comuns de medidas de tendência central são: média aritmética(simplesmente média ou valor médio), a mediana, a moda, a média geo métrica e a média quadrática. Assim vamos descrever cada um deles e a sua importância.

### Média Geométrica ou média amostral

São médidas ao redor das quais as observações tendem a se agrupar. Também podemos descrever através da 
formula matemática:

$$\bar{X} =\frac{X_1 + X_2 + X_3 + ... X_n} {n}$$

                                                            ou

$$\bar{X} =\frac{\sum_{i=1}^{n}{x^i}} {n}$$


                                      

Exemplo: 

Valores do ford Ka 2017 - 1.0/ 4 portas:


$$\bar{X} =\frac{31.999 + 38.500 + 35.500 + 34.999 + 39.940} {5} = 36.188$$

In [18]:
df = pd.read_csv("ka.csv") 
print("Média:", df.mean())

Média: preco    36.1876
dtype: float64


No caso acima temos que o n=5, pois temos cinco valores {31.999, 38.500, 35.500, 34.999, 39.940} e os valores que

compõe $$\bar{X}:{X_1, X_2, X_3, X_4, X_5}$$

sendo que esses valores são dividos pelo valor de n e como resultado obtemos o valor aproximadamente de R$ 36.188

## Média Ponderada

 Quando os valores de $${X_1, X_2,..., X_i}$$
 
têm associado a eles certos fatores de peso, ou ponderação, $${w_1, w_2,..., w_i}$$
que os disntinguem em importância relativa dentro de um conjunto de valores. Ou seja, é calculada multiplicando cada  valor do conjunto de dados pelo seu peso. Como é demonstrado no exemplo abaixo:

$$\bar{X} =\frac{w_1X_1 + w_2X_2 + w_3X_3 + ... X_n} {n}$$

                                                            ou

$$\bar{X} =\frac{\sum_{i=1}^{K}{w_i}{X_i}} {\sum_{i=1}^{K}{w_i}}$$


***Exemplo:***

Em um curso universitário queremos distinguir as atividades presenciais e as atividades online, podemos atribuir pesos, ou seja, imaginem uma aluna que tenha tirado uma nota 9.5 em atividades online e 5.3 em atividades presenciais, como poderíamos diferenciar as duas atividades, poderíamos realizar a média, no entanto seu professor pode considerar que você tenha colado, sendo assim o mesmo poderá atribuir pesos distintos para essas atividades, então vejamos:

Sendo assim ele acredita que para a atividade online ele deve atribuir um peso de 30 e para a atividade presencial 70, então para verificar a média final desse aluno temos realizar a média ponderada, então temos:


$$\bar{X} =\frac{30*9.5 + 70*5.3} {100} = 6.56$$

Nesse caso podemos observar que o valor de n é a soma dos pesos ou frequências, diferentemente da média que é a soma do número de elementos.

**Obs.:** O cálculo da média de histogramas é efetuado com a média pondera, porém no caso ao invés
    de pesos temos as frequências

## Mediana

Se as observações são ordenadas da menor até a maior, metade dos valores é maior ou igual à mediana, 
enquanto a outra metade é menor ou igual a ela. 


No exemplo da média de valores do ford ka, temos os seguintes valores:
    
    [31.999, 38.500, 35.500, 34.999, 39.940]
    
    1- passo vamos ordená-los:
        31.999, 34.999, 35.500 , 38.500, 39.940
        
        
        Assim temos que o número do meio que seria 35.500, então encontramos a mediana. 
        
        Mas podemos pensar e se eu tivesse 6 valores ao invés de 5, como faço para encontrar a mediana:
            
            Exemplo:
            
            [31.999, 38.500, 35.500, 34.999, 39.940, 40.000]
            
            Dados ordenados: 31.999, 34.999, 35.500 , 38.500, 39.940, 40.000
            
            Para encontrarmos a mediana basta realizar a média dos dois numeros centrais, 35.500 + 38.500 e temos
            a nossa mediana, que é 37.000

In [28]:
import statistics
df = [31.999, 38.500, 35.500, 34.999, 39.940]
data_points = [ x for x in df ]
statistics.median(data_points)


35.5

**Exercício**

Ex. 1: seja X o volume expiratório forçado (VEF) em um segundo (em litros) para uma amostra de n = 13 adolescentes que sofrem de asma. 
x1 = 2,30 x2 = 2,15 x3 = 3,50 x4 = 2,60 x5 = 2,75 x6 = 2,82 x7 = 4,05 x8 = 2,25 x9 = 2,68 x10 = 3,00 x11 = 4,02 x12 = 2,85 x13 = 3,38 

1o passo: ordenar as observações 

2o passo: a mediana é o “número do meio” 


## Moda

o valor que surge com mais frequência se os dados são discretos, ou, o intervalo de classe com maior frequência 
se os dados são contínuos.

In [46]:
df = [1, 2, 34, 34, 56, 78, 78, 78, 90]    
data_points = [ x for x in df ]
print(statistics.mode(data_points))

df = [1.1, 1.2, 1.2, 1.4, 1.5, 1.6]
data_points = [ x for x in df ]
print(statistics.mode(data_points))


statistics.mode(["cat", "dog", "dog", "cat", "monkey", "monkey", "dog"])


78
1.2


'dog'

## Pense na melhor solução:

Ex.: idade, em anos completos, de oito indivíduos. 
16 18 15 22 24 23 15 62 


Média = 24,38 anos 


Mediana = 20 anos 


Qual medida descreve melhor a variável idade ? 


## Medidas de dispersão (ou Variabilidade)

Vimos que o valor médio é uma medida importante, no entanto somente o valor médio não fornece muita informação sobre o conjunto de medidas

A medidas de posição devem ser complementadas pelas medidas de dispersão. Sendo assim as medidas de dispersão servem para indicar **o quanto o dado se apresentam dispersos em torno da região central**. E assim caracterizam o grau de variação que existe em um conjunto de valores.

Devemos entender que a medida de dispersão fornecem a significância e/ou confiabilidade do valor médio de um conjunto de valores.

As medidas de dispersão que mais nos interessam são: amplitude, variância, desvio padrão, coeficiente de variância


***Amplitude***

A amplitude é a diferença entre o maior e o menor valor. 
Exemplo:
    
n = {1, 3, 5, 6, 7, 9}
Valor da amplitude = 9-1  = 8
Se quisermos calcular a amplitude de entrada de processos de um juiz.

Vamos dizer que são contabilizados o número de processos deferidos por cada juiz por mês.

Sendo assim temos:

Juiz_A = [2, 3, 14, 5, 6, 7, 8, 3, 7, 9]
Juiz_B = [1, 2, 1, 4, 6, 2, 3, 5, 2, 1]

Ou seja, nos 10 primeros meses de 2018, temos o valor de processos deferidos por mês.

O que podemos concluir por meio da amplitude ...

Juiz_A = 14 - 1 = 13
Juiz_B = 6 - 1 = 5 

Podemos concluir que o Juiz_A apresenta uma amplitude de processos deferidos do que o Juiz_B, no entanto esse indicador se utiliza apenas de dois valores para descrever o comportamento. Esse tipo de analise podemos utilizar como uma proposta inicial em algum projeto, para que assim possamos em um futuro inferir as causas dessas diferenças de amplitude.

### Variância e desvio padrão

Acredito que antes de vc prosseguir nesse topico, vamos discutir:
    
O que e uma populacao?

O que e amostra?

O que e espaco amostral?


Esses conceitos sao essenciais para discutirmos qualquer outro topico daqui para frente ....