# Fundamentos de Estatística Básica

## Objetivo: apresentar os fundamentos de estatística para Data Science e demonstrar implementações com python.


In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import statistics

# 1. Medidas de posição

## Média aritmética simples

### Soma dos elementos de um conjunto de dados dividido pelo número total de elementos deste conjunto.

### Média amostral:
![image.png](attachment:image.png)

### Média populacional:
![image-2.png](attachment:image-2.png)
​
### Exemplos:

#### Média das notas anuais;
#### Média de vendas;
#### Média de idades.

### Exemplo 1: Vamos calcular a média de aluno na disciplina de matemática. As notas do aluno foram: 7,8,6,10.
#### Suponha que para ser aprovado o aluno deve tirar uma média de 7 pontos.

![image.png](attachment:image.png)

### Exemplo 2: Considere o índice de endividamento de um conjunto de empresas: 25%, 51%, 76%, 41%, 55%, 13%.
#### Calculemos a média do endividamento destas empreas:

![image.png](attachment:image.png)

## Implementação em Python:

## Exemplo 1:


In [3]:
notas = [7, 8, 6, 10]
soma = sum(notas)
media = soma/len(notas)
print(f'A média do aluno foi: {media}')

A média do aluno foi: 7.75


## Exemplo 2:

In [6]:
endividamento = [25, 51, 76, 41, 55, 13]
def calcular_media(vetor):
    return sum(vetor)/len(vetor)
print(f'A média do endividamento das empreas foi: {calcular_media(endividamento)}%')

A média do endividamento das empreas foi: 43.5%


# A média é sensível a valores extremos.

## Exemplo 3: Vamos supor que uma loja registrou o seguinte resultado quanto a venda de 4 produtos, em determinado dia: R$ 10, R$ 17, R$ 13, R$ 15. Calculemos a média.

In [10]:
vendas = [10, 17, 13, 300]
calcular_media(vendas)

85.0

## Média aritmética ponderada

### Atribuí pesos diferentes para cada elemento no conjunto de dados.

### Com base nos fatores de ponderação(q1,q2,q3...qn) podemos definir a média ponderada como:
![image.png](attachment:image.png)

## Exemplo 4: Considere um estudante que realizou o ENEM para tentar ingressar no curso de Ciência da Computação. O aluno obteve as seguintes notas( com os respectivos pesos de cada prova):

### Matemática e suas tecnologias: 718,91(Peso5);
### Ciências da natureza e suas tecnologias: 521,33(Peso 2);
### Ciências humanas e suas tecnologias: 627,9(Peso 2);
### Linguagens, códigos e suas tecnologias: 610,12(Peso 4);
### Redação: 930(Peso 5).

![image.png](attachment:image.png)

In [11]:
notas = [718.91, 521.33, 627.9, 610.12, 930]
pesos = [5, 2, 2, 4, 5]

In [12]:
np.average(notas, weights=pesos)

721.305

## Mediana

### Valor que divide o conjunto de dados em duas partes iguais.
### Precisamos ordenar o conjunto de dados:
![image.png](attachment:image.png)

## Regra:

### Tamanho do conjunto de dados ímpar: a mediana será o valor central;
### Tamanho do conjunto de dados par: a mediana será a média aritmética dos dois valores centrais.

## Exemplo 5: Vamos calcular a mediana da idade de um conjunto de pessoas. Vamos considerar dois conjuntos:

![image.png](attachment:image.png)

### Para o conjunto A:
![image-2.png](attachment:image-2.png)

### Para o conjunto B:
![image-3.png](attachment:image-3.png)

## Implementação em Python:

In [13]:
conjunto_A = [10, 13, 11, 10, 87]
conjunto_B = [23, 31, 17, 18]

In [15]:
np.median(conjunto_A)

11.0

In [17]:
np.mean(conjunto_A)

26.2

In [16]:
np.median(conjunto_B)

20.5

In [18]:
np.mean(conjunto_B)

22.25

## Moda

### Valor com maior frquência em um conjunto de dados.
### Podemos ter as seguintes situações para um conjunto de dados: conjunto com uma única moda (unimodal), com duas modas(bimodal), várias modas(multimodal) ou nenhuma moda(amodal).

## Exemplo 6: Vamos calcular a moda para os conjuntos a seguir:

![image.png](attachment:image.png)

In [19]:
a = [11, 2, 2, 9, 7]
b = [4, 4, 19]
c = [3, 3, 1, 9, 9]

In [20]:
statistics.mode(a)

2

In [21]:
statistics.mode(b)

4

In [23]:
statistics.multimode(c)

[3, 9]

# 2. Medidas de dispersão e associação

## Objetivo: Calcular o grau de dispersão de um conjunto de valores em torno da média.

## Amplitude

### Diferença entre o maior e o menor valor de um conunto de dados.
![](attachment:image.png)

### Calculamos então a amplitude:
![image-2.png](attachment:image-2.png)

### Desvio em relação ao valor médio
![image-3.png](attachment:image-3.png)

### Exemplo 7: Vamos construir um exemplo inicial, para verificarmos que se somarmos cada desvio obteremos um valor nulo(d1+ d2 + d3 +d4 +d5 = 0). Consideremos o Conjunto B.

![image.png](attachment:image.png)

### Calculando a amplitude:
![image-2.png](attachment:image-2.png)

### Somando os desvios:
![image-3.png](attachment:image-3.png)


## Variância

#### Mensura o grau de dispersão de um conjunto de valores em torno da média.

### Variância poulacional:

![image.png](attachment:image.png)

### Variância amostral:

![image-2.png](attachment:image-2.png)

### Exemplo 8: Vamos calcular a variância do conjunto populacional B.

![image.png](attachment:image.png)

In [24]:
B = [5, 8, 10, 12, 15]

In [25]:
np.var(B)

11.6

## Desvio padrão

### Raiz quadrada da variância.

### Desvio padrão populacional:

![image.png](attachment:image.png)

### Desvio padrão amostral:

![image-2.png](attachment:image-2.png)

## Desvio Médio Absoluto

### Módulo do desvio em relação ao valor central.

![image.png](attachment:image.png)

## Covariância

### A variância conjunta (ou covariância) mensura o grau de interdependência entre duas variáveis aleatórias, como segue.

![image.png](attachment:image.png)

### Com base em Assaf-Neto (2014), vejamos uma aplicação deste conceito em Finanças:

![image-2.png](attachment:image-2.png)

### Se cov(Ra.Rb) > 0: taxas de retorno possuem comportamento de mesma tendência (o desempenho do ativo A acompanha o desempenho do ativo B - valorização de um ativo reflete na valorização do outro ativo).
### Se cov(Ra.Rb) = 0: não há associação entre os dois ativos.
### Se cov(Ra.Rb) < 0: há associação inversa entre os título A e B (Se há desvalorização do título A, espera-se que o título B se valorize - reduz o risco da carteira)

## Coeficiente de  correlação

### A partir das definições anteriores, podemos mensurar o grau de correlação entre duas variáveis X e Y.

![image.png](attachment:image.png)

### Renda e Consumo
### PIB e IDH
### Salário e anos de estudo


### Alta correlação não se traduz necessariamente em uma relação de causalidade entre as varáveis;
### Os valores podem variar em uma escala de -1 a 1, sendo que valores positivos (negativos) denotam correlação positiva (negativa).

# 3. Implementações com a biblioteca Pandas

In [26]:
dados = {'A' : [1, 22, 1, 90],
         'B' : [40, 45, 47, 49],
         'C' : [15, 22, 33, 4]
         }

In [27]:
df = pd.DataFrame(dados)

In [28]:
df

Unnamed: 0,A,B,C
0,1,40,15
1,22,45,22
2,1,47,33
3,90,49,4


In [29]:
df.max()

A    90
B    49
C    33
dtype: int64

In [30]:
df.max(axis = 1)

0    40
1    45
2    47
3    90
dtype: int64

In [31]:
df.min()

A     1
B    40
C     4
dtype: int64

In [32]:
df.sum()

A    114
B    181
C     74
dtype: int64

In [33]:
df.mean()

A    28.50
B    45.25
C    18.50
dtype: float64

In [34]:
df.var()

A    1779.000000
B      14.916667
C     148.333333
dtype: float64

In [35]:
df.std()

A    42.178193
B     3.862210
C    12.179217
dtype: float64

In [36]:
df.describe()

Unnamed: 0,A,B,C
count,4.0,4.0,4.0
mean,28.5,45.25,18.5
std,42.178193,3.86221,12.179217
min,1.0,40.0,4.0
25%,1.0,43.75,12.25
50%,11.5,46.0,18.5
75%,39.0,47.5,24.75
max,90.0,49.0,33.0


In [38]:
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
A,4.0,28.5,42.178193,1.0,1.0,11.5,39.0,90.0
B,4.0,45.25,3.86221,40.0,43.75,46.0,47.5,49.0
C,4.0,18.5,12.179217,4.0,12.25,18.5,24.75,33.0


In [37]:
df['A'].describe()

count     4.000000
mean     28.500000
std      42.178193
min       1.000000
25%       1.000000
50%      11.500000
75%      39.000000
max      90.000000
Name: A, dtype: float64