<a href="https://colab.research.google.com/github/FGalvao77/Fundamentos-de-Estatistica-com-Python/blob/main/Fundamentos_de_Estat%C3%ADstica_B%C3%A1sica_com_Python.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Fundamentos de Estatística Básica com Python**

- Objetivo: apresentar os fundamentos de estatística para Data Science e demonstrar implementações com Python.

In [None]:
# importando as bibliotecas necessárias
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import statistics

## 1. Medidas de posição

***Média aritmética simples***
- Soma dos elementos de um conjunto de dados dividido pelo número total de elementos deste conjunto.
  
    - *Média amostral.*
        - A média amostral é um vetor onde cada um dos elementos é a média da amostra de uma das variáveis aleatórias, ou seja, cada um dos elementos é a média aritmética dos valores observados de uma das variáveis.
  
    - *Média populacional.*
        - A média populacional representa a média real de toda a população. Quando calculado usando a média da amostra, é indicado por (s). Quando calculado usando média populacional, é denotado por (σ).

## **Exemplo 1**

Vamos calcular a média de aluno na disciplina de matemática. As notas do aluno foram: 
- 7, 8, 6, 10. Suponha que para ser aprovado o aluno deve tirar uma média de 7 pontos.

In [None]:
# instanciando uma lista com notas
notas = [7, 8, 6, 10]
notas

[7, 8, 6, 10]

In [None]:
# soma das notas
soma = sum(notas); soma

31

In [None]:
# média das notas
media = soma/len(notas); media

7.75

In [None]:
# simplificando o código e a impressão da média 
print(f'A média das notas é: {(sum(notas) / (len(notas)))}')

A média das notas é: 7.75


## **Exemplo 2**

Considere o índice de endividamento de um conjunto de empresas:
-  25%, 51%, 76%, 41%, 55%, 13%. 

Calculemos a média do endividamento destas empresas.

In [None]:
endividamento = [25, 51, 76, 41, 55, 13]

In [None]:
# criando uma função para calcular a média da variável "endividamento"
def calcular_media(vetor):
    return sum(vetor) / len(vetor)

In [None]:
print(f'A média do endividamento é: {calcular_media(endividamento)}%')

A média do endividamento é: 43.5%


**A média é sensível a valores extremos.**

## **Exemplo 3**

Vamos supor que uma loja registrou o seguinte resultado quanto a venda de 4 produtos, em determinado dia: 
- ``R$ 10.00, R$ 17.00, R$ 13.00, R$ 15.00``
  
  Calculemos a média.

In [None]:
# instanciando uma lista com valores de vendas
# calculando a média utilizando a função "calcular_media()"
vendas = [10, 17, 13, 300]
print(f'Média de vendas: {calcular_media(vendas)}')

Média de vendas: 85.0


***Média aritmética ponderada***

 - Atribui pesos diferentes para cada elemento no conjunto de dados.

## **Exemplo 4**

Considere um estudente que realizou o ENEM para tentar ingressar no curso de Ciência da Computação.O aluno obteve as seguintes notas (com os respectivos pesos de cada prova):
- Matemática e suas tecnologias: 718,91 (Peso 5);
- Ciências da natureza e suas tecnologias: 521,33 (Peso 2);
- Ciências humanas e suas tecnologias: 627,9 (Peso 2);
- Linguagens, códigos e suas tecnologias: 610,12 (Peso 4);
- Redação: 930 (Peso 5).

In [None]:
# instanciando as variáveis "notas" e "pesos" com seus respectivos valores
notas = [718.91, 521.33, 627.90, 610.12, 930.00]
pesos = [5, 2, 2, 4, 5]

In [None]:
# imprimindo a média das notas com seus pesos
np.average(notas, weights = pesos)

721.305

**Mediana**

- Valor que divide o conjunto de dados em duas partes iguais;
- Precisamos ordenar o conjunto de dados em ordem crescente;
    - Tamanho do conjunto de dados ímpar: a mediana será o valor central;
    - Tamanho do conjunto de dados par: a mediana será a média aritmética dos dois valores centrais.

## **Exemplo 5**
Vamos calcular a mediana da idade de um conjunto de pessoas. 
Vamos considerar dois conjuntos:
- A = {87, 13, 11, 10, 10}
- B = {23, 31, 17, 18}

In [None]:
# instanciando os valores dos conjuntos "A" e "B"
conjunto_A = [10, 13, 11, 10, 87]
conjunto_B = [23, 31, 17, 18]

In [None]:
# média e mediana do conjunto A
print(f'''Conjunto A
      - Média:{np.mean(conjunto_A)}
      - Mediana: {np.median(conjunto_A)}''')

Conjunto A
      - Média:26.2
      - Mediana: 11.0


In [None]:
# média e mediana do conjunto B
print(f'''Conjunto B
      - Média:{np.mean(conjunto_B)}
      - Mediana: {np.median(conjunto_B)}''')

Conjunto B
      - Média:22.25
      - Mediana: 20.5


**Moda**

- Valor com maior frequência em um conjunto de dados.
- Podemos ter as seguintes situações para um conjunto de dados: conjunto com uma única moda (unimodal), com duas modas (bimodal), várias modas (multimodal) ou nenhuma moda (amodal).

## **Exemplo 6**

Vamos calcular a moda para os conjuntos a seguir:
- A = {11, 2, 2, 9, 7} : o conjuntem tem uma única moda (Mo = 2);
- B = {4, 4, 19}: o conjunto tem uma única moda (Mo = 4);
- C = {3, 3, 1, 9, 9}: o conjunto tem duas modas (Mo1 = 3 e Mo2 = 9)

In [None]:
# instanciando as listas "a", "b" e "c"
a = [11, 2, 2, 9, 7]
b = [4, 4, 19]
c = [3, 3, 1, 9, 9]

In [None]:
# verificando a moda da lista "a"
statistics.mode(a)

2

In [None]:
# verificando a moda da lista "b"
statistics.mode(b)

4

In [None]:
# verificando a moda da lista "c"
statistics.mode(c)

3

In [None]:
# verificando a multimoda da lista "c"
statistics.multimode(c)

[3, 9]

## 2. Medidas de dispersão e associação
- Objetivo: calcular o grau de dispersão de um conjunto de valores em torno da média.

***Amplitude***
- Diferença entre o maior e o menor valor de um conjunto de dados.

        X ( 1 ) ≤ X ( 2 ) ≤ ⋯ ≤ X ( n − 1 ) ≤ X ( n )

Calculamos então a amplitude: A = X ( n ) − X ( 1 )




***Desvio em relação ao valor médio***

- di = Xi − X

## **Exemplo 7**

Vamos construir um exemplo inicial, para verificarmos que se somarmos cada desvio obteremos um valor nulo (d1 + d2 + d3 + d4 + d5 = 0). Consideremos o conjunto B.

- B = {10, 15, 8, 5, 12}
  
 x = 10 + 15 + 8 + 5 + 12 / 5
 x = 10

- B = {5, 8, 10, 12, 15}
- 
Calculando a amplitude:
A = 15 − 5 = 10

d1 = 5 − 10 = − 5

d2 = 8 − 10 = − 2

d3 = 10 − 10 = 0

d4 = 12 − 10 = 2

d5 = 15 − 10 = 5

Somando os desvios:
−5 − 2 + 0 + 2 + 5 = 0

***Variância***

- Mensura o grau de dispersão de um conjunto de valores em torno da média.

In [None]:
B = [5, 8, 10, 12, 15]

In [None]:
np.var(B)

11.6

***Desvio padrão***
- Raiz quadrada da variância.

***Desvio Médio Absoluto***

- Módulo do desvio em relação ao valor central.

***Covariância***
- A variância conjunta (ou covariância) mensura o grau de interdependência entre duas variáveis aleatórias

***Coeficiente de correlação***
- A partir das definições anteriores, podemos mensurar o grau de correlação entre duas variáveis X e Y.

- Renda e Consumo
- PIB e IDH
- Salário e anos de estudo
  
    - alta correlação não se traduz necessariamente em uma relação de causalidade entre as variáveis;
    - os valores podem variar em uma escala de -1 a 1, sendo que valores positivos (negativos) denotam correlação positiva (negativa).

## 3. Implementações com a biblioteca Pandas

In [None]:
dados = {'A': [1, 22, 1, 90],
         'B': [40, 45, 47, 49],
         'C': [15, 22, 33, 4]
         }
dados

{'A': [1, 22, 1, 90], 'B': [40, 45, 47, 49], 'C': [15, 22, 33, 4]}

In [None]:
df = pd.DataFrame(dados)
df

Unnamed: 0,A,B,C
0,1,40,15
1,22,45,22
2,1,47,33
3,90,49,4


In [None]:
df.max() # valor máximo por coluna

A    90
B    49
C    33
dtype: int64

In [None]:
df.max(axis = 1) # valor máximo por linha

0    40
1    45
2    47
3    90
dtype: int64

In [None]:
df.min() # valor mínimo por coluna

A     1
B    40
C     4
dtype: int64

In [None]:
df.sum() # soma das colunas

A    114
B    181
C     74
dtype: int64

In [None]:
df.mean() # média das colunas

A    28.50
B    45.25
C    18.50
dtype: float64

In [None]:
df.var() # variância das colunas

A    1779.000000
B      14.916667
C     148.333333
dtype: float64

In [None]:
df.std() # desvio padrão das colunas

A    42.178193
B     3.862210
C    12.179217
dtype: float64

In [None]:
df.mad() # desvio média absoluto

A    30.75
B     2.75
C     9.00
dtype: float64

In [None]:
df.describe().T # sumário estattístico

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
A,4.0,28.5,42.178193,1.0,1.0,11.5,39.0,90.0
B,4.0,45.25,3.86221,40.0,43.75,46.0,47.5,49.0
C,4.0,18.5,12.179217,4.0,12.25,18.5,24.75,33.0


In [None]:
df['A'].describe().T # sumário estatístico da coluna A

count     4.000000
mean     28.500000
std      42.178193
min       1.000000
25%       1.000000
50%      11.500000
75%      39.000000
max      90.000000
Name: A, dtype: float64

## 3. Referências

1. ALEXANDRE ASSAF NETO. Mercado Financeiro. São Paulo: Atlas, 2014.
2. BUSSAB, W. O.; MORETTIN, P. A. Estatística Básica. 6. ed. São Paulo : Saraiva, 2010.
3. HOFFMANN, R. Estatística para Economistas. 4. ed. São Paulo : Pioneira, 2006.
4. SARTORIS, A. Estatística e introdução à econometria. São Paulo: Saraiva, 2003.