![Alura <](img/logo-alura.svg)
<br><br>
    
## Estatística com Python parte 1: Frequências e Medidas

- Nível: Básico 
- Aluno: Paulo Freitas Nobrega 
- Professor: Rodrigo Fernando Dias 
- Link do curso: https://cursos.alura.com.br/course/estatistica-distribuicoes-e-medidas
<br><br>

##### Dataset: Pesquisa Nacional por Amostra de Domicílios (PNAD) 2015
> O sistema de pesquisas domiciliares, implantado progressivamente no Brasil a partir de 1967, com a criação da **Pesquisa Nacional por Amostra de Domicílios - PNAD**, produz informações básicas para o estudo do desenvolvimento socioeconômico do País.

##### Dataset: Boletins
> Pequeno conjunto de dados para auxiliar a aula. Contitui-se de variáveis do tipo quantitativa (numérica) contínua.

<br>

### Aula 03: Medidas de Tendência Central
Variáveis com dados de medição ou contagem podem possuir milhares de valores diferentes. Um passo fundamental na exploração de seus dados é definir um "valor típico" para cada feature (variável): uma estimativa de onde a maioria dos dados está localiada. Ou seja, sua tendência central.

---
BRUCE, Peter. **Estatística Prática para Cientistas de Dados**: 50 Conceitos Essenciais. 1. ed. p. 9. Rio de Janeiro: Alta Books, 2019.

### Fórmulas e conceitos estatísticos para esta aula.

Outliers: Valor que seja muito distante dos valores em um conjunto de dados.

$n$ = Número de elementos da amostra/população

$\bar x$ = Média, onde: $\bar x=\frac{\sum_{i}^n x_i}{n}$

$md$ = Mediana, onde $n$ é `ímpar`: $md=x_{\frac{n+1}{2}}$

$md$ = Mediana, onde $n$ é `par`: <br>
$md=\Large{\frac{x_{\frac{n}{2}} + x_{\frac{n+1}{2}}}{2}}$

In [1]:
# Bibliotecas
import pandas as pd
import numpy as np
import seaborn as sns
import scipy
import matplotlib.pyplot as plt

# Aplicando Estilo Matplotlib
plt.style.use('seaborn')

# Importando Dataset PNAD
df_pnad = pd.read_csv('dados.csv')

# Importando Dataset Boletins
df_boletins = pd.read_csv('dados_boletins.csv', index_col='Matérias')

In [2]:
# Exibindo dados do Dataset PNAD
df_pnad.head()

Unnamed: 0,UF,Sexo,Idade,Cor,Anos de Estudo,Renda,Altura
0,11,0,23,8,12,800,1.603808
1,11,1,23,2,12,1150,1.73979
2,11,1,35,8,15,880,1.760444
3,11,0,46,2,6,3500,1.783158
4,11,1,47,8,9,150,1.690631


In [3]:
# Exibindo dados do Dataset Boletins
df_boletins.head()

Unnamed: 0_level_0,Fulano,Beltrano,Sicrano
Matérias,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Matemática,8,10.0,7.5
Português,10,0.0,8.0
Inglês,4,0.5,7.0
Geografia,8,1.0,8.0
Histório,6,3.0,8.0


### Média

A média aritimética, ou simplesmente média, é a medida de tendência central mais conhecida e utilizada para resumir a informação contida em um conjunto de dados. Trata-se da soma de todos os valores, dividido pelo número de elementos.

> Em uma **amostra da população** utiliza-se o símbolo $\bar x$ (x barra) para representar a média e $n$ (minúsculo) para se referir ao número total de elementos. Tratando-se da **população** utiliza-se os símbolos $\mu$ e $N$ (maiúsculo) respectivamente.

> Média é uma medida susetível aos efeitos de `outliers` (casos extremos). Alternativas para média aritimética são: **média apurada**, **média ponderada**, etc. 

Média da População: $\mu=\frac{\sum_{i}^N x_i}{N}$

Média da Amostra: $\bar x=\frac{\sum_{i}^n x_i}{n}$

---
BRUCE, Peter. **Estatística Prática para Cientistas de Dados**: 50 Conceitos Essenciais. 1. ed. p. 9, 10. Rio de Janeiro: Alta Books, 2019.

VIEIRA, Sonia. **Estatística básica**. 2 ed. p. 43. São Paulo: CENGAGE, 2018.

In [4]:
# Média do boletim de Fulano
nota_media = df_boletins['Fulano'].mean()
print('Nota Média: {}'.format(round(nota_media, 2)))

Nota Média: 7.71


In [5]:
# Média de renda PNAD
renda_media = df_pnad['Renda'].mean()
print('Renda Média: {}'.format(round(renda_media, 2)))

Renda Média: 2000.38


In [6]:
# Média de renda por sexo PNAD
# Dicionário de Sexo
indices_sexo = {
    0: 'Masculino',
    1: 'Feminino'
}

# Médias das features por sexo
media_sexo = df_pnad.groupby(['Sexo']).mean()

# Renomeacao de indices
media_sexo.rename(index=indices_sexo, inplace=True)
pd.DataFrame(media_sexo['Renda'].apply(lambda x: round(x, 2)))

Unnamed: 0_level_0,Renda
Sexo,Unnamed: 1_level_1
Masculino,2192.44
Feminino,1566.85


In [7]:
# Criando uma função média
def media(conjunto: list) -> float:
    """Cálcula a média de um conjunto de dados"""
    n = len(conjunto)
    somatorio = sum(conjunto)
        
    return somatorio/n

media([1, 2, 3, 4, 5, 6, 7, 8, 9])

5.0

### Mediana

A mediana é o número central em uma lista de dados classificada. Se houver um número par de valores de dados (n), o valor central é aquele que não está realmente no conjunto de dados, mas sim a média aritimética dos dois valores que dividem os valores classificados nas metades superior e inferior. 

Mediana, onde $n$ é `ímpar`: $md=x_{\frac{n+1}{2}}$

Mediana, onde $n$ é `par`: <br>
$md=\Large{\frac{x_{\frac{n}{2}} + x_{\frac{n+1}{2}}}{2}}$

---
BRUCE, Peter. **Estatística Prática para Cientistas de Dados**: 50 Conceitos Essenciais. 1. ed. p. 11. Rio de Janeiro: Alta Books, 2019.

In [8]:
# Boletim de fulano ordenado
boletim_fulano = df_boletins['Fulano'].sort_values()
pd.DataFrame(boletim_fulano)

Unnamed: 0_level_0,Fulano
Matérias,Unnamed: 1_level_1
Inglês,4
Histório,6
Matemática,8
Geografia,8
Química,8
Português,10
Física,10


In [9]:
# n do boletim de fulano
n = boletim_fulano.shape[0]
print('n = {}'.format(n))

n = 7


In [10]:
# Mediana de fulano
mediana_fulano = boletim_fulano.median()
print('Mediana de Fulano = {}'.format(mediana_fulano))

Mediana de Fulano = 8.0


In [11]:
# Simulando conjunto com n par
boletim_beltrano = df_boletins['Beltrano'].sample(6, random_state=101)
pd.DataFrame(boletim_beltrano.sort_values())

Unnamed: 0_level_0,Beltrano
Matérias,Unnamed: 1_level_1
Português,0.0
Inglês,0.5
Histório,3.0
Física,9.5
Matemática,10.0
Química,10.0


In [12]:
# Mediana de beltrano
mediana_beltrano = boletim_beltrano.median()
print('Mediana de Beltrano = {}'.format(mediana_beltrano))

Mediana de Beltrano = 6.25


In [13]:
# Criando uma função mediana
# Função auxiliar para verificar a imparidade de n
def imparidade(n: int) -> bool:
    """Verifica imparidade de n"""
    return n % 2 > 0


# Função mediana
def mediana(conjunto: list) -> float:
    """Cálcula a mediana de um conjunto de dados"""    
    c, n = sorted(conjunto), len(conjunto)
    meio = n//2
    md = c[meio] if imparidade(n) else (c[meio-1] + c[meio]) / 2
    
    return float(md)

In [14]:
# Conjuntos
conjunto_impar = [1, 2, 3, 4, 5]
conjunto_par = [1, 2, 3, 4, 5, 6]

# Medianas
print('Conjunto Par: {}'.format(mediana(conjunto_par)))
print('Conjunto Ímpar: {}'.format(mediana(conjunto_impar)))

Conjunto Par: 3.5
Conjunto Ímpar: 3.0


In [15]:
# Simulando Outliers
conjunto_outliers = [1, 2, 3, 4, 5, 150]

# Efeito de outliers no centro do conjunto
print('Média = {}'.format(media(conjunto_outliers)))
print('Mediana = {}'.format(mediana(conjunto_outliers)))

Média = 27.5
Mediana = 3.5


### Moda

A mediana é o número central em uma lista de dados classificada. Se houver um número par de valores de dados (n), o valor central é aquele que não está realmente no conjunto de dados, mas sim a média aritimética dos dois valores que dividem os valores classificados nas metades superior e inferior. 

Mediana, onde $n$ é `ímpar`: $md=x_{\frac{n+1}{2}}$

Mediana, onde $n$ é `par`: <br>
$md=\Large{\frac{x_{\frac{n}{2}} + x_{\frac{n+1}{2}}}{2}}$

---
BRUCE, Peter. **Estatística Prática para Cientistas de Dados**: 50 Conceitos Essenciais. 1. ed. p. 11. Rio de Janeiro: Alta Books, 2019.