<a href="https://colab.research.google.com/github/cmedanielle/EspecializacaoDataScience/blob/master/aula_sexta.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **DISCIPLINA - ESTATÍSTICA (SEXTA)**

## 1. REVISÃO - DISTRIBUIÇÃO DE FREQUÊNCIA E MEDIDAS ESTATÍSTICAS

### 1.1. Conhecendo nosso dataset

**Pesquisa Nacional por Amostra de Domicílios (2015)**

A Pesquisa Nacional por Amostra de Domicílios - PNAD, de periodicidade anual, foi encerrada em 2016, com a divulgação das informações referentes a 2015. Planejada para produzir resultados para Brasil, Grandes Regiões, Unidades da Federação e nove Regiões Metropolitanas (Belém, Fortaleza, Recife, Salvador, Belo Horizonte, Rio de Janeiro, São Paulo, Curitiba e Porto Alegre), ela pesquisava, de forma permanente, características gerais da população, educação, trabalho, rendimento e habitação, e, com periodicidade variável, outros temas, de acordo com as necessidades de informação para o País, tendo como unidade de investigação o domicílio. A PNAD foi substituída, com metodologia atualizada, pela Pesquisa Nacional por Amostra de Domicílios Contínua - PNAD Contínua,  que propicia uma cobertura territorial mais abrangente e disponibiliza informações conjunturais trimestrais sobre a força de trabalho em âmbito nacional.



https://www.ibge.gov.br/estatisticas/sociais/populacao/9127-pesquisa-nacional-por-amostra-de-domicilios.html?=&t=microdados

### VARIÁVEIS UTILIZADAS

Renda: Rendimento mensal do trabalho principal para pessoas de 10 anos ou mais de idade.

Idade: Idade do morador na data de referência em anos.

Altura: Altura do morador em metros.

Sexo: 0 - Masculino| 1 - Feminino

*Observações:*
Foram eliminados os registros onde a *Renda* era inválida ou inexistente e foram considerados apenas os registros das *Pessoas de Referência* de cada domicílio (responsável pelo domicílio).
O dataset é um subconjunto extraído do conjunto de dados tratados pelo prof. Rodrigo Fernando Dias.

In [0]:
import pandas as pd, numpy as np, scipy as sp, matplotlib as mp

In [0]:
dados = pd.read_csv('dados.csv')

In [0]:
dados.head()

In [0]:
dados.shape[0]

### 1.2. Revisando Tipos de Variáveis

**Variáveis podem ser quantitatias e qualitativas:**


*   Variáveis quantitativas podem ser discretas ou contínuas;
*   Variáveis qualitativas (ou categóricas) podem ser ordinais ou nominais

In [0]:
dados.Sexo.min(), dados.Sexo.max()

In [0]:
frequencia = dados.Sexo.value_counts()
frequencia

In [0]:
percentual = dados.Sexo.value_counts(normalize = True) * 100
percentual

In [0]:
dist_freq_qualitativas = pd.DataFrame({'Frequência ': frequencia, 'Porcentagem (%) ': percentual})
dist_freq_qualitativas.rename(index = {0: 'Masculino', 1: 'Feminino'}, inplace = True)
dist_freq_qualitativas.rename_axis('Sexo', axis = 'columns', inplace = True)
dist_freq_qualitativas

In [0]:
dados.Renda.min(), dados.Renda.max()

In [0]:
frequencia = dados.Renda.value_counts()
frequencia

In [0]:
classes = [0, 1576, 3152, 7880, 15760, 200000]
labels = ['E','D','C','B','A']

In [0]:
frequencia = pd.value_counts(pd.cut(x = dados.Renda, bins = classes, labels = labels, include_lowest = True))
percentual = pd.value_counts(pd.cut(x = dados.Renda, bins = classes, labels = labels, include_lowest = True), normalize = True) * 100
percentual

In [0]:
dist_freq_qualitativas_quantitativa = pd.DataFrame({'Frequência': frequencia, 'Porcentagem (%)': percentual})
dist_freq_qualitativas_quantitativa.sort_index(ascending = False, inplace = True)
dist_freq_qualitativas_quantitativa

### 1.3. Revisando algumas medidas estatísticas

![alt text](https://s3.static.brasilescola.uol.com.br/img/2019/01/medidas-de-tendencia-be.jpeg)
Fonte: Escolha Brasil (Uol)

In [0]:
dados.Renda.mean(), dados.Renda.median(), dados.Renda.mode()[0]

**Variância amostral:** mede a dispersão em torno da média (mas tem o inconveniente de ter a unidade do dado estudado ao quadrado!);



In [0]:
dados.var()

**Desvio-Padrão amostral:** • mede a variação em torno da média (e é super usável, porque tem a mesma unidade dos dados originais!)

IMPORTANTE: Um valor baixo de desvio padrão indica que os pontos dos dados tendem a estar próximos da média ou do valor esperado. Se ele for alto, então temos indícios de que os pontos dos dados estão espalhados por uma ampla gama de valores.

In [0]:
dados.std()

In [0]:
dados.Altura.hist(bins = 50, figsize = (12,6))

<matplotlib.axes._subplots.AxesSubplot at 0x7efbe1e6df60>

## 2. SIGNIFICÂNCIA ESTATÍSTICA

### 2.1. Nível de confiança x Nível de significância

**Nível de confiança ( 1−α )** - probabilidade de acerto da estimativa. Diz respeito ao grau de confiabilidade de que um valor de uma estimativa esteja dentro de um intervalo.

**Nível de significância ( α )** - probabilidade de erro da estimativa.

![Significancia](https://upload.wikimedia.org/wikipedia/commons/0/01/ConfIntervNormalP.png)

### 2.2. Intervalos de confiança

**INTERVALO DE CONFIANÇA PARA A MÉDIA DA POPULAÇÃO**

*Com desvio padrão populacional conhecido*

## $$\mu = \bar{x} \pm z\frac{\sigma}{\sqrt{n}}$$

*Com desvio padrão populacional desconhecido*

## $$\mu = \bar{x} \pm z\frac{s}{\sqrt{n}}$$

## 2. TESTES DE HIPÓTESES

### 2.2. Teste de normalidade

In [0]:
from scipy.stats import normaltest

In [0]:
dados.Renda.hist(bins = 50)

In [0]:
significancia = 0.05

In [0]:
dados.Renda.hist(bins = 50)

OBs.: a função *normaltest* tem como base a hipótese nula $H_0$ de que a distribuição da amostra é normal.

In [0]:
normaltest(dados.Renda)

In [0]:
stat_test, p_valor = normaltest(dados.Renda)
stat_test, p_valor

**Lembrete:** Rejeitamos a hipótese nula $H_0$ quando o valor $p\leq 0,05$

In [0]:
p_valor <= significancia

In [0]:
dados.Altura.hist(bins = 50)

In [0]:
stat_test, p_valor = normaltest(dados.Altura)
stat_test, p_valor

In [0]:
p_valor <= significancia

### 3.3. Teste bicaudal

In [0]:
from scipy.stats import norm

In [0]:
amostra = [509, 505, 495, 510, 496, 509, 497, 502, 503, 505, 
           501, 505, 510, 505, 504, 497, 506, 506, 508, 505, 
           497, 504, 500, 498, 506, 496, 508, 497, 503, 501, 
           503, 506, 499, 498, 509, 507, 503, 499, 509, 495, 
           502, 505, 504, 509, 508, 501, 505, 497, 508, 507]

In [0]:
amostra = pd.DataFrame(amostra, columns=['Amostra'])
amostra.head()

In [0]:
media_amostra = amostra.mean()[0]
media_amostra

In [0]:
desvio_padrao_amostra = amostra.std()[0]
desvio_padrao_amostra

In [0]:
media = 500
significancia = 0.05
confianca = 1 - significancia
n = 50

In [0]:
confianca = 0.95
probabilidade = (0.5 + (confianca / 2))
probabilidade

In [0]:
z_alpha_2 = norm.ppf(probabilidade)
z_alpha_2

In [0]:
z = (media_amostra - media) / (desvio_padrao_amostra / np.sqrt(n))
z

In [0]:
p_valor = 2 * (1 - norm.cdf(z))
p_valor

In [0]:
p_valor <= significancia

In [0]:
from statsmodels.stats.weightstats import ztest

In [0]:
ztest(x1 = amostra, value = media)

In [0]:
from statsmodels.stats.weightstats import DescrStatsW

In [0]:
test = DescrStatsW(amostra)
test.ztest_mean(value = media)

Explicar a teoria do unicaudal e deixar pros alunos lerem material sobre - deixar claro a importância de testes pra ciência de dados