## <font color = 'Deeppink'>Vamos fazer um exercício

<font color = 'Deeppink'>A empresa Limpa Esgoto garante ser capaz de realizar o tratamento de esgoto e obter, no máximo, 150 g de impurezas para cada mil litros de esgoto tratado. Vinte amostras de mil litros de esgoto apresentaram, em média, 230 g de impurezas e desvio padrão amostral igual a 90 g.

<font color = 'Deeppink'>Assumindo alfa igual a 5% e população normalmente distribuída, seria possível discordar da empresa Limpa Esgoto? Assinale a alternativa que apresenta a estatística de teste e a decisão correta do teste.

In [1]:
import numpy as np
import pandas as pd
from scipy.stats import norm
from scipy.stats import t as t_student
from statsmodels.stats.weightstats import ztest

<font color = 'darkolivegreen'>**Hipótese nula** = a média amostral e a média populacional sao iguais com nível de 5% de significância?

In [2]:
n = 20
media_populacional = 150
media_amostral = 230
desvio_amostral = 90
significancia = 0.05

t_exercicio = (media_amostral - media_populacional) / (desvio_amostral / np.sqrt(n))
t_exercicio

3.9752319599996264

><font color = 'darkolivegreen'>O valor de 3.98 indica a posição de t para o meu conjunto de dados.

In [3]:
grau_de_liberdade = 19
confianca = 1 - significancia

t_alpha = t_student.ppf(confianca, grau_de_liberdade)
t_alpha

1.729132811521367

><font color = 'darkolivegreen'>Já o valor de 1.73 $t_\alpha$ é o valor máximo da região de aceitação, ou seja, valores maiores que 1.73 fazem parte da área de rejeição do gráfico.

In [4]:
t_exercicio <= t_alpha

False

><font color = 'darkolivegreen'>O valor de t está dentro da área de **rejeição**, portanto a hipótese nula $(H_0)$ deve ser **rejeitada**. A alegação da empresa não é verdadeira.

### <font color = 'darkolivegreen'>Extras

<font color = 'darkolivegreen'>Considerando o nível de significância $\alpha$ de 5%, qual seriam os valores mínimo e máximo aceitáveis de impurezas?

In [5]:
x = 150 + ((desvio_amostral / np.sqrt(n)) * t_alpha)
x

184.79812657818397

In [6]:
x = 150 - ((desvio_amostral / np.sqrt(n)) * t_alpha)
x

115.20187342181603

><font color = 'darkolivegreen'>Para que a hipótese nula não seja rejeitada, o valores de t mínimo e máximo devem ser 115.20 e 184.80, respectivamente.

## <font color=green>3.4 Testes para Duas Amostras</font>
***

## <font color='red'>Problema</font>


Em nosso dataset temos os rendimento dos chefes de domicílio obtidos da Pesquisa Nacional por Amostra de Domicílios - PNAD no ano de 2015. Um problema bastante conhecido em nosso país diz respeito a desigualdade de renda, principalmente entre homens e mulheres.

Duas amostras aleatórias, uma de **500 homens** e outra com **500 mulheres**, foram selecionadas em nosso dataset. Com o objetivo de comprovar tal desigualdade, **teste a igualdade das médias** entre estas duas amostras com um nível de **significância de 1%**.

In [7]:
df = pd.read_csv('/home/hub/git-pessoal/Aulas_git_Ai2/9 - Estatistica/dados.csv')

### <font color = 'Deeppink'>Criando as amostras aleatórias

In [8]:
amostra_h = df.query('Sexo == 0').sample(n = 500, random_state = 101).Renda
amostra_h

26241     300
65579    1000
58984    4000
65931    5000
25501     300
         ... 
25494     220
1452      600
29454     788
5289     1750
54618    7000
Name: Renda, Length: 500, dtype: int64

In [9]:
amostra_m = df.query('Sexo == 1').sample(n = 500, random_state = 101).Renda
amostra_m

10179     788
43943    1200
75223    6000
33243    1000
5189      788
         ... 
7383     1000
70775     400
56737    2000
35947     200
47913    1600
Name: Renda, Length: 500, dtype: int64

### <font color = 'Deeppink'>Extraindo informações das amostras

In [10]:
n_homens = 500
n_mulheres = 500
signif = 0.01
confidence = 1 - signif

In [11]:
media_h = amostra_h.mean()
media_h

2142.608

In [12]:
media_m = amostra_m.mean()
media_m

1357.528

In [13]:
desv_h = amostra_h.std()
desv_h

2548.0508024998717

In [14]:
desv_m = amostra_m.std()
desv_m

1569.901190748458

#### <font color = 'Deeppink'> **Hipótese nula:** A média das rendas dos homens é menor que a das mulheres ($H_0$: $\mu_1$ <= $\mu_2\$) ao nível de 99% de confiança?</font>

$\mu_1 \Rightarrow$ Média das rendas dos chefes de domicílios do sexo masculino

$\mu_2 \Rightarrow$ Média das rendas dos chefes de domicílios do sexo feminino

$
\begin{cases}
H_0: \mu_1 \leq \mu_2\\
H_1: \mu_1 > \mu_2
\end{cases}
$

ou

$
\begin{cases}
H_0: \mu_1 -\mu_2 \leq 0\\
H_1: \mu_1 -\mu_2 > 0
\end{cases}
$

><font color = 'Deeppink'>Como a hipótese nula será avaliar uma diferença faremos um teste unicaudal e como o valor calculado deve ser menor que o proposto, estamos avaliando o limite superior.

In [15]:
# Limite máximo aceitavel, maior que isso a hipótese nula será rejeitada.
z_alpha = norm.ppf(confidence)
z_alpha

2.3263478740408408

### <font color = 'Deeppink'>Calculando $z$

Cálculo da estatística-teste e verificação desse valor com as áreas de aceitação e rejeição do teste

$$z = \frac{(\bar{x_1} - \bar{x_2})-D_0}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}}$$

In [16]:
d = 0 # diferença entre as medias amostrais 

z = ((media_h - media_m) - d) / np.sqrt((desv_h **2 / n_homens) + (desv_m ** 2 / n_mulheres))
z

5.8656200577647555

In [17]:
z >= z_alpha

True

><font color = 'Deeppink'>**Como a hipótese nula foi rejeitada, podemos dizer que a média das rendas entre homens e mulheres não são iguais ao nível de 99% de confiança.**</font>