In [1]:
import pandas as pd
import numpy as np
from statsmodels.stats.weightstats import ttest_ind, ztest
from scipy.stats import norm
from scipy.stats import t as t_student
import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
    # Dataset
    dataset = 'pnad_2015.csv'
    
    df = pd.read_csv(dataset)
    df.head()

Unnamed: 0,UF,Sexo,Idade,Cor,Anos de Estudo,Renda,Altura
0,11,0,23,8,12,800,1.603808
1,11,1,23,2,12,1150,1.73979
2,11,1,35,8,15,880,1.760444
3,11,0,46,2,6,3500,1.783158
4,11,1,47,8,9,150,1.690631


## Cálculo de parâmetros

In [39]:
n_M, n_H = 500, 500

significancia = 0.01
confianca = 1 - significancia

n = n_M + n_H

amostra_H = df[df.Sexo == 0]['Renda'].sample(n = n_H, random_state = 1)
amostra_M = df[df.Sexo == 1]['Renda'].sample(n = n_M, random_state = 1)

media_H = amostra_H.mean()
media_M = amostra_M.mean()

media_pop_H = df[df.Sexo == 0]['Renda'].mean()
media_pop_M = df[df.Sexo == 1]['Renda'].mean()

desvio_H = amostra_H.std()
desvio_M = amostra_M.std()

## Formulando algumas hipóteses para o problema


> Teste Bicaudal

> $H_0$: A Média salarial dos homens é igual a média salarial das mulheres

> $H_1$ As médias são diferentes

$\begin{cases}
H_0: \mu_M = \mu_H \\
H_1: \mu_M \neq \mu_H
\end{cases}
$

> Sendo $H_0$ a hipótese nula e $H_1$ a hipótese alternativa


## Realizando teste da hipótese nula

Testando as hipóteses

> Teste Bicaudal

> 1. Rejeita-se $H_0$ se $z \leq -z{\alpha / 2}$ ou se $z \geq z_{\alpha / 2}$ 
> 2. Rejeita-se $H_0$ se o valor de $p <\alpha$

In [11]:
# Z_alpha para bicaudal

probabilidade = confianca + significancia / 2

z_alpha = norm.ppf(probabilidade)

z_alpha2 = norm.ppf(1 - probabilidade)
z_alpha

2.5758293035489004

In [12]:
# Ztest
graus_de_liberdade = n = 500

# Two-sided -> Bicaudal
z, p = ztest(amostra_H, amostra_M, alternative = 'two-sided')
print (f'z = {z} e p = {p}')

t = t_student.ppf(probabilidade, graus_de_liberdade)
print (f't = {t}')

z = 3.323321032265407 e p = 0.0008895248005648503
t = 2.5856978351416706


### Testando 1 e 2

In [16]:
if z >= z_alpha or z <= z_alpha2: # Teste 1
    print(f'A hipótese alternativa está correta com {confianca:.0%} de confiança.')
else:
    if p < significancia: # Teste 2
        print(f'A hipótese nula está correta com {confianca:.0%} de confiança.')
    else:
        print(f'A hipótese alternativa está correta com {confianca:.0%} de confiança.')

A hipótese alternativa está correta com 99% de confiança.


Dessa maneira, nossa hipótese nula aparenta estar correta com uma confiança de 99%. Isso que dizer que as médias salariais muito provavelmente possuem médias diferentes. Dessa forma, resta analisar para que lado tende essa diferença e se possível tentar metrificá-la.

Para isso será preciso analisar de forma unicaudal o problema, sendo que temos duas distribuições unicaudais possíveis, uma com a média das mulheres sendo maiores e outra com a média dos homens sendo maiores. Como:

$\begin{cases}
\mu_H = 2059.212 \\
\mu_M = 1548.274
\end{cases}
$

Sendo assim, 

$
\mu_H >= \mu_M \\
$

Dessa maneira irei realizar o teste estatístico considerando as hipóteses a seguir:
$\begin{cases}
H_0: \mu_M =< \mu_H \\
H_1: \mu_H > \mu_M
\end{cases}
$

In [33]:
# Z_alpha para unicaudal
probabilidade = confianca

z_alpha = norm.ppf(probabilidade)

z_alpha2 = norm.ppf(1 - probabilidade)
z_alpha, z_alpha2

(2.3263478740408408, -2.3263478740408408)

In [37]:
# Ztest
graus_de_liberdade = n = 500

# Two-sided -> Unicaudal
z, p = ztest(amostra_H, amostra_M, alternative = 'smaller')
print (f'z = {z} e p = {p}')

t = t_student.ppf(probabilidade, graus_de_liberdade)
print (f't = {t}')

z = 3.323321032265407 e p = 0.9995552375997175
t = 2.333828955352198


### Testando 1 e 2

In [40]:
if z <= z_alpha: # Teste 1
    print(f'A hipótese alternativa está correta com {confianca:.0%} de confiança.')
else:
    if p < significancia: # Teste 2
        print(f'A hipótese nula está correta com {confianca:.0%} de confiança.')
    else:
        print(f'A hipótese alternativa está correta com {confianca:.0%} de confiança.')

A hipótese alternativa está correta com 99% de confiança.


Dessa maneira chegamos a conclusão de que com uma confiança de 99% podemos afirmar que a média salarial dos homens é maior do que a média salarial das mulheres. Ou seja, que a nossa Hipótese Nula era verdadeira.

In [42]:
media_H, media_M ,media_pop_H, media_pop_M

(2059.212, 1548.274, 2192.4415962441312, 1566.84739296312)