# Before your start:
- Read the README.md file
- Comment as much as you can and use the resources (README.md file)
- Happy learning!

In [None]:
# Import das bibliotecas principais que vamos usar ao longo do lab
import pandas as pd
import numpy as np
from scipy.stats import trim_mean, mode, skew, gaussian_kde, pearsonr, spearmanr, beta
from statsmodels.stats.weightstats import ztest as ztest

from scipy.stats import ttest_ind, norm, t
from scipy.stats import f_oneway
from scipy.stats import sem

# Challenge 1 - Exploring the Data

In this challenge, we will examine all salaries of employees of the City of Chicago. We will start by loading the dataset and examining its contents

In [None]:
# Carregar o dataset de salários de funcionários
# Atenção: o caminho é relativo à pasta `your-code`
salaries = pd.read_csv('../data/Current_Employee_Names__Salaries__and_Position_Titles.csv')
salaries.head()

Examine the `salaries` dataset using the `head` function below.

In [None]:
# Explorar o dataset de salários
# Vou olhar para as primeiras linhas, info geral e estatísticas básicas

# primeiras linhas para ter noção da estrutura
display(salaries.head())

# tipos de dados e valores nulos
display(salaries.info())

# estatísticas descritivas das colunas numéricas
display(salaries.describe())

# distribuição de funcionários por tipo de regime (Salary vs Hourly)
print("\nContagem por tipo de pagamento:")
print(salaries['Salary or Hourly'].value_counts())

# Challenge 2 - Hypothesis Tests

In this section of the lab, we will test whether the hourly wage of all hourly workers is significantly different from $30/hr. Import the correct one sample test function from scipy and perform the hypothesis test for a 95% two sided confidence interval.

In [None]:
# Challenge 2 - Teste de hipótese para o salário horário

# Filtrar apenas funcionários pagos à hora
hourly = salaries[salaries['Salary or Hourly'] == 'Hourly']['Hourly Rate'].dropna()

# Vamos testar se a média do salário horário é diferente de 35
# H0: média = 35
# H1: média ≠ 35
mu0 = 35

z_stat, p_value = ztest(hourly, value=mu0)

print("Estatística z:", z_stat)
print("p-valor:", p_value)

alpha = 0.05
if p_value < alpha:
    print("Conclusão: rejeitamos H0 ao nível de 5% -> a média é significativamente diferente de 35.")
else:
    print("Conclusão: não rejeitamos H0 ao nível de 5% -> não há evidência de que a média seja diferente de 35.")

# Challenge 3 - Constructing Confidence Intervals

While testing our hypothesis is a great way to gather empirical evidence for accepting or rejecting the hypothesis, another way to gather evidence is by creating a confidence interval. A confidence interval gives us information about the true mean of the population. So for a 95% confidence interval, we are 95% sure that the mean of the population is within the confidence interval. 
).

To read more about confidence intervals, click [here](https://en.wikipedia.org/wiki/Confidence_interval).


In the cell below, we will construct a 95% confidence interval for the mean hourly wage of all hourly workers. 

The confidence interval is computed in SciPy using the `t.interval` function. You can read more about this function [here](https://docs.scipy.org/doc/scipy-0.14.0/reference/generated/scipy.stats.t.html).

To compute the confidence interval of the hourly wage, use the 0.95 for the confidence level, number of rows - 1 for degrees of freedom, the mean of the sample for the location parameter and the standard error for the scale. The standard error can be computed using [this](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.sem.html) function in SciPy.

In [None]:
# Challenge 3 - Intervalo de confiança para a média do salário horário

from scipy.stats import t

# Reaproveitar a série `hourly` do desafio anterior
n = hourly.shape[0]
mean_hourly = hourly.mean()
se_hourly = sem(hourly)  # erro padrão da média

# Intervalo de confiança de 95% para a média:
confidence = 0.95
df = n - 1  # graus de liberdade
ci_low, ci_high = t.interval(confidence, df, loc=mean_hourly, scale=se_hourly)

print(f"Tamanho da amostra: {n}")
print(f"Média do salário horário: {mean_hourly:.3f}")
print(f"IC 95% para a média: [{ci_low:.3f}, {ci_high:.3f}]")

# Challenge 4 - Hypothesis Tests of Proportions

Another type of one sample test is a hypothesis test of proportions. In this test, we examine whether the proportion of a group in our sample is significantly different than a fraction. 

You can read more about one sample proportion tests [here](http://sphweb.bumc.bu.edu/otlt/MPH-Modules/BS/SAS/SAS6-CategoricalData/SAS6-CategoricalData2.html).

In the cell below, use the `proportions_ztest` function from `statsmodels` to perform a hypothesis test that will determine whether the number of hourly workers in the City of Chicago is significantly different from 25% at the 95% confidence level.

In [None]:
# Challenge 4 - Teste de hipótese para proporção de Pokémon lendários

import pandas as pd
from statsmodels.stats.proportion import proportions_ztest

# Carregar o dataset de Pokémon
pokemon = pd.read_csv('../data/Pokemon.csv')

# Vamos testar se a proporção de Pokémon lendários é diferente de 25%
# H0: p = 0.25
# H1: p ≠ 0.25

# Converter coluna Legendary para 1 (True) e 0 (False)
legendary = pokemon['Legendary'].astype(int)

count_legendary = legendary.sum()      # número de lendários
n_pokemon = legendary.shape[0]         # total de Pokémon
p0 = 0.25

z_stat, p_value = proportions_ztest(count_legendary, n_pokemon, value=p0)

print("Número de Pokémon lendários:", count_legendary)
print("Tamanho da amostra:", n_pokemon)
print("Estatística z:", z_stat)
print("p-valor:", p_value)

alpha = 0.05
if p_value < alpha:
    print("Conclusão: rejeitamos H0 ao nível de 5% -> a proporção de lendários é significativamente diferente de 25%.")
else:
    print("Conclusão: não rejeitamos H0 ao nível de 5% -> não há evidência de que a proporção seja diferente de 25%.")