# `Teste de Hipótese de Proporções`

<br>

### Como vimos, o Teorema do Limite Central nos diz que, para uma amostra grande o suficiente, a média tem distribuição normal. Um resultado disso é o teste de hipótese entre proporções!

<br>

### Vamos passo a passo pra entendermos direitinho como funciona.

<br>

### 0 - Pelo teorema do limite central, a média tem distribuição normal. Se considerarmos cada observação como uma Bernoulli, onde 0 representa um fracasso e 1 representa sucesso, a média dessas observações é uma proporção!

<br>

### 1.1 - Num teste de hipótese de comparação entre duas médias, temos duas hipóteses: a nula e a alternativa. A hipótese nula vai dizer que as duas médias são iguais, ela basicamente diz que a ideia que queremos testar não altera a realidade atual e, por isso, as duas médias são iguais. A hipótese alternativa diz que elas são diferentes, ou seja, a ideia que testamos alterou a realidade atual, o status quo foi mudado.

<br>

### 1.2 - A amostra obtida sob a realidade atual vai ser chamada de amostra `controle`, ou grupo controle. A amostra obtida sob a realidade nova, com a ideia que está sendo testada, será chamada de amostra `variante`, ou grupo variante.

![alt_text](https://miro.medium.com/max/1000/0*KS_jfZBdZ9DxAvEz.png)

<br>

### 2 - Para medir se houve diferença entre as médias dos grupos controle e variante, vamos diminuir a média do grupo controle pela média do grupo variante, formando uma nova variável. Vamos chamá-la de X.

<br>

### 3 - Essa nova variável X tem distribuição Normal!

<br>

### 4 - Se considerarmos que H0 é verdadeiro, então X tem média iguai a 0.

<br>

### 5.1 - Olhamos para o valor observado das médias das amostras controle e variante, bem como seus tamanhos e suas variâncias e chegamos a uma estatística que chamamos de estatística de teste. Se esse valor for muito improvável de ocorrer segundo a distribuição de X (diferença das médias), entaão

<br>

### 5.2 - Se esse valor for muito improvável de ocorrer segundo a distribuição de X (diferença das médias) sob H0 (média de X é 0), então rejeitamos a hipótese nula e dizemos que as médias dos grupos são diferentes. Senão, dizemos que são iguais.

<br>

### 6 - Chamamos de `p-valor` a probabilidade de ocorrência da estatística de teste ou valores mais extremos, segundo a distribuição de X, sob H0.

![alt text](https://www.researchgate.net/publication/242308781/figure/fig3/AS:669554216812562@1536645573785/Acceptance-and-rejection-regions-of-the-Z-test.png)

<br>

### 7.1 - Na prática, se o p-valor obtido for baixo, nós rejeitamos H0 e dizemos que as médias dos grupos são diferentes. Se o p-valor for alto, nós não rejeitamos H0 e dizemos que a média dos grupos são iguais.

<br>

### 7.2 - Para decidir se um p-valor é baixo, definimos antes do teste começar um treshold, a quem chamaremos de nível de significância. Se o p-valor for menor ou igual ao nível de significância, então ele é baixo.

<br>

### Por exemplo, digamos que o nosso nível de significância é 5%. Sob a hipótese nula, as médias propostas são iguais. Daí,

<br>

* Se o p-valor for menor do que 5%, rejeitamos a hipótese nula com 95% de confiança.
* Se o p-valor for menor do que 1%, rejeitamos a hipótese nula com 99% de confiança.
* Senão, não rejeitamos a hipótese nula.

## `A grande particularidade do teste de proporções é que,` <br><br> `como consideramos que cada observação é uma Bernoulli,` <br><br> `então sabemos exatamente qual é a sua variância, o que` <br><br> `simplifica o nosso teste.`

### Vamos ver como calcular o p-valor na prática!

### Vamos usar dados abertos de séries e filmes da Netflix. Os dados podem ser encontrados no Kaggle.

<br>

https://www.kaggle.com/datasets/ariyoomotade/netflix-data-cleaning-analysis-and-visualization

### Importando a biblioteca pandas (https://pandas.pydata.org)

In [1]:
import pandas as pd

In [3]:
df = pd.read_csv('netflix.csv')

In [17]:
df.head()

Unnamed: 0,show_id,type,title,director,country,date_added,release_year,rating,duration,listed_in
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,United States,9/25/2021,2020,PG-13,90 min,Documentaries
1,s3,TV Show,Ganglands,Julien Leclercq,France,9/24/2021,2021,TV-MA,1 Season,"Crime TV Shows, International TV Shows, TV Act..."
2,s6,TV Show,Midnight Mass,Mike Flanagan,United States,9/24/2021,2021,TV-MA,1 Season,"TV Dramas, TV Horror, TV Mysteries"
3,s14,Movie,Confessions of an Invisible Girl,Bruno Garotti,Brazil,9/22/2021,2021,TV-PG,91 min,"Children & Family Movies, Comedies"
4,s8,Movie,Sankofa,Haile Gerima,United States,9/24/2021,1993,TV-MA,125 min,"Dramas, Independent Movies, International Movies"


### Descrição das colunas

* **`show_id`** - id da série ou filme
* **`type`** - tipo de conteúdo(Tv show ou Movie)
* **`title`** - título da série ou filme
* **`director`** - pessoa diretora da série ou do filme
* **`country`** - país da série ou filme
* **`date_added`** - data de adição à Netflix
* **`release_year`** - ano de lançamento
* **`rating`** - rating da TV para o filme ou série
* **`duration`** - duração do conteúdo
* **`listed_in`** - gênero do conteúdo

### Será que existe uma diferença na proporção de filmes longos entres os filmes Ingleses e os Americanos?

Primeiro, vamos criar uma coluna com os valor numérico da duração



In [8]:
filmes = df[df['type'] == 'Movie']

In [9]:
filmes.count()

show_id         6126
type            6126
title           6126
director        6126
country         6126
date_added      6126
release_year    6126
rating          6126
duration        6126
listed_in       6126
dtype: int64

In [12]:
## def duracao_numerica(valor):
##    return int(valor.split(' ')[0])

## filmes['duracao_min'] = filmes['duration'].apply(duracao_numerica)

##------------------------------------------------------------------------

# Função para converter duração para minutos
def duracao_numerica(valor):
    return int(valor.split(' ')[0])

# Aplicação da função usando loc para evitar o aviso
filmes.loc[:, 'duracao_min'] = filmes['duration'].apply(duracao_numerica)


In [13]:
def filme_longo(valor):
    if valor > 150:
        return 1
    return 0

filmes.loc[:,'filme_longo'] = filmes['duracao_min'].apply(filme_longo)

In [14]:
filmes.head()

Unnamed: 0,show_id,type,title,director,country,date_added,release_year,rating,duration,listed_in,duracao_min,filme_longo
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,United States,9/25/2021,2020,PG-13,90 min,Documentaries,90,0
3,s14,Movie,Confessions of an Invisible Girl,Bruno Garotti,Brazil,9/22/2021,2021,TV-PG,91 min,"Children & Family Movies, Comedies",91,0
4,s8,Movie,Sankofa,Haile Gerima,United States,9/24/2021,1993,TV-MA,125 min,"Dramas, Independent Movies, International Movies",125,0
6,s10,Movie,The Starling,Theodore Melfi,United States,9/24/2021,2021,PG-13,104 min,"Comedies, Dramas",104,0
7,s939,Movie,Motu Patlu in the Game of Zones,Suhas Kadav,India,5/1/2021,2019,TV-Y7,87 min,"Children & Family Movies, Comedies, Music & Mu...",87,0


### Vamos olhar para a distribuição de filmes longos para esses dois países


In [18]:
inglaterra = filmes['country'] == 'United Kingdom'
eua = filmes['country'] == 'United States'

inglaterra_ou_eua = inglaterra | eua

In [20]:
## filmes[inglaterra_ou_eua].groupby('country').mean()['filme_longo']
resultado = filmes[inglaterra_ou_eua].groupby('country').mean(numeric_only=True)['filme_longo']


In [22]:
print(resultado)

country
United Kingdom    0.015504
United States     0.012944
Name: filme_longo, dtype: float64


0.015504 para o Reino Unido significa que, em média, aproximadamente 1.55% dos filmes são considerados longos.

<br>

0.012944 para os Estados Unidos significa que, em média, aproximadamente 1.29% dos filmes são considerados longos.


-----

### Vamos calcular o p-valor do teste de hipótese entre essas duas proporções, usando a distribuição Normal!


In [24]:
from statsmodels.stats.proportion import proportions_ztest

In [25]:
numero_filmes_longos_eua = filmes[eua]['filme_longo'].sum()
tamanho_amostra_eua = filmes[eua]['filme_longo'].count()


numero_filmes_longos_inglaterra = filmes[inglaterra]['filme_longo'].sum()
tamanho_amostra_inglaterra = filmes[inglaterra]['filme_longo'].count()

In [26]:
resultado_teste = proportions_ztest(

    count = [numero_filmes_longos_eua, numero_filmes_longos_inglaterra],
    nobs = [tamanho_amostra_eua, tamanho_amostra_inglaterra]
)

resultado_teste

(-0.40793974795918075, 0.6833179103024831)

 Saída do teste de proporções usando proportions_ztest consiste em dois valores:

<br>

* Estatística Z: -0.40793974795918075

* p-valor: 0.6833179103024831

<br>

Vamos interpretar esses resultados:

<br>

* A estatística Z indica a posição da média observada no espaço das distribuições normais padrão. Um valor negativo significa que a proporção dos Estados Unidos está abaixo da proporção do Reino Unido, mas a magnitude de -0.4079 sugere que a diferença não é significativa.

* O p-valor de 0.6833 é bastante alto, muito maior que o nível de significância comum de 0.05. Isso sugere que não há evidência estatística suficiente para rejeitar a hipótese nula de que as proporções de filmes longos nos dois países são iguais.

In [27]:
p_valor = resultado_teste[1]

p_valor

0.6833179103024831

Se definirmos o nível de significância em 5%, ficaria assim:

In [28]:
if(p_valor >= 0.05):
    print("Aceito que as médias sejam iguais, com 95% de confianca!")
else:
    print("Rejeito que as médias sejam iguais, com 95% de confianca!")

Aceito que as médias sejam iguais, com 95% de confianca!
