# `Teste de Hipótese de Médias`


### Como vimos, o Teorema do Limite Central nos diz que, para uma amostra grande o suficiente, a média tem distribuição normal. Um resultado disso é o teste de hipótese entre médias!

<br>

### Vamos passo a passo pra entendermos direitinho como funciona.

<br>

### 1 - Pelo teorema do limite central, a média tem distribuição normal

<br>

### 1.1 - Num teste de hipótese de comparação entre duas médias, temos duas hipóteses: a nula e a alternativa. A hipótese nula vai dizer que as duas médias são iguais, ela basicamente diz que a ideia que queremos testar não altera a realidade atual e, por isso, as duas médias são iguais. A hipótese alternativa diz que elas são diferentes, ou seja, a ideia que testamos alterou a realidade atual, o status quo foi mudado.

<br>

### 1.2 - A amostra obtida sob a realidade atual vai ser chamada de amostra `controle`, ou grupo controle. A amostra obtida sob a realidade nova, com a ideia que está sendo testada, será chamada de amostra `variante`, ou grupo variante.

<br>

![alt_text](https://usabilitygeek.com/wp-content/uploads/2020/05/mmm.jpg)

<br>

### 2 - Para medir se houve diferença entre as médias dos grupos controle e variante, vamos diminuir a média do grupo controle pela média do grupo variante, formando uma nova variável. Vamos chamá-la de X.

<br>

### 3 - Essa nova variável X tem distribuição Normal!

<br>

### 4 - Se considerarmos que H0 é verdadeiro, então X tem média iguai a 0.

<br>

### 5 - Se soubermos quanto vale a variância da população, usamos a distribuição Normal para o teste. Senão, usamos a distribuição T de Student.

<br>

### 6.1 - Olhamos para o valor observado das médias das amostras controle e variante, bem como seus tamanhos e suas variâncias e chegamos a uma estatística que chamamos de estatística de teste. Se esse valor for muito improvável de ocorrer segundo a distribuição de X (diferença das médias), entaão

<br>

### 6.2 - Se esse valor for muito improvável de ocorrer segundo a distribuição de X (diferença das médias) sob H0 (média de X é 0), então rejeitamos a hipótese nula e dizemos que as médias dos grupos são diferentes. Senão, dizemos que são iguais.

<br>

### 7 - Chamamos de `p-valor` a probabilidade de ocorrência da estatística de teste ou valores mais extremos, segundo a distribuição de X, sob H0.

<br>

![alt text](https://www.voxmed.com.br/voxmed/wp-content/uploads/2020/04/Como-arrendondar-as-casas-decimais-do-valor-de-p-1.png)

<br>

### 8.1 - Na prática, se o p-valor obtido for baixo, nós rejeitamos H0 e dizemos que as médias dos grupos são diferentes. Se o p-valor for alto, nós não rejeitamos H0 e dizemos que a média dos grupos são iguais.

<br>

### 8.2 - Para decidir se um p-valor é baixo, definimos antes do teste começar um treshold, a quem chamaremos de nível de significância. Se o p-valor for menor ou igual ao nível de significância, então ele é baixo.

<br>

### Por exemplo, digamos que o nosso nível de significância é 5%. Sob a hipótese nula, as médias propostas são iguais. Daí,

* Se o p-valor for menor do que 5%, rejeitamos a hipótese nula com 95% de confiança.
* Se o p-valor for menor do que 1%, rejeitamos a hipótese nula com 99% de confiança.
* Senão, não rejeitamos a hipótese nula.

### Vamos ver como calcular o p-valor na prática!

### Vamos usar dados abertos de séries e filmes da Netflix. Os dados podem ser encontrados no Kaggle.

<br>

https://www.kaggle.com/datasets/ariyoomotade/netflix-data-cleaning-analysis-and-visualization

In [1]:
import pandas as pd

In [3]:
df = pd.read_csv('netflix.csv')

In [4]:
df.head()

Unnamed: 0,show_id,type,title,director,country,date_added,release_year,rating,duration,listed_in
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,United States,9/25/2021,2020,PG-13,90 min,Documentaries
1,s3,TV Show,Ganglands,Julien Leclercq,France,9/24/2021,2021,TV-MA,1 Season,"Crime TV Shows, International TV Shows, TV Act..."
2,s6,TV Show,Midnight Mass,Mike Flanagan,United States,9/24/2021,2021,TV-MA,1 Season,"TV Dramas, TV Horror, TV Mysteries"
3,s14,Movie,Confessions of an Invisible Girl,Bruno Garotti,Brazil,9/22/2021,2021,TV-PG,91 min,"Children & Family Movies, Comedies"
4,s8,Movie,Sankofa,Haile Gerima,United States,9/24/2021,1993,TV-MA,125 min,"Dramas, Independent Movies, International Movies"


### Descrição das colunas

* **`show_id`** - id da série ou filme
* **`type`** - tipo de conteúdo(Tv show ou Movie)
* **`title`** - título da série ou filme
* **`director`** - pessoa diretora da série ou do filme
* **`country`** - país da série ou filme
* **`date_added`** - data de adição à Netflix
* **`release_year`** - ano de lançamento
* **`rating`** - rating da TV para o filme ou série
* **`duration`** - duração do conteúdo
* **`listed_in`** - gênero do conteúdo

### Será que existe uma diferença entre duração dos filmes de Drama e Comédia?

Primeiro, vamos criar uma coluna com os valor numérico da duração

In [5]:
filmes = df[df['type'] == 'Movie']

In [6]:
filmes.count()

show_id         6126
type            6126
title           6126
director        6126
country         6126
date_added      6126
release_year    6126
rating          6126
duration        6126
listed_in       6126
dtype: int64

In [7]:
def duracao_numerica(valor):
  return int(valor.split(' ')[0])

filmes['duracao_min'] = filmes['duration'].apply(duracao_numerica)



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  filmes['duracao_min'] = filmes['duration'].apply(duracao_numerica)


In [8]:
filmes.head()

Unnamed: 0,show_id,type,title,director,country,date_added,release_year,rating,duration,listed_in,duracao_min
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,United States,9/25/2021,2020,PG-13,90 min,Documentaries,90
3,s14,Movie,Confessions of an Invisible Girl,Bruno Garotti,Brazil,9/22/2021,2021,TV-PG,91 min,"Children & Family Movies, Comedies",91
4,s8,Movie,Sankofa,Haile Gerima,United States,9/24/2021,1993,TV-MA,125 min,"Dramas, Independent Movies, International Movies",125
6,s10,Movie,The Starling,Theodore Melfi,United States,9/24/2021,2021,PG-13,104 min,"Comedies, Dramas",104
7,s939,Movie,Motu Patlu in the Game of Zones,Suhas Kadav,India,5/1/2021,2019,TV-Y7,87 min,"Children & Family Movies, Comedies, Music & Mu...",87


### Vamos olhar para a distribuição da duração desses filmes

In [10]:
import plotly.figure_factory as ff

In [18]:
drama = filmes[filmes["listed_in"] == "Dramas, International Movies"]["duracao_min"]
comedia = filmes[filmes["listed_in"] ==\
                 "Comedies, Dramas, International Movies"]["duracao_min"]

In [19]:
data = [drama, comedia]
labels = ["Dramas, International Movies", "Comedies, Dramas, International Movies"]

fig =  ff.create_distplot(data, labels, show_hist = False, show_rug= False)
fig.update_layout(title_text='Duração dos Filmes')
fig.show()

### Será que a média da duração dos filmes é diferente entre os dois gêneros?

In [20]:
media_drama = drama.mean()
media_comedia = comedia.mean()


print('Media da duração dos filmes de Drama: {}'.format(media_drama))
print('Media da duração dos filmes de Comédia: {}'.format(media_comedia))

Media da duração dos filmes de Drama: 112.50276243093923
Media da duração dos filmes de Comédia: 119.13503649635037


### Vamos calcular o `p-valor` do teste de hipótese entre essas duas médias, usando a distribuição T de Student!

In [21]:
from scipy import stats

In [23]:
stats.ttest_ind(drama, comedia, equal_var = False)

TtestResult(statistic=-3.263531979288974, pvalue=0.0011667808959160168, df=565.2189796367884)

In [24]:
p_valor = stats.ttest_ind(drama, comedia, equal_var = False)[1]

p_valor

0.0011667808959160168

### Se definirmos o nível de significância em 1%, ficaria assim:

In [25]:
if(p_valor >= 0.01):
    print("Aceito que as médias sejam iguais, com 99% de confianca!")
else:
    print("Rejeito que as médias sejam iguais, com 99% de confianca!")

Rejeito que as médias sejam iguais, com 99% de confianca!


### Vale dizer que o teste de médias pode ser utilizado para médias de qualquer tipo de dados, mesmo dados que não possuem distribuição Normal, graças ao Teorema do Limite Central. Entretanto, não é prudente utilizá-lo para médias de dados com distribuição muito assimétricas. Isso porque a média não vai ser uma boa medida de tendência central.

![alt_text](https://statisticsbyjim.com/wp-content/uploads/2021/10/Right_skewed_central_tendency.png)