# Data Science - Introdução a testes estatísticos

## Importando bibliotecas e base de dados

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline

In [None]:
tmdb = pd.read_csv('tmdb_5000_movies.csv')

## Explorando base de dados 

In [None]:
tmdb.head(3)

In [None]:
tmdb.describe()

In [None]:
sns.set_theme(context='notebook', style= 'darkgrid', palette = 'magma')

In [None]:
ax = sns.histplot(tmdb['vote_average'], kde=True, stat='density')
ax.set(xlabel= 'Nota Média', ylabel= 'Densidade')
ax.set_title("Média de votos no TMDB")

In [None]:
fig = plt.figure(figsize=(9,5))
ax = sns.histplot(tmdb['vote_average'], kde=True, stat='count')

mu = tmdb['vote_average'].mean()
median = tmdb['vote_average'].median()

ax.set(xlabel= 'Nota Média', ylabel= 'Frequência')
ax.set_title("Média de votos no TMDB")
ax.axvline(mu, color='#4B0082')
ax.axvline(median, color='#000080', linestyle='--')
ax.annotate('Média representada pela linha sólida', xy = (0,400), fontsize=12)
ax.annotate('Mediana representada pela linha tracejada', xy = (0,375), fontsize=12)

In [None]:
fig = plt.figure(figsize=(8,4))
ax = sns.boxplot(x= tmdb['vote_average'],width = 0.5, color='#483D8B')
ax.set(title='Distribuição da Média das notas', xlabel='Nota Média')

- É normal um filme receber nota zero, mas ter a média zero não.
- Da mesma forma, para que um filme tenha a média 10 é preciso que todas as pessoas tenham votado 10, o que é altamente improvável.
- As notas médias 0 e 10 vem provavelmente de filmes sem votos, ou com poucos votos.
- Devemos tratar esses dados para que eles não nos atrapalhem no futuro.

In [None]:
tmdb.query('vote_average == 0')

In [None]:
tmdb.query('vote_average == 10')

- Confirmamos a suspeita de que os filmes com médias 0 e 10 tem poucas notas, e portanto não podem ser comparados com filmes com mais notas.
- Vamos remover de nossa base de dados todos os filmes que tenham menos de 10 votos.

## Tratando os dados

In [None]:
tmdb_10 = tmdb.query('vote_count >= 10')

In [None]:
tmdb_10.describe()

- Já podemos perceber que agora a nota média mínima é 1.9, e a máxima é 8.5.

In [None]:
fig = plt.figure(figsize=(9,5))
ax = sns.histplot(tmdb_10['vote_average'], kde=True)

mu = tmdb_10['vote_average'].mean()
median = tmdb_10['vote_average'].median()

ax.set(xlabel= 'Nota Média', ylabel= 'Frequência')
ax.set_title("Média de votos no TMDB para filmes com 10 ou mais votos")

In [None]:
fig = plt.figure(figsize=(9,4))
ax = sns.boxplot(x= tmdb_10['vote_average'],width = 0.5, color='#483D8B')
ax.set(title='Distribuição da Média das notas para filmes com 10 ou mais votos', xlabel='Nota Média')

- Nossos dados lembram uma distribuição normal, com uma leve assimetria a esquerda

## Analisando dados do Movie Lens

In [None]:
ml = pd.read_csv('ratings.csv')
ml.head()

In [None]:
ml_mean = ml.groupby('movieId').mean()['rating']
ml_mean

In [None]:
fig = plt.figure(figsize=(7,4))
ax = sns.histplot(ml_mean.values, kde=True)
ax.set(xlabel='Nota Média', ylabel='Frequência')
ax.set_title('Distibuição das Médias das notas do Movie Lens', fontsize=15)

In [None]:
fig = plt.figure(figsize=(7,4))
ax = sns.boxplot(x = ml_mean.values, width = 0.5, color ='#483D8B')
ax.set_title('Distibuição das Médias das notas do Movie Lens', fontsize=15)
ax.set_xlabel('Nota Média')

- Percebemos o mesmo problema nessa base de dados, portanto, vamos realizar o mesmo tratamento nos dados, excluindo filmes que tenham menos de 10 votos

In [None]:
qtd_votos = ml.groupby('movieId').count()
qtd_votos.head()

In [None]:
qtd_votos.query('rating >= 10').head()

In [None]:
ml_10 = qtd_votos.query('rating >= 10').index
ml_10 = ml_10.values
ml_10

In [None]:
ml_10_mean = ml_mean.loc[ml_10]
ml_10_mean

In [None]:
fig = plt.figure(figsize=(7,4))
ax = sns.histplot(ml_10_mean.values, kde=True)
ax.set(xlabel='Nota Média', ylabel='Frequência')
ax.set_title('Distibuição das Médias das notas do Movie Lens para filmes com 10 ou mais votos', fontsize=15)

In [None]:
fig = plt.figure(figsize=(7,4))
ax = sns.boxplot(x = ml_10_mean.values, width = 0.5, color ='#483D8B')
ax.set_title('Distibuição das Médias das notas do Movie Lens para filmes com 10 ou mais votos', fontsize=12)
ax.set_xlabel('Nota Média')

- Uma análise visual para as duas bases de dados nos leva a concluir que as pessoas se comportam de maneira similiar, pois ambas as bases de dados apresentam uma distribuição aparentemente normal com uma leve assimetria para a esquerda

## Visualizando a CDF (Cumulative Distribution Function)

Também conhecida como FDA (Função de Distribuição Acumulada), é um conceito importante na análise de dados e estatística. Ela descreve a probabilidade acumulada de uma variável aleatória assumir um determinado valor. Em outras palavras, a FDA nos dá uma visão completa da distribuição dos dados ao longo de um intervalo, mostrando como a probabilidade de ocorrência dos valores se acumula à medida que avançamos nessa escala. Essa função é útil para entender a propagação e a dispersão dos dados, além de permitir o cálculo de probabilidades associadas a intervalos específicos. Ao plotar a FDA, podemos visualizar a forma da distribuição dos dados e fazer inferências estatísticas sobre eles.

Vídeos para estudar:
- **RespondeAí:** https://www.youtube.com/watch?v=F9fXrpqCttI&ab_channel=RespondeA%C3%AD 
- **Engenheiro Cripto:** https://www.youtube.com/watch?v=QmMb1il7DNQ&ab_channel=EngenheiroCripto 

Abaixo, um vídeo ensinando sobre CDF e como plotar com o Seaborn atualizado:

In [None]:
%%html
<iframe width="560" height="315" src="https://www.youtube.com/embed/Twh0w3gcrDI" title="YouTube video player" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share" allowfullscreen></iframe>

In [None]:
fig = plt.figure(figsize=(9,4))
ax = sns.ecdfplot(ml_10_mean.values)
ax.set(xlabel='Nota Média', ylabel='Porcentagem')
ax.set_title('CDF das Médias das notas do Movie Lens para filmes com 10 ou mais votos', fontsize=13, pad=15)
ax.axvline(3.9, linestyle='--')
ax.annotate('80%', xy=(3.95,0.79))
ax.axvline(3.5, linestyle='--')
ax.annotate('50%', xy=(3.53,0.47))

**Observando a Distribuição Acumulada, podemos perceber:**
- Filmes com nota média igual ou inferior a 3 estão entre os 20% com nota média mais baixa
- Filmes com nota média igual ou inferior a 3.9 estão entre os 20% com nota média mais alta
- Filmes com nota média maior ou igual a 4 estão entre os 10% com nota média mais alta

In [None]:
fig = plt.figure(figsize=(9,4))
ax = sns.ecdfplot(tmdb_10['vote_average'])
ax.set(xlabel='Nota Média', ylabel='Porcentagem')
ax.set_title('CDF das Médias das notas do TMDB para filmes com 10 ou mais votos', fontsize=13, pad=15)
ax.axvline(6.9,linestyle=':')
ax.annotate('90%',xy=(7.37,0.85))
ax.axvline(7.3,linestyle=':')
ax.annotate('80%',xy=(6.93,0.73))
ax.axvline(6.2,linestyle=':')
ax.annotate('50%',xy=(6.25,0.43))

**Observando a Distribuição Acumulada, podemos perceber:**
- Filmes com nota média igual ou inferior a 5.5 estão entre os 20% com nota média mais baixa
- Filmes com nota média igual ou superior a 6.9 estão entre os 20% com nota média mais alta
- Filmes com nota média maior ou igual a 7.3 estão entre os 10% com nota média mais alta

## Analisando a distribuição de outras variáveis em nossa base de dados do TMDB

In [None]:
tmdb_10.head(2)

### Quantidade de Votos

In [None]:
fig = plt.figure(figsize = (6,4))
ax = sns.histplot(tmdb_10['vote_count'], kde=True)
ax.set(xlabel='Quantidade de votos', ylabel='Contagem')
ax.set_title('Distribuição de Quantidade de Votos no TMDB para filmes com 10 ou mais votos')

In [None]:
fig = plt.figure(figsize = (6,4))
ax = sns.ecdfplot(tmdb_10['vote_count'])
ax.set_title('CDF Contagem de Votos TMDB')
ax.set(xlabel='Quantidade de Votos',ylabel='Proporção')

- Essa distribuição mostra um comportamento normal e esperado: Muitos filmes com poucos votos e poucos filmes com muitos votos
- Isso acontece porque não são todos os filmes que possuem uma popularidade alta, então filmes mais desconhecidos possuem menos votos

### Popularidade

In [None]:
tmdb.query('popularity == 0')

- Temos apenas um filme com a popularidade igual a zero. Como é apenas um, podemos supor que não se trata de nenhum erro na base de dados, e sim que o filme realmente não é nem um pouco popular
- Devido a isso, iremos proseguir com a análise, sem remover esse filme.

In [None]:
fig = plt.figure(figsize = (6,4))
ax = sns.histplot(tmdb['popularity'], kde=True)
ax.set_title('Distribuição da popularidade TMDB')
ax.set(xlabel='Popularidade', ylabel='Contagem')

In [None]:
fig = plt.figure(figsize = (6,4))
ax = sns.ecdfplot(tmdb['popularity'])
ax.set_title('CDF Popularidade TMDB')
ax.set(xlabel='Popularidade',ylabel='Proporção')

- Resultado esperado e que condiz com as outras variáveis analisadas

### Orçamento

In [None]:
tmdb['budget']

- Não faz sentido um filme ter o orçamento igual a 0, por isso, vamos eliminar esses filmes para uma análise mais coerente

In [None]:
true_budget = tmdb.query('budget > 0')['budget']

In [None]:
fig = plt.figure(figsize = (6,4))
ax = sns.histplot(true_budget, kde=True)
ax.set(xlabel='Orçamento', ylabel='Contagem')
ax.set_title('Distribuição dos orçamentos TMDB')

In [None]:
fig = plt.figure(figsize = (6,4))
ax = sns.ecdfplot(true_budget)
ax.set_title('CDF Orçamento TMDB')
ax.set(xlabel='Orçamento',ylabel='Proporção')

- Também apresenta o comportamento esperado: Muitos filmes com orçamento mais baixo e poucos filmes com orçamento altíssimo
- Note que nosso eixo X está sendo escrito com a notação 'e', ou seja, 3.5 na verdade é 350.000.000

### Tempo de Duração

In [None]:
tmdb['runtime'].info()

- Temos 4803 entradas para a variável runtime, e apenas 4801 com valores não nulos, ou seja, 2 entradas com valores nulos (NaN)
- Vamos eliminar essas entradas para proseguir com a análise

In [None]:
true_runtime = tmdb['runtime'].dropna()

In [None]:
true_runtime.info()

In [None]:
fig = plt.figure(figsize = (6,4))
ax = sns.histplot(true_runtime, kde=True)
ax.set(xlabel='Tempo de Duração', ylabel='Contagem')
ax.set_title('Distribuição do Tempo de Duração TMDB')

- Podemos perceber que temos alguns valores iguais a zero, o que não faz sentido para a variável tempo de duração. Vamos eliminar esses registros também

In [None]:
true_runtime = tmdb.query('runtime > 0')['runtime'].dropna()

In [None]:
fig = plt.figure(figsize = (6,4))
ax = sns.histplot(true_runtime, kde=True)
ax.set(xlabel='Tempo de Duração', ylabel='Contagem')
ax.set_title('Distribuição do Tempo de Duração TMDB')

In [None]:
fig = plt.figure(figsize = (6,4))
ax = sns.ecdfplot(true_runtime)
ax.set_title('CDF Tempo de Duração TMDB')
ax.set(xlabel='Tempo de Duração',ylabel='Proporção')

## Obtendo valores numéricos 

Observando o gráfico acima, podemos analisar visualmente que uma proporção de 80% dos filmes tem no máximo um pouco mais de 100 minutos, mas não conseguimos identificar facilmente esse valor. Para isso, vamos usar a função .quantile() do pandas!

In [None]:
true_runtime.quantile(0.8)

Pronto! Assim descobrimos facilmente que o decil 8 representa 121 minutos, ou seja, 80% dos filmes possuem no máximo 121 minutos

## O efeito do tamanho de uma amostra


O tamanho da amostra desempenha um papel crucial nos testes estatísticos. Quanto maior for o tamanho da amostra, maior será a precisão e a confiabilidade dos resultados obtidos. Com uma amostra grande, as estimativas e conclusões tendem a ser mais representativas da população total. Além disso, um tamanho de amostra maior permite detectar efeitos menores com mais facilidade, aumentando o poder estatístico dos testes. Por outro lado, amostras pequenas podem levar a conclusões menos precisas e mais sujeitas a erros, reduzindo a confiabilidade dos resultados estatísticos. Portanto, entender o impacto do tamanho da amostra é essencial para obter resultados estatisticamente válidos e confiáveis em pesquisas e estudos.

Vamos ver de maneira visual a diferença que tamanho da amostra faz ao análisar a média das notas médias em nossa base de dados do Movie Lens!

In [None]:
print('A média das notas médias do MovieLens é:',ml_10_mean.mean())

In [None]:
ml_10_mean.shape[0]

Ao calcular a média de 2269 entradas, o resultados foi 3.43, mas e se menos entradas fossem analizadas? Vamos ver a seguir:

In [None]:
ml_10_mean[0:1].mean()

In [None]:
ml_10_mean[0:2].mean()

In [None]:
ml_10_mean[0:3].mean()

In [None]:
ml_10_mean[0:4].mean()

In [None]:
ml_10_mean[0:5].mean()

In [None]:
ml_10_mean[0:6].mean()

Podemos perceber que a cada nova entrada analizada o valor mudava, ás vezes muito e as vezes não tanto. Vamos fazer um for para analizar todas as médias 

In [None]:
medias = list()
for i in range(1, len(ml_10_mean)):
    medias.append(ml_10_mean[0:i].mean())
medias

Agora vamos plotar essas médias em um gráfico, para analisar de forma visual a diferença que o tamanho da amostra faz

In [None]:
fig = plt.figure(figsize=(10,4))
ax = plt.plot(medias)

Podemos perceber que com uma amostra pequena, o valor é instável, apresentando grande variação e pouca confiabilidade, mas conforme a amostra fica maior, o valor fica mais estável e também mais confiável.

Não sabemos se os dados do Movie Lens foram organizados de uma maneira específica, que pode estar causando essa instabilidade, por isso, é bom testarmos novamente randomizando a ordem em que as entradas serão analizadas.

In [None]:
rand = ml_10_mean.sample(frac=1, random_state=29)

medias = list()
for i in range(1, len(rand)):
    medias.append(rand[0:i].mean())
medias

fig = plt.figure(figsize=(10,4))
ax = plt.plot(medias)

testando com outras seeds aleatórias:

In [None]:
rand = ml_10_mean.sample(frac=1, random_state=2001)

medias = list()
for i in range(1, len(rand)):
    medias.append(rand[0:i].mean())
medias

fig = plt.figure(figsize=(10,4))
ax = plt.plot(medias)

In [None]:
rand = ml_10_mean.sample(frac=1, random_state=143)

medias = list()
for i in range(1, len(rand)):
    medias.append(rand[0:i].mean())
medias

fig = plt.figure(figsize=(10,4))
ax = plt.plot(medias)

In [None]:
rand = ml_10_mean.sample(frac=1, random_state=1)

medias = list()
for i in range(1, len(rand)):
    medias.append(rand[0:i].mean())
medias

fig = plt.figure(figsize=(10,4))
ax = plt.plot(medias)

In [None]:
rand = ml_10_mean.sample(frac=1, random_state=9999999)

medias = list()
for i in range(1, len(rand)):
    medias.append(rand[0:i].mean())
medias

fig = plt.figure(figsize=(10,4))
ax = plt.plot(medias)

No Python, existe uma maneira mais direta de criarmos uma lista na qual os elementos são adicionados um a um progressivamente: basta passarmos as condições a serem executadas no for antes desse iterador, e colocarmos toda essa construção entre colchetes:

In [None]:
rand = ml_10_mean.sample(frac=1, random_state=23)

medias = list()
medias = [rand[0:i].mean() for i in range(1, len(rand))]

fig = plt.figure(figsize=(10,4))
ax = plt.plot(medias)

## Intervalo de Confiança

Vamos tentar entender, então, qual o intervalo de confiança que temos para as médias dos nossos filmes. Isso não quer dizer que todos os filmes do mundo terão uma média 3.43, mas queremos criar uma generalização, a partir dessa amostra, sobre os filmes que existem no mundo.

O objetivo, então, é utilizarmos o Teste Z para encontrarmos um intervalo de confiança que abrangerá não só os filmes da nossa amostra, mas também aqueles fora dela. Para isso, usaremos a função zconfint() (que se refere ao intervalo de confiança no Teste Z), passando como parâmetro os nossos dados. O parâmetro alpha, que é o valor de p, já é previamente configurado como 0.05 (5%).

In [None]:
from statsmodels.stats.weightstats import zconfint

In [None]:
zconfint(ml_10_mean)

### Utilizando o Teste T

Documentação do DescrStatsW: https://www.statsmodels.org/dev/generated/statsmodels.stats.weightstats.DescrStatsW.html#statsmodels.stats.weightstats.DescrStatsW

In [None]:
from statsmodels.stats.weightstats import DescrStatsW

In [None]:
descr_ml_10_mean = DescrStatsW(ml_10_mean)
descr_ml_10_mean

In [None]:
descr_ml_10_mean.tconfint_mean()

O teste T é mais indicado para amostras pequenas, enquanto o test Z é melhor para amostrar maiores

## Analizando o Filme 1

In [None]:
filmes = pd.read_csv('movies.csv')
filmes.head()

In [None]:
ml.head()

In [None]:
filmes.query('movieId == 1')

In [None]:
notas1 = ml.query('movieId == 1')
notas1

In [None]:
fig = plt.figure(figsize = (7,5))
ax = sns.histplot(notas1['rating'], kde=True)
ax.set_title('Distribuição das notas do Filme Toy Story')
ax.set(xlabel='Notas', ylabel='Contagem')

In [None]:
fig = plt.figure(figsize = (7,5))
ax = sns.boxplot(x = notas1['rating'])
ax.set_title('Distribuição das notas do Filme Toy Story')
ax.set_xlabel('Nota')

In [None]:
print('A nota média para a base de dados é:', ml_10_mean.mean())
print('A nota média para o Toy Story é:', notas1['rating'].mean())
print('Podemos perceber que Toy Story é um filme que recebe notas acima da média')

In [None]:
zconfint(notas1['rating'])

In [None]:
from statsmodels.stats.weightstats import ztest

In [None]:
ztest(notas1['rating'], value=3.4320503405352603)

## Analizando o comportamento da nota média com diferentes tamanhos de amostra

In [None]:
np.random.seed(75241)
rand = notas1.sample(frac=1)['rating']

medias = [rand[0:i].mean() for i in range(1, len(rand))]

plt.plot(medias)

In [None]:
rand = notas1.sample(frac=1, random_state=75241)['rating']

def calcula_teste(i):
    media = rand[0:i].mean()
    stat, p = ztest(rand[0:i], value = 3.4320503405352603) 
    return (i, media, p)

medias = [calcula_teste(i) for i in range(2, len(rand))]
medias

## Comparando duas amostras

In [None]:
print (ztest(notas1.rating, ml.rating))
zconfint(notas1.rating, ml.rating)

In [None]:
from scipy.stats import ttest_ind

ttest_ind(ml.rating, notas1.rating)

In [None]:
descr_todas_as_notas = DescrStatsW(ml.rating)
descr_toystory = DescrStatsW(notas1.rating)
comparacao = descr_todas_as_notas.get_compare(descr_toystory)

comparacao.summary()

### Analizando visualmente

In [None]:
plt.boxplot([ml['rating'],notas1['rating']], labels=['Todos os filmes','Toy Story'])
plt.title('Distribuição das notas')

In [None]:
plt.boxplot([ml['rating'],notas1[3:12]['rating']], labels=['Todos os filmes','Toy Story(Do 3 ao 12)'])
plt.title('Distribuição das notas')

Esse gráfico mostra como é perigoso tirar conclusões de amostras pequenas

## Comparando filmes

In [None]:
notas593 =  ml.query("movieId == 593")
notas72226 =  ml.query("movieId == 72226")

plt.boxplot([notas1.rating, notas593.rating, notas72226.rating], labels=["Toy Story", "Silence of the Lambs,", "Fantastic Mr. Fox"])
plt.title("Distribuição das notas de acordo com filmes")

In [None]:
sns.boxplot(x = "movieId", y = "rating", data = ml.query("movieId in (1, 593, 72226)"))

In [None]:
from scipy.stats import normaltest

stat, p = normaltest(notas1.rating)
p

In [None]:
from scipy.stats import ranksums

_, p = ranksums(notas1.rating, notas593.rating)
p