In [11]:
import pandas as pd
from scipy.stats import shapiro
import statsmodels.api as sm
from statsmodels.formula.api import ols
df = pd.read_csv(r'/home/gabriel/Downloads/NovoDataset.csv', sep=',', encoding='UTF-8')

In [14]:
df_filtered = df[df['categoria'].isin(['Entretenimento', 'Música', 'Pessoas e Blogs'])]

In [15]:
categorias = ['Entretenimento', 'Música', 'Pessoas e Blogs']

for cat in categorias:
    w, p_value = shapiro(df_filtered[df_filtered['categoria'] == cat]['visualizacoes_de_videos'])
    print(f"P-valor de Shapiro-Wilk para {cat}: {p_value}")
    
    if p_value < 0.05:
        print(f"A distribuição de visualizações de vídeos para a categoria {cat} não é normal.")
    else:
        print(f"A distribuição de visualizações de vídeos para a categoria {cat} é normal.")

P-valor de Shapiro-Wilk para Entretenimento: 2.191492765324954e-19
A distribuição de visualizações de vídeos para a categoria Entretenimento não é normal.
P-valor de Shapiro-Wilk para Música: 4.169920072084371e-30
A distribuição de visualizações de vídeos para a categoria Música não é normal.
P-valor de Shapiro-Wilk para Pessoas e Blogs: 2.254355441650475e-18
A distribuição de visualizações de vídeos para a categoria Pessoas e Blogs não é normal.


In [17]:
from scipy.stats import levene

In [18]:
w, p_value = levene(df_filtered[df_filtered['categoria'] == 'Entretenimento']['visualizacoes_de_videos'],
                   df_filtered[df_filtered['categoria'] == 'Música']['visualizacoes_de_videos'],
                   df_filtered[df_filtered['categoria'] == 'Pessoas e Blogs']['visualizacoes_de_videos'])
print(f"P-valor de Levene: {p_value}")

if p_value < 0.05:
    print("As variâncias dos grupos não são homogêneas.")
else:
    print("As variâncias dos grupos são homogêneas.")

P-valor de Levene: 0.397292779436477
As variâncias dos grupos são homogêneas.


In [19]:
medias = df_filtered.groupby('categoria')['visualizacoes_de_videos'].mean()
variancias = df_filtered.groupby('categoria')['visualizacoes_de_videos'].var()

print("Médias por categoria:")
print(medias)
print("\nVariancias por categoria:")
print(variancias)

# Calculando a média geral
media_geral = df_filtered['visualizacoes_de_videos'].mean()
print("\nMédia geral:", media_geral)

Médias por categoria:
categoria
Entretenimento     1.063732e+10
Música             1.312699e+11
Pessoas e Blogs    9.790315e+09
Name: visualizacoes_de_videos, dtype: float64

Variancias por categoria:
categoria
Entretenimento     1.068137e+20
Música             2.662567e+24
Pessoas e Blogs    1.610950e+20
Name: visualizacoes_de_videos, dtype: float64

Média geral: 53134195266.35209


In [23]:
# Calculando a soma de quadrados entre tratamentos
sqt = 0
for cat in categorias:
    sqt += len(df_filtered[df_filtered['categoria'] == cat]) * (medias[cat] - media_geral)**2
print("\nSoma de quadrados entre tratamentos:", sqt)

# Calculando a soma de quadrados erro (intra tratamentos)
sqr = 0
for cat in categorias:
    sqr += (len(df_filtered[df_filtered['categoria'] == cat]) - 1) * variancias[cat]
print("\nSoma de quadrados erro:", sqr)

# Calculando Graus de liberdade entre tratamentos
glt = len(categorias) - 1
print("\nGraus de liberdade entre tratamentos:", glt)

# Calculando Graus de liberdade erro
glr = len(df_filtered) - len(categorias)
print("\nGraus de liberdade erro:", glr)

# Calculando Quadrado médio entre tratamentos
qmt = sqt / glt
print("\nQuadrado médio entre tratamentos:", qmt)

# Calculando Quadrado médio erro
qmr = sqr / glr
print("\nQuadrado médio erro:", qmr)




Soma de quadrados entre tratamentos: 1.8426751887365524e+24

Soma de quadrados erro: 5.165825678484111e+26

Graus de liberdade entre tratamentos: 2

Graus de liberdade erro: 548

Quadrado médio entre tratamentos: 9.213375943682762e+23

Quadrado médio erro: 9.426689194314071e+23


In [28]:
# Calculando razão F
f = qmt / qmr
print("\nRazão F:", f)

print('F tabelado para 2 e 548 graus de liberdade: 2,77%')

print('OBS: se o valor observado da estatística F for maior que 2,77%, rejeitaremos a hipótese nula de que as duas variâncias são iguais.')


Razão F: 0.9773713499793784
F tabelado para 2 e 548 graus de liberdade: 2,77%
OBS: se o valor observado da estatística F for maior que 2,77%, rejeitaremos a hipótese nula de que as duas variâncias são iguais.
