In [6]:
import pandas as pd
import numpy as np
from plotnine import *

In [7]:
# Definindo todas as funções para as medidas de dispersão
def amplitude(x):
    return (x.max() - x.min())

def coeficiente_variacao(x):
    return 100*(x.std() / x.mean())

def desvio_medio(x):
  return abs(x-x.mean()).mean()

def q1(x):
  return x.quantile(0.25)

def q3(x):
  return x.quantile(0.75)

In [17]:
# Ler o arquivo CSV
df = pd.read_csv('csv_youtube/dados_youtubeTHM.csv')
df.head()

Unnamed: 0,Conteúdo,Título do vídeo,Horário de publicação do vídeo,"Marcações ""Gostei""",Inscrições obtidas,Porcentagem visualizada média (%),Duração média da visualização,Visualizações,Tempo de exibição (horas),Inscritos,Impressões
0,Total,,,19421,5475,26.9,0:04:51,358477,29063.6171,4987,4570652
1,XE4UHson59Y,Introdução | Estatística Básica 01,"Oct 5, 2020",1268,863,29.46,0:01:47,28631,852.5966,860,93596
2,tWcwNRBpViQ,Resumo de Dados | Estatística Básica 02,"Oct 5, 2020",858,216,45.42,0:05:08,12719,1089.6826,215,101217
3,SVH0EbN3QDE,Representações Gráficas I | Estatística Básica 03,"Oct 5, 2020",654,115,46.55,0:06:04,8952,907.4947,115,96059
4,RSRGO8U6rSU,"Parâmetros, Estimadores e Estimativas | Estatí...","Sep 22, 2021",602,179,30.24,0:05:00,13047,1089.2803,177,127093


In [18]:
# Tratamento de Dados
novos_nomes = {
    'Conteúdo':'conteudo',
    'Título do vídeo':'titulo',
    'Horário de publicação do vídeo':'data_publicacao',
    'Marcações "Gostei"':'curtidas',
    'Inscrições obtidas':'inscricoes',
    'Porcentagem visualizada média (%)':'porcent_media_visualizacao',
    'Duração média da visualização':'duracao_media_visualizacao',
    'Visualizações':'views',
    'Tempo de exibição (horas)':'tempo_exibicao_h',
    'Inscritos':'inscritos',
    'Impressões':'impressoes'
}

df=df.rename(columns=novos_nomes)
df = df[df['titulo'].notna()]

In [15]:
df.head()

Unnamed: 0,conteudo,titulo,data_publicacao,curtidas,inscricoes,porcent_media_visualizacao,duracao_media_visualizacao,views,tempo_exibicao_h,inscritos,impressoes
1,XE4UHson59Y,Introdução | Estatística Básica 01,"Oct 5, 2020",1268,863,29.46,0:01:47,28631,852.5966,860,93596
2,tWcwNRBpViQ,Resumo de Dados | Estatística Básica 02,"Oct 5, 2020",858,216,45.42,0:05:08,12719,1089.6826,215,101217
3,SVH0EbN3QDE,Representações Gráficas I | Estatística Básica 03,"Oct 5, 2020",654,115,46.55,0:06:04,8952,907.4947,115,96059
4,RSRGO8U6rSU,"Parâmetros, Estimadores e Estimativas | Estatí...","Sep 22, 2021",602,179,30.24,0:05:00,13047,1089.2803,177,127093
5,uGexFqrNhw0,Introdução | Curso de Probabilidade 01,"Apr 16, 2021",584,331,17.91,0:02:23,11459,458.3918,330,47994


# Váriaveis das Colunas

*   'Conteúdo' -> Nominal (códigos de vídeos)
*   'Título do vídeo' -> Nominal (nomes dos vídeos)
*   'Horário de publicação do vídeo' -> Está ordinal (datas de publicação)
*   'Marcações Gostei' -> Discreta (contagem de "Gostei")
*   'Inscrições obtidas' -> Discreta (contagem de inscrições)
*   'Porcentagem visualizada média' -> Contínua (valores percentuais)
*   'Duração média da visualização' -> Contínua (tempo de visualização)
*   'Visualizações' -> Discreta (contagem de visualizações)
*   'Tempo de exibição horas' -> Contínua (tempo total de exibição em horas)
*   'Inscritos' -> Discreta (contagem de inscritos)
*   'Impressões' -> Discreta (contagem de impressões)

# Cálculos Iniciais

In [16]:
# Filtando o df de acordo com a variável a ser analisada
df_filtrado = df[['titulo','views']]
df_filtrado.head()

Unnamed: 0,titulo,views
1,Introdução | Estatística Básica 01,28631
2,Resumo de Dados | Estatística Básica 02,12719
3,Representações Gráficas I | Estatística Básica 03,8952
4,"Parâmetros, Estimadores e Estimativas | Estatí...",13047
5,Introdução | Curso de Probabilidade 01,11459


In [20]:
result = df.aggregate({
    'views': ['count', 'mean', 'std', 'min',q1,'median',q3,'max', amplitude, coeficiente_variacao,desvio_medio],
})

In [21]:
#print(result,'\n')
#print('\n Resultados após arredondamento (só para exposição) \n')
result.round(0).transpose()

Unnamed: 0,count,mean,std,min,q1,median,q3,max,amplitude,coeficiente_variacao,desvio_medio
views,226.0,1586.0,2769.0,4.0,185.0,634.0,2025.0,28631.0,28627.0,175.0,1576.0


## Análise inicial:

*   Podemos perceber que a média e mediana são muito distintas;
*   A dispersão na variável é muito grande, o que pode indicar quantidade significativa de Outliers;
*   A teoria dos Outliers é comprovada ao analisar o mínimo e o máximo, uma vez que resultam em uma amplitude elevada.

***

Uma justificação possível para alguns vídeos terem muitas visualizações e outros menos, é que, considerando a natureza da plataforma (o seu algoritmo) e o tema do canal ser voltado para o ensino, o público acessa apenas os vídeos em que possuem maior dificuldade no assunto ou apenas em períodos de provas. Outra ponto relevante a ser analisado é o conteúdo dos vídeos com mais views, já que eles podem nos dar um insight das matérias mais difíceis ou que caem mais em exames.