# EDA - Projeto ADA

O presente documento tem por finalidade ser um EDA (Exploratory Data Analysis) como projeto para o curso Técnicas de Programação da ADA. Os dados aqui escolhidos para análise são de caráter público e sua origem é encontrada em: https://www.kaggle.com/datasets/rankirsh/evolution-of-top-games-on-twitch.



## Cabeçalho

Os estudantes responsáveis pelas análises e pelo uso dos dados em questão são:
- Bruno Bastos
- Delson Cardoso
- Luiz Gabriel 
- Igor Raphael 
- Mia Valentin

Todos acima são estudantes da Ada Tech, participantes do programa Data4All, ofertado em parceria com as empresas Gerdau & RandStand.

## EDA

### Importando Bibliotecas a serem utilizadas

In [8]:
import pandas as pd
import numpy as np

### Carregando os dados

In [3]:
data = pd.read_csv('Twitch_global_data.csv')

data.rename(columns={
    'year':'ano',
    'Month':'mes',
    'Hours_watched':'horas_assistidas',
    'Avg_viewers':'media_visualizacoes',
    'Peak_viewers':'pico_de_visualizacoes',
    'Avg_channels':'media_canais',
    'Games_streamed':'jogos_transmitidos',
    'Viewer_ratio':'proporcao_de_espectadores',
}, inplace=True)

In [4]:
data.head()

Unnamed: 0,ano,mes,horas_assistidas,media_visualizacoes,pico_de_visualizacoes,Streams,media_canais,jogos_transmitidos,proporcao_de_espectadores
0,2016,1,480241904,646355,1275257,7701675,20076,12149,29.08
1,2016,2,441859897,635769,1308032,7038520,20427,12134,28.98
2,2016,3,490669308,660389,1591551,7390957,20271,12234,28.92
3,2016,4,377975447,525696,1775120,6869719,16791,12282,28.8
4,2016,5,449836631,605432,1438962,7535519,19394,12424,28.85


<b><i>Nota: Dada as circunstâncias do ano 2023, por ter apenas o mês de janeiro como referência, o trataremos como um outlier. O valor não será removido ou alterado, porém, em certos casos, poderá ser ignorado.</i></b>

### Entendendo o DataSet

In [6]:
data.shape

(85, 9)

In [36]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 85 entries, 0 to 84
Data columns (total 9 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   ano                        85 non-null     int64  
 1   mes                        85 non-null     int64  
 2   horas_assistidas           85 non-null     int64  
 3   media_visualizacoes        85 non-null     int64  
 4   pico_de_visualizacoes      85 non-null     int64  
 5   Streams                    85 non-null     int64  
 6   media_canais               85 non-null     int64  
 7   jogos_transmitidos         85 non-null     int64  
 8   proporcao_de_espectadores  85 non-null     float64
dtypes: float64(1), int64(8)
memory usage: 6.1 KB


In [3]:
data.isnull().sum()

ano                          0
mes                          0
horas_assistidas             0
media_visualizacoes          0
pico_de_visualizacoes        0
Streams                      0
media_canais                 0
jogos_transmitidos           0
proporcao_de_espectadores    0
dtype: int64

<b><i>Não há dados missing e o Dtype de cada dado corresponde ao esperado para análise, sem necessidade de transformações</i></b>

In [5]:
data.describe()

Unnamed: 0,ano,mes,horas_assistidas,media_visualizacoes,pico_de_visualizacoes,Streams,media_canais,jogos_transmitidos,proporcao_de_espectadores
count,85.0,85.0,85.0,85.0,85.0,85.0,85.0,85.0,85.0
mean,2019.047059,6.435294,1171561000.0,1605636.0,3310116.0,15434790.0,60414.117647,24771.341176,26.779176
std,2.046518,3.50322,621826300.0,852227.5,1637731.0,6240952.0,33558.528869,10319.04678,1.588932
min,2016.0,1.0,362833200.0,504635.0,1186009.0,5507554.0,16592.0,12134.0,22.65
25%,2017.0,3.0,575551500.0,787587.0,1823848.0,8672879.0,25810.0,15962.0,25.71
50%,2019.0,6.0,916692500.0,1264495.0,2692333.0,15053040.0,48357.0,20248.0,26.89
75%,2021.0,9.0,1834840000.0,2520330.0,4815581.0,20285360.0,93867.0,35577.0,28.13
max,2023.0,12.0,2308295000.0,3112681.0,6707070.0,27591150.0,122763.0,43611.0,30.39


### Começando Análises

#### Delson

#### Luiz

##### Maior e menor média de horas assistidas por visualização. Valores anuais e mensais. 

In [None]:
maior_horas = data.groupby(['ano', 'mes', 'horas_assistidas', 'media_visualizacoes'])['horas_assistidas'].sum().idxmax()
menor_horas = data.groupby(['ano', 'mes', 'horas_assistidas', 'media_visualizacoes'])['horas_assistidas'].sum().idxmin()

maior_horas, menor_horas

In [None]:
print(f'A maior média de horas assistidas por visualizações foi de {maior_horas[2] / maior_horas[-1]:.2f}')
print(f'A menor média de horas assistidas por visualizações foi de {menor_horas[2] / menor_horas[-1]:.2f}')

Os trechos acima permitem compreender que, na data 05/2021 ocorreu o maior número bruto de horas assistidas 2308295297 com um total de 3106723 médias visualizações. Já o menor valor de horas assistidas ocorreu em 09/2016, com um número bruto de 362833210 horas assistidas e um total de 504635 média visualizações. <br>
A maior média horas / visus foi de 743 horas por média visualização, já o menor valor foi de 719 horas por média visualização.

In [None]:
def analisaMedias(horas:list(), visus:list()):
    aux = []
    total = []
    ano = 2016
    for x in range(85):
        if x < 12:
            aux.append(horas[x] / visus[x])
            if x == 11:
                aux.append(sum(horas[0:12]) / sum(visus[0:12]))
                aux.insert(0, ano)
                total.append(aux[:])
                aux.clear()
        elif 24 > x > 11:
            aux.append(horas[x] / visus[x])
            if x == 23:
                aux.append(sum(horas[11:24]) / sum(visus[11:24]))
                aux.insert(0, ano + 1)
                total.append(aux[:])
                aux.clear()
        elif 36 > x > 23:
            aux.append(horas[x] / visus[x])
            if x == 35:
                aux.append(sum(horas[24:36]) / sum(visus[24:36]))
                aux.insert(0, ano + 2)
                total.append(aux[:])
                aux.clear()
        elif 48 > x > 35:
            aux.append(horas[x] / visus[x])
            if x == 47:
                aux.append(sum(horas[36:48]) / sum(visus[36:48]))
                aux.insert(0, ano + 3)
                total.append(aux[:])
                aux.clear()
        elif 60 > x > 47:
            aux.append(horas[x] / visus[x])
            if x == 59:
                aux.append(sum(horas[48:60]) / sum(visus[48:60]))
                aux.insert(0, ano + 4)
                total.append(aux[:])
                aux.clear()         
        elif 72 > x > 59:
            aux.append(horas[x] / visus[x])
            if x == 71:
                aux.append(sum(horas[60:72]) / sum(visus[60:72]))
                aux.insert(0, ano + 5) 
                total.append(aux[:])
                aux.clear()
        elif 84 > x > 71:
            aux.append(horas[x] / visus[x])
            if x == 83:
                aux.append(sum(horas[72:84]) / sum(visus[72:84]))
                aux.insert(0, ano + 6)
                total.append(aux[:])
                aux.clear()       
        else:
            aux.append(horas[x] / visus[x])
            if x == 84:
                aux.append((horas[-1]) / (visus[-1]))
                aux.insert(0, ano + 7)
                total.append(aux[:])
                aux.clear()
    return total

In [None]:
horas_assistidas = [ dados for dados in data['horas_assistidas']]
media_visualizacoes = [dados for dados in data['media_visualizacoes']]

total_medias = analisaMedias(horas_assistidas, media_visualizacoes)

A variável <b>total_medias</b> corresponde a uma lista com outras 8 listas dentro de si. Cada lista dessas possui 1 determinado ano como valor inicial, 12 ou (1) valores de médias mensais de horas assistidas por número de espectadores e, por fim, um valor de média anual do total de horas assistidas pelo total de espectadores anuais.

In [None]:
maiores = []
minimos = []

for x in total_medias:
    maiores.append(f'O maior valor médio de horas por visus do ano {x[0]} é {max(x[1:-1]):.2f} no mês {x.index(max(x[1:-1]))}')
    minimos.append(f'O menor valor médio de horas por visus do ano {x[0]} é {min(x[1:-1]):.2f} no mês {x.index(min(x[1:-1]))}')
    
maiores, minimos

In [None]:
for x in range(8):
    print(f'O valor de média HA/MV anual de {total_medias[x][0]} é de {total_medias[x][-1]:.2f}')

In [None]:
for value in total_medias:
    print(f'O ano é {value[0]}')
    for index, values in enumerate(value):
        if 13 > index >= 1:
            print(f'O valor médio mensal {index} é {values:.2f} HA/MV')
            

<b><i> O que se pode perceber após analisar todo o panorama geral do dataset é que as médias tendem a se manter iguais por meses e até mesmos anos. A variação anual não é tão significativa (considerando que 2023 está com 11 meses faltantes). É como se os dados da Twitch fossem estáveis, com poucas variações em perídos de (1) campeonatos famosos, (2) estreias de jogos famosos e (3) período de pandemia.

##### Meses de máxima, mínima e possíveis recorrências

In [None]:
for num in range(2016, 2023):
    print(data[data['ano'] == num].groupby(['ano', 'mes', 'horas_assistidas'])['horas_assistidas'].sum().idxmax())

In [None]:
for num in range(2016, 2023):
    print(data[data['ano'] == num].groupby(['ano', 'mes', 'horas_assistidas'])['horas_assistidas'].sum().idxmin())

<b><i>Não chega a existir uma recorrência de ano para ano. Os valores de máxima se dão em períodos de lançamentos de jogos e/ou campeonatos. Há a questão ainda de começo, meio e fim da pandemia para explicar uma grande alta de horas assistidas, porém, faltam dados para comprovar que a mudança foi de fato a pandemia.

##### Proporção de Espectadores

In [None]:
for x in range(2016, 2023):
    print(f'O ano é {x}')
    print(data[data['ano'] == x].groupby(['media_canais', 'proporcao_de_espectadores'])['proporcao_de_espectadores'].idxmax())

In [None]:
pro = [dado for dado in data['proporcao_de_espectadores']]
canais = [canal for canal in data['media_canais']]

In [None]:
aux_pro = pro[0]
aux_canais = canais[0]

for x in range(84):
    if x == 0:
        print((pro[x] >= aux_pro), (canais[x] >= aux_canais))
    else:
        print((pro[x] > aux_pro), (canais[x] > aux_canais))
    aux_pro = pro[x]
    aux_canais = canais[x]

<b><i>A interpretação dos dados acima permite compreender que não necessariamente o aumento da variável media_canais proporciona um aumento na variável media_espectadores. A variável media_espectadores seguiu-se padrão tal qual horas_assistidas, tendo aumento nos perídoso de alta no geral (campeonatos, lançamentos de jogos e pandemia), porém, no restante, não houve tanta variação.</i></b>

##### Horas assistidas por jogos transmitidos

In [None]:
for x in range(2016, 2023):
    print(data[data['ano'] == x].groupby(['ano', 'mes', 'horas_assistidas'])['jogos_transmitidos'].sum())

In [None]:
horas = [horas for horas in data['horas_assistidas']]
jogos = [jogos for jogos in data['jogos_transmitidos']]

aux_h, aux_j = horas[0], jogos[0]

for x in range(83):
    if x == 0:
        print((horas[x] >= aux_h), (jogos[x] >= aux_j))
    else:
        print((horas[x] > aux_h), (jogos[x] > aux_j))
    aux_h, aux_j = horas[x], jogos[x]

<b><i> Ao analisar os dados acima, pode-se inferir que os períodos em que ambas as variáveis sofrem alguma alta são os períodos de máxima de outros valores também. Ou seja, em épocas de campeonatos, lançamentos de jogos e pandemia. Fora isso, não há correlação aparente.</i></b>

#### Igor

#### Bruno