# EDA - Projeto ADA

O presente documento tem por finalidade ser um EDA (Exploratory Data Analysis) como projeto para o curso Técnicas de Programação da ADA. Os dados aqui escolhidos para análise são de caráter público e sua origem é encontrada em: https://www.kaggle.com/datasets/rankirsh/evolution-of-top-games-on-twitch.



## Cabeçalho

Os estudantes responsáveis pelas análises e pelo uso dos dados em questão são:
- Bruno Bastos
- Delson Cardoso
- Luiz Gabriel 
- Igor Raphael 
- Mia Valentin

Todos acima são estudantes da Ada Tech, participantes do programa Data4All, ofertado em parceria com as empresas Gerdau & RandStand.

## Início do EDA

#### Importando Bibliotecas a serem utilizadas

In [2]:
import pandas as pd
import numpy as np

#### Carregando os dados

In [100]:
data = pd.read_csv('Twitch_global_data.csv')

data.rename(columns={
    'year':'ano',
    'Month':'mes',
    'Hours_watched':'horas_assistidas',
    'Avg_viewers':'media_visualizacoes',
    'Peak_viewers':'pico_de_visualizacoes',
    'Avg_channels':'media_canais',
    'Games_streamed':'jogos_transmitidos',
    'Viewer_ratio':'proporcao_de_espectadores',
}, inplace=True)

data.tail()

Unnamed: 0,ano,mes,horas_assistidas,media_visualizacoes,pico_de_visualizacoes,Streams,media_canais,jogos_transmitidos,proporcao_de_espectadores
80,2022,9,1817119612,2527287,4678056,22278079,90376,41863,28.37
81,2022,10,1883320673,2534751,4610799,22867973,90557,42164,28.35
82,2022,11,1694262814,2356415,5362892,21744817,88195,41058,26.84
83,2022,12,1674092138,2253152,3866814,21753674,84728,41548,27.0
84,2023,1,1866962462,2512735,5593050,24429476,93349,43611,27.44


#### Analisando o DataSet

In [36]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 85 entries, 0 to 84
Data columns (total 9 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   ano                        85 non-null     int64  
 1   mes                        85 non-null     int64  
 2   horas_assistidas           85 non-null     int64  
 3   media_visualizacoes        85 non-null     int64  
 4   pico_de_visualizacoes      85 non-null     int64  
 5   Streams                    85 non-null     int64  
 6   media_canais               85 non-null     int64  
 7   jogos_transmitidos         85 non-null     int64  
 8   proporcao_de_espectadores  85 non-null     float64
dtypes: float64(1), int64(8)
memory usage: 6.1 KB


<b><i>Não há dados missing e o Dtype de cada dado corresponde ao esperado</i></b>

In [96]:
dados = data['horas_assistidas']

lista = [dado for dado in dados if dado == max(dados)]
lista_1 = [dado for dado in dados if dado == min(dados)]

print(lista_1)

[362833210]


<b><i>Não há mais de 1 valor máximo para horas assistidas nem mais de 1 valor mínimo</i></b>

In [66]:
max_horas = data.groupby(['ano','mes','horas_assistidas'])['horas_assistidas'].sum().idxmax()
min_horas = data.groupby(['ano','mes','horas_assistidas'])['horas_assistidas'].sum().idxmin()
print(max_horas)
print(min_horas)
print(f"O mês {max_horas[1]} do ano {max_horas[0]} foi o mês com o maior número de horas assistidas, totalizando {max_horas[2]} horas.")
print(f"O mês {min_horas[1]} do ano {min_horas[0]} foi o mês com o menor número de horas assistidas, totalizando {min_horas[2]} horas.")

(2021, 5, 2308295297)
(2016, 9, 362833210)
O mês 5 do ano 2021 foi o mês com o maior número de horas assistidas, totalizando 2308295297 horas.
O mês 9 do ano 2016 foi o mês com o menor número de horas assistidas, totalizando 362833210 horas.


In [97]:
data_max = data[data['horas_assistidas'] == data['horas_assistidas'].max()]
data_min = data[data['horas_assistidas'] == data['horas_assistidas'].min()]
print(data_max.loc[:, ['ano', 'mes', 'horas_assistidas']])
print(data_min.loc[:, ['ano', 'mes', 'horas_assistidas']])

     ano  mes  horas_assistidas
64  2021    5        2308295297
    ano  mes  horas_assistidas
8  2016    9         362833210
