# POO - Projeto Final - Parte 1

Primeiramente, este documento apresenta o que é proposto
no projeto final da disciplina.

Em seguida, é apresentado como se trabalhar com
a biblioteca `Pandas`, que será essencial
na implementação proposta.

As classes a serem implementadas são mostradas
na última seção deste documento.

Para elaboração deste roteiro, os seguintes links
foram utilizados como referências:

- [Kaggle - YouTube Trending Video Dataset (updated daily)](https://www.kaggle.com/rsrishav/youtube-trending-video-dataset)
- [Pandas tutorial and cheat sheet](https://www.kaggle.com/yogidsba/pandas-tutorial-and-cheat-sheet)

## 1. Projeto Final - Visualização de Dados de Vídeos do Youtube

O projeto final da disciplina tem como objetivo visualizar dados relativos aos vídeos do Youtube que foram tendência (*trending videos*) no Brasil em um determinado período.

Especificamente, você deve implementar uma aplicação com interface gráfica Tkinter em Python com as funcionalidades
a seguir.

Exibir em tabela:
- O total de vídeos no conjunto de dados
- Todos os dados de $n$ vídeos
- Todos os canais que possuem vídeos no conjunto de dados
- Todas as categorias dos vídeos no conjunto de dados
- Os vídeos ordenados por likes, comentários, etc.

Permitir:
- Exibir os vídeos de um canal
- Exibir os vídeos de uma categoria
- Buscar vídeos por título
- Buscar vídeos por período

Exibir gráficos contendo:
- Canais com mais views (gráfico de barras)
- Vídeos com mais views (gráfico de barras)
- Relação entre views/comentários (scatter)
- Relação entre views/likes (scatter)

Links dos arquivos:

- Arquivos de testes (cada um contém 20 vídeos selecionados aleatoriamente):
    - [BR_youtube_trending_data_p1.csv](https://raw.githubusercontent.com/ect-info/POO_2021.1/master/docs/15-projeto_final1/BR_youtube_trending_data_p1.csv)
    - [BR_youtube_trending_data_p2.csv](https://raw.githubusercontent.com/ect-info/POO_2021.1/master/docs/15-projeto_final1/BR_youtube_trending_data_p2.csv)
    - [BR_youtube_trending_data_p3.csv](https://raw.githubusercontent.com/ect-info/POO_2021.1/master/docs/15-projeto_final1/BR_youtube_trending_data_p3.csv)
    
- Arquivo completo (contém muitos dados e dificulta a depuração, utilize-o na versão final do seu programa)
    - [BR_youtube_trending_data_completo.csv](https://raw.githubusercontent.com/ect-info/POO_2021.1/master/docs/15-projeto_final1/BR_youtube_trending_data_completo.csv)

## 2. Utilização da Biblioteca Pandas

A biblioteca Pandas constitui hoje uma das principais ferramentas utilizadas na área de Ciências de Dados.

A principal classe da biblioteca é a classe `Dataframe`.
Um `Dataframe` é uma classe que representa um conjunto de dados de forma tabular.

A classe `Dataframe` possui funcionalidades para, dentre outras coisas, carregar dados de arquivos no disco, visualizar gráficos/estatísticas relacionados aos dados e realizar buscas seguindo critérios específicos. Esta última funcionalidade será a principal a ser utilizada na primeira parte do projeto.

Observe a seguir os comandos que você deverá utilizar na implementação das classes a serem implementadas para conceber a aplicação.

### 2.1 Abrindo Conjunto de Dados

In [2]:
import pandas as pd

df = pd.read_csv('BR_youtube_trending_data_p1.csv', lineterminator='\n')
print(f'Período: {df.dt_publicacao.min()} até {df.dt_publicacao.max()}')

Período: 2020-08-12 15:05:59+00:00 até 2021-08-06 14:00:10+00:00


### 2.2 Obtendo Informações e Exibindo um `Dataframe`

In [3]:
df.info() # mostra a tabela e informações nela contidas

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   id_video          20 non-null     object
 1   titulo            20 non-null     object
 2   dt_publicacao     20 non-null     object
 3   id_canal          20 non-null     object
 4   canal             20 non-null     object
 5   dt_trending       20 non-null     object
 6   cont_views        20 non-null     int64 
 7   likes             20 non-null     int64 
 8   dislikes          20 non-null     int64 
 9   cont_comentarios  20 non-null     int64 
 10  descricao         19 non-null     object
 11  categoria         20 non-null     object
dtypes: int64(4), object(8)
memory usage: 2.0+ KB


In [4]:
#df.head() # mostra primeiros 5
#df.tail() # mostra últimos 5
display(df)

Unnamed: 0,id_video,titulo,dt_publicacao,id_canal,canal,dt_trending,cont_views,likes,dislikes,cont_comentarios,descricao,categoria
0,T_YGfdBhy6s,Julia Franco- se você errar a resposta balde d...,2021-03-30 22:12:46+00:00,UCAhZ2eZUVnHN5IKoB5FvTow,mundo da Juju E pepê,2021-04-12 00:00:00+00:00,794011,85263,1526,163,#jujufranco #juliafranco,People & Blogs
1,xa49MdOqYLI,"Palmeiras vence o Grêmio, paulistas estreiam, ...",2021-03-01 13:11:30+00:00,UC3KHYFWeB0WimMBfm3NEahQ,UOL Esporte,2021-03-07 00:00:00+00:00,115009,9159,323,617,Posse de Bola desta segunda-feira analisa a vi...,Sports
2,XjKx-kiRmQA,TIRINGA LEVA TÕE À PRAIA PELA PRIMEIRA VEZ 😂,2021-01-26 23:00:31+00:00,UCajp7rm8GPY1Lw_eVfMmmVA,CHÁCARA COMÉDIA SELVAGEM,2021-02-05 00:00:00+00:00,1880144,176786,1836,3297,CONTINUAÇÃO DO VÍDEO NO CHÁCARA COMÉDIA SELVAG...,Comedy
3,DXCawDyyOTg,[Aula 01] 3ª Quarentena da Costura,2020-11-04 12:15:09+00:00,UCQnmd3WsYwXOz_1Z5BmAajg,Diana Demarchi,2020-11-06 00:00:00+00:00,221013,15645,263,4373,👚PEGUE SEUS MOLDES AQUI👇🏻➡️ https://costureira...,Entertainment
4,i-zTRZnSwcI,#CopaVerde - Independente x Clube do Remo,2021-02-07 21:26:38+00:00,UCsLGx5V5iv-JHbG10oDZOcw,Remo TV,2021-02-14 00:00:00+00:00,125733,6519,189,45,Loja Virtual do Leão: http://www.clubedoremo.c...,Sports
5,6Fphpd1C5z4,Matheus & Kauan - É Problema (Making Of),2020-11-14 14:00:03+00:00,UC4WvVh0AwJ6K9w1JLepce7A,Matheus e Kauan,2020-11-21 00:00:00+00:00,54683,4023,32,91,Making Of de É Problema Assista agora no youtu...,Music
6,-Ss6kIkmCtI,FLUZÃO NA FINAL! | FLUMINENSE 3X1 PORTUGUESA -...,2021-05-09 21:42:56+00:00,UCbFZ3wmgC7VF0dJnTtKC10A,Cariocão TV,2021-05-17 00:00:00+00:00,24850,869,22,72,"Com gols de Yago Felipe, Matheus Teixeira e Ka...",Sports
7,sZ7oZoNBBXE,Priscilla Alcantara - Tem Dias,2021-08-06 14:00:10+00:00,UCVspHhohr0GVv6d69nlHCgA,PrisAlcantaraVEVO,2021-08-16 00:00:00+00:00,1374142,55079,3887,6302,Vídeo Oficial de Tem Dias da Priscilla Alcanta...,Music
8,IH2YN86dfhY,TIPOS DE JOGADORES #29 (EDIÇÃO ESPECIAL: TÉCNI...,2020-09-06 21:43:06+00:00,UCriRvZSnEFPSMqSya2s2U6g,Banheiristas,2020-09-14 00:00:00+00:00,593637,45439,512,839,IRMÃOS LO:https://www.youtube.com/channel/UCGm...,Sports
9,g0pXKnt4OQ8,A ÚLTIMA PEÇA QUE FALTAVA PRA LIGAR A XT660,2021-02-12 15:00:31+00:00,UCs1JevIKnU4E4ULMZr-0Qog,Hugo Milgrau,2021-02-18 00:00:00+00:00,170289,30070,136,594,Me siga no Insta: @hugooficialMeu face: http:/...,Entertainment


### 2.3 Realizando buscas em um `Dataframe`

Resumidamente, podemos dizer que um `Dataframe`
retorna um `Dataframe` resultado de uma busca
realizada com uma expressão/execução de um método
similar a uma chave de um dicionário Python.

Observe os exemplos a seguir.

#### 2.3.1 Busca por String Exata

In [15]:
# Retorna um dataframe contendo todos os vídeos
# cuja categoria seja igual à string s

# As categorias do Youtube são tabeladas e neste
# dataset, segue o dicionário a seguir
categ = {'29': 'Nonprofits & Activism',
         '1': 'Film & Animation', 
         '2': 'Autos & Vehicles', 
         '10': 'Music', 
         '15': 'Pets & Animals', 
         '17': 'Sports', 
         '18': 'Short Movies', 
         '19': 'Travel & Events', 
         '20': 'Gaming', 
         '21': 'Videoblogging', 
         '22': 'People & Blogs', 
         '23': 'Comedy', 
         '24': 'Entertainment', 
         '25': 'News & Politics', 
         '26': 'Howto & Style', 
         '27': 'Education', 
         '28': 'Science & Technology', 
         '30': 'Movies', 
         '31': 'Anime/Animation', 
         '32': 'Action/Adventure', 
         '33': 'Classics', 
         '34': 'Comedy', 
         '35': 'Documentary', 
         '36': 'Drama', 
         '37': 'Family', 
         '38': 'Foreign', 
         '39': 'Horror', 
         '40': 'Sci-Fi/Fantasy', 
         '41': 'Thriller', 
         '42': 'Shorts', 
         '43': 'Shows', 
         '44': 'Trailers'}

#s = categ['10']
#print(type(df[df.categoria == s]))
df[df.categoria == categ['24']] # critério de busca é usado da mesma forma que uma chave de um dicionário

Unnamed: 0,id_video,titulo,dt_publicacao,id_canal,canal,dt_trending,cont_views,likes,dislikes,cont_comentarios,descricao,categoria
3,DXCawDyyOTg,[Aula 01] 3ª Quarentena da Costura,2020-11-04 12:15:09+00:00,UCQnmd3WsYwXOz_1Z5BmAajg,Diana Demarchi,2020-11-06 00:00:00+00:00,221013,15645,263,4373,👚PEGUE SEUS MOLDES AQUI👇🏻➡️ https://costureira...,Entertainment
9,g0pXKnt4OQ8,A ÚLTIMA PEÇA QUE FALTAVA PRA LIGAR A XT660,2021-02-12 15:00:31+00:00,UCs1JevIKnU4E4ULMZr-0Qog,Hugo Milgrau,2021-02-18 00:00:00+00:00,170289,30070,136,594,Me siga no Insta: @hugooficialMeu face: http:/...,Entertainment
11,ce8roGn1KHQ,REVELANDO A CASA NOVA QUE COMPRAMOS,2021-01-14 16:39:48+00:00,UCR3vcUrhFUdzagng58ueI2w,Invento na Hora,2021-01-23 00:00:00+00:00,2781031,347261,3083,9288,🚀 A LOJA ESTÁ DE VOLTA: https://www.inventonah...,Entertainment
14,SKGJJI4whPQ,Neve... No Outuno... Em Horário de Verão!? 🤔,2020-10-30 14:51:09+00:00,UCGl-muGnQctGYX8D0I9RKmA,PequenoSapeca,2020-11-06 00:00:00+00:00,68037,13668,59,485,Curso do BRKsEDU: https://curso.brksedu.com.br...,Entertainment
16,nd4n8McjA6w,"Jô, ela sempre falou mal de você, dispara Mate...",2020-11-25 13:47:44+00:00,UCw4YGFtvDgOL09KrFpqj6kg,A Fazenda,2020-11-26 00:00:00+00:00,518764,18031,626,8759,"Durante a manhã desta quarta (25), Jojo e Mate...",Entertainment
19,6fdXsoVNJis,EVERGLOW - LA DI DA / Haejun X Tina Boo X Lia ...,2020-09-23 12:00:03+00:00,UCw8ZhLPdQ0u_Y-TLKd61hGA,1MILLION Dance Studio,2020-09-28 00:00:00+00:00,1914145,162581,1107,3867,"Choreographer / Haejun, Tina Boo, Lia KimSong ...",Entertainment


#### 2.3.2 Busca por Parte de uma String

In [21]:
# Retorna um dataframe contendo todos os vídeos
# cujo título contenha a string s

s = 'última'
df[df.titulo.str.contains(s, case=False)] #ignora minusc/maiusc

Unnamed: 0,id_video,titulo,dt_publicacao,id_canal,canal,dt_trending,cont_views,likes,dislikes,cont_comentarios,descricao,categoria
9,g0pXKnt4OQ8,A ÚLTIMA PEÇA QUE FALTAVA PRA LIGAR A XT660,2021-02-12 15:00:31+00:00,UCs1JevIKnU4E4ULMZr-0Qog,Hugo Milgrau,2021-02-18 00:00:00+00:00,170289,30070,136,594,Me siga no Insta: @hugooficialMeu face: http:/...,Entertainment


#### 2.3.3 Busca por Data

In [26]:
## altera tipo da coluna 'dt_publicacao'
df.dt_publicacao = pd.to_datetime(df.dt_publicacao)
df.dt_trending = pd.to_datetime(df.dt_trending)

# Retorna um dataframe contendo todos os vídeos
# no período que envolve a data 'ini' e data 'fim'

ini = '2021-01-01'
fim = '2021-01-31'
masc = (df.dt_publicacao.dt.date >= pd.to_datetime(ini)) & (df.dt_publicacao.dt.date <= pd.to_datetime(fim))

# masc é uma expressão que gera um 'vetor' de True/False; este vetor é então utilizado para retornar o dataframe resultante
res = df[masc]
display(res)

  result = libops.scalar_compare(x.ravel(), y, op)


Unnamed: 0,id_video,titulo,dt_publicacao,id_canal,canal,dt_trending,cont_views,likes,dislikes,cont_comentarios,descricao,categoria
2,XjKx-kiRmQA,TIRINGA LEVA TÕE À PRAIA PELA PRIMEIRA VEZ 😂,2021-01-26 23:00:31+00:00,UCajp7rm8GPY1Lw_eVfMmmVA,CHÁCARA COMÉDIA SELVAGEM,2021-02-05 00:00:00+00:00,1880144,176786,1836,3297,CONTINUAÇÃO DO VÍDEO NO CHÁCARA COMÉDIA SELVAG...,Comedy
11,ce8roGn1KHQ,REVELANDO A CASA NOVA QUE COMPRAMOS,2021-01-14 16:39:48+00:00,UCR3vcUrhFUdzagng58ueI2w,Invento na Hora,2021-01-23 00:00:00+00:00,2781031,347261,3083,9288,🚀 A LOJA ESTÁ DE VOLTA: https://www.inventonah...,Entertainment


### 2.4 Obtendo Dados a Partir de um `Dataframe`

As buscas mostradas retornam um objeto `Dataframe` como resultado. Ainda é necessário, portanto, obter os dados
contidos no `Dataframe` para utilizá-los no restante da aplicação.

Utilize o código a seguir*, possivelmente como método privado da classe proposta no fim deste documento, de forma que o `Dataframe` resultante é convertido em uma lista de tuplas.
Cada tupla contém 12 informações, sendo elas os dados dos vídeos do Youtube.

*terá o melhor tempo de execução quando `Dataframes` grandes forem utilizados

In [27]:
s = 'fal'
df[df.titulo.str.contains(s, case=False)]

res = [tup for tup in zip(df.id_video, df.titulo,
                          df.dt_publicacao, df.id_canal,
                          df.canal, df.dt_trending,
                          df.cont_views, df.likes,
                          df.dislikes, df.cont_comentarios,
                          df.descricao, df.categoria)]

# print(res) # lista de tuplas

# Versão menos poluída, para uma melhor compreensão;
# cada tupla contém 4 campos
res = [tup for tup in zip(df.titulo,
                          df.canal,
                          df.cont_views,
                          df.categoria)]

for i, tup in enumerate(res):
    print(f'Tupla[{i}]:')
    for c in tup:
        print(f'\t{c}')
    print('')

Tupla[0]:
	Julia Franco- se você errar a resposta balde de água na cabeça
	mundo da Juju E pepê
	794011
	People & Blogs

Tupla[1]:
	Palmeiras vence o Grêmio, paulistas estreiam, Cuca no Galo e Fla reformula | Posse de Bola #104
	UOL Esporte
	115009
	Sports

Tupla[2]:
	TIRINGA LEVA TÕE À PRAIA PELA PRIMEIRA VEZ 😂
	CHÁCARA COMÉDIA SELVAGEM
	1880144
	Comedy

Tupla[3]:
	[Aula 01] 3ª Quarentena da Costura
	Diana Demarchi
	221013
	Entertainment

Tupla[4]:
	#CopaVerde - Independente x Clube do Remo
	Remo TV
	125733
	Sports

Tupla[5]:
	Matheus & Kauan - É Problema (Making Of)
	Matheus e Kauan
	54683
	Music

Tupla[6]:
	FLUZÃO NA FINAL! | FLUMINENSE 3X1 PORTUGUESA - MELHORES MOMENTOS
	Cariocão TV
	24850
	Sports

Tupla[7]:
	Priscilla Alcantara - Tem Dias
	PrisAlcantaraVEVO
	1374142
	Music

Tupla[8]:
	TIPOS DE JOGADORES #29 (EDIÇÃO ESPECIAL: TÉCNICO DE FUTEBOL)
	Banheiristas
	593637
	Sports

Tupla[9]:
	A ÚLTIMA PEÇA QUE FALTAVA PRA LIGAR A XT660
	Hugo Milgrau
	170289
	Entertainment

Tupla[10]:
	MA

## 3. Implementação Parte 1: Classes da Camada de Modelo da Aplicação

A camada de Modelo da aplicação proposta possui, a princípio, duas classes. Elas são descritas a seguir.

### 3.1 Classe `Video`

Contém todas as informações coletadas nos conjuntos de dados que dizem respeito a um vídeo do Youtube. São elas:

- Uma string única que identifica o vídeo
- O título
- A data de publicação
- Uma string única que identifica o canal
- O nome do canal
- A data em que o vídeo foi tendência
- A quantidade de visualizações (*views*)
- A quantidade de likes
- A quantidade de dislikes
- A quantidade de comentários
- A descrição do vídeo
- A categoria do vídeo (em Inglês)

Todas estas informações devem ser atributos de instância da classe `Video`. Recomenda-se utilizar os mesmos nomes dos atributos contidos no `Dataframe` Pandas (`id_video`, `titulo`, `dt_publicacao`, etc).

Como métodos, a classe deve possuir um inicializador que possibilite instanciar um objeto `Video` a partir de uma tupla com os 12 campos de um `Video`.

Implemente também os métodos `__str__` (e/ou `__repr__`).

### 3.2 Classe `BaseDeDados`

Contém um `Dataframe` Pandas encapsulado como o seu atributo de instância. Um objeto desta classe é capaz de realizar buscas por objetos da classe `Video` que atendam a critérios específicos.

Como métodos da interface pública, a classe deve possibilitar:
- Inicializar o objeto a partir do nome de um arquivo .csv
- Listar as categorias de vídeos presentes no `Dataframe`
  (método já implementado)
- Retornar listas de instâncias da classe `Video` resultantes de:
    - Todos os vídeos presentes no `Dataframe`
    - Busca por título do vídeo
    - Busca por nome do canal do vídeo
    - Busca por categoria do vídeo
    - Busca por período (data de início e data de fim) em que o vídeo foi publicado

É sugerido que você implemente um método privado que tenha a funcionalidade de converter um `Dataframe`
em uma lista de instâncias da classe `Video`, utilizando para isto o código da Seção 2.4.

In [None]:
import pandas as pd

class Video:
    '''
    Representa um vídeo do Youtube.
    '''
    
    pass

class BaseDeDados:
    '''
    Representa uma Base de Dados,
    responsável por realizar consultas
    em um arquivo Pandas.Dataframe.
    '''
    
    def __init__(self, nome_arq):
        '''
        Inicializa uma base de dados
        com o nome do arquivo (.csv)
        '''
        ## abre o dataframe e o atribui a um atributo de instância
        
        ## VEJA SEÇÃO 2.3.3 altera tipo das colunas data
        
        ## SUBSTITUA df ABAIXO pelo atributo de instância
        ## correspondente ao dataframe
        print(f'Arquivo: {nome_arq}')
        print(f'Possui dados dos vídeos em tendência no Youtube BR')
        print(f'Total de vídeos: {len(df)}')
        print(f'Período: {df.dt_publicacao.min()} até {df.dt_publicacao.max()}')
        print(f'Dados dos vídeos:')
        for c in df.columns.to_list():
            print(c, end=', ')
    
    def lista_categorias(self):
        '''
        Retorna lista contendo todas as categorias
        presentes no dataframe.
        '''
        
        ## SUBSTITUA df ABAIXO pelo atributo de instância
        ## correspondente ao dataframe
        return list(df.categoria.unique())
        
if __name__ == '__main__':
    ld = BaseDeDados('BR_youtube_trending_data_p1.csv')
    #print(ld.lista_categorias())
    #res = ld.busca_por_titulo('fla')
    #res = ld.busca_por_canal('espor')
    #res = ld.busca_por_categoria('SPORTS') # também pode ser informado um nr. inteiro
    res = ld.busca_por_periodo('2020-11-01', '2020-11-30')
    
    print('\n\n\n')
    for v in res:
      print(v)

#### Resultado da Execução

```
Arquivo: BR_youtube_trending_data_p1.csv
Possui dados dos vídeos em tendência no Youtube BR
Total de vídeos: 20
Período: 2020-08-12 15:05:59+00:00 até 2021-08-06 14:00:10+00:00
Dados dos vídeos:
id_video, titulo, dt_publicacao, id_canal, canal, dt_trending, cont_views, likes, dislikes, cont_comentarios, descricao, categoria, 



Diana Demarchi
[Aula 01] 3ª Quarentena da Costura
Entertainment
Views: 221013
Comentarios: 4373
Likes: 15645
Publicado em 4/11/2020
----------------------------------------------
Matheus e Kauan
Matheus & Kauan - É Problema (Making Of)
Music
Views: 54683
Comentarios: 91
Likes: 4023
Publicado em 14/11/2020
----------------------------------------------
A Fazenda
Jô, ela sempre falou mal de você, dispara Mateus sobre Lidi | A Fazenda 12
Entertainment
Views: 518764
Comentarios: 8759
Likes: 18031
Publicado em 25/11/2020
----------------------------------------------
```