# POO - Projeto Final - Parte 1

Primeiramente, este documento apresenta o que é proposto
no projeto final da disciplina.

Em seguida, é apresentado como se trabalhar com
a biblioteca `Pandas`, que será essencial
na implementação proposta.

As classes a serem implementadas são mostradas
na última seção deste documento.

Para elaboração deste roteiro, os seguintes links
foram utilizados como referências:

- [Kaggle - YouTube Trending Video Dataset (updated daily)](https://www.kaggle.com/rsrishav/youtube-trending-video-dataset)
- [Pandas tutorial and cheat sheet](https://www.kaggle.com/yogidsba/pandas-tutorial-and-cheat-sheet)

## 1. Projeto Final - Visualização de Dados de Vídeos do Youtube

O projeto final da disciplina tem como objetivo visualizar dados relativos aos vídeos do Youtube que foram tendência (*trending videos*) no Brasil em um determinado período.

Especificamente, você deve implementar uma aplicação com interface gráfica Tkinter em Python com as funcionalidades
a seguir.

Exibir em tabela:
- O total de vídeos no conjunto de dados
- Todos os dados de $$n$$ vídeos
- Todos os canais que possuem vídeos no conjunto de dados
- Todas as categorias dos vídeos no conjunto de dados
- Os vídeos ordenados por likes, comentários, etc.

Permitir:
- Exibir os vídeos de um canal
- Exibir os vídeos de uma categoria
- Buscar vídeos por título
- Buscar vídeos por período

Exibir gráficos contendo:
- Canais com mais views (gráfico de barras)
- Vídeos com mais views (gráfico de barras)
- Relação entre views/comentários (scatter)
- Relação entre views/likes (scatter)

Links dos arquivos:

- Arquivos de testes (cada um contém 20 vídeos selecionados aleatoriamente):
    - [BR_youtube_trending_data_p1.csv](https://raw.githubusercontent.com/ect-info/POO_2021.1/master/docs/15-projeto_final1/BR_youtube_trending_data_p1.csv)
    - [BR_youtube_trending_data_p2.csv](https://raw.githubusercontent.com/ect-info/POO_2021.1/master/docs/15-projeto_final1/BR_youtube_trending_data_p2.csv)
    - [BR_youtube_trending_data_p3.csv](https://raw.githubusercontent.com/ect-info/POO_2021.1/master/docs/15-projeto_final1/BR_youtube_trending_data_p3.csv)
    
- Arquivo completo (contém muitos dados e dificulta a depuração, utilize-o na versão final do seu programa)
    - [BR_youtube_trending_data_completo.csv](https://raw.githubusercontent.com/ect-info/POO_2021.1/master/docs/15-projeto_final1/BR_youtube_trending_data_completo.csv)

## 2. Utilização da Biblioteca Pandas

A biblioteca Pandas constitui hoje uma das principais ferramentas utilizadas na área de Ciências de Dados.

A principal classe da biblioteca é a classe `Dataframe`.
Um `Dataframe` é uma classe que representa um conjunto de dados de forma tabular.

A classe `Dataframe` possui funcionalidades para, dentre outras coisas, carregar dados de arquivos no disco, visualizar gráficos/estatísticas relacinados aos dados e realizar buscas seguindo critérios específicos. Esta última funcionalidade será a principal a ser utilizada na primeira parte do projeto.

Observe a seguir os comandos que você deverá utilizar na implementação das classes a serem implementadas para conceber a aplicação.

### 2.1 Abrindo Conjunto de Dados

In [None]:
import pandas as pd

df = pd.read_csv('BR_youtube_trending_data_p1.csv')
print(f'Período: {df.dt_publicacao.min()} até {df.dt_publicacao.max()}')

### 2.2 Obtendo Informações e Exibindo um `Dataframe`

In [None]:
df.info() # mostra a tabela e informações nela contidas

In [None]:
#df.head() # mostra primeiros 5
#df.tail() # mostra últimos 5
display(df)

### 2.3 Realizando buscas em um `Dataframe`

Resumidamente, podemos dizer que um `Dataframe`
retorna um `Dataframe` resultado de uma busca
realizada com uma expressão/execução de um método
similar a uma chave de um dicionário Python.

Observe os exemplos a seguir.

#### 2.3.1 Busca por String Exata

In [None]:
# Retorna um dataframe contendo todos os vídeos
# cuja categoria seja igual à string s

# As categorias do Youtube são tabeladas e neste
# dataset, segue o dicionário a seguir
categ = {'29': 'Nonprofits & Activism',
         '1': 'Film & Animation', 
         '2': 'Autos & Vehicles', 
         '10': 'Music', 
         '15': 'Pets & Animals', 
         '17': 'Sports', 
         '18': 'Short Movies', 
         '19': 'Travel & Events', 
         '20': 'Gaming', 
         '21': 'Videoblogging', 
         '22': 'People & Blogs', 
         '23': 'Comedy', 
         '24': 'Entertainment', 
         '25': 'News & Politics', 
         '26': 'Howto & Style', 
         '27': 'Education', 
         '28': 'Science & Technology', 
         '30': 'Movies', 
         '31': 'Anime/Animation', 
         '32': 'Action/Adventure', 
         '33': 'Classics', 
         '34': 'Comedy', 
         '35': 'Documentary', 
         '36': 'Drama', 
         '37': 'Family', 
         '38': 'Foreign', 
         '39': 'Horror', 
         '40': 'Sci-Fi/Fantasy', 
         '41': 'Thriller', 
         '42': 'Shorts', 
         '43': 'Shows', 
         '44': 'Trailers'}

s = categ['10']
#print(type(df[df.categoria == s]))
df[df.categoria == s]

#### 2.3.2 Busca por Parte de uma String

In [None]:
# Retorna um dataframe contendo todos os vídeos
# cujo título contenha a string s

s = 'fal'
df[df.titulo.str.contains(s, case=False)] #ignora minusc/maiusc

#### 2.3.3 Busca por Data

In [None]:
## altera tipo da coluna 'dt_publicacao'
df.dt_publicacao = pd.to_datetime(df.dt_publicacao)
df.dt_trending = pd.to_datetime(df.dt_trending)

# Retorna um dataframe contendo todos os vídeos
# no período que envolve a data 'ini' e data 'fim'

ini = '2020-11-01'
fim = '2020-11-30'
masc = (df.dt_publicacao.dt.date >= pd.to_datetime(ini)) & (df.dt_publicacao.dt.date <= pd.to_datetime(fim))

# masc é uma expressão que gera um 'vetor' de True/False; este vetor é então utilizado para retornar o dataframe resultante
df[masc]

### 2.4 Obtendo Dados a Partir de um `Dataframe`

As buscas mostradas retornam um objeto `Dataframe` como resultado. Ainda é necessário, portanto, obter os dados
contidos no `Dataframe` para utilizá-los no restante da aplicação.

Utilize o código a seguir*, possivelmente como método privado da classe proposta no fim deste documento, de forma que o `Dataframe` resultante é convertido em uma lista de tuplas.
Cada tupla contém 12 informações, sendo elas os dados dos vídeos do Youtube.

*terá o melhor tempo de execução quando `Dataframes` grandes forem utilizados

In [None]:
s = 'fal'
df[df.titulo.str.contains(s, case=False)]

# res = [tup for tup in zip(df.id_video, df.titulo,
#                           df.dt_publicacao, df.id_canal,
#                           df.canal, df.dt_trending,
#                           df.cont_views, df.likes,
#                           df.dislikes, df.cont_comentarios,
#                           df.descricao, df.categoria)]

#print(res) # lista de tuplas

# Versão menos poluída, para uma melhor compreensão;
# cada tupla contém 4 campos
res = [tup for tup in zip(df.titulo,
                          df.canal,
                          df.cont_views,
                          df.categoria)]

for i, tup in enumerate(res):
    print(f'Tupla[{i}]:')
    for c in tup:
        print(f'\t{c}')
    print('')

## 3. Implementação Parte 1: Classes do Modelo da Aplicação

A camada de Modelo da aplicação proposta possui, a princípio, duas classes. Elas são descritas a seguir.

### 3.1 Classe `Video`

Contém todas as informações coletadas nos conjuntos de dados que dizem respeito a um vídeo do Youtube. São elas:

- Uma string única que identifica o vídeo
- O título
- A data de publicação
- Uma string única que identifica o canal
- A data em que o vídeo foi tendência
- A quantidade de visualizações (*views*)
- A quantidade de likes
- A quantidade de dislikes
- A quantidade de comentários
- A descrição do vídeo
- A categoria do vídeo (em Inglês)

Todas estas informações devem ser atributos de instância da classe `Video`. Recomenda-se utilizar os mesmos nomes dos atributos contidos no `Dataframe` Pandas (`id_video`, `titulo`, `dt_publicacao`, etc).

Como métodos, a classe deve possuir um inicializador que possibilite instanciar um objeto `Video` a partir de uma tupla com os 12 campos de um `Video`.

Implemente também os métodos `__str__` (e/ou `__repr__`).

### 3.2 Classe `BaseDeDados`

Contém um `Dataframe` Pandas encapsulado como o seu atributo de instância. Com isto, um objeto da classe é capaz de realizar buscas e retornar listas de objetos da classe `Video` que possuam campos específicos.

Como métodos da interface pública, a classe deve possibilitar:
- Inicializar o objeto a partir do nome de um arquivo .csv
- Listar as categorias de vídeos presentes no `Dataframe`
  (método já implementado)
- Retornar listas de instâncias da classe `Video` resultantes de:
    - Busca por título do vídeo
    - Busca por nome do canal do vídeo
    - Busca por categoria do vídeo
    - Busca por período (data de início e data de fim) em que o vídeo foi publicado

In [None]:
import pandas as pd

class Video:
    '''
    Representa um vídeo do Youtube.
    '''
    
    pass

class BaseDeDados:
    '''
    Representa uma Base de Dados,
    responsável por prover dados de consulta
    em um arquivo Pandas.Dataframe.
    '''
    
    def __init__(self, nome_arq):
        '''
        Inicializa uma base de dados
        com o nome do arquivo (.csv)
        '''
        ## abre o dataframe e o atribui a um atributo de instância
        
        ## VEJA SEÇÃO 2.3.3 altera tipo das colunas data
        
        ## SUBSTITUA df ABAIXO pelo atributo de instância
        ## correspondente ao dataframe
        print(f'Arquivo: {nome_arq}')
        print(f'Possui dados dos vídeos em tendência no Youtube BR')
        print(f'Total de vídeos: {len(df)}')
        print(f'Período: {df.dt_publicacao.min()} até {df.dt_publicacao.max()}')
        print(f'Dados dos vídeos:')
        for c in df.columns.to_list():
            print(c, end=', ')
    
    def _df_para_lista(self, df):
        '''
        Converte Pandas.Dataframe em uma lista
        de tuplas (implementação com tempo de
        execução reduzido).
        Cada tupla na lista contém todos os
        dados de um vídeo:
        (id_video, titulo, dt_publicacao, ...
         categoria)
        '''
        
        pass
    
    def lista_categorias(self):
        '''
        Retorna lista contendo todas as categorias
        presentes no dataframe.
        '''
        
        ## SUBSTITUA df ABAIXO pelo atributo de instância
        ## correspondente ao dataframe
        return list(df.categoria.unique())
        
if __name__ == '__main__':
    ld = BaseDeDados('BR_youtube_trending_data_p1.csv')
    #print(ld.lista_categorias())
    #res = ld.busca_por_titulo('fla')
    #res = ld.busca_por_canal('espor')
    #res = ld.busca_por_categoria('SPORTS')
    res = ld.busca_por_periodo('2020-11-01', '2020-11-30')
    
    print('\n\n\n')
    for v in res:
      print(v)

#### Resultado da Execução

```
Arquivo: BR_youtube_trending_data_p1.csv
Possui dados dos vídeos em tendência no Youtube BR
Total de vídeos: 20
Período: 2020-08-12 15:05:59+00:00 até 2021-08-06 14:00:10+00:00
Dados dos vídeos:
id_video, titulo, dt_publicacao, id_canal, canal, dt_trending, cont_views, likes, dislikes, cont_comentarios, descricao, categoria, 



Diana Demarchi
[Aula 01] 3ª Quarentena da Costura
Entertainment
Views: 221013
Comentarios: 4373
Likes: 15645
Publicado em 4/11/2020
----------------------------------------------
Matheus e Kauan
Matheus & Kauan - É Problema (Making Of)
Music
Views: 54683
Comentarios: 91
Likes: 4023
Publicado em 14/11/2020
----------------------------------------------
A Fazenda
Jô, ela sempre falou mal de você, dispara Mateus sobre Lidi | A Fazenda 12
Entertainment
Views: 518764
Comentarios: 8759
Likes: 18031
Publicado em 25/11/2020
----------------------------------------------
```