## CASE ZYGON

##### Objetivo: os objetivos deste teste são para avaliar suas habilidades de codificação, sua experiência técnica e entender como você projeta uma solução. Além disso, você terá uma noção de como é uma parte da rotina da vaga em que estará atuando.

##### Avaliação: você será avaliado em como apresenta padrão de codificação, comentários e estilo, além do design geral da solução.

##### Instruções:
    · Crie uma conta gratuita no GCP. Apesar de ser solicitado um cartão de crédito, a cobrança não é efetuada. Caso já tenha utilizado os créditos gratuitos da sua conta, indicamos que seja utilizado um novo e-mail: https://cloud.google.com/free
    · O candidato deve colocar os resultados de seus testes em um repositório de código público hospedado no Github.
    · Quando o teste for concluído, compartilhe a URL do repositório do Github com a equipe de contratação para avaliação do trabalho.
    Objetivo:
    · Desenvolver uma solução em linguagem Python que colete dados de uma playlist do Youtube através da API do Youtube. Faça o tratamento dos dados (caso necessário) e gere um arquivo de saída em formato CSV. Todas essas etapas devem estar em um único código.
    · Playlist do YouTube: https://www.youtube.com/playlist?list=PLMC9KNkIncKvYin_USF1qoJQnIyMAfRxl
    Bônus:
    · Armazenar também os dados coletados em uma tabela no BigQuery


##### Detalhes:
A base de dados deve conter os seguintes dados:

    o Id do vídeo;
    o Título do vídeo;
    o Descrição do vídeo;
    o Data de publicação do vídeo;
    o Quantidade de Likes;
    o Quantidade de Views;
    o Quantidade de comentários;
    o Url da Thumbnail

## PREPARAÇÃO DO AMBIENTE

In [1]:
# INSTALANDO PACOTES
!pip install -q google-cloud-secret-manager
!pip install -q gcsfs

[0m

In [2]:
# IMPORTANDO BIBLIOTECAS
import os
import csv
import json
import tempfile
import pandas as pd
import datetime as dt

import googleapiclient.discovery as gDisc

from pathlib import Path

from google.cloud import storage
from google.cloud import secretmanager

from googleapiclient.discovery import build

from oauth2client.client import GoogleCredentials as gCredentials

## PARÂMETROS

In [3]:
# CHAVES - PARÂMETROS GERAIS
smsClient = secretmanager.SecretManagerServiceClient()
secret_version = "latest"
projectId = "pszygon"

# CHAVE BUCKET
comptDef = "key000"

comptDefAcc = smsClient.access_secret_version(name= f"projects/{projectId}/secrets/{comptDef}/versions/{secret_version}")
bucketKey = comptDefAcc.payload.data.decode("utf-8")

temp_file = Path(tempfile.gettempdir()) / "bucketServiceAccount.json"
with temp_file.open(mode="w") as bucketFile:
    json.dump(bucketKey, bucketFile)

# CHAVE CONTA SERVIÇO (service account)
saccSecret = "key001"

saccAccount = smsClient.access_secret_version(name= f"projects/{projectId}/secrets/{saccSecret}/versions/{secret_version}")
saccKey = saccAccount.payload.data.decode("utf-8")

# CHAVE API YOUTUBE
youtubeSecret = "key002"

youtubeAccount = smsClient.access_secret_version(name= f"projects/{projectId}/secrets/{youtubeSecret}/versions/{secret_version}")
youtubeKey = youtubeAccount.payload.data.decode("utf-8")

# BUCKET 
bucketName = "pszygon-youtube" 

# CSV
output_raw = "youtubeData-raw.csv" 
output_target = "youtubeData-processed.csv"

### CONEXÕES

In [4]:
# BUCKET

client = storage.Client()
bucket = client.get_bucket(bucketName)

# API-YOUTUBE

uTubeApi = gDisc.build("youtube", "v3", developerKey=youtubeKey)

### TARGET

In [5]:
# PLAYLIST ALVO

url = "https://www.youtube.com/playlist?list=PLMC9KNkIncKvYin_USF1qoJQnIyMAfRxl"

# EXTRAÇÃO DO ID DA PLAYLIST
target = url.split("=")[1]

### REQUISIÇÃO E EXECUÇÃO DA EXTRAÇÃO

In [6]:
# PARAMETROS DA REQUISIÇÃO API-YOUTUBE
parameters = {
    "part": "snippet, contentDetails",
    "playlistId" : target, 
    "maxResults" : 50}

# REQUISIÇÕES E EXECUÇÃO DA EXTRAÇÃO

with open(output_raw, "w", newline="") as rawData:
    writer = csv.writer(rawData, delimiter=";")

    writer.writerow(["Id do vídeo",
                     "Título do vídeo",
                     "Descrição do vídeo",
                     "Data de publicação do vídeo",
                     "Quantidade de Likes",
                     "Quantidade de Views",
                     "Quantidade de comentários",
                     "Url da Thumbnail"])

    while True:

        request = uTubeApi.playlistItems().list(**parameters).execute()

        for video in request["items"]:
            idvideo = video["contentDetails"].get("videoId")
            titulo = video["snippet"].get("title")
            descricao = video["snippet"].get("description")
            lancamento = video["contentDetails"].get("videoPublishedAt")

            newRequest = uTubeApi.videos().list(part="snippet, statistics", id=idvideo).execute()
            
            for item in newRequest["items"]:
                joinhas = item["statistics"].get("likeCount")
                visualizacoes = item["statistics"].get("viewCount")
                comentarios = item["statistics"].get("commentCount")
                thumbnail = item["snippet"].get("thumbnails")

                writer.writerow([idvideo, titulo, descricao, lancamento, joinhas, visualizacoes, comentarios, thumbnail])

        morePages = request.get("nextPageToken")
        
        if not morePages:
            break
        else:
            parameters["pageToken"] = morePages
    
    rawData.close()

HttpError: <HttpError 403 when requesting https://youtube.googleapis.com/youtube/v3/playlistItems?part=snippet%2C+contentDetails&playlistId=PLMC9KNkIncKvYin_USF1qoJQnIyMAfRxl&maxResults=50&key=AIzaSyAQwew7hJ2T_zVwVWOZRQxNveRdfIWV4bU&alt=json returned "The request cannot be completed because you have exceeded your <a href="/youtube/v3/getting-started#quota">quota</a>.">

### TRATAMENTO DE DADOS

In [7]:
# DATAFRAME DO ARQUIVO BRUTO - CSV
df = pd.read_csv(output_raw, sep = ";")

# VARIÁVEL DE BACKUP PARA DATAFRAME - SEM TRATAMENTO
raw = df

In [8]:
# EXIBINDO INFORMAÇÕE SOBRE O DATAFRAME
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 180 entries, 0 to 179
Data columns (total 8 columns):
 #   Column                       Non-Null Count  Dtype  
---  ------                       --------------  -----  
 0   Id do vídeo                  180 non-null    object 
 1   Título do vídeo              180 non-null    object 
 2   Descrição do vídeo           180 non-null    object 
 3   Data de publicação do vídeo  180 non-null    object 
 4   Quantidade de Likes          179 non-null    float64
 5   Quantidade de Views          180 non-null    int64  
 6   Quantidade de comentários    180 non-null    int64  
 7   Url da Thumbnail             180 non-null    object 
dtypes: float64(1), int64(2), object(5)
memory usage: 11.4+ KB


In [9]:
# SUBSTITUINDO VALORES NULOS
for i in df.columns:
    df[i].fillna(0, inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df[i].fillna(0, inplace=True)


In [10]:
# CRIAÇÃO DE LISTAS PARA TRATAMENTO DE COLUNAS 

# DATAS
datas = df['Data de publicação do vídeo'].to_list() 
dateBr = []
timeBr = []

# THUMBNAIL
urls = df['Url da Thumbnail'].to_list()
thumbnail_url = []

In [11]:
# PREENCHIMENTO DE LISTAS DE DATA E DE HORA
for n in datas:
    x = n.split('T')
    y = dt.datetime.strptime(x[0], "%Y-%m-%d")
    z = y.strftime("%d/%m/%Y")
    
    dateBr.append(z)
    
    w = x[1].split('Z')
    
    timeBr.append(w[0])


In [12]:
# ELIMINANDO COLUNA (REPOSICIONAMENTO)
df = df.drop(['Data de publicação do vídeo'], axis = 1)

In [13]:
#PREENCHIMENTO DE LISTA THUMBNAIL-URL
for url in urls:
    k = url.split("'")
    
    thumbnail_url.append(k[5])


In [14]:
# TRABALHANDO COM DADOS E REPOSICIONAMENTO DE COLUNAS 

df['Url da Thumbnail'] = thumbnail_url

df['Hora de publicação do vídeo (ISO 8601)'] = timeBr

df['Data de publicação do vídeo'] = dateBr

In [17]:
# CONVERTANDO DADOS FLOAT PARA INT

df['Quantidade de Likes'] = df['Quantidade de Likes'].apply(lambda x: int(x))

### CARREGANDO DADOS NA BUCKET

In [21]:
raw.to_csv('gs://pszygon-youtube/raw/' + output_raw, index = False)

In [22]:
df.to_csv('gs://pszygon-youtube/processed/' + output_target, index = False)