# Setings

Bibliotecas usadas:

- datetime
- pandas
- matplotlib

- sys
- json
- glob

- webvtt

Outros:

- Youtube API (https://developers.google.com/youtube/v3)
- Youtube-dl (https://youtube-dl.org/)

## Configurações básicas 

- Bibliotecas usadas
- Diretórios e locais de trabalho

In [1]:
# Bibliotecas usadas

"""
Caso não tenha algumas das bibliotecas instaladas digitar "!pip install". Exemplo: !pip install os. 
Exceção para os casos YoutubeAPI e Youtube-dl. Nesses casos, acessar os links indicados e verificar os documentos disponíveis. 
"""

import os
import pandas as pd
from matplotlib import pyplot as plt

import sys
import datetime
import json
import glob

import webvtt

In [2]:
# Diretórios e locais de trabalho

cwd = os.getcwd()
#print(cwd)

In [3]:
# Definir diretórios e locais de trabalho

BASE_DIR = os.path.dirname(cwd) # base de trabalho
DATA_DIR = os.path.join(BASE_DIR, "data") # dados gerais levantados durante projeto
META_DIR = os.path.join(BASE_DIR, "metadados") #metadados levantados durante projeto
CACHE_DIR = os.path.join(BASE_DIR, "cache") # material em processo - pode ser apagado ao final, caso julgue necessário
LINK_DIR = os.path.join(BASE_DIR, "links") # material em processo - pode ser apagado ao final, caso julgue necessário
SUB_DIR = os.path.join(CACHE_DIR, "subs") # local de trabalho para processamento de legenda
VID_DIR = os.path.join(CACHE_DIR, "vids") # local de trabalho para processamento de legenda

# Criar diretórios e locais de trabalho

os.makedirs(DATA_DIR, exist_ok=True)
os.makedirs(META_DIR, exist_ok=True)
os.makedirs(CACHE_DIR, exist_ok=True)
os.makedirs(SUB_DIR, exist_ok=True)
os.makedirs(VID_DIR, exist_ok=True)
os.makedirs(LINK_DIR, exist_ok=True)

In [44]:
#os.listdir(BASE_DIR)

In [4]:
#contexto
now = datetime.datetime.now()
year = datetime.datetime.now().year
day = datetime.datetime.now().day
month = datetime.datetime.now().month

context = f"_{month}-{day}-{year}"

In [7]:
#print(context)

# Levantar metadados de vídeos de um canal

- Selecionar link de corpus
    - lives da semana
    - canal de Jair Bolsonaro
   
- Levantar os metadados de cada vídeo - base: links de vídeos / ferramenta: youtube-dl
- Criar documento único
- Criar Data Frame
- Salvar documento em .csv

### Selecionar link de corpus

- lives da semana

In [5]:
# Criar função para selecionar link de corpus

def link_graber(open_file, save_file):
    df = pd.read_csv(f"{DATA_DIR}/{open_file}")
    
    links = df.Link
    
    links.to_csv(f"{LINK_DIR}/{save_file}", header=False, index=False)

In [6]:
# Parametros para lives da semana em link_graber

open_file = f"JairChannel_corpusLives{context}.csv"
save_file = f"JairChannel_corpusLives_LINKS{context}.csv"

link_graber(open_file, save_file)


### Selecionar link de corpus
- canal de Jair Bolsonaro

In [7]:
# Parametros para canal de Jair Bolsonaro em link_graber

open_file = f"JairChannel_corpus{context}.csv"
save_file = f"JairChannel_corpusCanal_LINKS{context}.csv"

link_graber(open_file, save_file)

# Metadados

### Metadados - vídeos de Lives

- Levantar os metadados de cada vídeo 
- base: "JairChannel_corpusLives_LINKS{context}.csv"
- ferramenta: youtube-dl (escolhemos usar essa ferramenta pela facilidade e por levantar dados que não são incluídos na api do youtube (v3), commo tags por exemplo.

In [8]:
# JairChannel_corpusLives_LINKS{context}.csv

title = f"JairChannel_corpusLives_LINKS{context}.csv"
df = pd.read_csv(f"{LINK_DIR}/{title}")

In [9]:
len(df)

96

In [12]:
# Levantar no diretório de cache todos metadados de cada vídeo - youtube-dl 
# youtube-dl: de um arquivo  (com links de vídeos do youtube) [-a] baixar info em json [--write-info-json], ignorar erros [-i], não baixar os vídeos em si [--skip-download], salvar os arquivos e nomeá-los com o id do vídeo [--id]

processing_dir = SUB_DIR

os.chdir(processing_dir)
os.system(f"youtube-dl -a {LINK_DIR}/{title} --id --write-info-json -i --skip-download")

0

In [58]:
# Criar documento único
## listar em diretório todos os documentos terminados em '.json'

json_dir = processing_dir
json_root = os.path.join(json_dir, "*.json")
file_list = glob.glob(json_root)

# len(file_list)

2627

In [59]:
# Criar documento único
## 1. a partir de lista de documentos '.json' estabelecer um único documento json - 'merge_file2021.json'

results = []

for f in file_list: 
    with open(f, 'r') as infile:
        json_file = json.load(infile)
        results.append(json_file)

In [61]:
print(results)

IOPub data rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_data_rate_limit`.

Current values:
NotebookApp.iopub_data_rate_limit=1000000.0 (bytes/sec)
NotebookApp.rate_limit_window=3.0 (secs)



In [47]:
# Criar documento único
## 2. a partir de lista de documentos '.json' estabelecer um único documento json - 'merge_file2021.json'

with open('merge_file2021.json', 'w') as outfile:
    json.dump(results, outfile)

In [48]:
# Criar documento único
## 3. a partir de lista de documentos '.json' estabelecer um único documento json - 'merge_file2021.json'

with open("merge_file2021.json") as f:
  data = json.load(f)

In [49]:
# Criar Data Frame
## a partir do documento json - 'merge_file2021.json', criar Data Frame
### key value pairs / json: videoId, uploader, uploader_id, uploader_url, channel_id, channel_url, upload_date, license, creator, title, description, categories, tags, duration, age_limit, annotations, chapters, videoLink, view_count, like_count, dislike_count, average_rating, is_live, start_time, end_time, series, playlist, playlist_index
## salvar Data Frame na pasta metadados - META_DIR

df_merged_data = []

for d in data:
        videoId = d['id']
        uploader = str.lower(d['uploader'])
        uploader_id = d['uploader_id']
        uploader_url = d['uploader_url']
        channel_id = d['channel_id']
        channel_url = d['channel_url']
        upload_date = d['upload_date']
        license = d['license']
        creator = d['creator']
        title = str.lower(d['title'])
        description = str.lower(d['description'])
        categories = d['categories']
        tags = d['tags']
        duration = d['duration']
        age_limit = d['age_limit']
        annotations = d['annotations']
        chapters = d['chapters']
        videoLink = d['webpage_url']
        view_count = d['view_count']
        like_count = d['like_count']
        dislike_count = d['dislike_count']
        average_rating = d['average_rating']
        is_live = d['is_live']
        start_time = d['start_time']
        end_time = d['end_time']
        series = d['series']
        playlist = d['playlist']
        playlist_index = d['playlist_index']
        
        df_merged_data.append((videoId, uploader, uploader_id, uploader_url, channel_id, channel_url, upload_date, license, creator, title, description, categories, tags, duration, age_limit, annotations, chapters, videoLink, view_count, like_count, dislike_count, average_rating, is_live, start_time, end_time, series, playlist, playlist_index))
        
df_merged_data = pd.DataFrame(df_merged_data, columns=['videoId', 'uploader', 'uploader_id', 'uploader_url', 'channel_id', 'channel_url', 'upload_date', 'license', 'creator', 'title', 'description', 'categories', 'tags', 'duration', 'age_limit', 'annotations', 'chapters', 'videoLink', 'view_count', 'like_count', 'dislike_count', 'average_rating', 'is_live', 'start_time', 'end_time', 'series', 'playlist', 'playlist_index'])
df_merged_data.upload_date = pd.to_datetime(df_merged_data.upload_date)

df_merged_data.to_csv(f"{META_DIR}/LivesBolsonaro_Metadado{context}.csv")

TypeError: list indices must be integers or slices, not str

In [18]:
#verificar documento criado
title = f"LivesBolsonaro_Metadado{context}.csv"
df = pd.read_csv(f"{META_DIR}/{title}")
len(df)

97

### Metadados -  de todos os vídeos de canal de Jair bolsonaro (não só as lives)

- **Apagar em cache os documentos anteriores**

- Levantar os metadados de cada vídeo do canal
- base: "JairChannel_corpusCanal_LINKS{context}.csv"
- ferramenta: youtube-dl (escolhemos usar essa ferramenta pela facilidade e por levantar dados que não são incluídos na api do youtube (v3), commo tags por exemplo.



**Apagar em cache os documentos anteriores**

**Atenção**: Se desejar mantar os arquivos json com metadados individuais, pular próxima célula 

In [19]:
# Apagar em cache os documentos anteriores

dircache = os.chdir(SUB_DIR)
RESET = os.listdir(dircache) 

for item in RESET:
    if item.endswith(".json"):
        os.remove(item)

In [22]:
# JairChannel_corpusCanal_LINKS{context}.csv

title = f"JairChannel_corpusCanal_LINKS{context}.csv"
df = pd.read_csv(f"{LINK_DIR}/{title}")
#print(df)

In [24]:
# Levantar no diretório de cache todos metadados de cada vídeo - youtube-dl 
# youtube-dl: de um arquivo  (com links de vídeos do youtube) [-a] baixar info em json [--write-info-json], ignorar erros [-i], não baixar os vídeos em si [--skip-download], salvar os arquivos e nomeá-los com o id do vídeo [--id]

processing_dir = SUB_DIR
os.chdir(processing_dir)
os.system(f"youtube-dl -a {LINK_DIR}/{title} --id --write-info-json -i --skip-download")

256

In [37]:
# Criar documento único
## listar em diretório todos os documentos terminados em '.json'

json_dir = SUB_DIR
json_root = os.path.join(json_dir, "*.json")
file_list = glob.glob(json_root)
# print(file_list)

In [38]:
# Criar documento único
## 1. a partir de lista de documentos '.json' estabelecer um único documento json - 'merge_file2021.json'

results = []

for f in file_list: 
    with open(f, 'r') as infile:
        json_file = json.load(infile)
        results.append(json_file)

In [39]:
# Criar documento único
## 2. a partir de lista de documentos '.json' estabelecer um único documento json - 'merge_file2021.json'

with open('merge_file2021.json', 'w') as outfile:
    json.dump(results, outfile)

In [40]:
# Criar documento único
## 3. a partir de lista de documentos '.json' estabelecer um único documento json - 'merge_file2021.json'

with open("merge_file2021.json") as f:
  data = json.load(f)

In [55]:
# Criar Data Frame
## a partir do documento json - 'merge_file2021.json', criar Data Frame
### key value pairs / json: videoId, uploader, uploader_id, uploader_url, channel_id, channel_url, upload_date, license, creator, title, description, categories, tags, duration, age_limit, annotations, chapters, videoLink, view_count, like_count, dislike_count, average_rating, is_live, start_time, end_time, series, playlist, playlist_index
## salvar Data Frame na pasta metadados - META_DIR

df_merged_data = []

for d in data:
        videoId = d['id']
        uploader = str.lower(d['uploader'])
        uploader_id = d['uploader_id']
        uploader_url = d['uploader_url']
        channel_id = d['channel_id']
        channel_url = d['channel_url']
        upload_date = d['upload_date']
        license = d['license']
        creator = d['creator']
        title = str.lower(d['title'])
        description = str.lower(d['description'])
        categories = d['categories']
        tags = d['tags']
        duration = d['duration']
        age_limit = d['age_limit']
        annotations = d['annotations']
        chapters = d['chapters']
        videoLink = d['webpage_url']
        view_count = d['view_count']
        like_count = d['like_count']
        dislike_count = d['dislike_count']
        average_rating = d['average_rating']
        is_live = d['is_live']
        start_time = d['start_time']
        end_time = d['end_time']
        series = d['series']
        playlist = d['playlist']
        playlist_index = d['playlist_index']
        
        df_merged_data.append((videoId, uploader, uploader_id, uploader_url, channel_id, channel_url, upload_date, license, creator, title, description, categories, tags, duration, age_limit, annotations, chapters, videoLink, view_count, like_count, dislike_count, average_rating, is_live, start_time, end_time, series, playlist, playlist_index))
        
df_merged_data = pd.DataFrame(df_merged_data, columns=['videoId', 'uploader', 'uploader_id', 'uploader_url', 'channel_id', 'channel_url', 'upload_date', 'license', 'creator', 'title', 'description', 'categories', 'tags', 'duration', 'age_limit', 'annotations', 'chapters', 'videoLink', 'view_count', 'like_count', 'dislike_count', 'average_rating', 'is_live', 'start_time', 'end_time', 'series', 'playlist', 'playlist_index'])
df_merged_data.upload_date = pd.to_datetime(df_merged_data.upload_date)

TypeError: list indices must be integers or slices, not str

In [None]:
df_merged_data.to_csv(f"{META_DIR}/CanalBolsonaro_Metadado{context}.csv")

#verificar documento criado
title = f"CanalBolsonaro_Metadado{context}.csv"
df = pd.read_csv(f"{META_DIR}/{title}")
len(df)

In [38]:
# Apagar em cache os documentos anteriores

dircache = os.chdir(SUB_DIR)
RESET = os.listdir(dircache) 

for item in test:
    if item.endswith(".json"):
        os.remove(item)

# Explorar documentos 

- documento criados: LivesBolsonaro e CanalBolsonaro


In [106]:
CanalBolsonaro = f"CanalBolsonaro_Metadado{context}.csv"
Canal_df = pd.read_csv(f"{META_DIR}/{CanalBolsonaro}")

In [107]:
Canal_df.shape

(2610, 29)

In [108]:
LivesBolsonaro = f"LivesBolsonaro_Metadado{context}.csv"
Live_df = pd.read_csv(f"{META_DIR}/{LivesBolsonaro}")

In [109]:
Live_df.shape

(96, 29)

## As tags de Bolsonaro

In [123]:
ctags = Canal_df.dropna(subset=['tags'])
ctag = ctags.loc[:, ~ctags.columns.str.contains('^Unnamed')]
ctag.drop(['uploader','videoId', 'uploader_id', 'uploader_url', 'channel_id', 'channel_url', 'license', 'creator', 'duration', 'age_limit', 'annotations', 'chapters', 'is_live', 'start_time', 'end_time','series', 'playlist', 'playlist_index'], axis=1, inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  return super().drop(


In [124]:
len(ctags)

1198

In [111]:
dtags = Live_df.dropna(subset=['tags'])
dtag = dtags.loc[:, ~dtags.columns.str.contains('^Unnamed')]
dtag.drop(['uploader','videoId', 'uploader_id', 'uploader_url', 'channel_id', 'channel_url', 'license', 'creator', 'duration', 'age_limit', 'annotations', 'chapters', 'is_live', 'start_time', 'end_time','series', 'playlist', 'playlist_index'], axis=1, inplace=True)

In [104]:
dtag.drop(['uploader','videoId', 'uploader_id', 'uploader_url', 'channel_id', 'channel_url', 'license', 'creator', 'duration', 'age_limit', 'annotations', 'chapters', 'is_live', 'start_time', 'end_time','series', 'playlist', 'playlist_index'], axis=1, inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  return super().drop(


In [122]:
len(dtag)

4