In [None]:
%ls

[0m[01;34mdrive[0m/  [01;34msample_data[0m/


In [None]:
%cd /content/drive/MyDrive/projeto-final-vamoai

/content/drive/MyDrive/projeto-final-vamoai


### Importando bibliotecas necessárias para criação e modificações no Dataframe

In [None]:
import pandas as pd
import json
import csv

In [None]:
from pandas import json_normalize
from pathlib import Path
from datetime import datetime

### Criando a conexão com o arquivo no google drive e criando um dataframe

In [None]:
p = Path(r'/content/drive/MyDrive/projeto-final-vamoai/histórico-de-visualização.json')
with p.open('r', encoding='utf-8') as f:
    data = json.loads(f.read())
df = pd.json_normalize(data)


### Transformando JSON em Dataframe, apagando as colunas que não desejo utilizar e criando um segundo dataframe

In [None]:
visualizacao_youtube = pd.json_normalize(data)
visualizacao_youtube.drop(columns=['header','titleUrl','products','details'], inplace=True )

### Eliminando valores nulos

In [None]:
visualizacao_youtube.dropna(inplace=True)

### Redefinindo o index

In [None]:
visualizacao_youtube.reset_index(inplace=True)

### Apagando as o indice


In [None]:
visualizacao_youtube.drop(columns='index', inplace=True)

### Consultando o Dataframe

In [None]:
visualizacao_youtube.head()

Unnamed: 0,title,subtitles,time
0,Watched História da vida de Santa Brígida da S...,"[{'name': 'Expedição 19', 'url': 'https://www....",2021-07-19T22:30:43.073Z
1,Watched A Regra mais Importante do STORYTELLIN...,"[{'name': 'Fantástica Fábrica Criativa', 'url'...",2021-07-19T04:48:09.570Z
2,Watched Gabrielle Aplin - Home (Official Video),"[{'name': 'Gabrielle Aplin VEVO', 'url': 'http...",2021-07-19T01:22:56.032Z
3,Watched Python JSON to CSV conversion,"[{'name': 'DevNami', 'url': 'https://www.youtu...",2021-07-18T02:53:51.073Z
4,Watched Json to csv convert using python easily,"[{'name': 'IT TECH TARUN', 'url': 'https://www...",2021-07-18T02:44:07.432Z


### Consultando os tipos de dados do Dataframe

In [None]:
visualizacao_youtube.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2293 entries, 0 to 2292
Data columns (total 3 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   title      2293 non-null   object
 1   subtitles  2293 non-null   object
 2   time       2293 non-null   object
dtypes: object(3)
memory usage: 53.9+ KB


### Transformando object em datetime em três etapas.

In [None]:
# 1º etapa:
visualizacao_youtube["time"]= pd.to_datetime(visualizacao_youtube["time"],unit='ns', errors='ignore')

In [None]:
# 2º etapa:
visualizacao_youtube['time'] = visualizacao_youtube['time'].dt.tz_convert(None)

In [None]:
# 3º etapa:
visualizacao_youtube["time"] = pd.to_datetime(visualizacao_youtube["time"].dt.strftime('%d/%m/%Y'))

### Confirmando se a conversão ocorreu com sucesso.

In [None]:
visualizacao_youtube.head()

Unnamed: 0,title,subtitles,time
0,Watched História da vida de Santa Brígida da S...,"[{'name': 'Expedição 19', 'url': 'https://www....",2021-07-19
1,Watched A Regra mais Importante do STORYTELLIN...,"[{'name': 'Fantástica Fábrica Criativa', 'url'...",2021-07-19
2,Watched Gabrielle Aplin - Home (Official Video),"[{'name': 'Gabrielle Aplin VEVO', 'url': 'http...",2021-07-19
3,Watched Python JSON to CSV conversion,"[{'name': 'DevNami', 'url': 'https://www.youtu...",2021-07-18
4,Watched Json to csv convert using python easily,"[{'name': 'IT TECH TARUN', 'url': 'https://www...",2021-07-18


### Apagando termo indejado das linhas. Neste caso a palavra: 'Watched'

In [None]:
visualizacao_youtube['title']=visualizacao_youtube['title'].map(lambda x: x.lstrip('Watched'))

In [None]:
visualizacao_youtube.head()

Unnamed: 0,title,subtitles,time
0,História da vida de Santa Brígida da Suécia (...,"[{'name': 'Expedição 19', 'url': 'https://www....",2021-07-19
1,A Regra mais Importante do STORYTELLING!!! / ...,"[{'name': 'Fantástica Fábrica Criativa', 'url'...",2021-07-19
2,Gabrielle Aplin - Home (Official Video),"[{'name': 'Gabrielle Aplin VEVO', 'url': 'http...",2021-07-19
3,Python JSON to CSV conversion,"[{'name': 'DevNami', 'url': 'https://www.youtu...",2021-07-18
4,Json to csv convert using python easily,"[{'name': 'IT TECH TARUN', 'url': 'https://www...",2021-07-18


### Extraindo apenas o nome do canal de 'subtitles'

In [None]:
nome_canal = []
for i in range (0,len(visualizacao_youtube)):
  n = visualizacao_youtube['subtitles'][i][0]['name']
  nome_canal.append(n)


### Atribuindo nome a nova coluna criada

In [None]:
visualizacao_youtube['channel_name'] = nome_canal

In [None]:
visualizacao_youtube.head()

Unnamed: 0,title,subtitles,time,channel_name
0,História da vida de Santa Brígida da Suécia (...,"[{'name': 'Expedição 19', 'url': 'https://www....",2021-07-19,Expedição 19
1,A Regra mais Importante do STORYTELLING!!! / ...,"[{'name': 'Fantástica Fábrica Criativa', 'url'...",2021-07-19,Fantástica Fábrica Criativa
2,Gabrielle Aplin - Home (Official Video),"[{'name': 'Gabrielle Aplin VEVO', 'url': 'http...",2021-07-19,Gabrielle Aplin VEVO
3,Python JSON to CSV conversion,"[{'name': 'DevNami', 'url': 'https://www.youtu...",2021-07-18,DevNami
4,Json to csv convert using python easily,"[{'name': 'IT TECH TARUN', 'url': 'https://www...",2021-07-18,IT TECH TARUN


### Apagando a coluna 'subtitles'

In [None]:
visualizacao_youtube.drop(columns='subtitles',inplace=True)

In [None]:
visualizacao_youtube.head()

Unnamed: 0,title,time,channel_name
0,História da vida de Santa Brígida da Suécia (...,2021-07-19,Expedição 19
1,A Regra mais Importante do STORYTELLING!!! / ...,2021-07-19,Fantástica Fábrica Criativa
2,Gabrielle Aplin - Home (Official Video),2021-07-19,Gabrielle Aplin VEVO
3,Python JSON to CSV conversion,2021-07-18,DevNami
4,Json to csv convert using python easily,2021-07-18,IT TECH TARUN


### Renomeando colunas

In [None]:
visualizacao_youtube.rename(columns={'title':'titulo','time':'data','channel_name':'nome_do_canal'},inplace=True)

In [None]:
visualizacao_youtube.head()

Unnamed: 0,titulo,data,nome_do_canal
0,História da vida de Santa Brígida da Suécia (...,2021-07-19,Expedição 19
1,A Regra mais Importante do STORYTELLING!!! / ...,2021-07-19,Fantástica Fábrica Criativa
2,Gabrielle Aplin - Home (Official Video),2021-07-19,Gabrielle Aplin VEVO
3,Python JSON to CSV conversion,2021-07-18,DevNami
4,Json to csv convert using python easily,2021-07-18,IT TECH TARUN


#### Verificando canais mais vistos no youtube

In [None]:
visualizacao_youtube['nome_do_canal'].value_counts()

Curso em Vídeo                                 108
Ir Kelly Patricia OFICIAL / Instituto Hesed     59
LagumVEVO                                       41
Canal KondZilla                                 34
Bóson Treinamentos                              32
                                              ... 
Canal da oli Santos                              1
Mundo dos Trailers                               1
VITINHO DE SG ϟ                                  1
Merve                                            1
Prime                                            1
Name: nome_do_canal, Length: 1221, dtype: int64

### Consultando por meio de intervalo de datas

In [None]:
visualizacao_youtube.loc[(visualizacao_youtube['data'] > '2020-07-01') & (visualizacao_youtube['data'] < '2021-01-01')]

Unnamed: 0,titulo,data,nome_do_canal
1472,Calopsita macho cantando,2020-12-29,Amor por Calopsita
1473,Vatican Media Live - Português,2020-12-24,Vatican News - Português
1474,Calopsita macho cantando,2020-12-23,Amor por Calopsita
1475,Calopsita fêmea cantando muito.,2020-12-23,Nino Pereira Eduardo
1476,Bolo Tsunami,2020-12-21,Bom Sabor cake Tamires Lima
...,...,...,...
2288,Hebe faz especial de Natal com Chico Xavier e...,2020-07-31,Band
2289,Jô Soares entrevista Hebe Camargo no Jô Soare...,2020-07-31,#tbtSBT
2290,MANSÕES DE FAMOSOS ABANDONADAS POR CAUSA DA J...,2020-07-31,Jovem casal
2291,Como ganha dinheiro no the sims freeplay e pa...,2020-07-31,Fernanda Mara


### Criando outro Dataframe para realizar pesquisas.

In [None]:
#Pesquisando termos específicos na coluna 'titulo'
pesquisas_de_dados = visualizacao_youtube.query('titulo.str.contains("Python") | titulo.str.contains("Dados") | titulo.str.contains("Análise")\
| titulo.str.contains("Programação") |titulo.str.contains("Data") |titulo.str.contains("analysis")', engine='python')

In [None]:
#Pesquisando termos específicos por meio de um intervalo de tempo
pesquisas_de_dados.loc[(visualizacao_youtube['data'] > '2020-07-01') & (visualizacao_youtube['data'] < '2021-01-01')]

Unnamed: 0,titulo,data,nome_do_canal
1742,Curso MySQL #01 - O que é um Banco de Dados?,2020-09-11,Curso em Vídeo
1821,Curso MySQL #01 - O que é um Banco de Dados?,2020-10-21,Curso em Vídeo
1832,Curso MySQL #01 - O que é um Banco de Dados?,2020-10-20,Curso em Vídeo
1848,SQL no Excel - Usar o Excel como Banco de Dados,2020-10-17,PROF DARLAN - EXCEL
1849,[Power BI] 11 Bases de Dados Para Aprender + ...,2020-10-17,Karine Lago
1852,SQL e Banco de Dados para Iniciantes,2020-10-16,Harlley Oliveira
2002,Caso Miguel: Sarí Corte sentiu culpa? (Anális...,2020-09-25,Metaforando
2036,Carlinhos Maia mentiu sobre Luísa Sonza? (Aná...,2020-09-23,Metaforando
2048,"Luísa Sonza e Vitão: ""Sinais de Traição""? Tal...",2020-09-18,Metaforando


### verificando os vídeos com maiores visualizações antes do vamoai

In [None]:
antes_vamoai = pesquisas_de_dados.loc[(visualizacao_youtube['data'] > '2020-07-01') & (visualizacao_youtube['data'] < '2021-01-24')]
antes_vamoai['nome_do_canal'].value_counts()

Curso em Vídeo         35
Filipe Deschamps        5
Metaforando             3
Dev Aprender            2
Karine Lago             1
Otávio Miranda          1
Walisson Silva          1
Fabio Ruicci            1
Eduardo Mendes          1
The Grapevine           1
Harlley Oliveira        1
Programador Sagaz       1
PROF DARLAN - EXCEL     1
Name: nome_do_canal, dtype: int64

### Transformando o Dataframe em arquivo csv

In [None]:
visualizacao_youtube.to_csv ('historico_visualizacao_youtube.csv',index=False)

In [None]:
from google.colab import files
files.download("historico_visualizacao_youtube.csv")

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>