# Data Reporting Storytelling Case - iFood

--------------------
Notebook desenvolvido para o case do processo seletivo do ifood para vaga de Bussiness Data Analytics. 

O case conta com uma análise dos seus próprios dados de diversos aplicativos utilizados no dia-a-dia, como Spotify, iFood, Uber, Instagram, Youtube, entre outros, com o intuito de contar a sua história, criando assim uma visualização dos dados através do Tableau. 

Para mais informações acesso o meu repositório no GitHub, e visite o meu Dashboard. 

--------------------  

Este notebook conta com as seguintes sessões:
- Imports  
- Youtube  
    - Tratamento dos dados
    - Análise exploratória dos dados
- Spotify  
    - Tratamento dos dados
    - Análise exploratória dos dados
- Histórico do Google
  - Tratamento dos dados
  - Análise exploratória dos dados
- Analise dos períodos - Storytelling
- Referências

## Imports

In [None]:
# !pip install -U pandas-profiling
# !pip install tzlocal
# !pip install --upgrade google-api-python-client
# !pip install isodate
# !pip install spotipy
# !pip install texthero

Collecting isodate
  Downloading isodate-0.6.0-py2.py3-none-any.whl (45 kB)
[?25l[K     |███████▏                        | 10 kB 18.8 MB/s eta 0:00:01[K     |██████████████▍                 | 20 kB 25.3 MB/s eta 0:00:01[K     |█████████████████████▌          | 30 kB 18.2 MB/s eta 0:00:01[K     |████████████████████████████▊   | 40 kB 14.9 MB/s eta 0:00:01[K     |████████████████████████████████| 45 kB 1.8 MB/s 
Installing collected packages: isodate
Successfully installed isodate-0.6.0


In [None]:
# Importando as bibliotecas

import pandas as pd
from pandas import json_normalize
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pandas_profiling import ProfileReport
import pytz
from pathlib import Path
from datetime import datetime, timedelta
from google.colab import files
import json
import isodate


from googleapiclient.discovery import build  #API youtube

ModuleNotFoundError: ignored

Funções usadas por todos as plataformas

In [None]:
# Função que define intervalos de horas do dia
def interval(x):
  if (x >= 0) and (x <= 5):
    return 'Madrugada'
  elif (x > 5) and (x <= 12):
    return 'Manhã'
  elif (x > 12) and (x <= 18):
    return 'Tarde'
  elif (x > 18) and (x <= 24):
    return 'Noite'
  
# Função que define intervalos de horas do dia personalizados
def custom_interval(x):
  if (x >= 0) and (x <= 6):
    return 'Dormindo'
  elif (x > 6) and (x <= 8):
    return 'Manhã'
  elif (x > 8) and (x <= 14):
    return 'Estágio'
  elif (x > 14) and (x <= 19):
    return 'Tarde'
  elif (x > 19) and (x <= 22):
    return 'Aula faculdade'
  elif (x > 22) and (x <= 24):
    return 'Noite'

# Funções que definem os locais onde estava morando de acordo com as datas
def local(x):
  if (x <= pd.to_datetime('2021-01-31')):
    return 'Belo Horizonte'
  elif (x >= pd.to_datetime('2021-02-01')) and (x <= pd.to_datetime('2021-03-22')):
    return 'Contagem'
  else:
    return "Betim"

## Youtube

### Tratamento dos dados


In [None]:
# importando base de dados do histórico do youtube 

p_hist_youtube = Path(r'/content/drive/MyDrive/dados_case_ifood/histórico-de-visualização_youtube.json')

with p_hist_youtube.open('r', encoding='utf-8') as f:
    hist_youtube = json.loads(f.read())

df_youtube = pd.json_normalize(hist_youtube)

In [None]:
df_youtube

Criando nova coluna com os nomes dos canais

In [None]:
channel_name = []
for i in range (0,len(df_youtube)):
  n = df_youtube['subtitles'][i][0]['name']
  channel_name.append(n)


In [None]:
df_youtube['channel_name'] = channel_name

Dropando colunas que não serão utilizadas, e dados faltantes. 

In [None]:
df_youtube.drop(columns=['details','header','subtitles','products'], inplace=True)
df_youtube.dropna(inplace=True)

In [None]:
df_youtube.reset_index(inplace=True)
df_youtube.drop(columns='index', inplace=True)

Removendo 'Watched' do início dos títulos

In [None]:
df_youtube['title'] = df_youtube['title'].str.replace('Watched', '')

In [None]:
df_youtube.head()

Convertendo a coluna time para datetime

In [None]:
my_timezone = pytz.timezone('America/Sao_Paulo')

In [None]:
df_youtube['time'] = pd.to_datetime(df_youtube['time'])

In [None]:
df_youtube['time'] = df_youtube['time'].dt.tz_convert(my_timezone)

#### API do Youtube

Chave da API

In [None]:
api_key_google = #'AIzaSyC0d515xkXgpvyewtabGeum0_x6QJ5KFk8' # CHAVE 1 'AIzaSyBqvHliBGheXaWXy_SyWhbrfaYqYFH0qnk', CHAVE 2 'AIzaSyCAgpevQjPnvt85ZGscwpKhtvcK-q-W1sE'

Arquivo com lista dos nomes das categorias do Youtube

In [None]:
cat = pd.read_csv('https://gist.githubusercontent.com/Vithork/7e9d0fe79796e4cfd27411d5e92df601/raw/c943eafd695f123bc0e5fc5167846e2fa4265fbc/csv')
cat = cat.set_index('name').number.to_dict()
cat = {str(v):k for k,v in cat.items()}
cat 

Função para enviar requisição para a API do youtube, e retornar as categorias, tags e duração de cada vídeo.

In [None]:
def req_youtube(api_key,df):
  youtube = build('youtube','v3', developerKey=api_key)

  # Listas que irá retornar
  categories = []
  tags = []
  durations = []
  req_videos = []

  def req_video():
    for i in range(len(df)):
      id = df['titleUrl'].str.slice(-11)
    for j in id:
      res = youtube.videos().list(part=['snippet','contentDetails'], id = j).execute()
      req_videos.append(res)
    return req_videos
  

  def category():
    for i in req_videos:
      try:
        categories.append(i['items'][0]['snippet']['categoryId'])
      except:
        categories.append('')
    return [cat.get(n,n) for n in categories]

  def tag():
    for i in req_videos:
      try:
        tags.append(i['items'][0]['snippet']['tags'])
      except:
        tags.append('')
    return tags

  def duration():
    for i in req_videos:
      try:
        durations.append(i['items'][0]['contentDetails']['duration'])
      except:
        durations.append('')
    return durations
    

  req_video()
  return category(), tag(), duration()

In [None]:
category, tags, durations= req_youtube(api_key_google,df_youtube)

Adicionando novas colunas no df

In [None]:
#Criando as novas colunas
df_youtube['category'] = category
df_youtube['tags'] = tags
df_youtube['duration'] = durations
df_youtube

In [None]:
df_youtube.head()

In [None]:
dt_inicial = '2020-07-03'
dt_final = '2021-07-03'
df_youtube = df_youtube.loc[(df_youtube['time'] >= dt_inicial) & (df_youtube['time'] <= dt_final)]

In [None]:
df_youtube.reset_index(inplace=True)
df_youtube.drop(columns = 'index', inplace=True)
df_youtube

##### EXCLUIR ISSO DO NOTEBOOK

In [None]:
spa = df_youtube.loc[((df_youtube['channel_name'] =='SAC DEP SPA')
               | (df_youtube['channel_name'] =='Thuy Truong Sac Dep Spa')
               | (df_youtube['channel_name'] =='Acne treatment Hương Đà Nẵng'))]

In [None]:
df_youtube.drop(index=spa.index, inplace=True)
df_youtube.reset_index(inplace=True)
df_youtube.drop(columns = 'index', inplace=True)

##### DURATION

In [None]:
df_youtube

In [None]:
df_youtube.drop(index= (df_youtube[df_youtube.duration.isna()].index), inplace=True)

In [None]:
df_youtube['duration'] = df_youtube['duration'].apply(isodate.parse_duration)
df_youtube['minutes'] = df_youtube['duration'].apply(timedelta.total_seconds)
df_youtube['minutes'] = round(df_youtube['minutes']/60,2)
df_youtube

In [None]:
df_youtube['duration'].unique().tolist()

In [None]:
df_youtube.info()

In [None]:
df_youtube.loc[(df_youtube['channel_name'] == 'Programação Dinâmica') | (df_youtube['channel_name'] == 'Hashtag Treinamentos'), 'category'] = 'Education'

In [None]:
df_youtube.describe()

Unnamed: 0,duration,minutes
count,1120,1120.0
mean,0 days 00:30:31.473214285,30.524563
std,0 days 00:57:43.457675227,57.724236
min,0 days 00:00:00,0.0
25%,0 days 00:05:35.250000,5.5875
50%,0 days 00:11:46.500000,11.775
75%,0 days 00:24:28,24.4675
max,0 days 11:34:14,694.23


##### Exportando os dados em .csv


In [None]:
# Gerando CSV para não ser mais necessário requisitar a API do youtube
df_youtube.to_csv ('youtube_historico.csv', index = None, header=True) 
files.download('youtube_historico.csv')

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

### Análise dos dados do Youtube


.csv gerado após tratamento dos dados

In [None]:
df_youtube = pd.read_csv('/content/drive/MyDrive/dados_case_ifood/youtube_historico.csv')

In [None]:
my_timezone = pytz.timezone('America/Sao_Paulo')

In [None]:
df_youtube['time'] = pd.to_datetime(df_youtube['time'], utc=True)

In [None]:
df_youtube['time'] = df_youtube['time'].dt.tz_convert(my_timezone)

In [None]:
df_youtube.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1120 entries, 0 to 1119
Data columns (total 8 columns):
 #   Column        Non-Null Count  Dtype                            
---  ------        --------------  -----                            
 0   title         1120 non-null   object                           
 1   titleUrl      1120 non-null   object                           
 2   time          1120 non-null   datetime64[ns, America/Sao_Paulo]
 3   channel_name  1120 non-null   object                           
 4   category      1120 non-null   object                           
 5   tags          909 non-null    object                           
 6   duration      1120 non-null   object                           
 7   minutes       1120 non-null   float64                          
dtypes: datetime64[ns, America/Sao_Paulo](1), float64(1), object(6)
memory usage: 70.1+ KB


In [None]:
profile_youtube = ProfileReport(df_youtube, title='Profiling Youtube',html={'style':{'full_width':True}})
profile_youtube.to_notebook_iframe()

##### Testando hipóteses

Educação é a categoria mais assistida?

In [None]:
df_youtube['category'].value_counts().head()

Education               316
People & Blogs          256
Science & Technology    168
Music                   146
Entertainment           139
Name: category, dtype: int64

A quantidade de vídeos assistidos no Youtube aumentou nos últimos meses?

In [None]:
df_youtube.time.dt.month_name().value_counts()

June         193
May          159
April        122
August       105
September     86
March         79
October       76
January       76
November      73
February      68
July          52
December      31
Name: time, dtype: int64

Quais canais mais assisti por mês


In [None]:
# Canais mais assistidos
df_youtube['channel_name'].value_counts().head(10)

Programação Dinâmica      60
Hashtag Treinamentos      32
Eduardo Mendes            20
Seja Um Data Scientist    18
Deive Leonardo            17
TEDx Talks                15
Gêmeas do Inglês          13
Diolinux                  13
Maria Homem               12
Leticia Fagundes          12
Name: channel_name, dtype: int64

In [None]:
# Três canais mais vistos por mês
df_youtube.groupby([df_youtube['time'].dt.month,'channel_name'], as_index=False)\
                                                    .size()\
                                                    .sort_values('size', ascending=False)\
                                                    .groupby('time', as_index=False)\
                                                    .head(3)\
                                                    .sort_values('time')

Unnamed: 0,time,channel_name,size
43,1,RDK PINTURAS,2
8,1,Deive Leonardo,3
5,1,Clara Bousada,4
63,2,Abhishek Patel - WEBEON SYSTEMS,6
93,2,TEDx Talks,10
84,2,Papo de Dev,6
114,3,Eduardo Mendes,10
124,3,Ignorância Zero,4
130,3,Programação Dinâmica,7
203,4,Programação Dinâmica,9


Tempo assistido por categoria

In [None]:
tempo_ass_cat = df_youtube.groupby(['category'], as_index=False).agg({'minutes':'sum'}).sort_values('minutes', ascending=False)
tempo_ass_cat['hour'] = tempo_ass_cat['minutes']/60
tempo_ass_cat['days'] = tempo_ass_cat['hour']/24
tempo_ass_cat

Unnamed: 0,category,minutes,hour,days
1,Education,11819.06,196.984333,8.207681
6,Music,6254.57,104.242833,4.343451
2,Entertainment,5493.84,91.564,3.815167
9,People & Blogs,5371.98,89.533,3.730542
11,Science & Technology,4364.64,72.744,3.031
5,Howto & Style,335.11,5.585167,0.232715
8,Nonprofits &Activism,238.88,3.981333,0.165889
3,Film & Animation,97.31,1.621833,0.067576
4,Gaming,75.71,1.261833,0.052576
7,News & Politics,38.83,0.647167,0.026965


In [None]:
#tempo assistido por canais 
tempo_ass_can = df_youtube.groupby(['channel_name'], as_index=False).agg({'minutes':'sum'}).sort_values('minutes', ascending=False).head(10)
tempo_ass_can

Unnamed: 0,channel_name,minutes
421,Simplilearn,2006.5
141,Eduardo Mendes,1583.68
415,Seja Um Data Scientist,1264.06
187,Giselle Marciel,1227.03
232,Intellipaat,978.6
377,Programação Dinâmica,966.14
206,Hashtag Treinamentos,916.01
43,Bee Lab Academy,910.65
6,AI Girls Comunidade,836.07
513,iFood Universo,722.99


Será que minhas categorias/canais mudaram durante os meses?

In [None]:
df_youtube.groupby([df_youtube['time'].dt.month,'category'], as_index=False)\
                                                    .size()\
                                                    .sort_values('size', ascending=False)\
                                                    .groupby('time', as_index=False)\
                                                    .head(3)\
                                                    .sort_values('time')

Unnamed: 0,time,category,size
5,1,People & Blogs,16
1,1,Entertainment,16
0,1,Education,20
13,2,Science & Technology,12
9,2,Education,17
12,2,People & Blogs,19
23,3,Science & Technology,9
15,3,Entertainment,10
14,3,Education,37
28,4,People & Blogs,30


Quais horários mais acesso dentre os períodos do dia e quais categorias mais acesso neles.

Incluindo novas colunas de acordo com as [funções declaradas anteriormente](https://colab.research.google.com/drive/1uj5mC1E4XQmdGEGN6ND9-X3s5Cz1tj83#scrollTo=UEPNew_Bc1D2&line=6&uniqifier=1) 

In [None]:
# Incluindo as colunas de acordo com os intervalos
df_youtube['interval'] = df_youtube['time'].dt.hour.apply(interval)
df_youtube['customInterval'] = df_youtube['time'].dt.hour.apply(custom_interval)

# incluindo a coluna de local de acordo com a data
df_youtube['local'] = df_youtube['time'].dt.date.apply(local)

df_youtube.sample(10)

Unnamed: 0,title,titleUrl,time,channel_name,category,tags,duration,minutes,interval,customInterval,local
640,Como usar o NOTION // Começando do ZERO e Con...,https://www.youtube.com/watch?v=-y0VdsRIJUs,2021-01-23 16:33:21.678000-02:00,Clara Bousada,Education,"['notion', 'como usar o notion', 'app notion',...",0 days 00:25:41,25.68,Tarde,Tarde,Belo Horizonte
149,Como Corrigir Erro 0xc0000225 No Windows 10 A...,https://www.youtube.com/watch?v=QVAIAWyI1lo,2021-06-09 11:10:36.695000-03:00,Musashiden Tutoriais 2,Education,"['0xc0000225', 'Como Corrigir Erro 0xc0000225 ...",0 days 00:04:19,4.32,Manhã,Estágio,Betim
107,Ventania - Só para loucos(Album completo),https://www.youtube.com/watch?v=13ACsJADT2s,2021-06-12 22:04:10.013000-03:00,Ventania Official,Music,"['ventania e banda hippie', 'ventania', 'só pa...",0 days 00:51:49,51.82,Noite,Aula faculdade,Betim
731,Impulso Talks: Desenvolvimento Mobile,https://www.youtube.com/watch?v=Qc_JGD9jG74,2020-11-25 21:04:51.047000-02:00,Impulso,Science & Technology,"['mobile development', 'koin', 'kotlin', 'aces...",0 days 01:45:36,105.6,Noite,Aula faculdade,Belo Horizonte
629,how I organize my entire life with Notion | m...,https://www.youtube.com/watch?v=kDRmVCeJ8fw,2021-01-23 21:48:04.680000-02:00,Mazie Kate,Howto & Style,"['notion', 'notion tour', 'productivity', 'bes...",0 days 00:21:30,21.5,Noite,Aula faculdade,Belo Horizonte
547,Curso Python #01 - Seja um Programador,https://www.youtube.com/watch?v=S9uPNppGsGo,2021-03-03 22:51:31.210000-03:00,Curso em Vídeo,Education,"['Curso de Python', 'Curso de Programação para...",0 days 00:29:07,29.12,Noite,Aula faculdade,Contagem
61,LENDO arquivo Zip SEM descompactar + Pandas ...,https://www.youtube.com/watch?v=0yyiV4cyYww,2021-06-16 11:19:51.118000-03:00,Programação Dinâmica,Education,"['programação dinâmica', 'dicas de pandas', 'a...",0 days 00:14:14,14.23,Manhã,Estágio,Betim
993,🐶 Border Collie pastoreando e mostrando muita...,https://www.youtube.com/watch?v=VUsZ6XTVkB8,2020-08-25 22:59:06.194000-03:00,Border Collie Club,Pets & Animals,"['border collie', 'adestrando um border collie...",0 days 00:02:02,2.03,Noite,Aula faculdade,Belo Horizonte
165,[Webscraping] Análise de Sentimentos no Twitt...,https://www.youtube.com/watch?v=nh-NMicbU40,2021-06-07 18:28:49.552000-03:00,Ciência dos Dados,People & Blogs,"['machine learning', 'data science', 'PLN', 'w...",0 days 00:52:02,52.03,Tarde,Tarde,Betim
370,Introdução à Linguagem SQL (PostgreSQL) - Com...,https://www.youtube.com/watch?v=p9jII4J_HZw,2021-04-28 13:23:28.170000-03:00,"DesCOMPlica, Oliba!",People & Blogs,,0 days 00:16:34,16.57,Tarde,Estágio,Betim


In [None]:
#Quais horários mais acesso
df_youtube.groupby(['interval'], as_index=False).size().sort_values('size', ascending=False)

Unnamed: 0,interval,size
2,Noite,344
3,Tarde,311
1,Manhã,289
0,Madrugada,176


In [None]:
df_youtube.groupby(['customInterval'], as_index=False).size().sort_values('size', ascending=False)

Unnamed: 0,customInterval,size
2,Estágio,362
5,Tarde,273
0,Aula faculdade,203
1,Dormindo,176
4,Noite,78
3,Manhã,28


In [None]:
#Quais categorias mais acesso por horário
df_youtube.groupby(['interval','category'], as_index=False)\
                                                    .size()\
                                                    .sort_values('size', ascending=False)\
                                                    .groupby('interval', as_index=False)\
                                                    .head(3)\
                                                    .sort_values('interval')                                           

Unnamed: 0,interval,category,size
8,Madrugada,People & Blogs,67
1,Madrugada,Education,43
2,Madrugada,Entertainment,24
12,Manhã,Education,79
19,Manhã,People & Blogs,62
21,Manhã,Science & Technology,51
23,Noite,Education,99
31,Noite,People & Blogs,60
28,Noite,Music,58
36,Tarde,Education,95


Quantidade de vídeos assistidos por:  
- Mês
- Dia da semana 
- Datas - 10 dias 

In [None]:
#Por mês
df_youtube.time.dt.month_name().value_counts()

June         193
May          159
April        122
August       105
September     86
March         79
October       76
January       76
November      73
February      68
July          52
December      31
Name: time, dtype: int64

In [None]:
# Por dia da semana
df_youtube.time.dt.day_name().value_counts()

Monday       194
Wednesday    182
Tuesday      170
Thursday     155
Sunday       149
Saturday     147
Friday       123
Name: time, dtype: int64

In [None]:
#Por dia - 10
df_youtube.time.dt.date.value_counts().head(10)

2021-05-02    37
2021-04-12    25
2021-06-15    20
2021-06-12    20
2020-11-03    18
2021-04-21    17
2020-11-18    17
2021-01-23    16
2020-08-06    16
2021-06-10    15
Name: time, dtype: int64

Categorias mais assistidas por local


In [None]:
df_youtube.groupby(['local','category'], as_index=False)\
                                                    .size()\
                                                    .sort_values('size', ascending=False)\
                                                    .groupby('local', as_index=False)\
                                                    .head(3)\
                                                    .sort_values('local') 

Unnamed: 0,local,category,size
9,Belo Horizonte,People & Blogs,136
1,Belo Horizonte,Education,130
2,Belo Horizonte,Entertainment,81
14,Betim,Education,143
23,Betim,Science & Technology,108
21,Betim,People & Blogs,99
27,Contagem,Education,43
34,Contagem,People & Blogs,21
28,Contagem,Entertainment,19


Tempo total em minutos que assisti as 3 categorias mais vistas por local

In [None]:
df_youtube.groupby(['local','category'], as_index=False)\
                                                    .agg({'minutes':'sum'})\
                                                    .sort_values('minutes', ascending=False)\
                                                    .groupby('local', as_index=False)\
                                                    .head(3)\
                                                    .sort_values('local')

Unnamed: 0,local,category,minutes
1,Belo Horizonte,Education,4219.47
6,Belo Horizonte,Music,3690.11
9,Belo Horizonte,People & Blogs,2736.58
14,Betim,Education,6330.6
23,Betim,Science & Technology,2564.45
19,Betim,Music,2532.78
28,Contagem,Entertainment,1688.46
27,Contagem,Education,1268.99
35,Contagem,Science & Technology,1008.51


Quantidade de vídeos assistidos por local

In [None]:
df_youtube['local'].value_counts()

Betim             501
Belo Horizonte    499
Contagem          120
Name: local, dtype: int64

Quantidade de vídeos assistidos por intervalo do dia em cada local

In [None]:
df_youtube.groupby(['local','interval'], as_index=False)\
                                                    .size()\
                                                    .sort_values('size', ascending=False)\
                                                    .groupby('local', as_index=False)\
                                                    .head()\
                                                    .sort_values('local') 

Unnamed: 0,local,interval,size
2,Belo Horizonte,Noite,157
3,Belo Horizonte,Tarde,143
1,Belo Horizonte,Manhã,111
0,Belo Horizonte,Madrugada,88
5,Betim,Manhã,154
6,Betim,Noite,154
7,Betim,Tarde,122
4,Betim,Madrugada,71
11,Contagem,Tarde,46
10,Contagem,Noite,33


Tempo em minutos dos vídeos assistidos por intervalo do dia em cada local

In [None]:
df_youtube.groupby(['local','interval'], as_index=False).agg({'minutes':'sum'}).sort_values(['local', 'minutes'])

Unnamed: 0,local,interval,minutes
0,Belo Horizonte,Madrugada,2386.94
3,Belo Horizonte,Tarde,2675.73
1,Belo Horizonte,Manhã,2831.72
2,Belo Horizonte,Noite,6306.81
4,Betim,Madrugada,844.17
5,Betim,Manhã,3186.05
6,Betim,Noite,4611.75
7,Betim,Tarde,6767.11
8,Contagem,Madrugada,329.76
11,Contagem,Tarde,1067.82


Quantidade de vídeos assistidos por canais mais acessados em cada local

In [None]:
df_youtube.groupby(['local','channel_name'], as_index=False)\
                                                    .size()\
                                                    .sort_values('size', ascending=False)\
                                                    .groupby('local', as_index=False)\
                                                    .head(3)\
                                                    .sort_values('local') 

Unnamed: 0,local,channel_name,size
89,Belo Horizonte,Hashtag Treinamentos,32
87,Belo Horizonte,Gêmeas do Inglês,13
42,Belo Horizonte,Deive Leonardo,13
443,Betim,Programação Dinâmica,52
322,Betim,Diolinux,13
328,Betim,Eduardo Mendes,12
575,Contagem,TEDx Talks,10
547,Contagem,Eduardo Mendes,8
566,Contagem,Programação Dinâmica,6


Tempo em dias que passei assistindo em cada local

In [None]:
df_youtube.groupby(['local'], as_index=False).agg({'duration':'sum'}).sort_values('duration', ascending=False)

Unnamed: 0,local,duration
1,Betim,0 days 00:10:230 days 07:24:470 days 02:55:520...
2,Contagem,0 days 00:09:520 days 00:16:060 days 00:15:230...
0,Belo Horizonte,0 days 00:00:000 days 00:03:140 days 05:05:250...


## Spotify


### Tratamento dos dados

In [None]:
df_spotify = pd.read_json('/content/drive/MyDrive/dados_case_ifood/StreamingHistory0.json')

In [None]:
df_spotify.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7376 entries, 0 to 7375
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   endTime     7376 non-null   object
 1   artistName  7376 non-null   object
 2   trackName   7376 non-null   object
 3   msPlayed    7376 non-null   int64 
dtypes: int64(1), object(3)
memory usage: 230.6+ KB


In [None]:
df_spotify

Unnamed: 0,endTime,artistName,trackName,msPlayed
0,2020-07-15 01:23,Casa Worship,Eu Te Vejo Em Tudo,313360
1,2020-07-15 02:12,Johann Sebastian Bach,"Goldberg-Variationen, BWV 988: I. Aria",292986
2,2020-07-15 02:13,Johann Sebastian Bach,"Goldberg-Variationen, BWV 988: II. Var. I",60373
3,2020-07-15 02:14,Johann Sebastian Bach,"Goldberg-Variationen, BWV 988: III. Var. II",44040
4,2020-07-15 02:15,Johann Sebastian Bach,"Goldberg-Variationen, BWV 988: IV. Var. III",61546
...,...,...,...,...
7371,2021-07-15 19:01,Adele,All I Ask,271800
7372,2021-07-15 19:04,Ollie MN,Please Never Fall in Love Again,154000
7373,2021-07-15 19:08,Anson Seabra,That's Us,270461
7374,2021-07-15 19:11,Sam Smith,"Get Here - Recorded At RAK Studios, London",169226


Transformando a coluna 'endTime' em datetime

In [None]:
df_spotify['endTime'] = pd.to_datetime(df_spotify['endTime'])

Adicionando coluna com tempo em minutos

In [None]:
df_spotify['minPlayed'] = round(df_spotify['msPlayed']/60000,2)

Incluindo novas colunas de acordo com as [funções declaradas anteriormente](https://colab.research.google.com/drive/1uj5mC1E4XQmdGEGN6ND9-X3s5Cz1tj83#scrollTo=UEPNew_Bc1D2&line=6&uniqifier=1) 

In [None]:
df_spotify['interval'] = df_spotify['endTime'].dt.hour.apply(interval)
df_spotify['customInterval'] = df_spotify['endTime'].dt.hour.apply(custom_interval)
df_spotify['local'] = df_spotify['endTime'].dt.date.apply(local)

df_spotify.sample(10)

Unnamed: 0,endTime,artistName,trackName,msPlayed,minPlayed,interval,customInterval,local
6814,2021-06-10 14:39:00,Pomplamoose,Monster,266550,4.44,Tarde,Estágio,Betim
6182,2021-05-07 10:23:00,The Fray,How to Save a Life,262533,4.38,Manhã,Estágio,Betim
4293,2021-02-11 12:25:00,Rubel,Medo Bobo,54230,0.9,Manhã,Estágio,Contagem
3630,2020-12-23 15:01:00,Mariah Carey,Oh Santa! (feat. Ariana Grande & Jennifer Hudson),200466,3.34,Tarde,Tarde,Belo Horizonte
2194,2020-09-27 15:21:00,Sam Smith,I'm Not The Only One,31488,0.52,Tarde,Tarde,Belo Horizonte
658,2020-08-03 18:36:00,Michele Morrone,Hard For Me,177946,2.97,Tarde,Tarde,Belo Horizonte
3157,2020-11-13 11:49:00,Isadora Pompeo,"Hey, Pai - Ao Vivo",224920,3.75,Manhã,Estágio,Belo Horizonte
4205,2021-02-08 14:59:00,Yasmin Santos,Cuidado Que Eu Te Supero,86680,1.44,Tarde,Estágio,Contagem
6677,2021-06-06 04:18:00,Alicia Keys,Me x 7 (feat. Tierra Whack),212973,3.55,Madrugada,Dormindo,Betim
4280,2021-02-11 02:45:00,Alexander 23,Nothing's the Same,175041,2.92,Madrugada,Dormindo,Contagem


Separando podcasts e músicas

In [None]:
df_spotify_podcast = df_spotify.loc[df_spotify['minPlayed'] > 20]
df_spotify_podcast.reset_index(inplace=True)
df_spotify_podcast.drop(columns='index', inplace=True)
df_spotify_podcast

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  errors=errors,


Unnamed: 0,endTime,artistName,trackName,msPlayed,minPlayed,interval,customInterval,local
0,2020-10-03 17:42:00,História em Meia Hora,Reforma Protestante,1859228,30.99,Tarde,Tarde,Belo Horizonte
1,2021-02-06 03:37:00,Hipsters Ponto Tech,Python – Hipsters #122,3088626,51.48,Madrugada,Dormindo,Contagem
2,2021-03-29 12:18:00,Hipsters Ponto Tech,Python Fluente – Hipsters Ponto Tech #179,1467890,24.46,Manhã,Estágio,Betim
3,2021-03-29 13:20:00,Hipsters Ponto Tech,Python Fluente – Hipsters Ponto Tech #179,1725230,28.75,Tarde,Estágio,Betim
4,2021-05-07 13:08:00,Café da Manhã,Jacarezinho: a operação mais letal da polícia ...,1309413,21.82,Tarde,Estágio,Betim
5,2021-05-10 23:19:00,Autoconsciente,82. Jonny e Tequila | Sobre padrões de comport...,1636501,27.28,Noite,Noite,Betim
6,2021-06-05 21:28:00,Hangar 18,Hangar 18 - Ep 084 - O incrível Caso Varginha...,7369060,122.82,Noite,Aula faculdade,Betim
7,2021-07-10 19:17:00,Data Hackers,Como começaríamos em Data Science hoje? - Data...,4181397,69.69,Noite,Tarde,Betim


In [None]:
df_spotify_music = df_spotify.loc[df_spotify['minPlayed'] < 20]
df_spotify_music.reset_index(inplace=True)
df_spotify_music.drop(columns='index', inplace=True)
df_spotify_music

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  errors=errors,


Unnamed: 0,endTime,artistName,trackName,msPlayed,minPlayed,interval,customInterval,local
0,2020-07-15 01:23:00,Casa Worship,Eu Te Vejo Em Tudo,313360,5.22,Madrugada,Dormindo,Belo Horizonte
1,2020-07-15 02:12:00,Johann Sebastian Bach,"Goldberg-Variationen, BWV 988: I. Aria",292986,4.88,Madrugada,Dormindo,Belo Horizonte
2,2020-07-15 02:13:00,Johann Sebastian Bach,"Goldberg-Variationen, BWV 988: II. Var. I",60373,1.01,Madrugada,Dormindo,Belo Horizonte
3,2020-07-15 02:14:00,Johann Sebastian Bach,"Goldberg-Variationen, BWV 988: III. Var. II",44040,0.73,Madrugada,Dormindo,Belo Horizonte
4,2020-07-15 02:15:00,Johann Sebastian Bach,"Goldberg-Variationen, BWV 988: IV. Var. III",61546,1.03,Madrugada,Dormindo,Belo Horizonte
...,...,...,...,...,...,...,...,...
7363,2021-07-15 19:01:00,Adele,All I Ask,271800,4.53,Noite,Tarde,Betim
7364,2021-07-15 19:04:00,Ollie MN,Please Never Fall in Love Again,154000,2.57,Noite,Tarde,Betim
7365,2021-07-15 19:08:00,Anson Seabra,That's Us,270461,4.51,Noite,Tarde,Betim
7366,2021-07-15 19:11:00,Sam Smith,"Get Here - Recorded At RAK Studios, London",169226,2.82,Noite,Tarde,Betim


Para a análise irei usar apenas as músicas

### Analisando os dados

Artistas que mais escutei nesse período


In [None]:
df_spotify_music['artistName'].value_counts().head(10)

Jorge & Mateus           215
Johann Sebastian Bach    143
Henrique & Juliano       130
Luan Santana              94
Colo de Deus              92
Matheus & Kauan           75
Antonio Vivaldi           75
Imagine Dragons           73
Marília Mendonça          71
DUDA BEAT                 71
Name: artistName, dtype: int64

Dias que mais escutei música no ano

In [None]:
time_day = (df_spotify_music[['endTime','minPlayed']].groupby([df_spotify_music['endTime'].dt.date])
                                                                        .agg({'minPlayed':'sum'})
                                                                        .sort_values('minPlayed', ascending=False)
                                                                        .head(10))
time_day['hPlayed'] = time_day['minPlayed']/60
time_day

Unnamed: 0_level_0,minPlayed,hPlayed
endTime,Unnamed: 1_level_1,Unnamed: 2_level_1
2020-09-26,510.28,8.504667
2021-05-07,467.29,7.788167
2020-08-03,462.37,7.706167
2021-07-15,409.38,6.823
2020-09-12,391.34,6.522333
2020-10-08,299.64,4.994
2020-07-30,297.01,4.950167
2021-05-08,276.54,4.609
2020-07-24,256.83,4.2805
2021-06-24,254.0,4.233333


Média de horas que passei ouvindo música

In [None]:
time_day.mean()/60

minPlayed    6.041133
hPlayed      0.100686
dtype: float64

Nos dias que mais ouvi música, ouvi em média 6h

 Em média quanto tempo escuto por mês spotify?

In [None]:
# Tempo em horas que passo escutando música no spotify por mês
df_spotify_music.groupby([df_spotify_music['endTime'].dt.month]).agg({'minPlayed':'sum'}).round(2)

Unnamed: 0_level_0,minPlayed
endTime,Unnamed: 1_level_1
1,1062.78
2,560.85
3,1538.74
4,2270.53
5,2373.25
6,1642.31
7,2411.83
8,2122.07
9,2536.72
10,2116.69


Quantidade de faixas executadas por mês

In [None]:
# faixas por mês
df_spotify_music.groupby([df_spotify_music['endTime'].dt.month], as_index=False).size()

Unnamed: 0,endTime,size
0,1,414
1,2,247
2,3,529
3,4,918
4,5,766
5,6,560
6,7,772
7,8,879
8,9,808
9,10,675


Das faixas mais reproduzidas, quanto tempo ouvi cada uma?


In [None]:
# Faixas mais reproduzidas
df_spotify_music[['trackName']].value_counts().head(10)


trackName                           
Girassol                                32
Lance Individual                        32
Ousado Amor                             25
Minha Vez                               24
Alô Ambev (Segue Sua Vida) - Ao Vivo    22
Me Leva Pra Casa                        22
Paradigmas                              21
Deus e Eu - Ao Vivo                     21
Someone You Loved                       21
Eu Te Vejo Em Tudo                      21
dtype: int64

In [None]:
df_spotify_music.groupby(['trackName'], as_index=False).agg({'minPlayed':'sum'}).sort_values(by='minPlayed', ascending=False).head(10)

Unnamed: 0,trackName,minPlayed
1980,Me Leva Pra Casa,129.62
58,A Casa É Sua,107.09
2447,Ousado Amor,106.37
1131,Eu Te Vejo Em Tudo,105.79
305,Aquieta Minh'alma,95.28
901,Deus e Eu - Ao Vivo,89.07
2063,Minha Vez,80.25
680,Colo de Mãe - Ao Vivo,77.11
1344,Girassol,69.09
2878,Romanos 8:28 - Acústico,67.62


Podemos observar uma diferença das faixas mais reprozidas por número de vezes e por minutos, isso acontece graças ao tempo de cada música

Artistas mais ouvidos por mês

In [None]:
 df_spotify_music[['endTime','artistName']].groupby([df_spotify_music['endTime'].dt.month, 'artistName'],as_index=False)\
                                                    .size().sort_values('size', ascending=False)\
                                                    .groupby('endTime', as_index=False)\
                                                    .head(1)\
                                                    .sort_values('endTime')   


Unnamed: 0,endTime,artistName,size
31,1,DUDA BEAT,25
258,2,Matheus & Kauan,8
313,3,Antonio Vivaldi,75
694,4,Jorge & Mateus,105
1026,5,Henrique & Juliano,65
1481,6,Sam Smith,40
1704,7,Johann Sebastian Bach,98
2103,8,Luan Santana,53
2555,9,Supercombo,28
2746,10,Jorge & Mateus,19


Faixas mais executadas por mês

In [None]:
 df_spotify_music[['endTime','trackName']].groupby([df_spotify_music['endTime'].dt.month, 'trackName'],as_index=False)\
                                                    .size()\
                                                    .sort_values('size', ascending=False)\
                                                    .groupby('endTime', as_index=False)\
                                                    .head(1)\
                                                    .sort_values('endTime') 

Unnamed: 0,endTime,trackName,size
143,1,Nem Doeu - Ao Vivo,8
317,2,Coração Na Cama - Ao Vivo,7
509,3,Batom de Cereja - Ao Vivo,6
1348,4,Paradigmas,12
1730,5,De 1 Até 3,8
2559,6,Stay With Me,4
2927,7,July,5
3932,8,boa memória - ao vivo,7
4155,9,Girassol,5
4679,10,Deus e Eu - Ao Vivo,7


Analisando pelo local

Os três artistas mais ouvidos por mês, e por local

In [None]:
 df_spotify_music[['endTime','artistName','local','minPlayed']].groupby(['local',df_spotify_music['endTime'].dt.month, 'artistName'])\
                                                    .agg({'minPlayed':'sum'})\
                                                    .sort_values('minPlayed', ascending=False)\
                                                    .groupby('endTime', as_index=False)\
                                                    .head(3)\
                                                    .sort_values('endTime') 

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,minPlayed
local,endTime,artistName,Unnamed: 3_level_1
Belo Horizonte,1,Jorge & Mateus,36.55
Belo Horizonte,1,Luíza & Maurílio,38.1
Belo Horizonte,1,DUDA BEAT,48.44
Contagem,2,Hugo & Guilherme,17.4
Contagem,2,Israel Subira,19.64
Contagem,2,Wesley Safadão,18.41
Contagem,3,Antonio Vivaldi,186.06
Contagem,3,Sleeping At Last,34.07
Contagem,3,Imagine Dragons,98.87
Betim,4,Matheus & Kauan,47.89


3 artistas mais ouvidos por local

In [None]:
 df_spotify_music[['artistName','local','minPlayed']].groupby(['local', 'artistName'])\
                                                    .agg({'minPlayed':'sum'})\
                                                    .sort_values('minPlayed', ascending=False)\
                                                    .groupby('local', as_index=False)\
                                                    .head(3)\
                                                    .sort_values('local') 

Unnamed: 0_level_0,Unnamed: 1_level_0,minPlayed
local,artistName,Unnamed: 2_level_1
Belo Horizonte,Johann Sebastian Bach,297.54
Belo Horizonte,Colo de Deus,227.31
Belo Horizonte,Luan Santana,186.75
Betim,Jorge & Mateus,329.89
Betim,Henrique & Juliano,208.37
Betim,Sam Smith,158.86
Contagem,Antonio Vivaldi,186.06
Contagem,Imagine Dragons,98.87
Contagem,Sleeping At Last,34.07


Tempo em minutos que escutei por intervalo do dia em cada local

In [None]:
 df_spotify_music[['interval','local','minPlayed']].groupby(['local', 'interval'])\
                                                    .agg({'minPlayed':'sum'})\
                                                    .sort_values('minPlayed', ascending=False)\
                                                    .groupby('local', as_index=False)\
                                                    .head()\
                                                    .sort_values('local') 
                                                    

Unnamed: 0_level_0,Unnamed: 1_level_0,minPlayed
local,interval,Unnamed: 2_level_1
Belo Horizonte,Tarde,5159.68
Belo Horizonte,Madrugada,3487.27
Belo Horizonte,Manhã,1685.62
Belo Horizonte,Noite,1289.85
Betim,Tarde,3093.05
Betim,Madrugada,1774.96
Betim,Manhã,1202.69
Betim,Noite,1143.53
Contagem,Noite,577.11
Contagem,Tarde,464.52


## Chrome

### Tratando os dados

In [None]:
n = Path(r'/content/drive/MyDrive/dados_case_ifood/BrowserHistory.json')

with n.open('r', encoding='utf-8') as f:
    nc = json.loads(f.read())

df_nav = pd.json_normalize(nc, 'Browser History')

In [None]:
df_nav.head()

Unnamed: 0,favicon_url,page_transition,title,url,client_id,time_usec
0,https://www.google.com/favicon.ico,LINK,Google Takeout,https://takeout.google.com/?hl=pt-BR,dmtFSp4N6sfsVmvjL1b0HA==,1626545547219512
1,https://www.google.com/favicon.ico,LINK,Google Takeout,https://takeout.google.com/?hl=pt-BR,dmtFSp4N6sfsVmvjL1b0HA==,1626545540335322
2,https://www.google.com/favicon.ico,LINK,Google Takeout,https://takeout.google.com/?hl=pt-BR,dmtFSp4N6sfsVmvjL1b0HA==,1626545535415458
3,https://www.google.com/favicon.ico,LINK,Google Takeout,https://takeout.google.com/?hl=pt-BR,dmtFSp4N6sfsVmvjL1b0HA==,1626545530977611
4,https://www.google.com/favicon.ico,LINK,Google Takeout,https://takeout.google.com/?hl=pt-BR,dmtFSp4N6sfsVmvjL1b0HA==,1626545525178802


In [None]:
df_nav.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 57410 entries, 0 to 57409
Data columns (total 6 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   favicon_url      50037 non-null  object
 1   page_transition  57410 non-null  object
 2   title            57410 non-null  object
 3   url              57410 non-null  object
 4   client_id        57410 non-null  object
 5   time_usec        57410 non-null  int64 
dtypes: int64(1), object(5)
memory usage: 2.6+ MB


Transformando a coluna 'time_usec' em datetime

In [None]:
df_nav['time_usec'] = (df_nav['time_usec']
                          .apply(lambda x : pd.to_datetime(datetime.fromtimestamp(x/1e6),
                          #.strftime('%d/%m/%Y'),
                          unit='ns', errors='ignore'))
                          )
df_nav

Unnamed: 0,favicon_url,page_transition,title,url,client_id,time_usec
0,https://www.google.com/favicon.ico,LINK,Google Takeout,https://takeout.google.com/?hl=pt-BR,dmtFSp4N6sfsVmvjL1b0HA==,2021-07-17 18:12:27.219512
1,https://www.google.com/favicon.ico,LINK,Google Takeout,https://takeout.google.com/?hl=pt-BR,dmtFSp4N6sfsVmvjL1b0HA==,2021-07-17 18:12:20.335322
2,https://www.google.com/favicon.ico,LINK,Google Takeout,https://takeout.google.com/?hl=pt-BR,dmtFSp4N6sfsVmvjL1b0HA==,2021-07-17 18:12:15.415458
3,https://www.google.com/favicon.ico,LINK,Google Takeout,https://takeout.google.com/?hl=pt-BR,dmtFSp4N6sfsVmvjL1b0HA==,2021-07-17 18:12:10.977611
4,https://www.google.com/favicon.ico,LINK,Google Takeout,https://takeout.google.com/?hl=pt-BR,dmtFSp4N6sfsVmvjL1b0HA==,2021-07-17 18:12:05.178802
...,...,...,...,...,...,...
57405,https://www.google.com/favicon.ico,GENERATED,peça-me o que quiser - Pesquisa Google,https://www.google.com/search?gs_ssp=eJzj4tVP1...,fS6QlnFSO6UlD4zWwYLfHA==,2020-07-17 18:41:43.414748
57406,,TYPED,Nova guia,chrome://newtab/,fS6QlnFSO6UlD4zWwYLfHA==,2020-07-17 18:37:42.859231
57407,https://static.wixstatic.com/media/7a602c_b438...,LINK,RESENHA: A Joia - e a trilogia Cidade Solitári...,https://www.parforceinsider.com/single-post/20...,fS6QlnFSO6UlD4zWwYLfHA==,2020-07-17 18:33:50.969899
57408,https://www.google.com/favicon.ico,GENERATED,a joia livro - Pesquisa Google,https://www.google.com/search?gs_ssp=eJzj4tVP1...,fS6QlnFSO6UlD4zWwYLfHA==,2020-07-17 18:33:45.363277


Dropando valores nulos, algumas colunas que não serão utilizadas, e outliers

In [None]:
df_nav.dropna(inplace=True)
dropar = df_nav.loc[(df_nav['url'] == 'https://mail.google.com/mail/u/0/#inbox') | (df_nav['title'] == '(20+) Facebook')]
df_nav.drop(columns=['page_transition','client_id'], index=dropar.index, inplace=True)

In [None]:
df_nav.reset_index(inplace=True)
df_nav.drop(columns=['index','favicon_url'], inplace=True)
df_nav

Unnamed: 0,title,url,time_usec
0,Google Takeout,https://takeout.google.com/?hl=pt-BR,2021-07-17 18:12:27.219512
1,Google Takeout,https://takeout.google.com/?hl=pt-BR,2021-07-17 18:12:20.335322
2,Google Takeout,https://takeout.google.com/?hl=pt-BR,2021-07-17 18:12:15.415458
3,Google Takeout,https://takeout.google.com/?hl=pt-BR,2021-07-17 18:12:10.977611
4,Google Takeout,https://takeout.google.com/?hl=pt-BR,2021-07-17 18:12:05.178802
...,...,...,...
46866,Pacote Literário: Resenhas,http://www.pacoteliterario.com.br/p/resenhas.html,2020-07-17 18:46:45.178484
46867,Pacote Literário: Trilogia Peça-me o que quiser,http://www.pacoteliterario.com.br/2016/05/tril...,2020-07-17 18:41:55.332872
46868,peça-me o que quiser - Pesquisa Google,https://www.google.com/search?gs_ssp=eJzj4tVP1...,2020-07-17 18:41:43.414748
46869,RESENHA: A Joia - e a trilogia Cidade Solitári...,https://www.parforceinsider.com/single-post/20...,2020-07-17 18:33:50.969899


In [None]:
df_nav.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 46871 entries, 0 to 46870
Data columns (total 3 columns):
 #   Column     Non-Null Count  Dtype         
---  ------     --------------  -----         
 0   title      46871 non-null  object        
 1   url        46871 non-null  object        
 2   time_usec  46871 non-null  datetime64[ns]
dtypes: datetime64[ns](1), object(2)
memory usage: 1.1+ MB


Incluindo novas colunas de acordo com as [funções declaradas anteriormente](https://colab.research.google.com/drive/1uj5mC1E4XQmdGEGN6ND9-X3s5Cz1tj83#scrollTo=UEPNew_Bc1D2&line=6&uniqifier=1) 

In [None]:
df_nav['interval'] = df_nav['time_usec'].dt.hour.apply(interval)
df_nav['customInterval'] = df_nav['time_usec'].dt.hour.apply(custom_interval)
df_nav['local'] = df_nav['time_usec'].dt.date.apply(local)
df_nav.head()

Unnamed: 0,title,url,time_usec,interval,customInterval,local
0,Google Takeout,https://takeout.google.com/?hl=pt-BR,2021-07-17 18:12:27.219512,Tarde,Tarde,Betim
1,Google Takeout,https://takeout.google.com/?hl=pt-BR,2021-07-17 18:12:20.335322,Tarde,Tarde,Betim
2,Google Takeout,https://takeout.google.com/?hl=pt-BR,2021-07-17 18:12:15.415458,Tarde,Tarde,Betim
3,Google Takeout,https://takeout.google.com/?hl=pt-BR,2021-07-17 18:12:10.977611,Tarde,Tarde,Betim
4,Google Takeout,https://takeout.google.com/?hl=pt-BR,2021-07-17 18:12:05.178802,Tarde,Tarde,Betim


In [None]:
df_nav.describe()

  """Entry point for launching an IPython kernel.


Unnamed: 0,title,url,time_usec,interval,customInterval,local
count,46871,46871,46871,46871,46871,46871
unique,15900,24296,46871,4,6,3
top,prouni.ipynb - Colaboratory,https://www.netflix.com/browse,2020-11-07 02:14:16.795850,Tarde,Tarde,Betim
freq,2197,600,1,16532,13430,24118
first,,,2020-07-17 18:33:45.363277,,,
last,,,2021-07-17 18:12:27.219512,,,


Adicionando aos títulos vazios o valor da url.

In [None]:
df_nav['title'].loc[df_nav['title'] == ''] = df_nav['url']

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  iloc._setitem_with_indexer(indexer, value)


### Analisando os dados

O que eu mais pesquisei durante o ano?

In [None]:
df_nav['title'].value_counts().head(10)

prouni.ipynb - Colaboratory             2197
Netflix                                 1867
projeto4-Prouni.ipynb - Colaboratory     459
nlp.ipynb - Colaboratory                 407
Stories • Instagram                      336
Digital Innovation One                   318
Instagram                                284
Telemedicina | Suporte Infor             216
Play Kahoot! - Enter game PIN here!      215
Pergunta · Metabase                      183
Name: title, dtype: int64

Dia que mais acessei

In [None]:
df_nav.time_usec.dt.date.value_counts().head(10)

2021-07-05    1048
2021-06-27     757
2021-06-29     596
2021-06-26     595
2021-06-17     591
2021-05-20     548
2021-06-11     515
2021-06-10     489
2021-01-04     467
2021-06-28     453
Name: time_usec, dtype: int64

Netflix - Como não tenho acesso aos dados da plataforma, irei analisar pelo navegador quantas vezes acessei, e em quais horários do dia eu mais acessei. 


In [None]:
df_nav_netflix = df_nav.loc[df_nav['title'] == 'Netflix']
df_nav_netflix

Unnamed: 0,title,url,time_usec,interval,customInterval,local
453,Netflix,https://www.netflix.com/br/login,2021-07-14 20:47:27.792571,Noite,Aula faculdade,Betim
454,Netflix,https://www.netflix.com/br/login,2021-07-14 20:47:01.821940,Noite,Aula faculdade,Betim
455,Netflix,https://www.netflix.com/br/login,2021-07-14 20:46:50.834907,Noite,Aula faculdade,Betim
456,Netflix,https://www.netflix.com/br/login,2021-07-14 20:46:35.899106,Noite,Aula faculdade,Betim
457,Netflix,https://www.netflix.com/br/login,2021-07-14 20:46:31.519635,Noite,Aula faculdade,Betim
...,...,...,...,...,...,...
46808,Netflix,https://www.netflix.com/search?q=rain,2020-07-17 19:26:12.974318,Noite,Tarde,Belo Horizonte
46809,Netflix,https://www.netflix.com/search?q=rain&jbv=8010...,2020-07-17 19:19:16.235853,Noite,Tarde,Belo Horizonte
46810,Netflix,https://www.netflix.com/search?q=rain,2020-07-17 19:19:03.043439,Noite,Tarde,Belo Horizonte
46811,Netflix,https://www.netflix.com/browse/genre/83,2020-07-17 19:18:54.576780,Noite,Tarde,Belo Horizonte


Dia que mais acessei 

In [None]:
df_nav_netflix.time_usec.dt.date.value_counts().head(10)

2021-01-09    79
2021-06-17    70
2021-05-08    55
2021-06-25    42
2020-10-12    38
2021-03-13    33
2021-01-10    31
2020-10-13    29
2020-09-13    28
2021-03-09    26
Name: time_usec, dtype: int64

Quantidades de acesso ao site da Netflix por mês

In [None]:
df_nav_netflix.time_usec.dt.month.value_counts().head(10)

3     337
1     315
9     252
7     226
6     200
10    197
5     139
8     119
2      46
11     14
Name: time_usec, dtype: int64

Acesso ao site da netflix por dia da semana 

In [None]:
df_nav_netflix.time_usec.dt.day_name().value_counts().head(10)

Saturday     416
Sunday       332
Monday       263
Thursday     251
Friday       230
Tuesday      228
Wednesday    147
Name: time_usec, dtype: int64

Acesso ao site da netflix por local

In [None]:
df_nav_netflix.local.value_counts().head(10)

Belo Horizonte    1065
Betim              433
Contagem           369
Name: local, dtype: int64

Acesso ao site da netflix por intervalo de horários do dia

In [None]:
df_nav_netflix.interval.value_counts().head(10)

Madrugada    783
Noite        620
Tarde        440
Manhã         24
Name: interval, dtype: int64

## Analise dos períodos - Storytelling

Datas que serão utilizadas
- Julho, Agosto, Setembro -  
- Outubro: Inovar é preciso
- Novembro, Dezembro - Um novo caminho me espera. Apostando em embarcações menores.
- Janeiro - O início do meu 'SONHO GRANDE'
- Fevereiro - Adaptando a nova rotina intensa. 
- Março - Aprendendo com os erros. A constante evolução!
- Abril, Maio - Praticando o desapego, a evolução constante no meio do caminho. 
- Junho - Estudar, estudar, estudar... foi aqui que pediram dedicação e alta performance? 
- Julho - O céu é o limite 

In [None]:
#Julho, agosto, setembro
jas_inicio = '2020-07-03'
jas_fim = '2020-09-30'

#Outubro
out_inicio = '2020-10-01'
out_fim = '2020-10-31'

#Novembro, dezembro
nodez_inicio = '2020-11-01'
nodez_fim = '2020-12-31'

#Janeiro
jan_inicio = '2021-01-01'
jan_fim = '2021-01-31'

#Fevereiro
fev_inicio = '2021-02-01'
fev_fim = '2021-02-28'

#Março
mar_inicio = '2021-03-01'
mar_fim = '2021-03-31'

#Abril e Maio
abmai_inicio = '2021-04-01'
abmai_fim = '2021-05-31'

#Junho
jun_inicio = '2021-06-01'
jun_fim = '2021-06-30'

#Julho
jul_inicio = '2021-07-01'
jul_fim = '2021-07-31'

#### **Julho Agosto e Setembro - Depois de um tombo vem o outro!**

DFs Julho, Agosto e Setembro

In [None]:
df_jas_yt = df_youtube.loc[(df_youtube['time'] >= jas_inicio) & (df_youtube['time'] <= jas_fim)]

df_jas_sf = df_spotify_music.loc[(df_spotify_music['endTime'] >= jas_inicio) & (df_spotify_music['endTime'] <= jas_fim)]

df_jas_gc = df_nav.loc[(df_nav['time_usec'] >= jas_inicio) & (df_nav['time_usec'] <= jas_fim)]

In [None]:
df_jas_yt.head()

Unnamed: 0,title,titleUrl,time,channel_name,category,tags,duration,minutes,interval,customInterval,local
884,SAIBA TUDO SOBRE BANCOS DE DADOS NO NOTION (T...,https://www.youtube.com/watch?v=uJigO3MpA9c,2020-09-28 14:21:04.335000-03:00,Guri Sonhador,Education,"['Notion', 'como usar o Notion', 'Notion para ...",0 days 00:27:08,27.13,Tarde,Estágio,Belo Horizonte
885,MARIA HOMEM: UMA PSICANÁLISE DOS AFETOS,https://www.youtube.com/watch?v=DTkxFqGsHfg,2020-09-28 09:34:29.795000-03:00,Maria Homem,People & Blogs,"['Maria Homem', 'Maria Lucia Homem', 'MH', 'US...",0 days 00:04:38,4.63,Manhã,Estágio,Belo Horizonte
886,Como organizar TODO O SEU NOTION (Organização...,https://www.youtube.com/watch?v=PwPM5XkpEJE,2020-09-28 09:27:06.302000-03:00,Guri Sonhador,Education,"['Notion', 'como usar o Notion', 'Notion para ...",0 days 00:26:05,26.08,Manhã,Estágio,Belo Horizonte
887,Mariana Nolasco - Era amor (Clipe Oficial),https://www.youtube.com/watch?v=AGKS0XNDFKE,2020-09-28 09:21:48.245000-03:00,Mariana Nolasco,Music,"['mariana', 'nolasco', 'mari', 'oficial', 'mus...",0 days 00:03:36,3.6,Manhã,Estágio,Belo Horizonte
888,"como mudei meus hábitos e rotina: disciplina,...",https://www.youtube.com/watch?v=EVT5RY9Vxlc,2020-09-27 12:10:45.010000-03:00,Vanessa Lino,People & Blogs,"['vanessa lino', 'hábitos', 'rotina', 'como ac...",0 days 00:26:13,26.22,Manhã,Estágio,Belo Horizonte


Canais mais assistidos

In [None]:
df_jas_yt['channel_name'].value_counts().head(10)

RAFAEL RODRIGUES - CROSSFAT    11
Leticia Fagundes                9
Giselle Marciel                 9
Luciana de Farias               8
Pedro Sobral                    6
Gêmeas do Inglês                6
Seja Um Data Scientist          6
Rayssa Eckert                   5
GIOH                            5
Joyce Kitamura                  5
Name: channel_name, dtype: int64

Categoria mais assistida

In [None]:
df_jas_yt['category'].value_counts()

People & Blogs          84
Education               52
Music                   35
Entertainment           33
Science & Technology    20
Howto & Style            4
Pets & Animals           3
Nonprofits &Activism     2
Film & Animation         2
News & Politics          1
Name: category, dtype: int64

Horários que mais assisti por intervalo e por hora do dia

In [None]:
# Por intervalo
df_jas_yt['interval'].value_counts()

Noite        77
Manhã        67
Tarde        63
Madrugada    29
Name: interval, dtype: int64

In [None]:
# Por horário do dia
df_jas_yt.time.dt.hour.value_counts()

12    24
23    20
22    20
11    20
1     15
13    15
19    15
21    14
16    12
15    11
14    10
18    10
0      9
20     8
10     8
9      7
8      6
17     5
2      3
7      2
3      2
Name: time, dtype: int64

Tempo em minutos que passei assistindo cada categoria

In [None]:
df_jas_yt[['category', 'minutes']].groupby('category').agg({'minutes':'sum'}).sort_values('minutes', ascending=False) 

Unnamed: 0_level_0,minutes
category,Unnamed: 1_level_1
Music,3309.09
Education,2679.12
People & Blogs,1831.09
Entertainment,654.17
Science & Technology,373.18
Howto & Style,27.62
Pets & Animals,16.07
Nonprofits &Activism,4.3
Film & Animation,3.86
News & Politics,1.28


Quantas horas passei no youtube nesses meses


In [None]:
round(df_jas_yt['minutes'].sum()/60,2)

148.33

Quantidade de vídeos assistidos por categoria em cada intervalo de tempo do dia

In [None]:
df_jas_yt[['category', 'interval']].groupby(['category', 'interval'], as_index=False).size().sort_values(['category','size'],ascending=False)

Unnamed: 0,category,interval,size
26,Science & Technology,Noite,7
25,Science & Technology,Manhã,6
27,Science & Technology,Tarde,4
24,Science & Technology,Madrugada,3
23,Pets & Animals,Noite,3
22,People & Blogs,Tarde,29
20,People & Blogs,Manhã,24
21,People & Blogs,Noite,18
19,People & Blogs,Madrugada,13
17,Nonprofits &Activism,Noite,1


Os primeiros vídeos que eu assisti sobre ciência de dados quando me interessei pela área. 
No dia 15 e 17/09

In [None]:
df_jas_yt.loc[df_jas_yt['channel_name'] == 'Seja Um Data Scientist']

Unnamed: 0,title,titleUrl,time,channel_name,category,tags,duration,minutes,interval,customInterval,local
914,"O QUE EU FARIA, SE TIVESSE QUE COMEÇAR DATA S...",https://www.youtube.com/watch?v=VlYDWOfiFuc,2020-09-17 22:05:23.990000-03:00,Seja Um Data Scientist,Science & Technology,"['ciencia de dados', 'data science', 'cientist...",0 days 00:31:18,31.3,Noite,Aula faculdade,Belo Horizonte
917,COMO ESTUDAR CIÊNCIA DE DADOS - SIGA ESSE MAPA!,https://www.youtube.com/watch?v=2g7TBUDkDhM,2020-09-15 22:48:05.309000-03:00,Seja Um Data Scientist,Science & Technology,"['ciencia de dados', 'data scientist', 'python...",0 days 00:25:42,25.7,Noite,Aula faculdade,Belo Horizonte
918,"Qual Profissão de Dados, Eu DEVO SEGUIR?",https://www.youtube.com/watch?v=BXDP8ttWbPo,2020-09-15 21:07:57.320000-03:00,Seja Um Data Scientist,Science & Technology,"['ciencia de dados', 'analista de dados', 'eng...",0 days 00:27:27,27.45,Noite,Aula faculdade,Belo Horizonte
919,O QUE É CIÊNCIA DE DADOS? E COMO APRENDER?,https://www.youtube.com/watch?v=WHoK46KLrcM,2020-09-15 13:45:47.172000-03:00,Seja Um Data Scientist,Science & Technology,"['ciencia de dados curso', 'ciencia de dados p...",0 days 00:24:45,24.75,Tarde,Estágio,Belo Horizonte
920,Qual A Diferença Entre o Data Analyst e o Dat...,https://www.youtube.com/watch?v=tmx7bg3HTr0,2020-09-15 12:02:33.647000-03:00,Seja Um Data Scientist,Science & Technology,"['cienciadedados', 'analistadedados', 'datasci...",0 days 00:23:01,23.02,Manhã,Estágio,Belo Horizonte
921,"O QUE EU FARIA, SE TIVESSE QUE COMEÇAR DATA S...",https://www.youtube.com/watch?v=VlYDWOfiFuc,2020-09-15 09:42:49.437000-03:00,Seja Um Data Scientist,Science & Technology,"['ciencia de dados', 'data science', 'cientist...",0 days 00:31:18,31.3,Manhã,Estágio,Belo Horizonte


Além disso eu buscava me organizar mais para a minha mudança, e para encontrar meu proposito. 

In [None]:
df_jas_yt.query('title.str.contains("Notion") | title.str.contains("Organizar") | title.str.contains("Planejamento")\
| title.str.contains("Propósito")', engine='python')

Unnamed: 0,title,titleUrl,time,channel_name,category,tags,duration,minutes,interval,customInterval,local
889,Como eu Organizo Minha Vida com o Notion,https://www.youtube.com/watch?v=caU9L6F3BAk,2020-09-27 11:53:58.599000-03:00,Pinho,People & Blogs,"['pinho', 'minimalismo', 'minimalista', 'estil...",0 days 00:14:18,14.3,Manhã,Estágio,Belo Horizonte
938,Aula 4 - Jornada Inicie Seu Propósito,https://www.youtube.com/watch?v=vydTcWxuYsc,2020-09-07 00:34:14.594000-03:00,Leticia Fagundes,Education,,0 days 00:51:40,51.67,Madrugada,Dormindo,Belo Horizonte
939,Jornada Inicie seu Propósito - Aula 7,https://www.youtube.com/watch?v=z0ipjofNGsI,2020-09-07 00:05:41.084000-03:00,Leticia Fagundes,Education,,0 days 00:51:25,51.42,Madrugada,Dormindo,Belo Horizonte
940,Aula 6 - Jornada Inicie seu Propósito!,https://www.youtube.com/watch?v=i0vaMd4px8s,2020-09-06 23:58:28.404000-03:00,Leticia Fagundes,Education,,0 days 00:32:55,32.92,Noite,Noite,Belo Horizonte
941,Aula 5 - Jornada Inicie Seu Propósito,https://www.youtube.com/watch?v=_khp9WNlYyU,2020-09-06 23:56:42.599000-03:00,Leticia Fagundes,Education,,0 days 00:47:14,47.23,Noite,Noite,Belo Horizonte
942,Aula 4 - Jornada Inicie Seu Propósito,https://www.youtube.com/watch?v=vydTcWxuYsc,2020-09-06 23:56:20.022000-03:00,Leticia Fagundes,Education,,0 days 00:51:40,51.67,Noite,Noite,Belo Horizonte
943,Aula 3 - Jornada Inicie Seu Propósito,https://www.youtube.com/watch?v=kAI5A3Nk3Ag,2020-09-06 23:56:05.389000-03:00,Leticia Fagundes,Education,,0 days 00:55:09,55.15,Noite,Noite,Belo Horizonte
944,Jornada Inicie seu Propósito - Aula 7,https://www.youtube.com/watch?v=z0ipjofNGsI,2020-09-06 23:56:04.667000-03:00,Leticia Fagundes,Education,,0 days 00:51:25,51.42,Noite,Noite,Belo Horizonte
957,arte & planejamento: 003 - rolê pelo Notion d...,https://www.youtube.com/watch?v=Xcr7LSOolPM,2020-09-01 23:25:30.423000-03:00,Lucas Gonçalves,Education,,0 days 01:10:48,70.8,Noite,Noite,Belo Horizonte
960,5 dicas para facilitar sua vida no Notion,https://www.youtube.com/watch?v=OMrwOtFydjM,2020-09-01 22:26:14.949000-03:00,Produtive Me,People & Blogs,"['Produtividade Pessoal', 'Brasil', 'Organizaç...",0 days 00:12:22,12.37,Noite,Aula faculdade,Belo Horizonte


E qual a trilha sonora desse momento?

Artistas mais reproduzidos

In [None]:
df_jas_sf[['artistName','minPlayed']].groupby(['artistName'], as_index=False)\
                                     .agg({'minPlayed':'sum'})\
                                     .sort_values('minPlayed', ascending=False)\
                                     .head(10)

Unnamed: 0,artistName,minPlayed
297,Johann Sebastian Bach,297.54
399,Luan Santana,130.64
633,Supercombo,96.68
476,Ministério Zoe,66.09
213,Fresno,63.89
444,Marília Mendonça,59.58
65,BTS,55.74
177,Ed Sheeran,54.52
75,Billie Eilish,51.66
371,Lauv,46.94


Eclética né kkkk  
Música clássica, sertanejo, gospel, pop...

E quais foram as músicas que mais ouvi?

In [None]:
df_jas_sf[['trackName','minPlayed']].groupby(['trackName'], as_index=False)\
                                     .agg({'minPlayed':'sum'})\
                                     .sort_values('minPlayed', ascending=False)\
                                     .head(10)

Unnamed: 0,trackName,minPlayed
98,Aquieta Minh'alma,32.85
1371,lovely (with Khalid),30.06
14,A Casa É Sua,28.11
1320,Were You Watching?,26.4
642,Lover,25.83
707,Modern Loneliness - acoustic,25.26
786,Não Pare,24.45
285,Deus e Eu - Ao Vivo,24.02
246,Dance Monkey,23.31
1359,boa memória - ao vivo,23.14


Gospel e pop liderando...

E será que tinha um intervalo que eu gostava mais de ouvir música?

In [None]:
df_jas_sf[['interval','minPlayed']].groupby(['interval'], as_index=False)\
                                                    .agg({'minPlayed':'sum'})\
                                                    .sort_values('minPlayed', ascending=False)\
                                                    .groupby('interval', as_index=False)\
                                                    .head(3)

Unnamed: 0,interval,minPlayed
0,Madrugada,2529.85
3,Tarde,2371.35
2,Noite,828.55
1,Manhã,626.61


In [None]:
df_jas_sf[['artistName','interval','minPlayed']].groupby(['interval', 'artistName'])\
                                                    .agg({'minPlayed':'sum'})\
                                                    .sort_values('minPlayed', ascending=False)\
                                                    .groupby('interval', as_index=False)\
                                                    .head(3)\
                                                    .sort_values('interval') 

Unnamed: 0_level_0,Unnamed: 1_level_0,minPlayed
interval,artistName,Unnamed: 2_level_1
Madrugada,Johann Sebastian Bach,132.43
Madrugada,Supercombo,67.43
Madrugada,BTS,45.08
Manhã,Johann Sebastian Bach,32.87
Manhã,Supercombo,28.17
Manhã,Wolfgang Amadeus Mozart,22.17
Noite,Johann Sebastian Bach,36.32
Noite,Luan Santana,26.38
Noite,Billie Eilish,21.54
Tarde,Johann Sebastian Bach,95.92


Bach em todos os horários, desconfio que foram nos momentos de leitura, amo ler ouvindo música clássica. 

Mais de 100 horas ouvindo música nesses meses

In [None]:
round(df_jas_sf['minPlayed'].sum()/60,0) 

106.0

E será que eu ouvi música no dia que estava descobrindo um pouco mais sobre dados?  
Será que tenho músicas que me inspiram mais?

In [None]:
spotify_set = df_jas_sf.loc[(df_jas_sf['endTime'].dt.date == pd.to_datetime('2020-09-15')) |\
              (df_jas_sf['endTime'].dt.date == pd.to_datetime('2020-09-16')) |\
              (df_jas_sf['endTime'].dt.date == pd.to_datetime('2020-09-17'))]

spotify_set.groupby(['artistName'], as_index=False).size().sort_values('size', ascending=False).head()

Unnamed: 0,artistName,size
58,Ministério Zoe,5
22,Dilsinho,4
31,Gabriela Rocha,3
75,Ton Carfi,3
84,Zeeba,2


Parece que o que mais escutei nesses dias foi gospel. Me sentir próxima a Deus me motiva. Nesse momento realmente tentava me conectar sempre com a minha espiritualidade. 

E o que eu acessava no google? 

Um histórico pode dizer muito sobre uma pessoa kkkk


In [None]:
df_jas_gc['title'].value_counts().head(10)

Netflix                                               529
Telemedicina | Suporte Infor                          132
Google Agenda - Semana de 27 de setembro de 2020       83
Stories • Instagram                                    58
Instagram                                              57
Painel de controle                                     52
SGA - Quadro de Horários                               48
Redirect                                               47
SGA - Inclusão de Disciplina                           42
SGA - Alteração de Solicitação de Plano de Estudos     40
Name: title, dtype: int64

E o que eu acessava por intervalo do dia

In [None]:
# df_jas_gc.reset_index(inplace=True)
# df_jas_gc
# redirect = df_jas_gc.loc[df_jas_gc['title'] == 'Redirect']
# df_jas_gc.drop(index = redirect.index, inplace=True)
# df_jas_gc.drop(columns=['index','level_0'],inplace=True)

In [None]:
 df_jas_gc[['title','interval']].groupby(['interval', 'title'],as_index=False)\
                                                    .size()\
                                                    .sort_values('size', ascending=False)\
                                                    .groupby('interval', as_index=False)\
                                                    .head(3)\
                                                    .sort_values('interval') 

Unnamed: 0,interval,title,size
526,Madrugada,Netflix,205
438,Madrugada,Google Agenda - Semana de 27 de setembro de 2020,83
604,Madrugada,Redirect,31
1003,Manhã,SGA - Quadro de Horários,15
1000,Manhã,SGA - Inclusão de Nova Disciplina,14
997,Manhã,SGA - Alteração de Solicitação de Plano de Est...,12
1463,Noite,Netflix,190
1548,Noite,SGA - Quadro de Horários,33
1544,Noite,SGA - Inclusão de Disciplina,28
2266,Tarde,Netflix,124


Realmente, um histórico conta muita coisa.  
Momento netflix esteve presente, e como estava em momento de matrícula da faculdade o portal marca presença em alguns momentos. 

E as pesquisas relacionados a dados? Vamos dar uma olhada?

In [None]:
df_jas_gc.query('title.str.contains("Dados") | title.str.contains("Python") | title.str.contains("Análise")\
| title.str.contains("SQL")', engine='python')

Unnamed: 0,title,url,time_usec,interval,customInterval,local
41120,DiversiDados: Curso de ciência de dados do Nubank,https://docs.google.com/forms/d/e/1FAIpQLSdHZ8...,2020-09-29 18:18:00.259419,Tarde,Tarde,Belo Horizonte
41125,DiversiDados: o curso de ciência de dados do N...,https://blog.nubank.com.br/diversidados-curso/,2020-09-29 18:13:14.318105,Tarde,Tarde,Belo Horizonte
41157,13:00 - LGPD e Governança de Dados nas organiz...,https://online.igti.com.br/courses/30/pages/13...,2020-09-29 16:11:16.787737,Tarde,Tarde,Belo Horizonte
41804,"(749) Qual Profissão de Dados, Eu DEVO SEGUIR?...",https://www.youtube.com/watch?v=BXDP8ttWbPo,2020-09-22 21:51:45.905639,Noite,Aula faculdade,Belo Horizonte
41806,"(749) Episódio 1 - Cientista de Dados, Por Ond...",https://www.youtube.com/watch?v=NmCuEgkVLWo,2020-09-22 21:51:45.879454,Noite,Aula faculdade,Belo Horizonte
42062,Modelagem de Dados - Fundação Bradesco - Escol...,https://www.ev.org.br/cursos/modelagem-de-dados,2020-09-16 16:36:41.611476,Tarde,Tarde,Belo Horizonte
42168,"(749) Episódio 1 - Cientista de Dados, Por Ond...",https://www.youtube.com/watch?v=NmCuEgkVLWo,2020-09-16 00:06:54.486664,Madrugada,Dormindo,Belo Horizonte
42170,"(749) Qual Profissão de Dados, Eu DEVO SEGUIR?...",https://www.youtube.com/watch?v=BXDP8ttWbPo,2020-09-16 00:06:48.841609,Madrugada,Dormindo,Belo Horizonte
42198,"(741) Episódio 1 - Cientista de Dados, Por Ond...",https://www.youtube.com/watch?v=NmCuEgkVLWo,2020-09-15 16:45:28.081808,Tarde,Tarde,Belo Horizonte
42201,"(741) Qual Profissão de Dados, Eu DEVO SEGUIR?...",https://www.youtube.com/watch?v=BXDP8ttWbPo,2020-09-15 16:45:12.650697,Tarde,Tarde,Belo Horizonte


Era o início de uma chama crescendo em mim 

#### **Outubro - Inovar é preciso**


DFs Outubro


In [None]:
df_out_yt = df_youtube.loc[(df_youtube['time'] >= out_inicio) & (df_youtube['time'] <= out_fim)]

df_out_sf = df_spotify_music.loc[(df_spotify_music['endTime'] >= out_inicio) & (df_spotify_music['endTime'] <= out_fim)]

df_out_gc = df_nav.loc[(df_nav['time_usec'] >= out_inicio) & (df_nav['time_usec'] <= out_fim)]

In [None]:
df_out_yt.head()

Unnamed: 0,title,titleUrl,time,channel_name,category,tags,duration,minutes,interval,customInterval,local
801,As 5 FÓRMULAS BÁSICAS do Excel que você TEM Q...,https://www.youtube.com/watch?v=Ufmem0LjubI,2020-10-28 16:12:55.728000-03:00,Hashtag Treinamentos,Education,"['fórmulas básicas excel', 'fórmulas básicas d...",0 days 00:32:24,32.4,Tarde,Tarde,Belo Horizonte
802,Minicurso Básico de Excel - Aula 14 - Fórmula...,https://www.youtube.com/watch?v=DuMMFXDYlo8,2020-10-28 16:07:14.386000-03:00,Hashtag Treinamentos,Education,,0 days 00:08:07,8.12,Tarde,Tarde,Belo Horizonte
803,Minicurso Básico de Excel - Aula 13 - Fórmula...,https://www.youtube.com/watch?v=LGEE1DoLJoE,2020-10-28 16:01:59.040000-03:00,Hashtag Treinamentos,Education,,0 days 00:08:48,8.8,Tarde,Tarde,Belo Horizonte
804,Minicurso Básico de Excel - Aula 12 - Fórmula SE,https://www.youtube.com/watch?v=eqoqegKtfM4,2020-10-28 15:56:54.056000-03:00,Hashtag Treinamentos,Education,,0 days 00:08:52,8.87,Tarde,Tarde,Belo Horizonte
805,Minicurso Básico de Excel - Aula 11 - Gráfico...,https://www.youtube.com/watch?v=3_vw5aXQvJ4,2020-10-28 15:52:16.380000-03:00,Hashtag Treinamentos,Education,,0 days 00:07:55,7.92,Tarde,Tarde,Belo Horizonte


Canais mais assistidos

In [None]:
df_out_yt['channel_name'].value_counts().head(10)

Hashtag Treinamentos      16
Henrique e Juliano         4
camis_vidafit              4
Gêmeas do Inglês           4
ImagineDragonsVEVO         4
Gusttavo Lima Oficial      3
Endocrinologia em dia      3
Deive Leonardo             3
Jorge & Mateus Oficial     3
Programação Dinâmica       2
Name: channel_name, dtype: int64

Categoria mais assistida

In [None]:
df_out_yt['category'].value_counts()

Education               29
Music                   22
People & Blogs          11
Entertainment           10
Science & Technology     3
Nonprofits &Activism     1
Name: category, dtype: int64

Horários que mais assisti por intervalo e por hora do dia

In [None]:
# Por intervalo
df_out_yt['interval'].value_counts()

Tarde        32
Noite        24
Manhã        19
Madrugada     1
Name: interval, dtype: int64

In [None]:
# Por horário do dia
df_out_yt.time.dt.hour.value_counts()

15    13
21    11
13     8
19     7
10     6
20     5
17     4
14     3
8      3
16     3
12     3
11     3
9      3
7      1
22     1
18     1
2      1
Name: time, dtype: int64

Tempo em minutos que passei assistindo cada categoria

In [None]:
df_out_yt[['category', 'minutes']].groupby('category').agg({'minutes':'sum'}).sort_values('minutes', ascending=False) 

Unnamed: 0_level_0,minutes
category,Unnamed: 1_level_1
Music,346.42
Education,297.06
Entertainment,270.95
People & Blogs,187.46
Science & Technology,44.5
Nonprofits &Activism,17.83


Quantas horas passei no youtube nesse mês


In [None]:
round(df_out_yt['minutes'].sum()/60,2)

19.4

Quantidade de vídeos assistidos por categoria em cada intervalo de tempo do dia

In [None]:
df_out_yt[['category', 'interval']].groupby(['category', 'interval'], as_index=False).size().sort_values(['category','size'],ascending=False)

Unnamed: 0,category,interval,size
13,Science & Technology,Tarde,2
12,Science & Technology,Manhã,1
9,People & Blogs,Manhã,4
10,People & Blogs,Noite,4
11,People & Blogs,Tarde,2
8,People & Blogs,Madrugada,1
7,Nonprofits &Activism,Tarde,1
5,Music,Noite,17
6,Music,Tarde,5
2,Entertainment,Manhã,6


Será que eu continuava assistindo aquele canal sobre dados?

In [None]:
df_out_yt.loc[df_out_yt['channel_name'] == 'Seja Um Data Scientist']

Unnamed: 0,title,titleUrl,time,channel_name,category,tags,duration,minutes,interval,customInterval,local
833,Migrar para Analista de Dados e depois para C...,https://www.youtube.com/watch?v=KjExXH17Hsg,2020-10-20 08:31:41.288000-03:00,Seja Um Data Scientist,Science & Technology,"['ciencia de dados', 'cientista de dados', 'da...",0 days 00:28:32,28.53,Manhã,Manhã,Belo Horizonte


In [None]:
df_out_yt.query('title.str.contains("Dados") | title.str.contains("Python") | title.str.contains("Análise")\
| title.str.contains("SQL")', engine='python')

Unnamed: 0,title,titleUrl,time,channel_name,category,tags,duration,minutes,interval,customInterval,local
812,Minicurso Básico de Excel - Aula 4 - Validaçã...,https://www.youtube.com/watch?v=1jG2YPEhSWM,2020-10-28 15:16:51.290000-03:00,Hashtag Treinamentos,Education,,0 days 00:10:18,10.3,Tarde,Tarde,Belo Horizonte
827,VOCÊ SABE EXTRAIR INFORMAÇÕES DE DADOS? | Aná...,https://www.youtube.com/watch?v=RlGOaSPFtXc,2020-10-22 15:40:27.426000-03:00,Programação Dinâmica,Education,"['dados', 'dados abertos', 'dados abertos gove...",0 days 00:08:01,8.02,Tarde,Tarde,Belo Horizonte
833,Migrar para Analista de Dados e depois para C...,https://www.youtube.com/watch?v=KjExXH17Hsg,2020-10-20 08:31:41.288000-03:00,Seja Um Data Scientist,Science & Technology,"['ciencia de dados', 'cientista de dados', 'da...",0 days 00:28:32,28.53,Manhã,Manhã,Belo Horizonte
845,VOCÊ SABE EXTRAIR INFORMAÇÕES DE DADOS? | Aná...,https://www.youtube.com/watch?v=RlGOaSPFtXc,2020-10-15 08:44:09.352000-03:00,Programação Dinâmica,Education,"['dados', 'dados abertos', 'dados abertos gove...",0 days 00:08:01,8.02,Manhã,Manhã,Belo Horizonte
876,"Notion: Banco de Dados de Pesquisa, Estudos &...",https://www.youtube.com/watch?v=Cvph-chueoU,2020-10-02 11:17:55.917000-03:00,Guri Sonhador,Education,"['Notion', 'como usar o Notion', 'Notion para ...",0 days 00:27:38,27.63,Manhã,Estágio,Belo Horizonte


Teve uma queda na busca de vídeos sobre o assunto de dados, mas ainda estava presente.

Spotify

Artistas mais reproduzidos

In [None]:
df_out_sf[['artistName','minPlayed']].groupby(['artistName'], as_index=False)\
                                     .agg({'minPlayed':'sum'})\
                                     .sort_values('minPlayed', ascending=False)\
                                     .head(10)

Unnamed: 0,artistName,minPlayed
52,Colo de Deus,60.54
148,Jorge & Mateus,57.83
320,Vida Reluz,47.53
179,Los Hermanos,43.1
247,Padre Fábio De Melo,42.04
243,Os Barões Da Pisadinha,41.78
224,Ministério Zoe,37.56
120,Henrique & Juliano,33.3
135,Israel Subira,29.93
17,Anderson Freire,29.52


O Gospel e o Sertanejo se fazendo presente mais uma vez.

E quais foram as músicas que mais ouvi?

In [None]:
df_out_sf[['trackName','minPlayed']].groupby(['trackName'], as_index=False)\
                                     .agg({'minPlayed':'sum'})\
                                     .sort_values('minPlayed', ascending=False)\
                                     .head(10)

Unnamed: 0,trackName,minPlayed
267,Me Leva Pra Casa,20.41
136,Deus e Eu - Ao Vivo,19.9
380,Raridade,19.84
6,A Casa É Sua,19.34
45,Aquieta Minh'alma,19.21
334,Ousado Amor,16.71
391,Ressuscita-me,15.49
257,Lugar Secreto,14.08
367,Que Amor É Esse,14.04
370,Queima de Novo,12.29


Mais um ponto para o gospel kkkk

E será que tinha um intervalo que eu gostava mais de ouvir música?

In [None]:
df_out_sf[['interval','minPlayed']].groupby(['interval'], as_index=False)\
                                                    .agg({'minPlayed':'sum'})\
                                                    .sort_values('minPlayed', ascending=False)\
                                                    .groupby('interval', as_index=False)\
                                                    .head(3)

Unnamed: 0,interval,minPlayed
3,Tarde,1408.94
1,Manhã,232.05
0,Madrugada,131.67
2,Noite,109.1


In [None]:
df_out_sf[['artistName','interval','minPlayed']].groupby(['interval', 'artistName'])\
                                                    .agg({'minPlayed':'sum'})\
                                                    .sort_values('minPlayed', ascending=False)\
                                                    .groupby('interval', as_index=False)\
                                                    .head(3)\
                                                    .sort_values('interval') 

Unnamed: 0_level_0,Unnamed: 1_level_0,minPlayed
interval,artistName,Unnamed: 2_level_1
Madrugada,Snow Patrol,10.16
Madrugada,Leeland,8.39
Madrugada,Hillsong UNITED,7.49
Manhã,Los Hermanos,36.67
Manhã,Leandro Borges,19.9
Manhã,Gabriela Rocha,18.67
Noite,Os Barões Da Pisadinha,5.74
Noite,Vida Reluz,4.81
Noite,Legião Urbana,4.67
Tarde,Jorge & Mateus,54.57


In [None]:
round(df_out_sf['minPlayed'].sum()/60,0) 

31.0

Em média uma hora de música por dia! Música é o combustível da alma né 

Navegador

In [None]:
df_out_gc['title'].value_counts().head(10)

Stories • Instagram                                                         184
Netflix                                                                     181
Queima Diária Play | Acessar minha conta                                     86
Instagram                                                                    61
Telemedicina | Suporte Infor                                                 54
#reeducaçãoalimentar hashtag no Instagram • Fotos e vídeos                   34
Cursos online - a qualquer hora, em qualquer lugar | Udemy                   28
Site de leilão online de centavos Arremate mais nos leilões do Lance 24h     22
#brandpersona hashtag no Instagram • Fotos e vídeos                          19
LEILÕES ONLINE | Lance24                                                     18
Name: title, dtype: int64

E o que eu acessava por intervalo do dia

In [None]:
# df_jas_gc.reset_index(inplace=True)
# df_jas_gc
# redirect = df_jas_gc.loc[df_jas_gc['title'] == 'Redirect']
# df_jas_gc.drop(index = redirect.index, inplace=True)
# df_jas_gc.drop(columns=['index','level_0'],inplace=True)

In [None]:
# ee = df_out_gc.query('title.str.contains("Curriculo Vaga Escriturário") | title.str.contains("Lance")', engine='python')
# df_out_gc.drop(index= ee.index, inplace=True)  #LEILÕES ONLINE | Lance24
# ee

In [None]:
 df_out_gc[['title','interval']].groupby(['interval', 'title'],as_index=False)\
                                                    .size()\
                                                    .sort_values('size', ascending=False)\
                                                    .groupby('interval', as_index=False)\
                                                    .head(3)\
                                                    .sort_values('interval') 

Unnamed: 0,interval,title,size
71,Madrugada,Netflix,82
91,Madrugada,Stories • Instagram,59
1,Madrugada,#reeducaçãoalimentar hashtag no Instagram • Fo...,33
162,Manhã,Curriculo Vaga Escriturário - soares.analima3@...,7
190,Manhã,Telemedicina | Suporte Infor,6
189,Manhã,Sua fatura mensal - Itaucard - soares.analima3...,5
407,Noite,Netflix,62
444,Noite,Queima Diária Play | Acessar minha conta,44
313,Noite,"Cursos online - a qualquer hora, em qualquer l...",28
801,Tarde,Stories • Instagram,125


E as pesquisas relacionados a dados? Vamos dar uma olhada?

In [None]:
df_out_gc.query('title.str.contains("Dados") | title.str.contains("Python") | title.str.contains("Análise")\
| title.str.contains("SQL")', engine='python')

Unnamed: 0,title,url,time_usec,interval,customInterval,local
38746,Tutorial de SQL grátis - Curso SQL Completo 2020…,https://www.udemy.com/course/curso-sql-complet...,2020-10-29 22:26:27.389824,Noite,Aula faculdade,Belo Horizonte
38863,(272) #1 Sua primeira Análise em Dados de Educ...,https://www.youtube.com/watch?v=GXjuDDxQ_2Y&fe...,2020-10-27 19:56:12.130898,Noite,Tarde,Belo Horizonte
38865,O que vem depois da Imersão Dados - soares.ana...,https://mail.google.com/mail/u/0/#inbox/FMfcgx...,2020-10-27 19:55:20.131759,Noite,Tarde,Belo Horizonte
38938,Analista de Dados / BI - Carreira MB,https://jobs.kenoby.com/mercantil/job/analista...,2020-10-26 15:28:37.911993,Tarde,Tarde,Belo Horizonte
39185,No ar: primeira aula da #ImersãoDados - soares...,https://mail.google.com/mail/u/0/#search/alura...,2020-10-22 20:23:43.546731,Noite,Aula faculdade,Belo Horizonte
39218,Tutorial de Análise de dados grátis - Estatíst...,https://www.udemy.com/course/big-data-excel-in...,2020-10-22 19:34:43.972994,Noite,Tarde,Belo Horizonte
39275,Exame Academy | Introdução a Data Science e Py...,https://academy.exame.com/introducao-a-data-sc...,2020-10-22 19:08:28.639941,Noite,Tarde,Belo Horizonte
39285,Vale fará evento online e gratuito sobre a car...,https://exame.com/carreira/vale-fara-evento-on...,2020-10-22 19:02:50.433547,Noite,Tarde,Belo Horizonte
39315,(220) VOCÊ SABE EXTRAIR INFORMAÇÕES DE DADOS? ...,https://www.youtube.com/watch?v=RlGOaSPFtXc&li...,2020-10-22 18:40:13.046400,Tarde,Tarde,Belo Horizonte
39316,GitHub - MariaEduardaDeAzevedo/nosso-py: Um re...,https://github.com/MariaEduardaDeAzevedo/nosso-py,2020-10-22 18:40:07.742632,Tarde,Tarde,Belo Horizonte


#### **Novembro, Dezembro - Um novo caminho me espera. Apostando em embarcações menores.**

DFs Novembro e dezembro


In [None]:
df_nodez_yt = df_youtube.loc[(df_youtube['time'].dt.month == 11) | (df_youtube['time'].dt.month == 12)]

df_nodez_sf = df_spotify_music.loc[(df_spotify_music['endTime'].dt.month == 11) | (df_spotify_music['endTime'].dt.month == 12)]

df_nodez_gc = df_nav.loc[(df_nav['time_usec'].dt.month == 11) | (df_nav['time_usec'].dt.month == 12)]

YOUTUBE

In [None]:
df_nodez_yt.head()

Unnamed: 0,title,titleUrl,time,channel_name,category,tags,duration,minutes,interval,customInterval,local
697,Você VALORIZA o seu TEMPO? ⏱,https://www.youtube.com/watch?v=8MIurJbiLrI,2020-12-31 09:37:40.896000-02:00,parece óbvio,People & Blogs,"['minimalismo', 'minimalista', 'estilo de vida...",0 days 00:09:08,9.13,Manhã,Estágio,Belo Horizonte
698,"COMO SE ORGANIZAR EM 2021: Planner, Bujo, Pla...",https://www.youtube.com/watch?v=mXfviS21l1E,2020-12-31 01:23:24.466000-02:00,Karina Idalgo,People & Blogs,"['diy', 'faça você mesmo', 'faça você mesma', ...",0 days 00:10:58,10.97,Madrugada,Dormindo,Belo Horizonte
699,GUIA DE CLAREZA 2021: UM EXERCÍCIO DE ESCRITA!,https://www.youtube.com/watch?v=atNVrh9TzP0,2020-12-31 01:23:13.413000-02:00,Mariana Menezes,People & Blogs,"['mariana menezes', 'mari menezes', 'produtivi...",0 days 00:15:14,15.23,Madrugada,Dormindo,Belo Horizonte
700,PLANEJE SEU ANO NOVO! Como eu me planejo | Lu...,https://www.youtube.com/watch?v=39HHzScLLIs,2020-12-31 00:59:44.355000-02:00,Lu Ferreira,Howto & Style,"['Lu', 'Ferreira', 'Lu Ferreira', 'Chata', 'Ch...",0 days 00:29:12,29.2,Madrugada,Dormindo,Belo Horizonte
701,Desenterre os sonhos | Deive Leonardo,https://www.youtube.com/watch?v=QNqg7EJTw4A,2020-12-28 09:08:15.388000-02:00,Deive Leonardo,Entertainment,"['Desenterre os seus sonhos', 'Quanto custa se...",0 days 00:10:22,10.37,Manhã,Estágio,Belo Horizonte


Canais mais assistidos

In [None]:
df_nodez_yt['channel_name'].value_counts().head(10)

Hashtag Treinamentos      16
Urban Extractions          7
Nagel Podologia            6
Deive Leonardo             5
เอื้อมพร รับตกแต่งเล็บ     3
Hiền Vân Spa               2
Satisfying World           2
Campinas Tech              2
DevMedia                   2
Renato Albani              2
Name: channel_name, dtype: int64

Categoria mais assistida

In [None]:
df_nodez_yt['category'].value_counts()

Education               27
People & Blogs          23
Entertainment           19
Howto & Style            9
Science & Technology     9
Music                    6
23                       4
News & Politics          2
Film & Animation         2
Pets & Animals           1
Gaming                   1
Travel & Events          1
Name: category, dtype: int64

Horários que mais assisti por intervalo e por hora do dia

In [None]:
# Por intervalo
df_nodez_yt['interval'].value_counts()

Madrugada    46
Noite        27
Manhã        18
Tarde        13
Name: interval, dtype: int64

In [None]:
# Por horário do dia
df_nodez_yt.time.dt.hour.value_counts()

2     17
0     12
1     12
10     7
23     7
19     7
18     5
3      5
20     5
22     4
21     4
17     3
11     3
9      3
8      3
16     2
15     2
12     2
14     1
Name: time, dtype: int64

Tempo em minutos que passei assistindo cada categoria

In [None]:
df_nodez_yt[['category', 'minutes']].groupby('category').agg({'minutes':'sum'}).sort_values('minutes', ascending=False) 

Unnamed: 0_level_0,minutes
category,Unnamed: 1_level_1
Education,901.06
Entertainment,603.25
People & Blogs,341.53
Science & Technology,184.99
Howto & Style,122.28
News & Politics,27.68
Gaming,26.28
Music,24.02
23,16.33
Pets & Animals,7.65


Quantas horas passei no youtube nesse mês


In [None]:
round(df_nodez_yt['minutes'].sum()/60,0)

38.0

Quantidade de vídeos assistidos por categoria em cada intervalo de tempo do dia

In [None]:
df_nodez_yt[['category', 'interval']].groupby(['category', 'interval'], as_index=False).size().sort_values(['category','size'],ascending=False)

Unnamed: 0,category,interval,size
27,Travel & Events,Tarde,1
24,Science & Technology,Manhã,4
25,Science & Technology,Noite,3
26,Science & Technology,Tarde,2
23,Pets & Animals,Noite,1
19,People & Blogs,Madrugada,20
20,People & Blogs,Manhã,1
21,People & Blogs,Noite,1
22,People & Blogs,Tarde,1
18,News & Politics,Madrugada,2


Spotify

In [None]:
df_nodez_sf.head()

Unnamed: 0,endTime,artistName,trackName,msPlayed,minPlayed,interval,customInterval,local
2914,2020-11-01 04:22:00,Didio Carrión,Oscitancy,47125,0.79,Madrugada,Dormindo,Belo Horizonte
2915,2020-11-01 04:22:00,Satkirin Mantra,A Sense of Amarillo,31360,0.52,Madrugada,Dormindo,Belo Horizonte
2916,2020-11-01 04:23:00,Lewis Capaldi,Someone You Loved,8981,0.15,Madrugada,Dormindo,Belo Horizonte
2917,2020-11-01 04:26:00,Passenger,Someone You Loved (Cover),183243,3.05,Madrugada,Dormindo,Belo Horizonte
2918,2020-11-01 04:29:00,Missy & Blonde,Stay,178202,2.97,Madrugada,Dormindo,Belo Horizonte


Artistas mais reproduzidos

In [None]:
df_nodez_sf[['artistName','minPlayed']].groupby(['artistName'], as_index=False)\
                                     .agg({'minPlayed':'sum'})\
                                     .sort_values('minPlayed', ascending=False)\
                                     .head(10)

Unnamed: 0,artistName,minPlayed
276,Supercombo,77.09
54,Colo de Deus,75.57
44,Casa Worship,49.95
130,Jorge & Mateus,41.2
263,Sam Smith,38.47
14,Ariana Grande,35.94
216,Ministério Zoe,34.44
174,Luan Santana,32.0
231,Os Barões Da Pisadinha,29.86
45,Charlie Brown Jr.,29.13


E quais foram as músicas que mais ouvi?

In [None]:
df_nodez_sf[['trackName','minPlayed']].groupby(['trackName'], as_index=False)\
                                     .agg({'minPlayed':'sum'})\
                                     .sort_values('minPlayed', ascending=False)\
                                     .head(10)

Unnamed: 0,trackName,minPlayed
170,Eu Te Vejo Em Tudo,28.9
488,The Lighthouse Keeper,28.76
359,Ousado Amor,26.1
124,Desperta - Ao Vivo,23.38
286,Me Leva Pra Casa,23.28
9,A Casa É Sua,21.05
95,Colo de Mãe - Ao Vivo,16.1
47,Aquieta Minh'alma,14.2
304,Minha Morada - Ao Vivo,13.7
28,Alô Ex-Amor - Ao Vivo,13.2


E será que tinha um intervalo que eu gostava mais de ouvir música?

In [None]:
df_nodez_sf[['interval','minPlayed']].groupby(['interval'], as_index=False)\
                                                    .agg({'minPlayed':'sum'})\
                                                    .sort_values('minPlayed', ascending=False)\
                                                    .groupby('interval', as_index=False)\
                                                    .head(3)

Unnamed: 0,interval,minPlayed
3,Tarde,808.97
1,Manhã,593.7
0,Madrugada,459.22
2,Noite,219.2


In [None]:
df_nodez_sf[['artistName','interval','minPlayed']].groupby(['interval', 'artistName'])\
                                                    .agg({'minPlayed':'sum'})\
                                                    .sort_values('minPlayed', ascending=False)\
                                                    .groupby('interval', as_index=False)\
                                                    .head(3)\
                                                    .sort_values('interval') 

Unnamed: 0_level_0,Unnamed: 1_level_0,minPlayed
interval,artistName,Unnamed: 2_level_1
Madrugada,Supercombo,77.09
Madrugada,Ariana Grande,27.09
Madrugada,Sam Smith,14.5
Manhã,Casa Worship,44.17
Manhã,Ministério Zoe,30.9
Manhã,Colo de Deus,27.91
Noite,Sam Smith,10.75
Noite,Maria Gadú,10.36
Noite,Landon Austin,10.35
Tarde,Colo de Deus,47.66


In [None]:
round(df_nodez_sf['minPlayed'].sum()/60) 

35

Navegador

In [None]:
df_nodez_gc['title'].value_counts().head(10)

Digital Innovation One                                        226
Workover                                                       50
Higenius Stories Board - Boards                                43
Gupy                                                           37
estágio TI                                                     37
Cursos online - a qualquer hora, em qualquer lugar | Udemy     37
Netflix                                                        24
Conteúdo Digital                                               23
vagas estágio bh                                               22
Cursos – EuCapacito                                            21
Name: title, dtype: int64

E o que eu acessava por intervalo do dia

In [None]:
# nodex_ee = df_nodez_gc.query('title.str.contains("Entrar em sua conta") | title.str.contains("marisa pós parto bh") | title.str.contains("Meet: pyf-dmgb-pux") | title.str.contains("Portal do Candidato")', engine='python')
# df_nodez_gc.drop(index= nodex_ee.index, inplace=True)
# nodex_ee

In [None]:
 df_nodez_gc[['title','interval']].groupby(['interval', 'title'],as_index=False)\
                                                    .size()\
                                                    .sort_values('size', ascending=False)\
                                                    .groupby('interval', as_index=False)\
                                                    .head(3)\
                                                    .sort_values('interval') 

Unnamed: 0,interval,title,size
151,Madrugada,Digital Innovation One,147
333,Madrugada,Workover,41
182,Madrugada,Gupy,23
433,Manhã,Digital Innovation One,6
416,Manhã,Ana Luiza Soares | LinkedIn,6
449,Manhã,Kindle 10a. geração com iluminação embutida – ...,3
668,Noite,Digital Innovation One,63
707,Noite,Higenius Stories Board - Boards,29
957,Noite,vagas estágio bh,22
1495,Tarde,estágio TI,33


E as pesquisas relacionados a dados? Vamos dar uma olhada?

In [None]:
df_nodez_gc.query('title.str.contains("Dados") | title.str.contains("Python") | title.str.contains("Análise")\
| title.str.contains("SQL")', engine='python')

Unnamed: 0,title,url,time_usec,interval,customInterval,local
35684,Estagiário (a) em Análise de Dados — Hotmart |...,https://www.hotmart.com/jobs/pt-BR/positions/5...,2020-12-04 14:42:37.001202,Tarde,Estágio,Belo Horizonte
36395,"Ana, sua chance de conhecer (e aprender) Pytho...",https://mail.google.com/mail/u/0/#inbox/FMfcgx...,2020-11-27 20:55:55.002386,Noite,Aula faculdade,Belo Horizonte
37339,Dê seus primeiros passos com o Python – EuCapa...,https://eucapacito.com.br/cursos/programacao/d...,2020-11-18 03:05:04.286220,Madrugada,Dormindo,Belo Horizonte
37396,Python – EuCapacito,https://eucapacito.com.br/cursos/programacao/p...,2020-11-18 02:39:17.927525,Madrugada,Dormindo,Belo Horizonte
38517,Python 3 na Prática | Udemy,https://www.udemy.com/course/python-3-na-prati...,2020-11-04 00:19:38.747182,Madrugada,Dormindo,Belo Horizonte
38521,Curso SQL Completo 2020 + Desafios + Muita Prá...,https://www.udemy.com/course/curso-sql-complet...,2020-11-04 00:17:59.925545,Madrugada,Dormindo,Belo Horizonte
38538,Formação Cientista de Dados,https://www.datascienceacademy.com.br/bundles?...,2020-11-04 00:06:38.286734,Madrugada,Dormindo,Belo Horizonte
38539,Formação Cientista de Dados,https://www.datascienceacademy.com.br/pages/fo...,2020-11-04 00:04:35.710848,Madrugada,Dormindo,Belo Horizonte


In [None]:
df_nodez_gc.query('title.str.contains("Vamo AI") | title.str.contains("Campinas") | title.str.contains("ShareRH")', engine='python')

Unnamed: 0,title,url,time_usec,interval,customInterval,local
36394,Campinas Tech Talents | Confirmação de candida...,https://mail.google.com/mail/u/0/#inbox/FMfcgx...,2020-11-27 20:56:39.234499,Noite,Aula faculdade,Belo Horizonte
36440,Campinas Tech Talents | Inscrições no Compleo ...,https://mail.google.com/mail/u/0/#inbox/FMfcgx...,2020-11-27 20:26:15.399950,Noite,Aula faculdade,Belo Horizonte
36638,Campinas Tech Talents | Etapa de testes online...,https://mail.google.com/mail/u/0/#inbox/FMfcgx...,2020-11-26 00:39:35.537016,Madrugada,Dormindo,Belo Horizonte
36817,Campinas Tech Talents | Inscrições no Compleo ...,https://mail.google.com/mail/u/0/#inbox/FMfcgx...,2020-11-25 21:51:07.205285,Noite,Aula faculdade,Belo Horizonte
37214,Campinas Tech Talents | Inscrições no Compleo ...,https://mail.google.com/mail/u/0/#inbox/FMfcgx...,2020-11-19 22:47:46.641414,Noite,Aula faculdade,Belo Horizonte
37570,Campinas Tech Talents | Inscrições no Compleo ...,https://mail.google.com/mail/u/0/#inbox/FMfcgx...,2020-11-17 16:56:15.885685,Tarde,Tarde,Belo Horizonte
37665,Campinas Tech Talents | Inscrições no Compleo ...,https://mail.google.com/mail/u/0/#inbox/FMfcgx...,2020-11-17 02:45:04.785336,Madrugada,Dormindo,Belo Horizonte
37838,"Ana, sua jornada no Campinas Tech Talents come...",https://mail.google.com/mail/u/0/#search/campi...,2020-11-13 11:12:45.697365,Manhã,Estágio,Belo Horizonte
37848,"Ana, sua jornada no Campinas Tech Talents come...",https://mail.google.com/mail/u/0/#search/campi...,2020-11-11 20:07:57.810660,Noite,Aula faculdade,Belo Horizonte
37857,"Ana, sua jornada no Campinas Tech Talents come...",https://mail.google.com/mail/u/0/#search/campi...,2020-11-11 10:58:14.886621,Manhã,Estágio,Belo Horizonte


Percebi que o meu Google Chrome não estava sincronizado com a minha conta em praticamente todo o mês de dezembro de 2020
Mas consultando o meu e-mail identifiquei que me inscrevi no dia 16/12.   
E me inscrevi no campinas Tech Talents no dia 05/11  


#### **Janeiro - O início do meu 'SONHO GRANDE'**

DFs DO MÊS


In [None]:
df_jan_yt = df_youtube.loc[(df_youtube['time'] >= jan_inicio) & (df_youtube['time'] <= jan_fim)]

df_jan_sf = df_spotify_music.loc[(df_spotify_music['endTime'] >= jan_inicio) & (df_spotify_music['endTime'] <= jan_fim)]

df_jan_gc = df_nav.loc[(df_nav['time_usec'] >= jan_inicio) & (df_nav['time_usec'] <= jan_fim)]

YOUTUBE

In [None]:
df_jan_yt.head()

Unnamed: 0,title,titleUrl,time,channel_name,category,tags,duration,minutes,interval,customInterval,local
621,SBT Ao Vivo,https://www.youtube.com/watch?v=ABVQXgr2LW4,2021-01-30 19:59:28.925000-02:00,SBT Live,Entertainment,,0 days 00:00:00,0.0,Noite,Tarde,Belo Horizonte
622,COMO FAZER NÓ PAULISTA - NÓ CAMINHONEIRO - NÓ...,https://www.youtube.com/watch?v=cLK6WRknHfg,2021-01-30 17:35:02.145000-02:00,FECHADO COM A SEGURANÇA,Howto & Style,"['NR35', 'NR 35', 'Nó Paulista', 'Nós e Amarra...",0 days 00:03:14,3.23,Tarde,Tarde,Belo Horizonte
623,[PyBr2020] Trilha PEP20 - Quinta-feira - Dia ...,https://www.youtube.com/watch?v=pB5tYMywt44,2021-01-29 01:16:39.004000-02:00,pythonbrasil,Entertainment,,0 days 05:05:25,305.42,Madrugada,Dormindo,Belo Horizonte
624,Como Usar o Notion - Ep 3 - BANCOS DE DADOS A...,https://www.youtube.com/watch?v=yZ3MxCZhjiA,2021-01-24 18:00:16.609000-02:00,Andre Lug,Education,"['Produtividade', 'Tutorial', 'Notion', 'Organ...",0 days 00:24:27,24.45,Tarde,Tarde,Belo Horizonte
625,Como usar fórmulas no Notion - Passo e passo ...,https://www.youtube.com/watch?v=HVtDz_uXDhw,2021-01-24 17:52:15.944000-02:00,Produtive Me,People & Blogs,"['Produtividade Pessoal', 'Brasil', 'Organizaç...",0 days 00:12:54,12.9,Tarde,Tarde,Belo Horizonte


Canais mais assistidos

In [None]:
df_jan_yt['channel_name'].value_counts().head(10)

Clara Bousada         4
Deive Leonardo        3
Rafaella Ballerini    2
Flávio Cross          2
Shu Omi               2
linguamarina          2
Hugo Gloss            2
engenheiraabroad      2
Loiane Groner         2
RDK PINTURAS          2
Name: channel_name, dtype: int64

Categoria mais assistida

In [None]:
df_jan_yt['category'].value_counts()

Education               20
People & Blogs          16
Entertainment           16
Science & Technology    12
Howto & Style            6
Music                    3
Gaming                   2
Pets & Animals           1
Name: category, dtype: int64

Horários que mais assisti por intervalo e por hora do dia

In [None]:
# Por intervalo
df_jan_yt['interval'].value_counts()

Tarde        30
Noite        27
Madrugada    12
Manhã         7
Name: interval, dtype: int64

In [None]:
# Por horário do dia
df_jan_yt.time.dt.hour.value_counts()

21    13
1      8
15     7
17     7
16     6
23     5
22     5
14     5
18     4
12     3
2      3
20     3
11     2
19     1
13     1
10     1
7      1
0      1
Name: time, dtype: int64

Tempo em minutos que passei assistindo cada categoria

In [None]:
df_jan_yt[['category', 'minutes']].groupby('category').agg({'minutes':'sum'}).sort_values('minutes', ascending=False) 

Unnamed: 0_level_0,minutes
category,Unnamed: 1_level_1
Entertainment,836.47
Education,319.13
People & Blogs,274.1
Science & Technology,189.01
Howto & Style,66.38
Gaming,16.53
Music,10.58
Pets & Animals,8.03


Quantas horas passei no youtube nesse mês


In [None]:
round(df_jan_yt['minutes'].sum()/60,0)

29.0

Quantidade de vídeos assistidos por categoria em cada intervalo de tempo do dia

In [None]:
df_jan_yt[['category', 'interval']].groupby(['category', 'interval'], as_index=False).size().sort_values(['category','size'],ascending=False)

Unnamed: 0,category,interval,size
20,Science & Technology,Tarde,6
18,Science & Technology,Manhã,3
17,Science & Technology,Madrugada,2
19,Science & Technology,Noite,1
16,Pets & Animals,Manhã,1
14,People & Blogs,Noite,7
12,People & Blogs,Madrugada,4
15,People & Blogs,Tarde,4
13,People & Blogs,Manhã,1
11,Music,Tarde,2


In [None]:
df_jan_yt.query('title.str.contains("Java") | title.str.contains("Python") | title.str.contains("Dados")', engine='python')

Unnamed: 0,title,titleUrl,time,channel_name,category,tags,duration,minutes,interval,customInterval,local
641,Curso de Java - Orientação a Objetos: Correçã...,https://www.youtube.com/watch?v=eFYqJHZw2G8,2021-01-23 14:23:10.270000-02:00,Loiane Groner,Education,"['Curso Java', 'Curso Java Gratis', 'Curso Jav...",0 days 00:08:22,8.37,Tarde,Estágio,Belo Horizonte
659,Curso de Java 19: Vetores (Arrays),https://www.youtube.com/watch?v=HxRb5KLofcI,2021-01-18 15:56:55.309000-02:00,Loiane Groner,Education,"['Array Data Structure', 'Curso Java', 'Curso ...",0 days 00:19:13,19.22,Tarde,Tarde,Belo Horizonte


Spotify

Artistas mais reproduzidos

In [None]:
df_jan_sf[['artistName','minPlayed']].groupby(['artistName'], as_index=False)\
                                     .agg({'minPlayed':'sum'})\
                                     .sort_values('minPlayed', ascending=False)\
                                     .head(10)

Unnamed: 0,artistName,minPlayed
30,DUDA BEAT,48.44
72,Jorge & Mateus,33.81
101,Luíza & Maurílio,32.01
27,Colo de Deus,28.15
135,Os Barões Da Pisadinha,23.52
23,Casa Worship,18.82
92,Leandro Borges,16.63
136,Pabllo Vittar,16.1
60,Hugo & Guilherme,15.9
166,Zé Neto & Cristiano,15.6


E quais foram as músicas que mais ouvi?

In [None]:
df_jan_sf[['trackName','minPlayed']].groupby(['trackName'], as_index=False)\
                                     .agg({'minPlayed':'sum'})\
                                     .sort_values('minPlayed', ascending=False)\
                                     .head(10)

Unnamed: 0,trackName,minPlayed
103,Lance Individual,16.92
9,Alô Ambev (Segue Sua Vida) - Ao Vivo,14.11
79,Figurinha - Ao Vivo,13.72
235,Tudo Indica (feat. Jorge & Mateus) - Ao Vivo,12.7
117,Maranata - Ao Vivo,12.55
196,Se Ninguém Te Adorar Eu Vou - Live,12.12
143,O Segredo da Madrugada,11.84
161,Poesia Acústica 10: Recomeçar,11.38
233,Todo Carinho,10.37
5,A Casa É Sua,10.35


E será que tinha um intervalo que eu gostava mais de ouvir música?

In [None]:
df_jan_sf[['interval','minPlayed']].groupby(['interval'], as_index=False)\
                                                    .agg({'minPlayed':'sum'})\
                                                    .sort_values('minPlayed', ascending=False)\
                                                    .groupby('interval', as_index=False)\
                                                    .head(3)

Unnamed: 0,interval,minPlayed
3,Tarde,470.18
1,Manhã,221.57
0,Madrugada,182.06
2,Noite,133.0


In [None]:
df_jan_sf[['artistName','interval','minPlayed']].groupby(['interval', 'artistName'])\
                                                    .agg({'minPlayed':'sum'})\
                                                    .sort_values('minPlayed', ascending=False)\
                                                    .groupby('interval', as_index=False)\
                                                    .head(3)\
                                                    .sort_values('interval') 

Unnamed: 0_level_0,Unnamed: 1_level_0,minPlayed
interval,artistName,Unnamed: 2_level_1
Madrugada,DUDA BEAT,16.72
Madrugada,Casa Worship,9.37
Madrugada,Katy Perry,8.76
Manhã,Colo de Deus,15.48
Manhã,Ministério Avivah,12.55
Manhã,Anderson Freire,9.92
Noite,Hugo & Guilherme,7.63
Noite,Taylor Swift,6.96
Noite,Ariana Grande,6.61
Tarde,DUDA BEAT,31.72


In [None]:
round(df_jan_sf['minPlayed'].sum()/60,0) 

17.0

In [None]:
df_jan_sf.loc[df_jan_sf['endTime'].dt.date == pd.to_datetime('2021-01-27')]

Unnamed: 0,endTime,artistName,trackName,msPlayed,minPlayed,interval,customInterval,local
4068,2021-01-27 14:21:00,Wesley Safadão,"Ele É Ele, Eu Sou Eu",155209,2.59,Tarde,Estágio,Belo Horizonte
4069,2021-01-27 14:24:00,Jorge & Mateus,Lance Individual,164458,2.74,Tarde,Estágio,Belo Horizonte
4070,2021-01-27 14:27:00,Guilherme & Benuto,Pulei na Piscina - Ao Vivo,181846,3.03,Tarde,Estágio,Belo Horizonte
4071,2021-01-27 14:30:00,Zé Neto & Cristiano,Alô Ambev (Segue Sua Vida) - Ao Vivo,169593,2.83,Tarde,Estágio,Belo Horizonte
4072,2021-01-27 14:33:00,Diego & Victor Hugo,Facas - Ao Vivo,34377,0.57,Tarde,Estágio,Belo Horizonte
4073,2021-01-27 14:33:00,Marcos & Belutti,Tudo Indica (feat. Jorge & Mateus) - Ao Vivo,183013,3.05,Tarde,Estágio,Belo Horizonte


Navegador

In [None]:
df_jan_gc['title'].value_counts().head(10)

Netflix                                                                306
Play Kahoot! - Enter game PIN here!                                     73
SGA - Quadro de Horários                                                58
Digital Innovation One                                                  49
Facebook                                                                39
Google Agenda - Início da programação sábado, 23 de janeiro de 2021     38
andersonrocha0/tech-talents-java-matera                                 36
Instagram                                                               34
Patrick Depailler (@patrickdepailler) • Fotos e vídeos do Instagram     33
SGA - Inclusão de Nova Disciplina                                       32
Name: title, dtype: int64

E o que eu acessava por intervalo do dia

In [None]:
# df_jas_gc.reset_index(inplace=True)
# df_jas_gc
# redirect = df_jas_gc.loc[df_jas_gc['title'] == 'Redirect']
# df_jas_gc.drop(index = redirect.index, inplace=True)
# df_jas_gc.drop(columns=['index','level_0'],inplace=True)

In [None]:
# jan_ee = df_jan_gc.query('title.str.contains("Patrick Depailler")', engine='python')
# df_jan_gc.drop(index= jan_ee.index, inplace=True)  #LEILÕES ONLINE | Lance24
# jan_ee

In [None]:
 df_jan_gc[['title','interval']].groupby(['interval', 'title'],as_index=False)\
                                                    .size()\
                                                    .sort_values('size', ascending=False)\
                                                    .groupby('interval', as_index=False)\
                                                    .head(3)\
                                                    .sort_values('interval') 

Unnamed: 0,interval,title,size
181,Madrugada,Netflix,124
131,Madrugada,"Google Agenda - Início da programação sábado, ...",38
200,Madrugada,Patrick Depailler (@patrickdepailler) • Fotos ...,33
482,Manhã,SGA - Inclusão de Nova Disciplina,18
479,Manhã,SGA - Alteração de Solicitação de Plano de Est...,11
395,Manhã,"62 Week English Plan by Ih, Aprendi! | Trello",8
919,Noite,Netflix,99
997,Noite,Play Kahoot! - Enter game PIN here!,73
1044,Noite,SGA - Quadro de Horários,25
1707,Tarde,Netflix,80


E as pesquisas relacionados a dados? Vamos dar uma olhada?

In [None]:
df_jan_gc.query('title.str.contains("Dados") | title.str.contains("Python") | title.str.contains("Análise")\
| title.str.contains("SQL")', engine='python')

Unnamed: 0,title,url,time_usec,interval,customInterval,local
31559,Manual de Análise de Dados - Estatística e Mod...,https://www.amazon.com.br/Manual-An%C3%A1lise-...,2021-01-29 18:41:59.426812,Tarde,Tarde,Belo Horizonte
31564,Análise Preditiva | Amazon.com.br,https://www.amazon.com.br/An%C3%A1lise-prediti...,2021-01-29 18:20:23.162035,Tarde,Tarde,Belo Horizonte
31569,Storytelling com Dados ; um Guia Sobre Visuali...,https://dokumen.pub/storytelling-com-dados-um-...,2021-01-29 18:15:02.960102,Tarde,Tarde,Belo Horizonte
31574,Storytelling com Dados. Um Guia Sobre Visualiz...,https://www.amazon.com.br/Storytelling-dados-C...,2021-01-29 18:13:20.185948,Tarde,Tarde,Belo Horizonte
31615,"Afinal, por quê Python? - DEV Community",https://dev.to/dii_lua/afinal-por-que-python-3p3m,2021-01-29 15:45:41.157663,Tarde,Tarde,Belo Horizonte
31652,"Afinal, por quê Python? - DEV Community",https://dev.to/dii_lua/afinal-por-que-python-3p3m,2021-01-29 03:15:58.724199,Madrugada,Dormindo,Belo Horizonte
31906,Python 3 parte 1: Introdução à nova versão da ...,https://cursos.alura.com.br/course/python-3-in...,2021-01-27 18:25:30.065188,Tarde,Tarde,Belo Horizonte
32041,Python Brasil: Validação de dados no padrão na...,https://cursos.alura.com.br/course/python-vali...,2021-01-26 23:17:29.027336,Noite,Noite,Belo Horizonte
32042,Python Collections parte 1: Listas e tuplas | ...,https://cursos.alura.com.br/course/python-coll...,2021-01-26 23:17:03.057829,Noite,Noite,Belo Horizonte
32043,Python: Manipulação de Strings | Alura - Curso...,https://cursos.alura.com.br/course/python-mani...,2021-01-26 23:16:54.163382,Noite,Noite,Belo Horizonte


#### **Fevereiro - Adaptando a nova rotina intensa**



DFs Fevereiro


In [None]:
df_fev_yt = df_youtube.loc[(df_youtube['time'] >= fev_inicio) & (df_youtube['time'] <= fev_fim)]

df_fev_sf = df_spotify_music.loc[(df_spotify_music['endTime'] >= fev_inicio) & (df_spotify_music['endTime'] <= fev_fim)]

df_fev_gc = df_nav.loc[(df_nav['time_usec'] >= fev_inicio) & (df_nav['time_usec'] <= fev_fim)]

YOUTUBE

In [None]:
df_fev_yt.head()

Unnamed: 0,title,titleUrl,time,channel_name,category,tags,duration,minutes,interval,customInterval,local
556,Aniversário de 1 ano - 3º dia (Trilha: Inteli...,https://www.youtube.com/watch?v=bPDuZcpgeyA,2021-02-27 19:41:10.932000-03:00,AI Girls Comunidade,Entertainment,,0 days 04:52:30,292.5,Noite,Tarde,Contagem
557,Novo Read Me do Github - Aprenda a fazer o seu,https://www.youtube.com/watch?v=2lz4peVxBAg,2021-02-27 19:40:36.723000-03:00,Papo de Dev,People & Blogs,,0 days 00:05:56,5.93,Noite,Tarde,Contagem
558,Qual é a sua mochila? | Milla Monteiro | TEDx...,https://www.youtube.com/watch?v=9m8h5AA4HNk,2021-02-27 14:56:48.684000-03:00,TEDx Talks,Nonprofits &Activism,"['TEDxTalks Portuguese', 'Brazilian Life Caree...",0 days 00:18:24,18.4,Tarde,Estágio,Contagem
559,Para Início de Conversa | Carolina Nalon | TE...,https://www.youtube.com/watch?v=3qzcPcQjbMI,2021-02-27 14:28:11.334000-03:00,TEDx Talks,Nonprofits &Activism,"['TEDxTalks', 'Portuguese', 'Brazil', 'Life', ...",0 days 00:18:07,18.12,Tarde,Estágio,Contagem
560,Aniversário de 1 ano - 2º dia (Trilha: Dados),https://www.youtube.com/watch?v=BSuyMFxv0hQ,2021-02-27 11:41:09.480000-03:00,AI Girls Comunidade,Science & Technology,,0 days 04:47:12,287.2,Manhã,Estágio,Contagem


Canais mais assistidos

In [None]:
df_fev_yt['channel_name'].value_counts().head(10)

TEDx Talks                         9
Abhishek Patel - WEBEON SYSTEMS    6
Papo de Dev                        6
AlgoRythmics                       4
AI Girls Comunidade                3
Big Open Source Sibling            3
Bee Lab Academy                    2
Alura Cursos Online                2
Willian Justen Cursos              2
Paloma Cipriano                    2
Name: channel_name, dtype: int64

Categoria mais assistida

In [None]:
df_fev_yt['category'].value_counts()

People & Blogs          18
Education               17
Science & Technology    11
Nonprofits &Activism     9
Entertainment            9
23                       1
Name: category, dtype: int64

Horários que mais assisti por intervalo e por hora do dia

In [None]:
# Por intervalo
df_fev_yt['interval'].value_counts()

Tarde        35
Noite        16
Manhã        10
Madrugada     4
Name: interval, dtype: int64

In [None]:
# Por horário do dia
df_fev_yt.time.dt.hour.value_counts()

15    12
14     6
20     6
21     5
18     5
13     5
11     5
16     4
17     3
12     3
3      2
19     2
22     2
2      1
23     1
8      1
9      1
1      1
Name: time, dtype: int64

Tempo em minutos que passei assistindo cada categoria

In [None]:
df_fev_yt[['category', 'minutes']].groupby('category').agg({'minutes':'sum'}).sort_values('minutes', ascending=False) 

Unnamed: 0_level_0,minutes
category,Unnamed: 1_level_1
Entertainment,1614.31
Science & Technology,856.18
Education,367.41
People & Blogs,336.36
Nonprofits &Activism,132.84
23,1.75


Quantas horas passei no youtube nesse mês


In [None]:
round(df_fev_yt['minutes'].sum()/60)

55

Quantidade de vídeos assistidos por categoria em cada intervalo de tempo do dia

In [None]:
df_fev_yt[['category', 'interval']].groupby(['category', 'interval'], as_index=False).size().sort_values(['category','size'],ascending=False)

Unnamed: 0,category,interval,size
13,Science & Technology,Noite,5
12,Science & Technology,Manhã,3
14,Science & Technology,Tarde,3
11,People & Blogs,Tarde,10
8,People & Blogs,Madrugada,3
10,People & Blogs,Noite,3
9,People & Blogs,Manhã,2
7,Nonprofits &Activism,Tarde,8
6,Nonprofits &Activism,Madrugada,1
3,Entertainment,Manhã,5


In [None]:
df_fev_yt.query('title.str.contains("Dados") | title.str.contains("Python") | title.str.contains("Análise")\
| title.str.contains("SQL")', engine='python')

Unnamed: 0,title,titleUrl,time,channel_name,category,tags,duration,minutes,interval,customInterval,local
560,Aniversário de 1 ano - 2º dia (Trilha: Dados),https://www.youtube.com/watch?v=BSuyMFxv0hQ,2021-02-27 11:41:09.480000-03:00,AI Girls Comunidade,Science & Technology,,0 days 04:47:12,287.2,Manhã,Estágio,Contagem
575,Introdução à Programação com Python - Parte 1,https://www.youtube.com/watch?v=fRTYkia3ysk,2021-02-21 15:10:24.772000-03:00,Ana no Terminal,Science & Technology,"['programação', 'python', 'computação']",0 days 00:54:35,54.58,Tarde,Tarde,Contagem
578,Python: Trabalhando com variáveis,https://www.youtube.com/watch?v=HZiKmqaKLx0,2021-02-21 14:29:14.886000-03:00,DevMedia,23,"['devmedia', 'documentação', 'Python', 'atribu...",0 days 00:01:45,1.75,Tarde,Estágio,Contagem


Vídeos assistidos na primeira semana do projeto 1

In [None]:
df_fev_yt.loc[(df_fev_yt['time'].dt.date >= pd.to_datetime('2021-02-21')) & (df_fev_yt['time'].dt.date <= pd.to_datetime('2021-02-28')) ]

Unnamed: 0,title,titleUrl,time,channel_name,category,tags,duration,minutes,interval,customInterval,local
556,Aniversário de 1 ano - 3º dia (Trilha: Inteli...,https://www.youtube.com/watch?v=bPDuZcpgeyA,2021-02-27 19:41:10.932000-03:00,AI Girls Comunidade,Entertainment,,0 days 04:52:30,292.5,Noite,Tarde,Contagem
557,Novo Read Me do Github - Aprenda a fazer o seu,https://www.youtube.com/watch?v=2lz4peVxBAg,2021-02-27 19:40:36.723000-03:00,Papo de Dev,People & Blogs,,0 days 00:05:56,5.93,Noite,Tarde,Contagem
558,Qual é a sua mochila? | Milla Monteiro | TEDx...,https://www.youtube.com/watch?v=9m8h5AA4HNk,2021-02-27 14:56:48.684000-03:00,TEDx Talks,Nonprofits &Activism,"['TEDxTalks Portuguese', 'Brazilian Life Caree...",0 days 00:18:24,18.4,Tarde,Estágio,Contagem
559,Para Início de Conversa | Carolina Nalon | TE...,https://www.youtube.com/watch?v=3qzcPcQjbMI,2021-02-27 14:28:11.334000-03:00,TEDx Talks,Nonprofits &Activism,"['TEDxTalks', 'Portuguese', 'Brazil', 'Life', ...",0 days 00:18:07,18.12,Tarde,Estágio,Contagem
560,Aniversário de 1 ano - 2º dia (Trilha: Dados),https://www.youtube.com/watch?v=BSuyMFxv0hQ,2021-02-27 11:41:09.480000-03:00,AI Girls Comunidade,Science & Technology,,0 days 04:47:12,287.2,Manhã,Estágio,Contagem
561,Como e porque usar o Slack PyLadies,https://www.youtube.com/watch?v=dtWvj8sSsRE,2021-02-26 12:07:59.111000-03:00,PyLadies Brasil,Science & Technology,['Slack'],0 days 00:08:46,8.77,Manhã,Estágio,Contagem
562,Novo Read Me do Github - Aprenda a fazer o seu,https://www.youtube.com/watch?v=2lz4peVxBAg,2021-02-26 09:19:38.857000-03:00,Papo de Dev,People & Blogs,,0 days 00:05:56,5.93,Manhã,Estágio,Contagem
563,Aniversário de 1 ano - 1º dia (Trilha: Carrei...,https://www.youtube.com/watch?v=N3cWz5pJU6g,2021-02-25 21:11:19.264000-03:00,AI Girls Comunidade,Science & Technology,,0 days 04:16:22,256.37,Noite,Aula faculdade,Contagem
564,Novo Read Me do Github - Aprenda a fazer o seu,https://www.youtube.com/watch?v=2lz4peVxBAg,2021-02-25 20:57:42.737000-03:00,Papo de Dev,People & Blogs,,0 days 00:05:56,5.93,Noite,Aula faculdade,Contagem
565,Como e porque usar o Slack PyLadies,https://www.youtube.com/watch?v=dtWvj8sSsRE,2021-02-25 20:39:39.683000-03:00,PyLadies Brasil,Science & Technology,['Slack'],0 days 00:08:46,8.77,Noite,Aula faculdade,Contagem


Spotify

Artistas mais reproduzidos

In [None]:
df_fev_sf[['artistName','minPlayed']].groupby(['artistName'], as_index=False)\
                                     .agg({'minPlayed':'sum'})\
                                     .sort_values('minPlayed', ascending=False)\
                                     .head(10)

Unnamed: 0,artistName,minPlayed
123,Wesley Safadão,18.41
50,Hugo & Guilherme,17.4
127,Zé Neto & Cristiano,13.16
99,Olivia Rodrigo,12.09
86,Marília Mendonça,11.98
54,Israel Subira,11.86
38,Francisco Martin,11.55
100,Os Barões Da Pisadinha,10.82
110,Sam Fischer,10.59
41,Garrett Kato,10.0


E quais foram as músicas que mais ouvi?

In [None]:
df_fev_sf[['trackName','minPlayed']].groupby(['trackName'], as_index=False)\
                                     .agg({'minPlayed':'sum'})\
                                     .sort_values('minPlayed', ascending=False)\
                                     .head(10)

Unnamed: 0,trackName,minPlayed
28,Coração Na Cama - Ao Vivo,17.4
5,Alô Ambev (Segue Sua Vida) - Ao Vivo,12.43
166,drivers license,12.09
79,Me Leva Pra Casa,11.86
143,Swollen (feat. Julia Gargano),11.55
54,For Now,10.59
3,All Good,10.0
27,Coping,9.51
87,Mulher,9.45
145,The Way I Say Goodbye,9.21


E será que tinha um intervalo que eu gostava mais de ouvir música?

In [None]:
df_fev_sf[['interval','minPlayed']].groupby(['interval'], as_index=False)\
                                                    .agg({'minPlayed':'sum'})\
                                                    .sort_values('minPlayed', ascending=False)\
                                                    .groupby('interval', as_index=False)\
                                                    .head(3)

Unnamed: 0,interval,minPlayed
0,Madrugada,189.47
3,Tarde,165.64
1,Manhã,106.78
2,Noite,75.14


In [None]:
df_fev_sf[['artistName','interval','minPlayed']].groupby(['interval', 'artistName'])\
                                                    .agg({'minPlayed':'sum'})\
                                                    .sort_values('minPlayed', ascending=False)\
                                                    .groupby('interval', as_index=False)\
                                                    .head(3)\
                                                    .sort_values('interval') 

Unnamed: 0_level_0,Unnamed: 1_level_0,minPlayed
interval,artistName,Unnamed: 2_level_1
Madrugada,Israel Subira,11.86
Madrugada,Shawn Mendes,9.44
Madrugada,joan,8.72
Manhã,Colo de Deus,5.83
Manhã,Rubel,5.28
Manhã,Leandro Borges,5.24
Noite,Johnny Hooker,5.21
Noite,Maria Bethânia,4.99
Noite,Gal Costa,4.94
Tarde,Hugo & Guilherme,14.51


In [None]:
round(df_fev_sf['minPlayed'].sum()/60) 

9

O que ouvi na primeira semana do projeto 1?

In [None]:
df_fev_sf.loc[(df_fev_sf['endTime'].dt.date >= pd.to_datetime('2021-02-21')) & (df_fev_sf['endTime'].dt.date <= pd.to_datetime('2021-02-28'))]

Unnamed: 0,endTime,artistName,trackName,msPlayed,minPlayed,interval,customInterval,local
4366,2021-02-21 04:22:00,Igor Roque,Romanos 8:28 - Acústico,258472,4.31,Madrugada,Dormindo,Contagem
4367,2021-02-21 04:23:00,Isadora Pompeo,Minha Morada - Ao Vivo,15347,0.26,Madrugada,Dormindo,Contagem
4368,2021-02-21 04:26:00,Ton Carfi,Minha Vez,231637,3.86,Madrugada,Dormindo,Contagem
4369,2021-02-21 04:34:00,Israel Subira,Me Leva Pra Casa,465885,7.76,Madrugada,Dormindo,Contagem
4370,2021-02-21 04:38:00,Israel Subira,Me Leva Pra Casa,246085,4.1,Madrugada,Dormindo,Contagem


Navegador

In [None]:
df_fev_gc['title'].value_counts().head(10)

Play Kahoot! - Enter game PIN here!              92
(20) Página Inicial / Twitter                    41
Netflix                                          39
Higenius Stories Board - Boards                  26
Ebooks Data Science - Gratuito - Google Drive    24
soaresana (Ana Luiza Soares)                     22
Home - Canva                                     21
Aprenda Markdown | Udemy                         20
Facebook                                         20
Colabore e crie designs incríveis de graça       20
Name: title, dtype: int64

E o que eu acessava por intervalo do dia

In [None]:
# df_fev_gc.reset_index(inplace=True)
# df_fev_gc
# redirect = df_fev_gc.loc[df_fev_gc['title'] == 'Redirect']
# df_fev_gc.drop(index = redirect.index, inplace=True)
# df_fev_gc.drop(columns=['index'],inplace=True)

In [None]:
# fev_ee = df_fev_gc.query('title.str.contains("vaga qa junior bh") | title.str.contains("Pesquisar todas as vagas | LinkedIn")', engine='python')
# df_fev_gc.drop(index= fev_ee.index, inplace=True)  #LEILÕES ONLINE | Lance24
# fev_ee

In [None]:
 df_fev_gc[['title','interval']].groupby(['interval', 'title'],as_index=False)\
                                                    .size()\
                                                    .sort_values('size', ascending=False)\
                                                    .groupby('interval', as_index=False)\
                                                    .head(3)\
                                                    .sort_values('interval') 

Unnamed: 0,interval,title,size
62,Madrugada,(20) Página Inicial / Twitter,23
3,Madrugada,(1) Facebook,19
350,Madrugada,Redirect,17
517,Manhã,Entrar em sua conta,8
557,Manhã,SGA - Página Inicial,6
547,Manhã,Produtos educacionais: ferramentas fáceis e pr...,6
1026,Noite,Play Kahoot! - Enter game PIN here!,65
989,Noite,Netflix,31
843,Noite,Ebooks Data Science - Gratuito - Google Drive,23
1758,Tarde,Play Kahoot! - Enter game PIN here!,27


E as pesquisas relacionados a dados? Vamos dar uma olhada?

In [None]:
df_fev_gc.query('title.str.contains("Dados") | title.str.contains("Python") | title.str.contains("Análise")\
| title.str.contains("SQL")', engine='python')

Unnamed: 0,title,url,time_usec,interval,customInterval,local
27756,16 Conselhos Para Aspirantes a Cientistas de D...,https://www.cienciaedados.com/16-conselhos-par...,2021-02-27 20:27:55.580234,Noite,Aula faculdade,Contagem
27839,Instrução while - Pense em Python,https://pense-python.caravela.club/07-iteracao...,2021-02-27 17:57:09.573625,Tarde,Tarde,Contagem
27844,(627) Aniversário de 1 ano - 2º dia (Trilha: D...,https://www.youtube.com/watch?v=BSuyMFxv0hQ,2021-02-27 14:41:08.458041,Tarde,Estágio,Contagem
27886,Top 20 Python AI and Machine Learning Open Sou...,https://www.kdnuggets.com/2018/02/top-20-pytho...,2021-02-27 14:12:01.210460,Tarde,Estágio,Contagem
27953,Ciência de dados para quem precisa de oportuni...,https://www.convergenciadigital.com.br/cgi/cgi...,2021-02-26 18:28:24.842911,Tarde,Tarde,Contagem
...,...,...,...,...,...,...
31199,Trabalhando com variáveis no Python,https://www.devmedia.com.br/python-trabalhando...,2021-02-01 10:13:27.024047,Manhã,Estágio,Contagem
31200,Variáveis. Dados e representações | by Willian...,https://medium.com/reflex%C3%A3o-computacional...,2021-02-01 10:13:24.282734,Manhã,Estágio,Contagem
31202,Python - Hipsters #122 - Hipsters Ponto TechHi...,https://hipsters.tech/python-hipsters-122/,2021-02-01 10:04:53.455535,Manhã,Estágio,Contagem
31205,(20) @gabriel1991/Ciência de Dados / Twitter,https://twitter.com/i/lists/1286768923636043777,2021-02-01 10:00:18.717138,Manhã,Estágio,Contagem


UAU, aumentou consideravelmente

#### **Março - Aprendendo com os erros. A constante evolução!**

DFs Março

In [None]:
df_mar_yt = df_youtube.loc[(df_youtube['time'] >= mar_inicio) & (df_youtube['time'] <= mar_fim)]

df_mar_sf = df_spotify_music.loc[(df_spotify_music['endTime'] >= mar_inicio) & (df_spotify_music['endTime'] <= mar_fim)]

df_mar_gc = df_nav.loc[(df_nav['time_usec'] >= mar_inicio) & (df_nav['time_usec'] <= mar_fim)]

YOUTUBE

In [None]:
df_mar_yt.head()

Unnamed: 0,title,titleUrl,time,channel_name,category,tags,duration,minutes,interval,customInterval,local
474,Python - Acessando API da NASA e salvando dad...,https://www.youtube.com/watch?v=vjfofg-qzZ8,2021-03-30 15:50:31.307000-03:00,Vitor Capozzi,Science & Technology,"['python', 'mysql', 'nasa', 'api', 'json', 'pr...",0 days 00:19:25,19.42,Tarde,Tarde,Betim
475,"Aulas Python - 062 - POO IV: Herança, Super e...",https://www.youtube.com/watch?v=Z2qAbhqNEXE,2021-03-30 11:02:15.451000-03:00,Ignorância Zero,Education,"['Python', 'Aulas', 'Curso', 'Software', 'Prog...",0 days 00:17:45,17.75,Manhã,Estágio,Betim
476,A morte é um dia que vale a pena viver | Ana ...,https://www.youtube.com/watch?v=ep354ZXKBEs,2021-03-29 10:52:27.559000-03:00,TEDx Talks,Nonprofits &Activism,"['ted talk', 'Ana', 'tedx talk', 'ted x', 'ted...",0 days 00:18:10,18.17,Manhã,Estágio,Betim
477,"Aulas Python - 062 - POO IV: Herança, Super e...",https://www.youtube.com/watch?v=Z2qAbhqNEXE,2021-03-28 18:51:02.353000-03:00,Ignorância Zero,Education,"['Python', 'Aulas', 'Curso', 'Software', 'Prog...",0 days 00:17:45,17.75,Tarde,Tarde,Betim
478,"O que é um Objeto, Atributo, Método e Mensage...",https://www.youtube.com/watch?v=gJC02P6jkRM,2021-03-28 18:01:45.844000-03:00,Programação Dinâmica,Education,"['Python', 'orientação a objetos', 'paradigmas...",0 days 00:08:56,8.93,Tarde,Tarde,Betim


Canais mais assistidos

In [None]:
df_mar_yt['channel_name'].value_counts().head(10)

Eduardo Mendes                            10
Programação Dinâmica                       7
Curso em Vídeo                             4
Dr. Sandra Lee (aka Dr. Pimple Popper)     4
Ignorância Zero                            4
TEDx Talks                                 3
CFBCursos                                  3
BBC Earth                                  2
Alexia Evellyn ⋆ ☽                         2
Deive Leonardo                             2
Name: channel_name, dtype: int64

Categoria mais assistida

In [None]:
df_mar_yt['category'].value_counts()

Education               37
Entertainment           10
Science & Technology     9
People & Blogs           6
Howto & Style            5
Nonprofits &Activism     3
Film & Animation         3
Pets & Animals           2
Music                    2
News & Politics          1
Travel & Events          1
Name: category, dtype: int64

Horários que mais assisti por intervalo e por hora do dia

In [None]:
# Por intervalo
df_mar_yt['interval'].value_counts()

Manhã        27
Noite        24
Tarde        18
Madrugada    10
Name: interval, dtype: int64

In [None]:
# Por horário do dia
df_mar_yt.time.dt.hour.value_counts()

12    14
20     8
21     7
18     6
9      6
0      6
19     5
13     5
14     4
11     4
1      4
22     3
15     3
8      2
23     1
10     1
Name: time, dtype: int64

Tempo em minutos que passei assistindo cada categoria

In [None]:
df_mar_yt[['category', 'minutes']].groupby('category').agg({'minutes':'sum'}).sort_values('minutes', ascending=False) 

Unnamed: 0_level_0,minutes
category,Unnamed: 1_level_1
Education,1285.42
Science & Technology,178.31
Entertainment,74.15
Nonprofits &Activism,52.74
Howto & Style,39.02
Music,31.68
People & Blogs,23.7
Travel & Events,20.0
Film & Animation,17.56
News & Politics,9.87


Quantas horas passei no youtube nesse mês


In [None]:
round(df_mar_yt['minutes'].sum()/60)

29

Quantidade de vídeos assistidos por categoria em cada intervalo de tempo do dia

In [None]:
df_mar_yt[['category', 'interval']].groupby(['category', 'interval'], as_index=False).size().sort_values(['category','size'],ascending=False)

Unnamed: 0,category,interval,size
24,Travel & Events,Madrugada,1
22,Science & Technology,Noite,4
21,Science & Technology,Manhã,3
23,Science & Technology,Tarde,2
19,Pets & Animals,Manhã,1
20,Pets & Animals,Tarde,1
18,People & Blogs,Noite,5
17,People & Blogs,Manhã,1
15,Nonprofits &Activism,Manhã,2
16,Nonprofits &Activism,Tarde,1


In [None]:
df_mar_yt.query('title.str.contains("Dados") | title.str.contains("Python") | title.str.contains("Análise")\
| title.str.contains("SQL")', engine='python')

Unnamed: 0,title,titleUrl,time,channel_name,category,tags,duration,minutes,interval,customInterval,local
474,Python - Acessando API da NASA e salvando dad...,https://www.youtube.com/watch?v=vjfofg-qzZ8,2021-03-30 15:50:31.307000-03:00,Vitor Capozzi,Science & Technology,"['python', 'mysql', 'nasa', 'api', 'json', 'pr...",0 days 00:19:25,19.42,Tarde,Tarde,Betim
475,"Aulas Python - 062 - POO IV: Herança, Super e...",https://www.youtube.com/watch?v=Z2qAbhqNEXE,2021-03-30 11:02:15.451000-03:00,Ignorância Zero,Education,"['Python', 'Aulas', 'Curso', 'Software', 'Prog...",0 days 00:17:45,17.75,Manhã,Estágio,Betim
477,"Aulas Python - 062 - POO IV: Herança, Super e...",https://www.youtube.com/watch?v=Z2qAbhqNEXE,2021-03-28 18:51:02.353000-03:00,Ignorância Zero,Education,"['Python', 'Aulas', 'Curso', 'Software', 'Prog...",0 days 00:17:45,17.75,Tarde,Tarde,Betim
479,O que são Classes e Como Criar Novos Tipos de...,https://www.youtube.com/watch?v=9nWMXIXNGdU,2021-03-28 18:00:53.367000-03:00,Programação Dinâmica,Education,"['python', 'orientação a objetos', 'classe', '...",0 days 00:36:03,36.05,Tarde,Tarde,Betim
483,Curso Python #08 - Utilizando Módulos,https://www.youtube.com/watch?v=oOUyhGNib2Q,2021-03-28 12:46:02.276000-03:00,Curso em Vídeo,Education,"['módulos em python', 'pypi', 'Python package ...",0 days 00:33:29,33.48,Manhã,Estágio,Betim
486,POO - Herança / P3 - Curso de Python #25,https://www.youtube.com/watch?v=cN4esJ0DhqI,2021-03-28 12:35:44.598000-03:00,CFBCursos,Education,"['programação', 'Aprender a programar', 'curso...",0 days 00:18:26,18.43,Manhã,Estágio,Betim
487,Live de Python #62 - Programação orientada a ...,https://www.youtube.com/watch?v=xWTNoTtA9V8,2021-03-28 12:28:40.753000-03:00,Eduardo Mendes,Education,"['TDD', 'OO', 'Live de Python', 'BDD', 'python...",0 days 01:17:24,77.4,Manhã,Estágio,Betim
488,Live de Python #61 - Programação orientada a ...,https://www.youtube.com/watch?v=BALM_oJcJL4,2021-03-28 12:21:40.083000-03:00,Eduardo Mendes,Education,"['Python', 'Live de Python', 'curso de python'...",0 days 01:05:29,65.48,Manhã,Estágio,Betim
490,"Aulas Python - 062 - POO IV: Herança, Super e...",https://www.youtube.com/watch?v=Z2qAbhqNEXE,2021-03-25 09:39:59.968000-03:00,Ignorância Zero,Education,"['Python', 'Aulas', 'Curso', 'Software', 'Prog...",0 days 00:17:45,17.75,Manhã,Estágio,Betim
493,"Aulas Python - 062 - POO IV: Herança, Super e...",https://www.youtube.com/watch?v=Z2qAbhqNEXE,2021-03-24 09:33:37.851000-03:00,Ignorância Zero,Education,"['Python', 'Aulas', 'Curso', 'Software', 'Prog...",0 days 00:17:45,17.75,Manhã,Estágio,Betim


In [None]:
df_mar_yt.loc[(df_mar_yt['category'] == 'Education') |  (df_mar_yt['category'] == 'Science & Technology') ]

Unnamed: 0,title,titleUrl,time,channel_name,category,tags,duration,minutes,interval,customInterval,local
474,Python - Acessando API da NASA e salvando dad...,https://www.youtube.com/watch?v=vjfofg-qzZ8,2021-03-30 15:50:31.307000-03:00,Vitor Capozzi,Science & Technology,"['python', 'mysql', 'nasa', 'api', 'json', 'pr...",0 days 00:19:25,19.42,Tarde,Tarde,Betim
475,"Aulas Python - 062 - POO IV: Herança, Super e...",https://www.youtube.com/watch?v=Z2qAbhqNEXE,2021-03-30 11:02:15.451000-03:00,Ignorância Zero,Education,"['Python', 'Aulas', 'Curso', 'Software', 'Prog...",0 days 00:17:45,17.75,Manhã,Estágio,Betim
477,"Aulas Python - 062 - POO IV: Herança, Super e...",https://www.youtube.com/watch?v=Z2qAbhqNEXE,2021-03-28 18:51:02.353000-03:00,Ignorância Zero,Education,"['Python', 'Aulas', 'Curso', 'Software', 'Prog...",0 days 00:17:45,17.75,Tarde,Tarde,Betim
478,"O que é um Objeto, Atributo, Método e Mensage...",https://www.youtube.com/watch?v=gJC02P6jkRM,2021-03-28 18:01:45.844000-03:00,Programação Dinâmica,Education,"['Python', 'orientação a objetos', 'paradigmas...",0 days 00:08:56,8.93,Tarde,Tarde,Betim
479,O que são Classes e Como Criar Novos Tipos de...,https://www.youtube.com/watch?v=9nWMXIXNGdU,2021-03-28 18:00:53.367000-03:00,Programação Dinâmica,Education,"['python', 'orientação a objetos', 'classe', '...",0 days 00:36:03,36.05,Tarde,Tarde,Betim
483,Curso Python #08 - Utilizando Módulos,https://www.youtube.com/watch?v=oOUyhGNib2Q,2021-03-28 12:46:02.276000-03:00,Curso em Vídeo,Education,"['módulos em python', 'pypi', 'Python package ...",0 days 00:33:29,33.48,Manhã,Estágio,Betim
486,POO - Herança / P3 - Curso de Python #25,https://www.youtube.com/watch?v=cN4esJ0DhqI,2021-03-28 12:35:44.598000-03:00,CFBCursos,Education,"['programação', 'Aprender a programar', 'curso...",0 days 00:18:26,18.43,Manhã,Estágio,Betim
487,Live de Python #62 - Programação orientada a ...,https://www.youtube.com/watch?v=xWTNoTtA9V8,2021-03-28 12:28:40.753000-03:00,Eduardo Mendes,Education,"['TDD', 'OO', 'Live de Python', 'BDD', 'python...",0 days 01:17:24,77.4,Manhã,Estágio,Betim
488,Live de Python #61 - Programação orientada a ...,https://www.youtube.com/watch?v=BALM_oJcJL4,2021-03-28 12:21:40.083000-03:00,Eduardo Mendes,Education,"['Python', 'Live de Python', 'curso de python'...",0 days 01:05:29,65.48,Manhã,Estágio,Betim
489,CHEGOU! Novo AMAZON Echo Show 10: VOCÊ tem qu...,https://www.youtube.com/watch?v=FxJF7__6Qic,2021-03-25 19:08:10.044000-03:00,Gesiel Taveira,Science & Technology,"['gesiel taveira', 'amazon', 'echo show 10', '...",0 days 00:17:55,17.92,Noite,Tarde,Betim


Semana final do projeto 1

In [None]:
df_mar_yt.loc[(df_mar_yt['time'].dt.date >= pd.to_datetime('2021-03-01')) & (df_mar_yt['time'].dt.date <= pd.to_datetime('2021-03-05'))]


Unnamed: 0,title,titleUrl,time,channel_name,category,tags,duration,minutes,interval,customInterval,local
545,Curso de Informática Básica GRÁTIS – Aula 10,https://www.youtube.com/watch?v=zbwWRSC2Xos,2021-03-05 21:34:38.815000-03:00,Certificado Cursos Online,Education,"['curso de informatica', 'curso de informatica...",0 days 00:08:11,8.18,Noite,Aula faculdade,Contagem
546,First of Many — Women’s History Month 2021,https://www.youtube.com/watch?v=Oy-L-OVwmZQ,2021-03-03 23:26:35.420000-03:00,Google,Science & Technology,,0 days 00:01:31,1.52,Noite,Noite,Contagem
547,Curso Python #01 - Seja um Programador,https://www.youtube.com/watch?v=S9uPNppGsGo,2021-03-03 22:51:31.210000-03:00,Curso em Vídeo,Education,"['Curso de Python', 'Curso de Programação para...",0 days 00:29:07,29.12,Noite,Aula faculdade,Contagem
548,Mundo 02 - Curso de Python - Dicas e Regras,https://www.youtube.com/watch?v=nJkVHusJp6E,2021-03-03 22:51:10.686000-03:00,Curso em Vídeo,Education,"['Curso de Python', 'Python Grátis', 'Gustavo ...",0 days 00:17:49,17.82,Noite,Aula faculdade,Contagem
549,Curso Python #11 - Cores no Terminal,https://www.youtube.com/watch?v=0hBIhkcA8O8,2021-03-03 22:17:37.433000-03:00,Curso em Vídeo,Education,"['curso de python', 'cores no python', 'cores ...",0 days 00:30:43,30.72,Noite,Aula faculdade,Contagem
550,Como instalar eletrofita - com Paloma Cipriano,https://www.youtube.com/watch?v=rmIVJeMgPNk,2021-03-01 19:23:02.187000-03:00,Casa de Verdade,Howto & Style,"['leroy', 'leroy merlin', 'leroy merlyn', 'ler...",0 days 00:08:50,8.83,Noite,Tarde,Contagem
551,Live de Python #1 - Testes com Python [Uma in...,https://www.youtube.com/watch?v=5hL9T3jintE,2021-03-01 15:01:00.701000-03:00,Eduardo Mendes,Education,"['Testes de software', 'curso de python', 'pyt...",0 days 02:09:57,129.95,Tarde,Tarde,Contagem
552,Selenium com Python #00 - Abertura do curso,https://www.youtube.com/watch?v=PHHXksljGNA,2021-03-01 14:51:34.440000-03:00,Eduardo Mendes,Education,"['python', 'live de python', 'dunossauro', 'ed...",0 days 01:09:41,69.68,Tarde,Estágio,Contagem


Primeira semana do projeto 2

In [None]:
df_mar_yt.loc[(df_mar_yt['time'].dt.date >= pd.to_datetime('2021-03-26')) & (df_mar_yt['time'].dt.date <= pd.to_datetime('2021-03-31'))]

Unnamed: 0,title,titleUrl,time,channel_name,category,tags,duration,minutes,interval,customInterval,local
474,Python - Acessando API da NASA e salvando dad...,https://www.youtube.com/watch?v=vjfofg-qzZ8,2021-03-30 15:50:31.307000-03:00,Vitor Capozzi,Science & Technology,"['python', 'mysql', 'nasa', 'api', 'json', 'pr...",0 days 00:19:25,19.42,Tarde,Tarde,Betim
475,"Aulas Python - 062 - POO IV: Herança, Super e...",https://www.youtube.com/watch?v=Z2qAbhqNEXE,2021-03-30 11:02:15.451000-03:00,Ignorância Zero,Education,"['Python', 'Aulas', 'Curso', 'Software', 'Prog...",0 days 00:17:45,17.75,Manhã,Estágio,Betim
476,A morte é um dia que vale a pena viver | Ana ...,https://www.youtube.com/watch?v=ep354ZXKBEs,2021-03-29 10:52:27.559000-03:00,TEDx Talks,Nonprofits &Activism,"['ted talk', 'Ana', 'tedx talk', 'ted x', 'ted...",0 days 00:18:10,18.17,Manhã,Estágio,Betim
477,"Aulas Python - 062 - POO IV: Herança, Super e...",https://www.youtube.com/watch?v=Z2qAbhqNEXE,2021-03-28 18:51:02.353000-03:00,Ignorância Zero,Education,"['Python', 'Aulas', 'Curso', 'Software', 'Prog...",0 days 00:17:45,17.75,Tarde,Tarde,Betim
478,"O que é um Objeto, Atributo, Método e Mensage...",https://www.youtube.com/watch?v=gJC02P6jkRM,2021-03-28 18:01:45.844000-03:00,Programação Dinâmica,Education,"['Python', 'orientação a objetos', 'paradigmas...",0 days 00:08:56,8.93,Tarde,Tarde,Betim
479,O que são Classes e Como Criar Novos Tipos de...,https://www.youtube.com/watch?v=9nWMXIXNGdU,2021-03-28 18:00:53.367000-03:00,Programação Dinâmica,Education,"['python', 'orientação a objetos', 'classe', '...",0 days 00:36:03,36.05,Tarde,Tarde,Betim
480,Sobre autoconhecimento e as nossas inteligênc...,https://www.youtube.com/watch?v=EoYYDYec8WQ,2021-03-28 14:44:36.783000-03:00,TEDx Talks,Nonprofits &Activism,"['TEDxTalks Portuguese', 'Brazilian Life Life ...",0 days 00:16:27,16.45,Tarde,Estágio,Betim
481,Daniel Goleman - Inteligência Emocional,https://www.youtube.com/watch?v=BqF50IuR3_c,2021-03-28 13:53:56.016000-03:00,Volney Faustini,Film & Animation,"['Daniel Goleman', 'Emotional Intelligence', '...",0 days 00:05:32,5.53,Tarde,Estágio,Betim
482,Para Início de Conversa | Carolina Nalon | TE...,https://www.youtube.com/watch?v=3qzcPcQjbMI,2021-03-28 12:56:16.487000-03:00,TEDx Talks,Nonprofits &Activism,"['TEDxTalks', 'Portuguese', 'Brazil', 'Life', ...",0 days 00:18:07,18.12,Manhã,Estágio,Betim
483,Curso Python #08 - Utilizando Módulos,https://www.youtube.com/watch?v=oOUyhGNib2Q,2021-03-28 12:46:02.276000-03:00,Curso em Vídeo,Education,"['módulos em python', 'pypi', 'Python package ...",0 days 00:33:29,33.48,Manhã,Estágio,Betim


Spotify

Artistas mais reproduzidos

In [None]:
df_mar_sf[['artistName','minPlayed']].groupby(['artistName'], as_index=False)\
                                     .agg({'minPlayed':'sum'})\
                                     .sort_values('minPlayed', ascending=False)\
                                     .head(10)

Unnamed: 0,artistName,minPlayed
10,Antonio Vivaldi,186.06
98,Imagine Dragons,98.87
143,Liniker e os Caramelows,40.75
225,Sleeping At Last,34.07
115,Johann Sebastian Bach,33.29
4,Alceu Valença,33.0
43,DUDA BEAT,28.89
93,Hipsters Ponto Tech,24.64
29,Caetano Veloso,22.04
215,Rubel,17.88


E quais foram as músicas que mais ouvi?

In [None]:
df_mar_sf[['trackName','minPlayed']].groupby(['trackName'], as_index=False)\
                                     .agg({'minPlayed':'sum'})\
                                     .sort_values('minPlayed', ascending=False)\
                                     .head(10)

Unnamed: 0,trackName,minPlayed
450,Zero,13.3
332,Rise Up,12.3
188,How to Save a Life,11.98
401,"Trello, Jira e Ferramentas de Produtividade – ...",11.23
164,Flutua,10.42
293,Partilhar,10.0
197,Intimidade,9.75
28,Anunciação,9.6
5,A Casa É Sua,9.37
400,Todo Carinho,8.98


E será que tinha um intervalo que eu gostava mais de ouvir música?

In [None]:
df_mar_sf[['interval','minPlayed']].groupby(['interval'], as_index=False)\
                                                    .agg({'minPlayed':'sum'})\
                                                    .sort_values('minPlayed', ascending=False)\
                                                    .groupby('interval', as_index=False)\
                                                    .head(3)

Unnamed: 0,interval,minPlayed
2,Noite,531.93
3,Tarde,406.94
1,Manhã,303.47
0,Madrugada,271.09


In [None]:
df_mar_sf[['artistName','interval','minPlayed']].groupby(['interval', 'artistName'])\
                                                    .agg({'minPlayed':'sum'})\
                                                    .sort_values('minPlayed', ascending=False)\
                                                    .groupby('interval', as_index=False)\
                                                    .head(3)\
                                                    .sort_values('interval') 

Unnamed: 0_level_0,Unnamed: 1_level_0,minPlayed
interval,artistName,Unnamed: 2_level_1
Madrugada,Imagine Dragons,36.35
Madrugada,Johann Sebastian Bach,29.29
Madrugada,Sleeping At Last,15.59
Manhã,DUDA BEAT,17.88
Manhã,Liniker e os Caramelows,16.59
Manhã,Hipsters Ponto Tech,12.98
Noite,Antonio Vivaldi,179.92
Noite,Imagine Dragons,59.67
Noite,Liniker e os Caramelows,16.55
Tarde,Ingrid Michaelson,12.06


In [None]:
round(df_mar_sf['minPlayed'].sum()/60) 

25

Músicas ultima semana do projeto 1

In [None]:
df_mar_sf.loc[(df_mar_sf['endTime'].dt.date >= pd.to_datetime('2021-03-01')) & (df_mar_sf['endTime'].dt.date <= pd.to_datetime('2021-03-05'))].sample(10)

Unnamed: 0,endTime,artistName,trackName,msPlayed,minPlayed,interval,customInterval,local
4476,2021-03-04 21:56:00,Antonio Vivaldi,"Concerto for Violin and Strings in F minor, Op...",111693,1.86,Noite,Aula faculdade,Contagem
4442,2021-03-04 20:49:00,Antonio Vivaldi,"Concerto for Strings and Continuo in F, R.141:...",88573,1.48,Noite,Aula faculdade,Contagem
4448,2021-03-04 21:03:00,Antonio Vivaldi,"Sonata for Lute, Violin and Continuo, RV.82 - ...",143000,2.38,Noite,Aula faculdade,Contagem
4426,2021-03-04 20:15:00,Antonio Vivaldi,Circadian Clocks,236426,3.94,Noite,Aula faculdade,Contagem
4394,2021-03-02 04:29:00,Johann Sebastian Bach,"Goldberg Variations, BWV 988: Aria",184853,3.08,Madrugada,Dormindo,Contagem
4495,2021-03-05 12:21:00,Rubel,Mentiras - Ao Vivo,178892,2.98,Manhã,Estágio,Contagem
4416,2021-03-04 19:35:00,Antonio Vivaldi,Sleep Walk,276360,4.61,Noite,Tarde,Contagem
4458,2021-03-04 21:23:00,Antonio Vivaldi,"Concerto for Recorder, Oboe, Violin, Bassoon a...",104000,1.73,Noite,Aula faculdade,Contagem
4378,2021-03-01 21:24:00,Hipsters Ponto Tech,"Trello, Jira e Ferramentas de Produtividade – ...",673780,11.23,Noite,Aula faculdade,Contagem
4473,2021-03-04 21:50:00,Antonio Vivaldi,"Concerto for Strings and Continuo in D minor, ...",98346,1.64,Noite,Aula faculdade,Contagem


In [None]:
len(df_mar_sf.loc[(df_mar_sf['endTime'].dt.date >= pd.to_datetime('2021-03-01')) & (df_mar_sf['endTime'].dt.date <= pd.to_datetime('2021-03-05'))])

128

In [None]:
df_mar_sf.loc[(df_mar_sf['endTime'].dt.date >= pd.to_datetime('2021-03-26')) & (df_mar_sf['endTime'].dt.date <= pd.to_datetime('2021-03-31'))]

Unnamed: 0,endTime,artistName,trackName,msPlayed,minPlayed,interval,customInterval,local
4874,2021-03-26 12:28:00,Liniker e os Caramelows,Intimidade,194882,3.25,Manhã,Estágio,Betim
4875,2021-03-26 12:32:00,Mariana Aydar,Te Faço um Cafuné,227604,3.79,Manhã,Estágio,Betim
4876,2021-03-26 12:36:00,Céu,Coreto,254997,4.25,Manhã,Estágio,Betim
4877,2021-03-26 12:42:00,Liniker e os Caramelows,Tua,350906,5.85,Manhã,Estágio,Betim
4878,2021-03-26 12:46:00,Tiago Iorc,Pode Se Achegar,228780,3.81,Manhã,Estágio,Betim
4879,2021-03-26 12:50:00,Fino Coletivo,Minha Menina Bonita,238253,3.97,Manhã,Estágio,Betim
4880,2021-03-26 13:02:00,Rubel,Partilhar,337308,5.62,Tarde,Estágio,Betim
4881,2021-03-26 13:03:00,Caetano Veloso,Alguém Cantando - Ao Vivo,104118,1.74,Tarde,Estágio,Betim
4882,2021-03-26 13:08:00,Caetano Veloso,Deusa Do Amor - Ao Vivo,294299,4.9,Tarde,Estágio,Betim
4883,2021-03-26 13:12:00,Bagua Records,100 por Hora,196800,3.28,Tarde,Estágio,Betim


Navegador

In [None]:
df_mar_gc['title'].value_counts().head(10)

Netflix                                            337
TV Globo Ao Vivo | Assista no Globoplay             50
xet do ifood (@xetdoifood) / Twitter                49
Instagram                                           46
Vamo AI - Semana 7 Assessment - Qualified           40
Fazer login nas Contas do Google                    35
Caelum Escola de Tecnologia Cursos Online           33
Stories • Instagram                                 33
Dashboard | Alura - Cursos online de tecnologia     32
Google Agenda - março de 2021                       27
Name: title, dtype: int64

E o que eu acessava por intervalo do dia

In [None]:
# df_jas_gc.reset_index(inplace=True)
# df_jas_gc
# redirect = df_jas_gc.loc[df_jas_gc['title'] == 'Redirect']
# df_jas_gc.drop(index = redirect.index, inplace=True)
# df_jas_gc.drop(columns=['index','level_0'],inplace=True)

In [None]:
# ee = df_out_gc.query('title.str.contains("Curriculo Vaga Escriturário") | title.str.contains("Lance")', engine='python')
# df_out_gc.drop(index= ee.index, inplace=True)  #LEILÕES ONLINE | Lance24
# ee

In [None]:
 df_mar_gc[['title','interval']].groupby(['interval', 'title'],as_index=False)\
                                                    .size()\
                                                    .sort_values('size', ascending=False)\
                                                    .groupby('interval', as_index=False)\
                                                    .head(3)\
                                                    .sort_values('interval') 

Unnamed: 0,interval,title,size
270,Madrugada,Netflix,80
508,Madrugada,TV Globo Ao Vivo | Assista no Globoplay,49
240,Madrugada,Instagram,21
871,Manhã,Vamo AI - Semana 7 Assessment - Qualified,22
847,Manhã,SGA - Dados Cadastrais,10
726,Manhã,BH é Meu País 🌐 (@bhemeupais) • Fotos e víde...,9
1201,Noite,Netflix,100
1524,Noite,xet do ifood (@xetdoifood) / Twitter,49
1110,Noite,Doctoralia - Encontre um profissional da saúde...,22
1881,Tarde,Netflix,150


E as pesquisas relacionados a dados? Vamos dar uma olhada?

In [None]:
df_mar_gc.query('title.str.contains("Dados") | title.str.contains("Python") | title.str.contains("Análise")\
| title.str.contains("SQL")', engine='python')

Unnamed: 0,title,url,time_usec,interval,customInterval,local
22892,(194) Python - Acessando API da NASA e salvand...,https://www.youtube.com/watch?v=vjfofg-qzZ8,2021-03-30 18:50:40.356093,Tarde,Tarde,Betim
22905,(186) Python - Acessando API da NASA e salvand...,https://www.youtube.com/watch?v=vjfofg-qzZ8,2021-03-30 18:37:31.100313,Tarde,Tarde,Betim
22909,Scientific-Guy / python-nasa-api: Simple NASA ...,https://github.com/Scientific-Guy/python-nasa-api,2021-03-30 18:12:14.370987,Tarde,Tarde,Betim
22911,Consumindo NASA API usando Python - Parte 1 | ...,https://medium.com/daily-python/consuming-nasa...,2021-03-30 18:10:18.289742,Tarde,Tarde,Betim
22912,Daily Python – Medium,https://medium.com/daily-python,2021-03-30 18:09:55.433181,Tarde,Tarde,Betim
...,...,...,...,...,...,...
27294,(640) Curso Selenium com Python - YouTube,https://www.youtube.com/playlist?list=PLOQgLBu...,2021-03-01 17:52:09.683972,Tarde,Tarde,Contagem
27296,(640) Selenium com Python #00 - Abertura do cu...,https://www.youtube.com/watch?v=PHHXksljGNA&li...,2021-03-01 17:51:50.060631,Tarde,Tarde,Contagem
27298,(640) Selenium com Python #00 - Abertura do cu...,https://www.youtube.com/watch?v=PHHXksljGNA&li...,2021-03-01 17:51:41.667254,Tarde,Tarde,Contagem
27299,(640) Selenium com Python #00 - Abertura do cu...,https://www.youtube.com/watch?v=PHHXksljGNA&li...,2021-03-01 17:51:22.183130,Tarde,Tarde,Contagem


#### **Abril e Maio - Praticando o desapego, a evolução constante no meio do caminho**

DFs Abril e Maio


In [None]:
df_abmai_yt = df_youtube.loc[(df_youtube['time'] >= abmai_inicio) & (df_youtube['time'] <= abmai_fim)]

df_abmai_sf = df_spotify_music.loc[(df_spotify_music['endTime'] >= abmai_inicio) & (df_spotify_music['endTime'] <= abmai_fim)]

df_abmai_gc = df_nav.loc[(df_nav['time_usec'] >= abmai_inicio) & (df_nav['time_usec'] <= abmai_fim)]

YOUTUBE

In [None]:
df_abmai_yt.head()

Unnamed: 0,title,titleUrl,time,channel_name,category,tags,duration,minutes,interval,customInterval,local
205,O pensamento da Modernidade - entrevista com ...,https://www.youtube.com/watch?v=m7JIC-2DGLo,2021-05-25 21:09:05.374000-03:00,Canal Filosofix,People & Blogs,,0 days 00:19:48,19.8,Noite,Aula faculdade,Betim
206,IBM Data Science Professional Certificate Wor...,https://www.youtube.com/watch?v=uqiydl8tYAM,2021-05-25 00:41:23.195000-03:00,Przemek Chojecki,Education,"['ibm data science coursera', 'ibm data scienc...",0 days 00:12:58,12.97,Madrugada,Dormindo,Betim
207,Google vs IBM Data Analyst Certificate - BEST...,https://www.youtube.com/watch?v=jp-Lv_3a2VI,2021-05-25 00:28:14.758000-03:00,Luke Barousse,Science & Technology,"['data viz by luke', 'business intelligence', ...",0 days 00:10:26,10.43,Madrugada,Dormindo,Betim
208,Supletivo DH - Metabase,https://www.youtube.com/watch?v=lW5b8CnbwRo,2021-05-23 17:00:20.480000-03:00,Rodrigo TeORiA,Entertainment,,0 days 01:43:27,103.45,Tarde,Tarde,Betim
209,Cursos gratuitos em análise de dados com cert...,https://www.youtube.com/watch?v=gFwFQ_sJ734,2021-05-23 00:42:06.944000-03:00,Data & Analytics Forum,Film & Animation,['iMovie'],0 days 00:05:16,5.27,Madrugada,Dormindo,Betim


Canais mais assistidos

In [None]:
df_abmai_yt['channel_name'].value_counts().head(10)

Programação Dinâmica           12
Bóson Treinamentos             10
Seja Um Data Scientist          9
Hana Beauty                     9
EdukaTI                         6
Equaciona Com Paulo Pereira     6
DesCOMPlica, Oliba!             5
Marcio Gondim                   5
iFood Universo                  5
Epifania Experiência            4
Name: channel_name, dtype: int64

Categoria mais assistida

In [None]:
df_abmai_yt['category'].value_counts()

People & Blogs          74
Science & Technology    67
Education               63
Entertainment           29
Music                   20
Film & Animation         8
Howto & Style            5
Nonprofits &Activism     1
Sports                   1
Travel & Events          1
Name: category, dtype: int64

Horários que mais assisti por intervalo e por hora do dia

In [None]:
# Por intervalo
df_abmai_yt['interval'].value_counts()

Noite        82
Madrugada    69
Manhã        66
Tarde        52
Name: interval, dtype: int64

In [None]:
# Por horário do dia
df_abmai_yt.time.dt.hour.value_counts()

0     49
22    29
12    23
23    23
11    17
1     17
13    17
17    13
10    13
20    11
21    11
9     11
16    10
18     9
19     8
15     3
8      2
4      2
2      1
Name: time, dtype: int64

Tempo em minutos que passei assistindo cada categoria

In [None]:
df_abmai_yt[['category', 'minutes']].groupby('category').agg({'minutes':'sum'}).sort_values('minutes', ascending=False) 

Unnamed: 0_level_0,minutes
category,Unnamed: 1_level_1
Science & Technology,1940.95
People & Blogs,1742.87
Education,1226.21
Entertainment,999.7
Music,701.87
Film & Animation,70.59
Howto & Style,48.32
Nonprofits &Activism,14.12
Travel & Events,7.67
Sports,0.6


Quantas horas passei no youtube nesse mês


In [None]:
round(df_abmai_yt['minutes'].sum()/60)

113

Quantidade de vídeos assistidos por categoria em cada intervalo de tempo do dia

In [None]:
df_abmai_yt[['category', 'interval']].groupby(['category', 'interval'], as_index=False).size().sort_values(['category','size'],ascending=False)

Unnamed: 0,category,interval,size
27,Travel & Events,Madrugada,1
26,Sports,Madrugada,1
24,Science & Technology,Noite,28
23,Science & Technology,Manhã,17
25,Science & Technology,Tarde,13
22,Science & Technology,Madrugada,9
18,People & Blogs,Madrugada,25
19,People & Blogs,Manhã,21
20,People & Blogs,Noite,18
21,People & Blogs,Tarde,10


In [None]:
df_abmai_yt.query('title.str.contains("Dados") | title.str.contains("Python") | title.str.contains("Análise")\
| title.str.contains("SQL")', engine='python')

Unnamed: 0,title,titleUrl,time,channel_name,category,tags,duration,minutes,interval,customInterval,local
215,Natural Language Processing (NLP) Tutorial wi...,https://www.youtube.com/watch?v=X2vAabgKiuM,2021-05-21 12:37:18.050000-03:00,freeCodeCamp.org,Education,"['natural language processing tutorial', 'natu...",0 days 00:38:10,38.17,Manhã,Estágio,Betim
217,#LiveAfroPython | Introdução à NLP e Análise ...,https://www.youtube.com/watch?v=J_YVyo8KmsQ,2021-05-21 12:34:46.572000-03:00,AfroPython BR,Entertainment,,0 days 01:05:45,65.75,Manhã,Estágio,Betim
222,Altere a Aparência dos Gráficos do Matplotlib...,https://www.youtube.com/watch?v=aoILq-B3EHo,2021-05-20 23:43:26.663000-03:00,Walisson Silva,Education,"['altere o estilo dos gráficos matplotlib', 'm...",0 days 00:23:59,23.98,Noite,Noite,Betim
223,#01 - Introdução à Biblioteca Numpy | Data Sc...,https://www.youtube.com/watch?v=4cOVXzR7M3c,2021-05-20 23:42:07.270000-03:00,Walisson Silva,Education,"['data science com python', 'data science', 'p...",0 days 00:14:18,14.30,Noite,Noite,Betim
225,Natural Language Processing (NLP) Tutorial wi...,https://www.youtube.com/watch?v=X2vAabgKiuM,2021-05-20 23:17:01.693000-03:00,freeCodeCamp.org,Education,"['natural language processing tutorial', 'natu...",0 days 00:38:10,38.17,Noite,Noite,Betim
...,...,...,...,...,...,...,...,...,...,...,...
469,Python Tutorial: GUI Calculator with Model Vi...,https://www.youtube.com/watch?v=ek47NMFW_mk,2021-04-01 22:25:09.448000-03:00,Victor Hidrogo,Science & Technology,"['python', 'programming', 'tkinter', 'python3'...",0 days 00:10:01,10.02,Noite,Aula faculdade,Betim
470,Como enviar Requisicões HTTP com Python,https://www.youtube.com/watch?v=c5FKPzUL70U,2021-04-01 21:49:10.866000-03:00,Eletrônica e Programação,Science & Technology,"['requisicoes http python', 'python http', 'ht...",0 days 00:09:35,9.58,Noite,Aula faculdade,Betim
471,Consumindo uma API Rest usando requests em Py...,https://www.youtube.com/watch?v=Qd8JT0bnJGs,2021-04-01 21:38:37.568000-03:00,Otávio Miranda,Science & Technology,"['Python', 'Requests', 'API', 'API Rest', 'POS...",0 days 01:19:17,79.28,Noite,Aula faculdade,Betim
472,Consumindo dados da API do YOUTUBE com Python...,https://www.youtube.com/watch?v=olDCJ1w3FLM,2021-04-01 20:50:42.613000-03:00,Programação Dinâmica,Education,"['programação dinâmica', 'python na pratica', ...",0 days 00:12:14,12.23,Noite,Aula faculdade,Betim


In [None]:
df_abmai_yt.loc[(df_abmai_yt['category'] == 'Education') | (df_abmai_yt['category'] == 'Science & Technology')]

Unnamed: 0,title,titleUrl,time,channel_name,category,tags,duration,minutes,interval,customInterval,local
206,IBM Data Science Professional Certificate Wor...,https://www.youtube.com/watch?v=uqiydl8tYAM,2021-05-25 00:41:23.195000-03:00,Przemek Chojecki,Education,"['ibm data science coursera', 'ibm data scienc...",0 days 00:12:58,12.97,Madrugada,Dormindo,Betim
207,Google vs IBM Data Analyst Certificate - BEST...,https://www.youtube.com/watch?v=jp-Lv_3a2VI,2021-05-25 00:28:14.758000-03:00,Luke Barousse,Science & Technology,"['data viz by luke', 'business intelligence', ...",0 days 00:10:26,10.43,Madrugada,Dormindo,Betim
214,A assexualidade para a psicanálise | Christia...,https://www.youtube.com/watch?v=4Bl7699XHbQ,2021-05-21 12:40:46.171000-03:00,Christian Dunker,Education,"['Christian', 'Dunker', 'Psicanálise', 'Lacan'...",0 days 00:12:11,12.18,Manhã,Estágio,Betim
215,Natural Language Processing (NLP) Tutorial wi...,https://www.youtube.com/watch?v=X2vAabgKiuM,2021-05-21 12:37:18.050000-03:00,freeCodeCamp.org,Education,"['natural language processing tutorial', 'natu...",0 days 00:38:10,38.17,Manhã,Estágio,Betim
219,NLP - MACHINE LEARNING PARA TEXTOS - Processa...,https://www.youtube.com/watch?v=ULmezlBTtQs,2021-05-21 12:03:02.855000-03:00,Cotidiano Aceleradora,Science & Technology,"['Cotidiano Aceleradora', 'Aceleradora de Star...",0 days 01:36:54,96.90,Manhã,Estágio,Betim
...,...,...,...,...,...,...,...,...,...,...,...
469,Python Tutorial: GUI Calculator with Model Vi...,https://www.youtube.com/watch?v=ek47NMFW_mk,2021-04-01 22:25:09.448000-03:00,Victor Hidrogo,Science & Technology,"['python', 'programming', 'tkinter', 'python3'...",0 days 00:10:01,10.02,Noite,Aula faculdade,Betim
470,Como enviar Requisicões HTTP com Python,https://www.youtube.com/watch?v=c5FKPzUL70U,2021-04-01 21:49:10.866000-03:00,Eletrônica e Programação,Science & Technology,"['requisicoes http python', 'python http', 'ht...",0 days 00:09:35,9.58,Noite,Aula faculdade,Betim
471,Consumindo uma API Rest usando requests em Py...,https://www.youtube.com/watch?v=Qd8JT0bnJGs,2021-04-01 21:38:37.568000-03:00,Otávio Miranda,Science & Technology,"['Python', 'Requests', 'API', 'API Rest', 'POS...",0 days 01:19:17,79.28,Noite,Aula faculdade,Betim
472,Consumindo dados da API do YOUTUBE com Python...,https://www.youtube.com/watch?v=olDCJ1w3FLM,2021-04-01 20:50:42.613000-03:00,Programação Dinâmica,Education,"['programação dinâmica', 'python na pratica', ...",0 days 00:12:14,12.23,Noite,Aula faculdade,Betim


 Dias do projeto 2

In [None]:
df_abmai_yt.loc[(df_abmai_yt['time'].dt.date >= pd.to_datetime('2021-04-01')) & (df_abmai_yt['time'].dt.date <= pd.to_datetime('2021-04-09'))]

Unnamed: 0,title,titleUrl,time,channel_name,category,tags,duration,minutes,interval,customInterval,local
445,New Horizons,https://www.youtube.com/watch?v=aky9FFj4ybE,2021-04-08 22:49:27.522000-03:00,National Space Society,Science & Technology,"['New Horizons (Space Mission)', 'Science (TV ...",0 days 00:02:53,2.88,Noite,Aula faculdade,Betim
446,Understanding if __name__ == “__main__” in Py...,https://www.youtube.com/watch?v=3dHyS1W4TIE,2021-04-08 22:06:55.068000-03:00,ProgrammingKnowledge,Education,"['Python (Programming Language)', 'Python 3.6'...",0 days 00:07:09,7.15,Noite,Aula faculdade,Betim
447,Python Tutorial: if __name__ == '__main__',https://www.youtube.com/watch?v=sugvnHA7ElY,2021-04-08 22:03:55.807000-03:00,Corey Schafer,Education,"['Python', 'Programming', 'Computer Science', ...",0 days 00:08:43,8.72,Noite,Aula faculdade,Betim
448,Best Practices for Python Main Functions,https://www.youtube.com/watch?v=lOeIDvyRUQs,2021-04-08 21:59:38.475000-03:00,Real Python,Education,"['dbader', 'python']",0 days 00:11:17,11.28,Noite,Aula faculdade,Betim
449,MODIFICANDO o tamanho das COLUNAS de um DataF...,https://www.youtube.com/watch?v=nsH6H2gNKgg,2021-04-08 17:45:45.524000-03:00,Programação Dinâmica,Education,"['programação dinâmica', 'pandas', 'python 3',...",0 days 00:07:19,7.32,Tarde,Tarde,Betim
450,CONVERTENDO uma coluna de um DataFrame do Pan...,https://www.youtube.com/watch?v=MVd1cs7TDgA,2021-04-08 17:10:32.930000-03:00,Programação Dinâmica,Education,"['programação dinâmica', 'pandas', 'python 3',...",0 days 00:04:58,4.97,Tarde,Tarde,Betim
451,Comparing C to machine language,https://www.youtube.com/watch?v=yOyaJXpAYZQ,2021-04-07 16:27:50.696000-03:00,Ben Eater,Education,"['C (Programming Language)', 'Assembly Languag...",0 days 00:10:02,10.03,Tarde,Tarde,Betim
452,Python Flask Tutorial: Full-Featured Web App ...,https://www.youtube.com/watch?v=MwZwr5Tvyxo,2021-04-07 10:54:24.923000-03:00,Corey Schafer,Education,"['python', 'flask', 'flask tutorial', 'python ...",0 days 00:17:09,17.15,Manhã,Estágio,Betim
453,Python Flask Tutorial: Full-Featured Web App ...,https://www.youtube.com/watch?v=QnDWIZuWYW0,2021-04-07 10:45:40.443000-03:00,Corey Schafer,Education,"['python', 'flask', 'templates', 'flask templa...",0 days 00:31:42,31.7,Manhã,Estágio,Betim
454,Python Flask Tutorial: Full-Featured Web App ...,https://www.youtube.com/watch?v=UIJKdCIEXUQ,2021-04-07 10:15:13.238000-03:00,Corey Schafer,Education,"['python', 'flask', 'flask tutorial', 'flask f...",0 days 00:48:16,48.27,Manhã,Estágio,Betim


Dias do projeto 3

In [None]:
df_abmai_yt.loc[(df_abmai_yt['time'].dt.date >= pd.to_datetime('2021-05-14')) & (df_abmai_yt['time'].dt.date <= pd.to_datetime('2021-05-28'))]


Unnamed: 0,title,titleUrl,time,channel_name,category,tags,duration,minutes,interval,customInterval,local
205,O pensamento da Modernidade - entrevista com ...,https://www.youtube.com/watch?v=m7JIC-2DGLo,2021-05-25 21:09:05.374000-03:00,Canal Filosofix,People & Blogs,,0 days 00:19:48,19.8,Noite,Aula faculdade,Betim
206,IBM Data Science Professional Certificate Wor...,https://www.youtube.com/watch?v=uqiydl8tYAM,2021-05-25 00:41:23.195000-03:00,Przemek Chojecki,Education,"['ibm data science coursera', 'ibm data scienc...",0 days 00:12:58,12.97,Madrugada,Dormindo,Betim
207,Google vs IBM Data Analyst Certificate - BEST...,https://www.youtube.com/watch?v=jp-Lv_3a2VI,2021-05-25 00:28:14.758000-03:00,Luke Barousse,Science & Technology,"['data viz by luke', 'business intelligence', ...",0 days 00:10:26,10.43,Madrugada,Dormindo,Betim
208,Supletivo DH - Metabase,https://www.youtube.com/watch?v=lW5b8CnbwRo,2021-05-23 17:00:20.480000-03:00,Rodrigo TeORiA,Entertainment,,0 days 01:43:27,103.45,Tarde,Tarde,Betim
209,Cursos gratuitos em análise de dados com cert...,https://www.youtube.com/watch?v=gFwFQ_sJ734,2021-05-23 00:42:06.944000-03:00,Data & Analytics Forum,Film & Animation,['iMovie'],0 days 00:05:16,5.27,Madrugada,Dormindo,Betim
210,Cursos gratuitos em análise de dados com cert...,https://www.youtube.com/watch?v=gFwFQ_sJ734,2021-05-22 12:24:36.839000-03:00,Data & Analytics Forum,Film & Animation,['iMovie'],0 days 00:05:16,5.27,Manhã,Estágio,Betim
211,Supletivo DH - Metabase,https://www.youtube.com/watch?v=lW5b8CnbwRo,2021-05-22 10:47:55.991000-03:00,Rodrigo TeORiA,Entertainment,,0 days 01:43:27,103.45,Manhã,Estágio,Betim
212,Cursos gratuitos em análise de dados com cert...,https://www.youtube.com/watch?v=gFwFQ_sJ734,2021-05-21 15:34:06.568000-03:00,Data & Analytics Forum,Film & Animation,['iMovie'],0 days 00:05:16,5.27,Tarde,Tarde,Betim
213,Supletivo DH - Metabase,https://www.youtube.com/watch?v=lW5b8CnbwRo,2021-05-21 15:32:46.140000-03:00,Rodrigo TeORiA,Entertainment,,0 days 01:43:27,103.45,Tarde,Tarde,Betim
214,A assexualidade para a psicanálise | Christia...,https://www.youtube.com/watch?v=4Bl7699XHbQ,2021-05-21 12:40:46.171000-03:00,Christian Dunker,Education,"['Christian', 'Dunker', 'Psicanálise', 'Lacan'...",0 days 00:12:11,12.18,Manhã,Estágio,Betim


Spotify

Artistas mais reproduzidos

In [None]:
df_abmai_sf[['artistName','minPlayed']].groupby(['artistName'], as_index=False)\
                                     .agg({'minPlayed':'sum'})\
                                     .sort_values('minPlayed', ascending=False)\
                                     .head(10)

Unnamed: 0,artistName,minPlayed
226,Jorge & Mateus,284.44
188,Henrique & Juliano,204.43
53,Billie Eilish,108.56
105,DUDA BEAT,101.69
92,Colo de Deus,65.64
229,João Figueiredo,63.96
336,Marcelo Jeneci,58.17
348,Matheus & Kauan,53.91
278,Lewis Capaldi,51.62
460,Rubel,50.88


E quais foram as músicas que mais ouvi?

In [None]:
df_abmai_sf[['trackName','minPlayed']].groupby(['trackName'], as_index=False)\
                                     .agg({'minPlayed':'sum'})\
                                     .sort_values('minPlayed', ascending=False)\
                                     .head(10)

Unnamed: 0,trackName,minPlayed
731,Partilhar,34.11
718,Ousado Amor,33.71
728,Paradigmas,32.17
574,Me Leva Pra Casa,31.09
1132,É Problema,27.33
652,No Time To Die,24.67
904,Someone You Loved,23.97
933,Só Sei Dançar Com Você,23.02
354,Eu Te Vejo Em Tudo,22.58
367,Facas - Ao Vivo,21.81


E será que tinha um intervalo que eu gostava mais de ouvir música?

In [None]:
df_abmai_sf[['interval','minPlayed']].groupby(['interval'], as_index=False)\
                                                    .agg({'minPlayed':'sum'})\
                                                    .sort_values('minPlayed', ascending=False)\
                                                    .groupby('interval', as_index=False)\
                                                    .head(3)

Unnamed: 0,interval,minPlayed
3,Tarde,1981.72
0,Madrugada,1134.48
1,Manhã,937.2
2,Noite,573.27


In [None]:
df_abmai_sf[['artistName','interval','minPlayed']].groupby(['interval', 'artistName'])\
                                                    .agg({'minPlayed':'sum'})\
                                                    .sort_values('minPlayed', ascending=False)\
                                                    .groupby('interval', as_index=False)\
                                                    .head(3)\
                                                    .sort_values('interval') 

Unnamed: 0_level_0,Unnamed: 1_level_0,minPlayed
interval,artistName,Unnamed: 2_level_1
Madrugada,Jorge & Mateus,83.57
Madrugada,Billie Eilish,76.54
Madrugada,Lewis Capaldi,25.36
Manhã,Colo de Deus,33.47
Manhã,Lewis Capaldi,26.22
Manhã,Billie Eilish,20.44
Noite,DUDA BEAT,31.37
Noite,Henrique & Juliano,25.06
Noite,Rubel,24.57
Tarde,Jorge & Mateus,158.94


In [None]:
round(df_abmai_sf['minPlayed'].sum()/60) 

77

O que mais ouvi nos dias de projetos?


Projeto 2

In [None]:
df_abmai_sf.loc[(df_abmai_sf['endTime'].dt.date >= pd.to_datetime('2021-04-01')) & (df_abmai_sf['endTime'].dt.date <= pd.to_datetime('2021-04-09'))]

Unnamed: 0,endTime,artistName,trackName,msPlayed,minPlayed,interval,customInterval,local
4904,2021-04-01 20:36:00,Johnny Hooker,Amor Marginal,5440,0.09,Noite,Aula faculdade,Betim
4905,2021-04-01 20:40:00,"Francisco, el Hombre","Triste, Louca ou Má",265826,4.43,Noite,Aula faculdade,Betim
4906,2021-04-01 20:45:00,Johnny Hooker,Flutua,312728,5.21,Noite,Aula faculdade,Betim
4907,2021-04-01 20:49:00,Rubel,Partilhar,262552,4.38,Noite,Aula faculdade,Betim
4908,2021-04-01 20:53:00,DUDA BEAT,Meu Pisêro,201796,3.36,Noite,Aula faculdade,Betim
...,...,...,...,...,...,...,...,...
5127,2021-04-09 10:34:00,Wesley Safadão,"Ele É Ele, Eu Sou Eu",155209,2.59,Manhã,Estágio,Betim
5128,2021-04-09 10:36:00,Jorge & Mateus,Lance Individual,164458,2.74,Manhã,Estágio,Betim
5129,2021-04-09 10:39:00,DJ Ivis,Esquema Preferido,189463,3.16,Manhã,Estágio,Betim
5130,2021-04-09 10:42:00,Luíza & Maurílio,Inamorável,170314,2.84,Manhã,Estágio,Betim


Projeto 3

In [None]:
df_abmai_sf.loc[(df_abmai_sf['endTime'].dt.date >= pd.to_datetime('2021-05-14')) & (df_abmai_sf['endTime'].dt.date <= pd.to_datetime('2021-05-28'))]

Unnamed: 0,endTime,artistName,trackName,msPlayed,minPlayed,interval,customInterval,local
6391,2021-05-14 12:47:00,Marcos & Belutti,Tudo Indica (feat. Jorge & Mateus) - Ao Vivo,6150,0.10,Manhã,Estágio,Betim
6392,2021-05-14 12:48:00,Lewis Capaldi,Hold Me While You Wait,7420,0.12,Manhã,Estágio,Betim
6393,2021-05-14 12:50:00,Jorge & Mateus,Ranking,166388,2.77,Manhã,Estágio,Betim
6394,2021-05-14 12:53:00,Henrique & Juliano,Alô Bebê - Ao Vivo,169529,2.83,Manhã,Estágio,Betim
6395,2021-05-14 12:57:00,Luan Santana,A Dor Desse Amor,204324,3.41,Manhã,Estágio,Betim
...,...,...,...,...,...,...,...,...
6574,2021-05-26 11:51:00,Israel Subira,Me Leva Pra Casa,465885,7.76,Manhã,Estágio,Betim
6575,2021-05-27 12:33:00,Emicida,Levanta e Anda,150439,2.51,Manhã,Estágio,Betim
6576,2021-05-27 12:37:00,Jão,Codinome Beija-Flor / O Tempo Não Para,218735,3.65,Manhã,Estágio,Betim
6577,2021-05-27 12:43:00,O Rappa,Reza Vela / Norte-Nordeste me veste (Participa...,359334,5.99,Manhã,Estágio,Betim


No dia 14/05 eu encerrei meu contrato de estágio, vamos ver o que escutei nesse dia.

In [None]:
df_abmai_sf.loc[(df_abmai_sf['endTime'].dt.date == pd.to_datetime('2021-05-14'))]

Unnamed: 0,endTime,artistName,trackName,msPlayed,minPlayed,interval,customInterval,local
6391,2021-05-14 12:47:00,Marcos & Belutti,Tudo Indica (feat. Jorge & Mateus) - Ao Vivo,6150,0.1,Manhã,Estágio,Betim
6392,2021-05-14 12:48:00,Lewis Capaldi,Hold Me While You Wait,7420,0.12,Manhã,Estágio,Betim
6393,2021-05-14 12:50:00,Jorge & Mateus,Ranking,166388,2.77,Manhã,Estágio,Betim
6394,2021-05-14 12:53:00,Henrique & Juliano,Alô Bebê - Ao Vivo,169529,2.83,Manhã,Estágio,Betim
6395,2021-05-14 12:57:00,Luan Santana,A Dor Desse Amor,204324,3.41,Manhã,Estágio,Betim
6396,2021-05-14 12:59:00,GIULIA BE,menina solta,150026,2.5,Manhã,Estágio,Betim
6397,2021-05-14 13:02:00,Hotelo,Maior Que Nós,172119,2.87,Tarde,Estágio,Betim
6398,2021-05-14 13:05:00,Os Barões Da Pisadinha,Basta Você Me Ligar - Ao Vivo,182976,3.05,Tarde,Estágio,Betim
6399,2021-05-14 13:07:00,Israel & Rodolffo,Batom de Cereja - Ao Vivo,140942,2.35,Tarde,Estágio,Betim
6400,2021-05-14 13:11:00,Raça Negra,Cheia de Manias,211000,3.52,Tarde,Estágio,Betim


Navegador

In [None]:
df_abmai_gc['title'].value_counts().head(10)

nlp.ipynb - Colaboratory                              407
Pergunta · Metabase                                   183
Netflix                                               150
Metabase                                              116
Gartic Phone - Telefone sem fio                        88
Avaliação - Projeto Final Módulo 2                     79
cloud_tag.ipynb - Colaboratory                         77
Perguntas - Documentos Google                          69
Hoppscotch - Open source API development ecosystem     65
Teste de Raciocínio Fluido                             62
Name: title, dtype: int64

E o que eu acessava por intervalo do dia

In [None]:
# df_jas_gc.reset_index(inplace=True)
# df_jas_gc
# redirect = df_jas_gc.loc[df_jas_gc['title'] == 'Redirect']
# df_jas_gc.drop(index = redirect.index, inplace=True)
# df_jas_gc.drop(columns=['index','level_0'],inplace=True)

In [None]:
# ee = df_out_gc.query('title.str.contains("Curriculo Vaga Escriturário") | title.str.contains("Lance")', engine='python')
# df_out_gc.drop(index= ee.index, inplace=True)  #LEILÕES ONLINE | Lance24
# ee

In [None]:
 df_abmai_gc[['title','interval']].groupby(['interval', 'title'],as_index=False)\
                                                    .size()\
                                                    .sort_values('size', ascending=False)\
                                                    .groupby('interval', as_index=False)\
                                                    .head(3)\
                                                    .sort_values('interval') 

Unnamed: 0,interval,title,size
944,Madrugada,nlp.ipynb - Colaboratory,193
583,Madrugada,Netflix,128
930,Madrugada,imersão_dados_alura_aula01.ipynb - Colaboratory,48
1299,Manhã,Livros | Amazon.com.br Dicas de presentes,27
1461,Manhã,nlp.ipynb - Colaboratory,19
1310,Manhã,Metabase,15
2204,Noite,Pergunta · Metabase,172
2717,Noite,nlp.ipynb - Colaboratory,127
1972,Noite,Gartic Phone - Telefone sem fio,88
3105,Tarde,Avaliação - Projeto Final Módulo 2,76


E as pesquisas relacionados a dados? Vamos dar uma olhada?

In [None]:
df_abmai_gc.query('title.str.contains("Dados") | title.str.contains("Python") | title.str.contains("Análise")\
| title.str.contains("SQL")', engine='python')

Unnamed: 0,title,url,time_usec,interval,customInterval,local
13249,Working with GCP: Take Cloud SQL to the next l...,https://mail.google.com/mail/u/0/#inbox/FMfcgz...,2021-05-30 21:58:19.307932,Noite,Aula faculdade,Betim
13394,MER e DER: Modelagem de Bancos de Dados,https://www.devmedia.com.br/modelo-entidade-re...,2021-05-28 13:58:57.130563,Tarde,Estágio,Betim
13467,Aprenda a converter minutos no formato de hora...,https://www.codigofonte.com.br/codigos/aprenda...,2021-05-28 03:31:22.060865,Madrugada,Dormindo,Betim
13472,SQL CREATE VIEW,https://www.1keydata.com/pt/sql/sql-create-vie...,2021-05-28 03:21:47.620896,Madrugada,Dormindo,Betim
13473,Como funcionam as Views no PostgreSQL,https://www.devmedia.com.br/como-funcionam-as-...,2021-05-28 03:20:52.214592,Madrugada,Dormindo,Betim
...,...,...,...,...,...,...
22722,Consumindo NASA API usando Python - Parte 1 | ...,https://medium.com/daily-python/consuming-nasa...,2021-04-02 00:52:02.358756,Madrugada,Dormindo,Betim
22723,(215) Como enviar Requisicões HTTP com Python ...,https://www.youtube.com/watch?v=c5FKPzUL70U,2021-04-02 00:46:53.619266,Madrugada,Dormindo,Betim
22730,(215) Consumindo dados da API do YOUTUBE com P...,https://www.youtube.com/watch?v=olDCJ1w3FLM,2021-04-02 00:40:34.581869,Madrugada,Dormindo,Betim
22732,(215) Consumindo uma API Rest usando requests ...,https://www.youtube.com/watch?v=Qd8JT0bnJGs,2021-04-02 00:38:15.665639,Madrugada,Dormindo,Betim


#### **Junho - Estudar, estudar, estudar... foi aqui que pediram dedicação?**

DFs Junho




In [None]:
df_jun_yt = df_youtube.loc[(df_youtube['time'] >= jun_inicio) & (df_youtube['time'] <= jun_fim)]

df_jun_sf = df_spotify_music.loc[(df_spotify_music['endTime'] >= jun_inicio) & (df_spotify_music['endTime'] <= jun_fim)]

df_jun_gc = df_nav.loc[(df_nav['time_usec'] >= jun_inicio) & (df_nav['time_usec'] <= jun_fim)]

YOUTUBE

In [None]:
df_jun_yt.head()

Unnamed: 0,title,titleUrl,time,channel_name,category,tags,duration,minutes,interval,customInterval,local
8,Como combinar dois conjuntos de dados? | Anál...,https://www.youtube.com/watch?v=oj5kGtpYdF0,2021-06-29 13:52:59.689000-03:00,Programação Dinâmica,Education,"['programação dinâmica', 'computação', 'anális...",0 days 00:15:31,15.52,Tarde,Estágio,Betim
9,Gráfico com quatro quadrantes em Python | Aná...,https://www.youtube.com/watch?v=AugVEge2C9E,2021-06-29 13:52:31.668000-03:00,Programação Dinâmica,Education,"['programação dinâmica', 'data science', 'anal...",0 days 00:18:29,18.48,Tarde,Estágio,Betim
10,Tableau Full Course In 8 Hours | Tableau Tuto...,https://www.youtube.com/watch?v=Wh4sCCZjOwo,2021-06-28 15:09:09.972000-03:00,Simplilearn,Education,"['tableau full course in 8 hours', 'tableau fu...",0 days 07:24:47,444.78,Tarde,Tarde,Betim
11,Tableau Training for Beginners Part 1 | Learn...,https://www.youtube.com/watch?v=jj6-0cvcNEA,2021-06-28 15:09:02.817000-03:00,edureka!,Education,"['yt:cc=on', 'tableau training for beginners',...",0 days 02:55:52,175.87,Tarde,Tarde,Betim
12,Tableau Interview Questions & Answers | Table...,https://www.youtube.com/watch?v=Kkg27cnLc1I,2021-06-28 15:08:53.426000-03:00,Simplilearn,Education,"['tableau interview questions', 'tableau inter...",0 days 01:02:58,62.97,Tarde,Tarde,Betim


Canais mais assistidos

In [None]:
df_jun_yt['channel_name'].value_counts().head(10)

Programação Dinâmica    38
Diolinux                13
Eduardo Mendes           5
PomplamooseMusic         4
Maria Homem              4
Henrique e Juliano       4
Tunable Music            3
Nayam Amarshe            3
Simplilearn              3
Ventania - Topic         3
Name: channel_name, dtype: int64

Categoria mais assistida

In [None]:
df_jun_yt['category'].value_counts()

Education               58
Music                   56
Science & Technology    33
People & Blogs          20
Entertainment            9
Howto & Style            3
Gaming                   3
23                       2
Travel & Events          1
Name: category, dtype: int64

Horários que mais assisti por intervalo e por hora do dia

In [None]:
# Por intervalo
df_jun_yt['interval'].value_counts()

Manhã        73
Noite        57
Tarde        53
Madrugada     2
Name: interval, dtype: int64

In [None]:
# Por horário do dia
df_jun_yt.time.dt.hour.value_counts()

11    26
10    24
19    17
18    16
23    13
15    12
22    11
12    11
13    10
21     8
20     8
17     6
16     6
8      5
9      5
14     3
7      2
0      2
Name: time, dtype: int64

Tempo em minutos que passei assistindo cada categoria

In [None]:
df_jun_yt[['category', 'minutes']].groupby('category').agg({'minutes':'sum'}).sort_values('minutes', ascending=False) 

Unnamed: 0_level_0,minutes
category,Unnamed: 1_level_1
Education,2800.48
Music,1763.69
People & Blogs,490.84
Science & Technology,452.32
Entertainment,410.84
Gaming,27.72
Howto & Style,12.04
23,8.55
Travel & Events,1.3


Quantas horas passei no youtube nesse mês


In [None]:
round(df_jun_yt['minutes'].sum()/60)

99

Quantidade de vídeos assistidos por categoria em cada intervalo de tempo do dia

In [None]:
df_jun_yt[['category', 'interval']].groupby(['category', 'interval'], as_index=False).size().sort_values(['category','size'],ascending=False)

Unnamed: 0,category,interval,size
22,Travel & Events,Noite,1
19,Science & Technology,Manhã,14
21,Science & Technology,Tarde,10
20,Science & Technology,Noite,9
18,People & Blogs,Tarde,9
16,People & Blogs,Manhã,8
17,People & Blogs,Noite,3
13,Music,Manhã,25
14,Music,Noite,23
15,Music,Tarde,8


In [None]:
df_jun_yt.query('title.str.contains("Dados") | title.str.contains("Python") | title.str.contains("Análise")\
| title.str.contains("SQL")', engine='python')

Unnamed: 0,title,titleUrl,time,channel_name,category,tags,duration,minutes,interval,customInterval,local
8,Como combinar dois conjuntos de dados? | Anál...,https://www.youtube.com/watch?v=oj5kGtpYdF0,2021-06-29 13:52:59.689000-03:00,Programação Dinâmica,Education,"['programação dinâmica', 'computação', 'anális...",0 days 00:15:31,15.52,Tarde,Estágio,Betim
9,Gráfico com quatro quadrantes em Python | Aná...,https://www.youtube.com/watch?v=AugVEge2C9E,2021-06-29 13:52:31.668000-03:00,Programação Dinâmica,Education,"['programação dinâmica', 'data science', 'anal...",0 days 00:18:29,18.48,Tarde,Estágio,Betim
15,Gráfico de dispersão utilizando latitude e lo...,https://www.youtube.com/watch?v=W5RySbHukVs,2021-06-27 20:04:44.225000-03:00,Programação Dinâmica,Education,"['programação dinâmica', 'pandas python jupyte...",0 days 00:12:59,12.98,Noite,Aula faculdade,Betim
16,ADICIONANDO marcadores no gráfico do MATPLOTL...,https://www.youtube.com/watch?v=1j_xv58SHEk,2021-06-27 19:59:49.128000-03:00,Programação Dinâmica,Education,"['programação dinâmica', 'data science', 'anal...",0 days 00:09:48,9.8,Noite,Tarde,Betim
17,Gráfico com quatro quadrantes em Python | Aná...,https://www.youtube.com/watch?v=AugVEge2C9E,2021-06-27 19:50:33.323000-03:00,Programação Dinâmica,Education,"['programação dinâmica', 'data science', 'anal...",0 days 00:18:29,18.48,Noite,Tarde,Betim
18,Como combinar dois conjuntos de dados? | Anál...,https://www.youtube.com/watch?v=oj5kGtpYdF0,2021-06-27 19:42:47.161000-03:00,Programação Dinâmica,Education,"['programação dinâmica', 'computação', 'anális...",0 days 00:15:31,15.52,Noite,Tarde,Betim
19,Como manipular um DataFrame e EXPORTAR para C...,https://www.youtube.com/watch?v=L50fiScthSc,2021-06-27 19:36:09.935000-03:00,Programação Dinâmica,Education,"['programação dinâmica', 'dados', 'microdados ...",0 days 00:08:47,8.78,Noite,Tarde,Betim
20,Como fazer gráfico de um DataFrame do Pandas?...,https://www.youtube.com/watch?v=bPkoTw4ZCbY,2021-06-27 19:16:55.987000-03:00,Programação Dinâmica,Education,"['programação dinâmica', 'dados', 'enem', 'mic...",0 days 00:18:00,18.0,Noite,Tarde,Betim
21,Gráficos em Python? | Análise de dados #7,https://www.youtube.com/watch?v=iSpi3rKdoLQ,2021-06-27 19:09:50.087000-03:00,Programação Dinâmica,Education,"['dados', 'análise de dados', 'dado', 'program...",0 days 00:14:10,14.17,Noite,Tarde,Betim
22,Analisando os DADOS do questionário SOCIOECON...,https://www.youtube.com/watch?v=RXbX6giU2vI,2021-06-27 19:04:22.550000-03:00,Programação Dinâmica,Education,"['dados', 'enem', 'microdados enem', 'análise ...",0 days 00:10:54,10.9,Noite,Tarde,Betim


Projeto 4

In [None]:
df_jun_yt.loc[(df_jun_yt['time'].dt.date >= pd.to_datetime('2021-06-18')) & (df_jun_yt['time'].dt.date <= pd.to_datetime('2021-06-30'))]

Unnamed: 0,title,titleUrl,time,channel_name,category,tags,duration,minutes,interval,customInterval,local
8,Como combinar dois conjuntos de dados? | Anál...,https://www.youtube.com/watch?v=oj5kGtpYdF0,2021-06-29 13:52:59.689000-03:00,Programação Dinâmica,Education,"['programação dinâmica', 'computação', 'anális...",0 days 00:15:31,15.52,Tarde,Estágio,Betim
9,Gráfico com quatro quadrantes em Python | Aná...,https://www.youtube.com/watch?v=AugVEge2C9E,2021-06-29 13:52:31.668000-03:00,Programação Dinâmica,Education,"['programação dinâmica', 'data science', 'anal...",0 days 00:18:29,18.48,Tarde,Estágio,Betim
10,Tableau Full Course In 8 Hours | Tableau Tuto...,https://www.youtube.com/watch?v=Wh4sCCZjOwo,2021-06-28 15:09:09.972000-03:00,Simplilearn,Education,"['tableau full course in 8 hours', 'tableau fu...",0 days 07:24:47,444.78,Tarde,Tarde,Betim
11,Tableau Training for Beginners Part 1 | Learn...,https://www.youtube.com/watch?v=jj6-0cvcNEA,2021-06-28 15:09:02.817000-03:00,edureka!,Education,"['yt:cc=on', 'tableau training for beginners',...",0 days 02:55:52,175.87,Tarde,Tarde,Betim
12,Tableau Interview Questions & Answers | Table...,https://www.youtube.com/watch?v=Kkg27cnLc1I,2021-06-28 15:08:53.426000-03:00,Simplilearn,Education,"['tableau interview questions', 'tableau inter...",0 days 01:02:58,62.97,Tarde,Tarde,Betim
13,Tableau Full Course | Learn Tableau In 8 Hour...,https://www.youtube.com/watch?v=W-cnCuqN-S8,2021-06-28 15:08:26.549000-03:00,Simplilearn,Education,"['tableau training for beginners', 'tableau tu...",0 days 08:15:30,495.5,Tarde,Tarde,Betim
14,Tableau Training | Tableau Training for Begi...,https://www.youtube.com/watch?v=KA0QHWm0nWo,2021-06-28 15:07:03.835000-03:00,Intellipaat,Education,"['tableau training for beginners', 'tableau tr...",0 days 08:09:18,489.3,Tarde,Tarde,Betim
15,Gráfico de dispersão utilizando latitude e lo...,https://www.youtube.com/watch?v=W5RySbHukVs,2021-06-27 20:04:44.225000-03:00,Programação Dinâmica,Education,"['programação dinâmica', 'pandas python jupyte...",0 days 00:12:59,12.98,Noite,Aula faculdade,Betim
16,ADICIONANDO marcadores no gráfico do MATPLOTL...,https://www.youtube.com/watch?v=1j_xv58SHEk,2021-06-27 19:59:49.128000-03:00,Programação Dinâmica,Education,"['programação dinâmica', 'data science', 'anal...",0 days 00:09:48,9.8,Noite,Tarde,Betim
17,Gráfico com quatro quadrantes em Python | Aná...,https://www.youtube.com/watch?v=AugVEge2C9E,2021-06-27 19:50:33.323000-03:00,Programação Dinâmica,Education,"['programação dinâmica', 'data science', 'anal...",0 days 00:18:29,18.48,Noite,Tarde,Betim


Spotify

Artistas mais reproduzidos

In [None]:
df_jun_sf[['artistName','minPlayed']].groupby(['artistName'], as_index=False)\
                                     .agg({'minPlayed':'sum'})\
                                     .sort_values('minPlayed', ascending=False)\
                                     .head(10)

Unnamed: 0,artistName,minPlayed
214,Sam Smith,129.75
94,Imagine Dragons,108.54
193,Pomplamoose,69.15
145,Luíza & Maurílio,36.82
25,Billie Eilish,30.33
134,Lewis Capaldi,23.63
87,H.E.R.,23.22
65,Ed Sheeran,23.08
181,Olivia Rodrigo,21.62
154,Marcelo Jeneci,18.91


E quais foram as músicas que mais ouvi?

In [None]:
df_jun_sf[['trackName','minPlayed']].groupby(['trackName'], as_index=False)\
                                     .agg({'minPlayed':'sum'})\
                                     .sort_values('minPlayed', ascending=False)\
                                     .head(10)

Unnamed: 0,trackName,minPlayed
186,I Feel Love,12.72
321,Radioactive,12.15
440,drivers license,12.09
331,Rocket,11.7
380,The Lighthouse Keeper,11.35
154,Forever,10.53
55,Believer,10.23
183,How Do You Sleep?,10.11
391,Too Good At Goodbyes,10.05
266,No Peace,9.44


E será que tinha um intervalo que eu gostava mais de ouvir música?

In [None]:
df_jun_sf[['interval','minPlayed']].groupby(['interval'], as_index=False)\
                                                    .agg({'minPlayed':'sum'})\
                                                    .sort_values('minPlayed', ascending=False)\
                                                    .groupby('interval', as_index=False)\
                                                    .head(3)

Unnamed: 0,interval,minPlayed
3,Tarde,644.09
2,Noite,418.14
0,Madrugada,414.5
1,Manhã,116.67


In [None]:
df_jun_sf[['artistName','interval','minPlayed']].groupby(['interval', 'artistName'])\
                                                    .agg({'minPlayed':'sum'})\
                                                    .sort_values('minPlayed', ascending=False)\
                                                    .groupby('interval', as_index=False)\
                                                    .head(3)\
                                                    .sort_values('interval') 

Unnamed: 0_level_0,Unnamed: 1_level_0,minPlayed
interval,artistName,Unnamed: 2_level_1
Madrugada,Sam Smith,101.62
Madrugada,Daniel Caesar,10.77
Madrugada,Lewis Capaldi,10.14
Manhã,Marcelo Jeneci,14.08
Manhã,Tulipa Ruiz,7.97
Manhã,Summer Walker,7.54
Noite,Sam Smith,16.43
Noite,Billie Eilish,12.81
Noite,Imagine Dragons,10.97
Tarde,Imagine Dragons,87.26


In [None]:
round(df_jun_sf['minPlayed'].sum()/60) 

27

O que mais ouvi na semana do projeto

In [None]:
df_jun_sf.loc[(df_jun_sf['endTime'].dt.date >= pd.to_datetime('2021-06-18')) & (df_jun_sf['endTime'].dt.date <= pd.to_datetime('2021-06-30'))]

Unnamed: 0,endTime,artistName,trackName,msPlayed,minPlayed,interval,customInterval,local
6956,2021-06-19 23:28:00,Israel & Rodolffo,Faz Amor Comigo Só Hoje - Ao Vivo,78997,1.32,Noite,Noite,Betim
6957,2021-06-19 23:30:00,Fernando & Sorocaba,Só Não Divulga,3136,0.05,Noite,Noite,Betim
6958,2021-06-19 23:33:00,Jorge & Mateus,Troca,211775,3.53,Noite,Noite,Betim
6959,2021-06-19 23:36:00,Fernando & Sorocaba,Só Não Divulga,160476,2.67,Noite,Noite,Betim
6960,2021-06-19 23:38:00,Vitor e Luan,Localiza Aí BB,145308,2.42,Noite,Noite,Betim
...,...,...,...,...,...,...,...,...
7125,2021-06-27 14:28:00,Marisa Monte,Calma,186400,3.11,Tarde,Estágio,Betim
7126,2021-06-27 14:34:00,Djavan,Nem um Dia,346266,5.77,Tarde,Estágio,Betim
7127,2021-06-27 14:37:00,Adriana Calcanhotto,Mentiras,178560,2.98,Tarde,Estágio,Betim
7128,2021-06-27 14:40:00,Elis Regina,Fotografia,169349,2.82,Tarde,Estágio,Betim


In [None]:
df_jun_sf.loc[(df_jun_sf['endTime'].dt.date >= pd.to_datetime('2021-06-18')) & (df_jun_sf['endTime'].dt.date <= pd.to_datetime('2021-06-30'))]\
         .groupby('artistName', as_index=False)\
         .size()\
         .sort_values('size',ascending=False)\
         .head(10)

Unnamed: 0,artistName,size
92,Sam Smith,5
28,Elis Regina,5
43,Imagine Dragons,5
50,Jorge & Mateus,4
22,Diego & Victor Hugo,4
76,Matheus & Kauan,4
35,Guilherme & Benuto,3
84,Olivia Rodrigo,3
9,Billie Eilish,3
63,Lewis Capaldi,3


Navegador

In [None]:
df_jun_gc['title'].value_counts().head(10)

prouni.ipynb - Colaboratory                1776
Netflix                                     195
covid.ipynb - Colaboratory                  176
projeto4.ipynb - Colaboratory               163
qualified_semana19.ipynb - Colaboratory     108
(20) Página Inicial / Twitter                89
Database Projetos                            63
estudando_pandas.ipynb - Colaboratory        62
matplotlib.ipynb - Colaboratory              59
Analise PNAD ana.ipynb - Colaboratory        50
Name: title, dtype: int64

O mais acessado, o notebook do projeto 4 kkk

E o que eu acessava por intervalo do dia

In [None]:
 df_jun_gc[['title','interval']].groupby(['interval', 'title'],as_index=False)\
                                                    .size()\
                                                    .sort_values('size', ascending=False)\
                                                    .groupby('interval', as_index=False)\
                                                    .head(3)\
                                                    .sort_values('interval') 

Unnamed: 0,interval,title,size
511,Madrugada,prouni.ipynb - Colaboratory,355
262,Madrugada,Netflix,102
171,Madrugada,Database Projetos,62
883,Manhã,prouni.ipynb - Colaboratory,110
839,Manhã,estudando_pandas.ipynb - Colaboratory,61
558,Manhã,(77) Pinterest,38
1980,Noite,prouni.ipynb - Colaboratory,795
1545,Noite,Netflix,85
1861,Noite,covid.ipynb - Colaboratory,46
3040,Tarde,prouni.ipynb - Colaboratory,516


E as pesquisas relacionados a dados? Vamos dar uma olhada?

In [None]:
df_jun_gc.query('title.str.contains("Dados") | title.str.contains("Python") | title.str.contains("Análise")\
| title.str.contains("SQL")', engine='python')

Unnamed: 0,title,url,time_usec,interval,customInterval,local
175,Como construir belos gráficos com Python e Sea...,https://anello92.medium.com/como-construir-bel...,2021-06-29 21:54:57.902431,Noite,Aula faculdade,Betim
176,Como construir belos gráficos com Python e Sea...,https://anello92.medium.com/como-construir-bel...,2021-06-29 21:54:20.028146,Noite,Aula faculdade,Betim
185,Como construir belos gráficos com Python e Sea...,https://anello92.medium.com/como-construir-bel...,2021-06-29 21:51:32.068823,Noite,Aula faculdade,Betim
242,(1214) Como combinar dois conjuntos de dados? ...,https://www.youtube.com/watch?v=oj5kGtpYdF0&li...,2021-06-29 16:53:21.344335,Tarde,Tarde,Betim
243,(1214) Como combinar dois conjuntos de dados? ...,https://www.youtube.com/watch?v=oj5kGtpYdF0&li...,2021-06-29 16:53:00.478191,Tarde,Tarde,Betim
...,...,...,...,...,...,...
8444,Análise,https://www.notion.so/An-lise-210f285b6a5f4628...,2021-06-01 12:55:35.111037,Manhã,Estágio,Betim
8445,Análise,https://www.notion.so/An-lise-210f285b6a5f4628...,2021-06-01 12:55:11.391353,Manhã,Estágio,Betim
8481,Análise,https://www.notion.so/An-lise-210f285b6a5f4628...,2021-06-01 11:58:49.917680,Manhã,Estágio,Betim
8485,Análise,https://www.notion.so/An-lise-210f285b6a5f4628...,2021-06-01 11:53:14.067774,Manhã,Estágio,Betim


Pesquisa semanas do projeto

In [None]:
df_jun_gc.loc[(df_jun_gc['time_usec'].dt.date >= pd.to_datetime('2021-06-18')) & (df_jun_gc['time_usec'].dt.date <= pd.to_datetime('2021-06-30'))]

Unnamed: 0,title,url,time_usec,interval,customInterval,local
0,Fotos - Google Fotos,https://photos.google.com/,2021-06-29 23:42:16.214160,Noite,Noite,Betim
1,Vídeo - Google Fotos,https://photos.google.com/photo/AF1QipMONhYJ_P...,2021-06-29 23:42:04.685078,Noite,Noite,Betim
2,Fotos - Google Fotos,https://photos.google.com/,2021-06-29 23:41:44.234191,Noite,Noite,Betim
3,Gerenciamento - Google Fotos,https://photos.google.com/managelibrary,2021-06-29 23:41:35.232378,Noite,Noite,Betim
4,Gestão do armazenamento do Google One,https://one.google.com/storage/management,2021-06-29 23:41:30.613649,Noite,Noite,Betim
...,...,...,...,...,...,...
3657,Netflix,https://www.netflix.com/watch/80075923?trackId=0,2021-06-18 01:39:50.721850,Madrugada,Dormindo,Betim
3658,Netflix,https://www.netflix.com/watch/80075922?trackId=0,2021-06-18 01:13:52.770489,Madrugada,Dormindo,Betim
3659,Netflix,https://www.netflix.com/watch/80075921?trackId...,2021-06-18 00:50:49.307694,Madrugada,Dormindo,Betim
3660,Netflix,https://www.netflix.com/watch/80075920?trackId...,2021-06-18 00:25:02.213525,Madrugada,Dormindo,Betim


In [None]:
df_jun_gc.loc[(df_jun_gc['time_usec'].dt.date >= pd.to_datetime('2021-06-18')) & (df_jun_gc['time_usec'].dt.date <= pd.to_datetime('2021-06-30'))]\
         .groupby(['title'], as_index=False)\
         .size()\
         .sort_values('size', ascending=False)\
         .head(10)

Unnamed: 0,title,size
722,prouni.ipynb - Colaboratory,1776
720,projeto4.ipynb - Colaboratory,163
379,Netflix,88
737,qualified_semana19.ipynb - Colaboratory,58
127,Analise PNAD ana.ipynb - Colaboratory,50
279,Gestão do armazenamento do Google One,27
752,soaresana (Ana Luiza Soares),20
489,Search — pandas 1.2.5 documentation,18
755,soaresana/projeto4-vamoai,17
406,"Olá, este é o Colaboratory - Colaboratory",16


#### **Julho - O céu é o limite?**


DFs Julho


In [None]:
df_jul_yt = df_youtube.loc[(df_youtube['time'] >= jul_inicio) & (df_youtube['time'] <= jul_fim)]

df_jul_sf = df_spotify_music.loc[(df_spotify_music['endTime'] >= jul_inicio) & (df_spotify_music['endTime'] <= jul_fim)]

df_jul_gc = df_nav.loc[(df_nav['time_usec'] >= jul_inicio) & (df_nav['time_usec'] <= jul_fim)]

YOUTUBE

In [None]:
df_jul_yt.head()

Unnamed: 0,title,titleUrl,time,channel_name,category,tags,duration,minutes,interval,customInterval,local


Canais mais assistidos

In [None]:
df_out_yt['channel_name'].value_counts().head(10)

Categoria mais assistida

In [None]:
df_out_yt['category'].value_counts()

Horários que mais assisti por intervalo e por hora do dia

In [None]:
# Por intervalo
df_out_yt['interval'].value_counts()

In [None]:
# Por horário do dia
df_out_yt.time.dt.hour.value_counts()

Tempo em minutos que passei assistindo cada categoria

In [None]:
df_out_yt[['category', 'minutes']].groupby('category').agg({'minutes':'sum'}).sort_values('minutes', ascending=False) 

Quantas horas passei no youtube nesse mês


In [None]:
round(df_out_yt['minutes'].sum()/60,2)

Quantidade de vídeos assistidos por categoria em cada intervalo de tempo do dia

In [None]:
df_out_yt[['category', 'interval']].groupby(['category', 'interval'], as_index=False).size().sort_values(['category','size'],ascending=False)

In [None]:
df_out_yt.loc[df_out_yt['channel_name'] == 'Seja Um Data Scientist']

In [None]:
df_out_yt.query('title.str.contains("Dados") | title.str.contains("Python") | title.str.contains("Análise")\
| title.str.contains("SQL")', engine='python')

Spotify

Artistas mais reproduzidos

In [None]:
df_jul_sf[['artistName','minPlayed']].groupby(['artistName'], as_index=False)\
                                     .agg({'minPlayed':'sum'})\
                                     .sort_values('minPlayed', ascending=False)\
                                     .head(10)

Unnamed: 0,artistName,minPlayed
73,Olivia Rodrigo,44.79
51,Jorge & Mateus,39.21
94,The 1975,26.27
33,Dua Lipa,23.3
45,Imagine Dragons,20.87
88,Sia,20.61
93,Taylor Swift,19.15
99,The Kooks,14.69
27,Coldplay,14.53
98,The Killers,14.05


E quais foram as músicas que mais ouvi?

In [None]:
df_jul_sf[['trackName','minPlayed']].groupby(['trackName'], as_index=False)\
                                     .agg({'minPlayed':'sum'})\
                                     .sort_values('minPlayed', ascending=False)\
                                     .head(10)

Unnamed: 0,trackName,minPlayed
26,Break My Heart,10.8
25,Boys Will Be Boys,8.31
188,drivers license,7.87
101,Lovers,7.2
187,deja vu,7.18
56,FOOLS,6.58
191,good 4 u,6.52
82,I Would Die for You,6.44
168,To Build A Home,6.19
115,"New Person, Same Old Mistakes",6.05


E será que tinha um intervalo que eu gostava mais de ouvir música?

In [None]:
df_jul_sf[['interval','minPlayed']].groupby(['interval'], as_index=False)\
                                                    .agg({'minPlayed':'sum'})\
                                                    .sort_values('minPlayed', ascending=False)\
                                                    .groupby('interval', as_index=False)\
                                                    .head(3)

Unnamed: 0,interval,minPlayed
3,Tarde,286.33
0,Madrugada,225.98
2,Noite,98.34
1,Manhã,98.11


In [None]:
df_jul_sf[['artistName','interval','minPlayed']].groupby(['interval', 'artistName'])\
                                                    .agg({'minPlayed':'sum'})\
                                                    .sort_values('minPlayed', ascending=False)\
                                                    .groupby('interval', as_index=False)\
                                                    .head(3)\
                                                    .sort_values('interval') 

Unnamed: 0_level_0,Unnamed: 1_level_0,minPlayed
interval,artistName,Unnamed: 2_level_1
Madrugada,Olivia Rodrigo,29.34
Madrugada,The 1975,14.08
Madrugada,Imagine Dragons,11.82
Manhã,The 1975,12.19
Manhã,The Killers,9.42
Manhã,Imagine Dragons,9.05
Noite,Jorge & Mateus,39.21
Noite,Olivia Rodrigo,11.42
Noite,Dua Lipa,9.87
Tarde,Lana Del Rey,13.3


In [None]:
round(df_jul_sf['minPlayed'].sum()/60) 

12

Navegador

In [None]:
df_jul_gc['title'].value_counts().head(10)

projeto4-Prouni.ipynb - Colaboratory                                     459
prouni.ipynb - Colaboratory                                              241
Cópia de prouni.ipynb - Colaboratory                                     117
Página Inicial / Twitter                                                  74
Netflix                                                                   68
VamoAI - Analise de dados com Python - Ana Luiza.ipynb - Colaboratory     47
Untitled3.ipynb - Colaboratory                                            38
(99+) Ana Luiza Soares | LinkedIn                                         38
(99+) LinkedIn                                                            34
SGA - Quadro de Horários                                                  31
Name: title, dtype: int64

E o que eu acessava por intervalo do dia

In [None]:
 df_jul_gc[['title','interval']].groupby(['interval', 'title'],as_index=False)\
                                                    .size()\
                                                    .sort_values('size', ascending=False)\
                                                    .groupby('interval', as_index=False)\
                                                    .head(3)\
                                                    .sort_values('interval') 

Unnamed: 0,interval,title,size
243,Madrugada,Netflix,36
315,Madrugada,Untitled3.ipynb - Colaboratory,33
136,Madrugada,Feedback de Soft Skills - Projeto Final Módulo 4,22
529,Manhã,prouni.ipynb - Colaboratory,35
440,Manhã,(1) Página Inicial / Twitter,10
515,Manhã,Untitled4.ipynb - Colaboratory,10
959,Noite,prouni.ipynb - Colaboratory,185
949,Noite,projeto4-Prouni.ipynb - Colaboratory,172
874,Noite,VamoAI - Analise de dados com Python - Ana Lui...,45
1418,Tarde,projeto4-Prouni.ipynb - Colaboratory,279


E as pesquisas relacionados a dados? Vamos dar uma olhada?

In [None]:
df_jul_gc.query('title.str.contains("Dados") | title.str.contains("Python") | title.str.contains("Análise")\
| title.str.contains("SQL")', engine='python')

Unnamed: 0,title,url,time_usec,interval,customInterval,local
33,The Walrus Operator in Python. Learn what the ...,https://towardsdatascience.com/the-walrus-oper...,2021-07-17 16:42:30.069548,Tarde,Tarde,Betim
34,O operador Walrus em Python. Aprenda o que é o...,https://towardsdatascience.com/the-walrus-oper...,2021-07-17 16:41:38.479908,Tarde,Tarde,Betim
55,"Learn Python, Data Viz, Pandas & More | Tutori...",https://www.kaggle.com/learn,2021-07-17 14:47:55.969333,Tarde,Estágio,Betim
56,Comprehensive data exploration with Python | K...,https://www.kaggle.com/pmarcelino/comprehensiv...,2021-07-17 14:42:46.617926,Tarde,Estágio,Betim
58,Python | Pandas DataFrame.nlargest() - Geeksfo...,https://www.geeksforgeeks.org/python-pandas-da...,2021-07-17 13:23:28.797511,Tarde,Estágio,Betim
...,...,...,...,...,...,...
3353,Convite: Vamo AI | Analytics e Aplicação de Da...,https://mail.google.com/mail/u/0/#inbox/FMfcgz...,2021-07-02 20:00:12.037595,Noite,Aula faculdade,Betim
3365,Convite: Vamo AI | Analytics e Aplicação de Da...,https://mail.google.com/mail/u/0/#inbox/FMfcgz...,2021-07-02 19:43:35.237938,Noite,Tarde,Betim
3413,Prouni - Dados Abertos - MEC,http://dadosabertos.mec.gov.br/prouni,2021-07-02 13:53:29.347957,Tarde,Estágio,Betim
3684,Prouni 2018 Dados | Tableau Public,https://public.tableau.com/app/profile/cristia...,2021-07-01 21:37:24.488904,Noite,Aula faculdade,Betim


#### Exportando os dados para .csv

In [None]:
#Julho, agosto, setembro
df_jas_yt.to_csv ('jas_youtube.csv', index = None, header=True)
df_jas_sf.to_csv ('jas_spotify.csv', index = None, header=True) 
df_jas_gc.to_csv ('jas_navegador.csv', index = None, header=True) 

files.download('jas_youtube.csv')
files.download('jas_spotify.csv')
files.download('jas_navegador.csv')

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

In [None]:
#Outubro
df_out_yt.to_csv ('out_youtube.csv', index = None, header=True)
df_out_sf.to_csv ('out_spotify.csv', index = None, header=True) 
df_out_gc.to_csv ('out_navegador.csv', index = None, header=True) 

files.download('out_youtube.csv')
files.download('out_spotify.csv')
files.download('out_navegador.csv')

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

In [None]:
#Novembro, dezembro
df_nodez_yt.to_csv ('nov_dez_youtube.csv', index = None, header=True)
df_nodez_sf.to_csv ('nov_dez_spotify.csv', index = None, header=True) 
df_nodez_gc.to_csv ('jas_dez_navegador.csv', index = None, header=True) 

files.download('nov_dez_youtube.csv')
files.download('nov_dez_spotify.csv')
files.download('nov_dez_navegador.csv')

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

In [None]:
#Janeiro
df_jan_yt.to_csv ('jan_youtube.csv', index = None, header=True)
df_jan_sf.to_csv ('jan_spotify.csv', index = None, header=True) 
df_jan_gc.to_csv ('jan_navegador.csv', index = None, header=True) 

files.download('jan_youtube.csv')
files.download('jan_spotify.csv')
files.download('jan_navegador.csv')

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

In [None]:
#Fevereiro
df_fev_yt.to_csv ('fev_youtube.csv', index = None, header=True)
df_fev_sf.to_csv ('fev_spotify.csv', index = None, header=True) 
df_fev_gc.to_csv ('fev_navegador.csv', index = None, header=True) 

files.download('fev_youtube.csv')
files.download('fev_spotify.csv')
files.download('fev_navegador.csv')

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

In [None]:
#Março
df_mar_yt.to_csv ('mar_youtube.csv', index = None, header=True)
df_mar_sf.to_csv ('mar_spotify.csv', index = None, header=True) 
df_mar_gc.to_csv ('mar_navegador.csv', index = None, header=True) 

files.download('mar_youtube.csv')
files.download('mar_spotify.csv')
files.download('mar_navegador.csv')

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

In [None]:
#Abril e Maio
df_abmai_yt.to_csv ('abr_mai_youtube.csv', index = None, header=True)
df_abmai_sf.to_csv ('abr_mai_spotify.csv', index = None, header=True) 
df_abmai_gc.to_csv ('abr_mai_navegador.csv', index = None, header=True) 

files.download('abr_mai_youtube.csv')
files.download('abr_mai_spotify.csv')
files.download('abr_mai_navegador.csv')

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

In [None]:
#Junho
df_jun_yt.to_csv ('jun_youtube.csv', index = None, header=True)
df_jun_sf.to_csv ('jun_spotify.csv', index = None, header=True) 
df_jun_gc.to_csv ('jun_navegador.csv', index = None, header=True) 

files.download('jun_youtube.csv')
files.download('jun_spotify.csv')
files.download('jun_navegador.csv')

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

In [None]:
#Julho
df_jul_yt.to_csv ('jul_youtube.csv', index = None, header=True)
df_jul_sf.to_csv ('jul_spotify.csv', index = None, header=True) 
df_jul_gc.to_csv ('jul_navegador.csv', index = None, header=True) 

files.download('jul_youtube.csv')
files.download('jul_spotify.csv')
files.download('jul_navegador.csv')

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

In [None]:
df_youtube.to_csv ('youtube_final.csv', index = None, header=True)
df_spotify.to_csv ('spotify.csv', index = None, header=True) 
df_nav.to_csv ('navegador.csv', index = None, header=True) 

files.download('youtube_final.csv')
files.download('spotify.csv')
files.download('navegador.csv')