**NETFLIX ANALYSIS ALGORITHM**
1st Step: Data Aquisition
2nd Step: Preparing the Data

In [2]:
import pandas as pd

In [40]:
#1st Step - carregando os dados na memória
df_raw = pd.read_csv('netflix_ds.csv')
df_raw.head(2)

Unnamed: 0,Profile Name,Start Time,Duration,Attributes,Title,Supplemental Video Type,Device Type,Bookmark,Latest Bookmark,Country
0,ASAFE JOABE,2022-09-20 01:18:15,00:18:39,Autoplayed: user action: None;,Bakugan - Guerreiros da Batalha: Temporada 1: ...,,Microsoft Xbox 360,00:18:40,00:18:40,BR (Brazil)
1,ASAFE JOABE,2022-09-20 00:45:46,00:21:51,Autoplayed: user action: User_Interaction;,Voltron - O Defensor Lendário: Temporada 2: Na...,,Microsoft Xbox 360,00:22:55,00:22:55,BR (Brazil)


In [4]:
df_raw.shape #shape - informa a dimensão do dataframe(qtde_linhas, qtde_colunas)

(58419, 10)

In [8]:
df_raw['Profile Name'].unique()

array(['ASAFE JOABE', 'JULIO LEANDRA', 'Junior', 'Mae', 'Renan'],
      dtype=object)

In [6]:
df_raw.nunique()

Profile Name                   5
Start Time                 58334
Duration                    5711
Attributes                     7
Title                      20501
Supplemental Video Type        6
Device Type                   55
Bookmark                    6209
Latest Bookmark             5154
Country                        6
dtype: int64

In [17]:
#2nd Step - Limpeza e preparação dos dados
#drop() - apaga linhas ou colunas do dataframe;
#o parametro 'axis=1' determina que apagará as colunas da lista passada
df = df_raw.drop(['Attributes', 'Supplemental Video Type', 'Device Type', 'Bookmark', 'Latest Bookmark', 'Country'], axis = 1)
df.head()

Unnamed: 0,Profile Name,Start Time,Duration,Title
0,ASAFE JOABE,2022-09-20 01:18:15,00:18:39,Bakugan - Guerreiros da Batalha: Temporada 1: ...
1,ASAFE JOABE,2022-09-20 00:45:46,00:21:51,Voltron - O Defensor Lendário: Temporada 2: Na...
2,ASAFE JOABE,2022-09-20 00:23:36,00:22:05,Voltron - O Defensor Lendário: Temporada 2: At...
3,ASAFE JOABE,2022-09-20 00:01:24,00:20:52,Voltron - O Defensor Lendário: Temporada 1: O ...
4,ASAFE JOABE,2022-09-20 00:01:12,00:00:04,Voltron: Legendary Defender: Season 8 (Clip Su...


In [18]:
#informa o tipo dos dados em cada coluna do nosso dataframe
df.dtypes

Profile Name    object
Start Time      object
Duration        object
Title           object
dtype: object

In [19]:
#conversão dos formatos dos campos de tempo e data, para adequado tratamento das informações.
df['Start Time'] = pd.to_datetime(df['Start Time'], utc=True)
df['Duration'] = pd.to_timedelta(df['Duration'])
df.dtypes

Profile Name                 object
Start Time      datetime64[ns, UTC]
Duration            timedelta64[ns]
Title                        object
dtype: object

**Algumas configurações que podem ser interessantes**

- Alteração do índice do DataFrame
- Configuração do horário, pela região (https://en.wikipedia.org/wiki/List_of_tz_database_time_zones)

- set_index(): faz a coluna 'Start Time' se tornar o indice do dataframe
    df = df.set_index('Start Time')

- index.tz_convert - converte a data para o padrão UTC conforme o parâmetro de região informado como atributo.
    df.index = df.index.tz_convert('America/Belem')

- reset_index volta o indice do dataframe para o padrão inicial
    df = df.reset_index()

In [20]:
df = df.set_index('Start Time')
df.index = df.index.tz_convert('America/Belem')
df = df.reset_index()

In [21]:
df.head()

Unnamed: 0,Start Time,Profile Name,Duration,Title
0,2022-09-19 22:18:15-03:00,ASAFE JOABE,0 days 00:18:39,Bakugan - Guerreiros da Batalha: Temporada 1: ...
1,2022-09-19 21:45:46-03:00,ASAFE JOABE,0 days 00:21:51,Voltron - O Defensor Lendário: Temporada 2: Na...
2,2022-09-19 21:23:36-03:00,ASAFE JOABE,0 days 00:22:05,Voltron - O Defensor Lendário: Temporada 2: At...
3,2022-09-19 21:01:24-03:00,ASAFE JOABE,0 days 00:20:52,Voltron - O Defensor Lendário: Temporada 1: O ...
4,2022-09-19 21:01:12-03:00,ASAFE JOABE,0 days 00:00:04,Voltron: Legendary Defender: Season 8 (Clip Su...


In [53]:
df = df[(df['Duration'] > '0 days 00:05:00')]

# Análise dos Dados
####A partir de agora vem a análise, propriamente dita, dos dados.

In [54]:
#Exibindo o somatório de tempo de reprodução de vídeo, por perfil.
profile = df.groupby('Profile Name')
for p, data in profile:
    print('{} -> {}'.format(p, data.Duration.sum()))

ASAFE JOABE -> 144 days 20:15:42
JULIO LEANDRA -> 200 days 17:05:58
Junior -> 155 days 13:36:06
Mae -> 141 days 05:37:35
Renan -> 226 days 09:08:10


In [55]:
#Exibindo tempo médio dos programas assistidos, por perfil.
profile = df.groupby('Profile Name')
for p, data in profile:
    print('{} -> {}'.format(p, data.Duration.mean()))

ASAFE JOABE -> 0 days 00:20:23.078772478
JULIO LEANDRA -> 0 days 00:34:18.833907158
Junior -> 0 days 00:30:20.529053230
Mae -> 0 days 00:32:59.343876723
Renan -> 0 days 00:33:09.552436171


In [56]:
#Exibindo o tempo da programação mais longa assistida, por perfil.
profile = df.groupby('Profile Name')
for p, data in profile:
    print('{} -> {}'.format(p, data.Duration.max()))

ASAFE JOABE -> 0 days 02:23:51
JULIO LEANDRA -> 0 days 03:31:44
Junior -> 0 days 03:08:25
Mae -> 0 days 03:45:06
Renan -> 0 days 03:22:26


In [57]:
#Exibindo o tempo da programação mais rápida assistida, por perfil.
profile = df.groupby('Profile Name')
for p, data in profile:
    print('{} -> {}'.format(p, data.Duration.min()))

ASAFE JOABE -> 0 days 00:05:01
JULIO LEANDRA -> 0 days 00:05:01
Junior -> 0 days 00:05:01
Mae -> 0 days 00:05:01
Renan -> 0 days 00:05:01


In [22]:
# criando um novo dataframe contendo apenas os registros relacionados ao titulo Naruto
# regex = False - indica para a função que o argumento passado é um texto e não uma "expressão regular"(código).
nrt = df[df['Title'].str.contains('Naruto', regex = False)]
nrt.head()

Unnamed: 0,Start Time,Profile Name,Duration,Title
1901,2021-10-05 17:23:27-03:00,ASAFE JOABE,0 days 00:00:05,Naruto: Season 1_hook_primary_16x9
3307,2021-07-17 16:21:36-03:00,ASAFE JOABE,0 days 00:00:05,Naruto: Season 1_hook_primary_16x9
3561,2021-06-29 21:42:00-03:00,ASAFE JOABE,0 days 00:09:55,Naruto: Temporada 5: A batalha começa: Naruto ...
3562,2021-06-29 21:22:01-03:00,ASAFE JOABE,0 days 00:19:56,Naruto: Temporada 4: O último arranco: o ato f...
3563,2021-06-29 21:02:01-03:00,ASAFE JOABE,0 days 00:19:58,Naruto: Temporada 4: Uma Batalha Feroz do Trov...


In [24]:
# removendo os registros de visulização com menos de 1 minuto de duração.
nrt = nrt[(nrt['Duration'] > '0 days 00:01:00')]

(1322, 4)

In [46]:
tmp = nrt['Duration'].sum() #tmp é o tempo gasto assistindo Star Trek
print('O usuário passou ', tmp, 'assistindo a programação!')

O usuário passou  14 days 21:09:38 assistindo a programação!
