#### **Introdução**

A base de dados foi extraída do perfil de um usuário da rede social *Letterboxd*. 

A rede social *Letterboxd* permite que o usuário registre e avalie os filmes que já viu, crie lista, escreva resenhas e adicone amigos.

Em resumo, a base de dados contém os registros dos filmes assistidos pelo usuário por data e a nota atribuída aos filmes.

#### **Processamento de dados**

##### Importando a biblioteca pandas e numpy

In [133]:
import pandas as pd 
import numpy as np

##### Lendo a base de dados

In [134]:
df = pd.read_csv("FilmesAssistidos.csv")

##### Exibindo as 3 primeiras linhas do dataframe

In [135]:
df.head(3)

Unnamed: 0,Date,Name,Year,Letterboxd URI,Rating,Rewatch,Tags,Watched Date
0,2020-05-02,Elena,2012.0,https://boxd.it/17uy3p,3.5,,off,2015-07-12
1,2020-05-02,Elena,2012.0,https://boxd.it/17uy3p,3.5,,off,2015-07-12
2,2020-05-02,The Starfish,1928.0,https://boxd.it/17uZhj,5.0,,off,2016-10-12


##### Verificando o tamanho do dataframe

In [136]:
df.shape

(542, 8)

##### Verificando informações do dataframe

In [137]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 542 entries, 0 to 541
Data columns (total 8 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   Date            542 non-null    object 
 1   Name            539 non-null    object 
 2   Year            536 non-null    float64
 3   Letterboxd URI  539 non-null    object 
 4   Rating          519 non-null    float64
 5   Rewatch         4 non-null      object 
 6   Tags            316 non-null    object 
 7   Watched Date    539 non-null    object 
dtypes: float64(2), object(6)
memory usage: 34.0+ KB


##### Removendo caracteres especiais 
Não consegui rodar
Erro: 'float' object has no attribute 'replace'

In [20]:
# definindo a função para remover os caracteres especiais
def remover_caracteres(nomefilme):
    nomefilme = nomefilme.replace('á', 'a').replace('à', 'a').replace('â', 'a').replace('ã', 'a').replace('é', 'e').replace('ê', 'e').replace('ó', 'o').replace('ô', 'o').replace('õ', 'o').replace('ç', 'c')
    return nomefilme

# chamando a função para corrigir os nomes da coluna Name
df['Name'] = df['Name'].apply(remover_caracteres)

df.head(20)

AttributeError: 'float' object has no attribute 'replace'

##### Verificando a existência de dados nulos

In [138]:
# isnull detecta valores nulos e sum soma a quatidade de valores nulos por coluna

df.isnull().sum()

Date                0
Name                3
Year                6
Letterboxd URI      3
Rating             23
Rewatch           538
Tags              226
Watched Date        3
dtype: int64

##### Removendo linhas contendo valores nulos a partir da coluna Name

In [139]:
df = df.dropna(subset=['Name'])

df.shape

(539, 8)

##### Verificando a existência de dados duplicados

In [140]:
#duplicated detecta valores booleanos que apontam linhas duplicadas
# a linha 1 do dataframe está duplicada

df.duplicated()

0      False
1       True
2      False
3      False
4      False
       ...  
537    False
538    False
539    False
540    False
541    False
Length: 539, dtype: bool

##### Verificando a linha duplicada

In [141]:
# keep mantém tudo o que é False de acordo com o retorno anterior e exibe tudo que é True

df[df.duplicated(keep=False)]

Unnamed: 0,Date,Name,Year,Letterboxd URI,Rating,Rewatch,Tags,Watched Date
0,2020-05-02,Elena,2012.0,https://boxd.it/17uy3p,3.5,,off,2015-07-12
1,2020-05-02,Elena,2012.0,https://boxd.it/17uy3p,3.5,,off,2015-07-12


##### Definindo qual linha duplicada será mantida


In [142]:
# a primeira linha duplicada será mantida

df[df.duplicated(keep='first')]

Unnamed: 0,Date,Name,Year,Letterboxd URI,Rating,Rewatch,Tags,Watched Date
1,2020-05-02,Elena,2012.0,https://boxd.it/17uy3p,3.5,,off,2015-07-12


##### Apagando a linha duplicada

In [143]:
# drop define a ação de excluir

df.drop_duplicates(inplace=True)

df.head(5)

Unnamed: 0,Date,Name,Year,Letterboxd URI,Rating,Rewatch,Tags,Watched Date
0,2020-05-02,Elena,2012.0,https://boxd.it/17uy3p,3.5,,off,2015-07-12
2,2020-05-02,The Starfish,1928.0,https://boxd.it/17uZhj,5.0,,off,2016-10-12
3,2020-05-02,The Broken Circle Breakdown,2012.0,https://boxd.it/17uZV9,4.0,,off,2017-04-20
4,2020-05-02,I Travel Because I Have to I Come Back Because...,2009.0,https://boxd.it/17v0Et,4.0,,off,2017-08-31
5,2020-05-02,Frances Ha,2012.0,https://boxd.it/17v13X,4.5,,off,2017-11-04


##### Exibindo as colunas do dataframe

In [144]:
df.columns

Index(['Date', 'Name', 'Year', 'Letterboxd URI', 'Rating', 'Rewatch', 'Tags',
       'Watched Date'],
      dtype='object')

##### Excluindo colunas do dataframe

In [145]:
df.drop(columns=['Date', 'Letterboxd URI','Rewatch', 'Tags'], axis=1, inplace=True)

df.head(5)

Unnamed: 0,Name,Year,Rating,Watched Date
0,Elena,2012.0,3.5,2015-07-12
2,The Starfish,1928.0,5.0,2016-10-12
3,The Broken Circle Breakdown,2012.0,4.0,2017-04-20
4,I Travel Because I Have to I Come Back Because...,2009.0,4.0,2017-08-31
5,Frances Ha,2012.0,4.5,2017-11-04


##### Arredondando os valores e alterando o tipo da coluna Year

In [146]:
df['Year']=(round(df['Year'])).values.astype(np.int64)

df.dtypes

  df['Year']=(round(df['Year'])).values.astype(np.int64)


Name             object
Year              int64
Rating          float64
Watched Date     object
dtype: object

##### Verificando se a colunas mantidas possuem dados nulos

In [147]:
df.isnull().sum()

Name             0
Year             0
Rating          20
Watched Date     0
dtype: int64

##### Preenchendo linhas vazias da coluna Rating

In [148]:
# iremos considerar que o usuário atribuiu a nota 0 ao filmes que estão sem nota

df['Rating'].fillna(0)


0      3.5
2      5.0
3      4.0
4      4.0
5      4.5
      ... 
537    4.0
538    0.0
539    0.0
540    3.5
541    4.0
Name: Rating, Length: 538, dtype: float64

##### Ordenando o dataframe em ordem crescente a partir da coluna Year

In [149]:
df.sort_values('Year', axis = 0, ascending = True,
                    inplace = True, na_position ='last')

df.head(5) 

Unnamed: 0,Name,Year,Rating,Watched Date
410,Morde & Assopra,-9223372036854775808,0.5,2021-04-22
232,Difícil é Não Brincar,-9223372036854775808,2.5,2020-08-21
245,Clear Valley Report,-9223372036854775808,2.0,2020-08-24
2,The Starfish,1928,5.0,2016-10-12
33,Rome Open City,1945,3.0,2020-04-14


##### Corrigindo valores da coluna Year

In [150]:
df.loc[df['Name']=='Morde & Assopra', 'Year'] = 2020
df.loc[df['Name']=='Difícil é Não Brincar', 'Year'] = 2020
df.loc[df['Name']=='Clear Valley Report', 'Year'] = 2019

df.head(5)

Unnamed: 0,Name,Year,Rating,Watched Date
410,Morde & Assopra,2020,0.5,2021-04-22
232,Difícil é Não Brincar,2020,2.5,2020-08-21
245,Clear Valley Report,2019,2.0,2020-08-24
2,The Starfish,1928,5.0,2016-10-12
33,Rome Open City,1945,3.0,2020-04-14


##### Ordenando o dataframe em ordem crescente a partir da coluna Year depois de realizada as alterações necessárias

In [151]:
df.sort_values('Year', axis = 0, ascending = True,
                    inplace = True, na_position ='last')

df.head(5) 

Unnamed: 0,Name,Year,Rating,Watched Date
2,The Starfish,1928,5.0,2016-10-12
33,Rome Open City,1945,3.0,2020-04-14
43,Casque d'Or,1952,4.0,2020-04-25
131,Tokyo Story,1953,3.0,2020-06-01
74,Street of Shame,1956,3.0,2020-05-08


##### Redefinindo o índice do dataframe

In [152]:
df.reset_index(inplace = True, drop=True)

##### Traduzindo o cabeçalho do dataframe para Português

In [153]:
df.rename(columns={'Name': 'Nome', 'Year': 'Ano', 'Rating': 'Nota', 'Watched Date': 'Assistido'}, inplace = True)


##### Criando um arquivo CSV contendo as alteraçõs realizadas no dataframe

In [154]:
df.to_csv('dfFilmesAssistidos.csv')

##### Lendo o novo arquivo CSV criado

In [155]:
df = pd.read_csv("dfFilmesAssistidos.csv")

#### **Conclusão**

##### Quantitativo de filmes assistidos por ano

##### Quantitativo de filmes por nota atribuída

##### Quantitativo de filmes assistidos por década

##### Lista de filmes preferidos (que receberam nota 5)