<a rel="license" href="https://faculdadesalvadorarena.org.br/"><img alt="FESA" style="border-width:0" src="https://faculdadesalvadorarena.org.br/wp-content/uploads/2022/07/logo_fesa.png" /></a><br />
**FESA - Eletiva II (2025.1)** <br/>
**N1 - Análise Exploratória - Movie Lens**<br/>
Aluno(a): Fabiana Luizon Martins Campos <br/>

---



In [1]:
# Bibliotecas
import pandas as pd


In [2]:
# URLs com o dataset para análise
url_movies = "https://raw.githubusercontent.com/fabii2607/phyton-movie-analyses/refs/heads/main/ml-latest-small/movies.csv"
url_links = "https://raw.githubusercontent.com/fabii2607/phyton-movie-analyses/refs/heads/main/ml-latest-small/links.csv"
url_ratings = "https://raw.githubusercontent.com/fabii2607/phyton-movie-analyses/refs/heads/main/ml-latest-small/ratings.csv"
url_tags = "https://raw.githubusercontent.com/fabii2607/phyton-movie-analyses/refs/heads/main/ml-latest-small/tags.csv"

# **DESCRIÇÃO DO DATASET**  ✍

O dataset **MovieLens ml-latest-small** apresenta informações sobre avaliações de filmes feitas por usuários da plataforma MovieLens, um sistema de recomendação de filmes desenvolvido pelo grupo de pesquisa GroupLens, da Universidade de Minnesota. Ele reúne 100.836 avaliações e 3.683 tags associadas a 9.742 filmes, com dados coletados entre 1996 e 2018.

Os usuários que participaram do conjunto de dados foram selecionados aleatoriamente, sendo que cada um avaliou pelo menos 20 filmes. As avaliações seguem uma escala de 0.5 a 5.0 estrelas e as tags são palavras-chave atribuídas pelos próprios usuários para descrever os filmes. Os dados estão divididos em quatro arquivos CSV:

*   **movies.csv:** Lista os filmes com seus títulos e gêneros.
*   **links.csv:** Permite a conexão com bases externas, como IMDB e TMDB.
*   **ratings.csv:** Contém as avaliações feitas pelos usuários.
*   **tags.csv:** Armazena as tags associadas aos filmes.

O dataset é amplamente utilizado para estudos e projetos acadêmicos relacionados a sistemas de recomendação, aprendizado de máquina e análise de dados, servindo como base para desenvolvimento e testes de modelos de recomendação.

# **MOVIES** 🎥

In [3]:
# Importando dataset do repositório do GitHub
df = pd.read_csv(url_movies)

In [4]:
# Renomeando as colunas
df = df.rename(columns={'movieId': 'Filme_ID', 'title': 'Título', 'genres': 'Gênero'})


In [5]:
# Imprimindo Cabeçario
df.head()

Unnamed: 0,Filme_ID,Título,Gênero
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,2,Jumanji (1995),Adventure|Children|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama|Romance
4,5,Father of the Bride Part II (1995),Comedy


In [6]:
# Imprimindo os últimos dados
df.tail()

Unnamed: 0,Filme_ID,Título,Gênero
9737,193581,Black Butler: Book of the Atlantic (2017),Action|Animation|Comedy|Fantasy
9738,193583,No Game No Life: Zero (2017),Animation|Comedy|Fantasy
9739,193585,Flint (2017),Drama
9740,193587,Bungo Stray Dogs: Dead Apple (2018),Action|Animation
9741,193609,Andrew Dice Clay: Dice Rules (1991),Comedy


---

**Significado de Cada Coluna** 🏛




1.   **movieId (Filme_ID):** identificador único para cada filme no sistema MovieLens
2.   **title	(Título):** título do filme, incluindo o ano de lançamento entre
parênteses
3. **genres (Gênero):** lista dos gêneros associados ao filme, separados por '|'


---

In [7]:
# Tipo de Dados
df.dtypes

Unnamed: 0,0
Filme_ID,int64
Título,object
Gênero,object


---

**Quais são os atributos (colunas) e seus tipos** 🔎


1. **movieId (Filme_ID):** int64 --> inteiros
2. **title (Título):** object --> string
3. **genres (Gênero):** object --> string


---

In [8]:
# Quantidade de registros  e o número de colunas
df.shape

(9742, 3)

In [9]:
print(f'O dataset possui {df.shape[0]} de exemplos/amostras/linhas e {df.shape[1]} de atributos/variáveis/colunas.')

O dataset possui 9742 de exemplos/amostras/linhas e 3 de atributos/variáveis/colunas.


In [10]:
# Informação do Dataset
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9742 entries, 0 to 9741
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   Filme_ID  9742 non-null   int64 
 1   Título    9742 non-null   object
 2   Gênero    9742 non-null   object
dtypes: int64(1), object(2)
memory usage: 228.5+ KB


In [11]:
# Estatísticas descritivas resumidas
df.describe()

Unnamed: 0,Filme_ID
count,9742.0
mean,42200.353623
std,52160.494854
min,1.0
25%,3248.25
50%,7300.0
75%,76232.0
max,193609.0


---

**Preparação da Base de Dados** 🎯

Não foi identificado nenhum problema no dataset. Todas as linhas de todas as colunas estão devidamente preenchidas, o que permite uma análise consistente dos dados. As colunas têm nomes claros e descritivos, facilitando a compreensão e o processamento. Não foram encontrados outliers significativos, e a organização dos dados segue um formato adequado para as análises subsequentes. Além disso, não houve necessidade de conversão de tipos de dados, já que todos os campos estão corretamente formatados.

Portanto, não foi necessário aplicar correções no dataset, pois ele já está pronto para ser utilizado sem ajustes adicionais.


---

# **LINKS** 🔗

In [12]:
# Importando dataset do repositório do GitHub
df = pd.read_csv(url_links)

In [13]:
# Renomeando as colunas
df = df.rename(columns={'movieId': 'Filme_ID', 'imdbId': 'IMDb_ID', 'tmdbId': 'TMBd_ID'})


In [14]:
# Imprimindo Cabeçario
df.head()

Unnamed: 0,Filme_ID,IMDb_ID,TMBd_ID
0,1,114709,862.0
1,2,113497,8844.0
2,3,113228,15602.0
3,4,114885,31357.0
4,5,113041,11862.0


In [15]:
# Imprimindo os últimos dados
df.tail()

Unnamed: 0,Filme_ID,IMDb_ID,TMBd_ID
9737,193581,5476944,432131.0
9738,193583,5914996,445030.0
9739,193585,6397426,479308.0
9740,193587,8391976,483455.0
9741,193609,101726,37891.0


---

**Significado de Cada Coluna** 🏛




1.   **movieId (Filme_ID):** identificador único para cada filme no sistema MovieLens
2. **imdbId (IMDb_ID):** identificador único para cada filme no IMDb
3. **tmbdid (TMBd_ID):** identificador único para cada filme no The Movie Database (TMDb)


---

In [16]:
# Tipo de Dados
df.dtypes

Unnamed: 0,0
Filme_ID,int64
IMDb_ID,int64
TMBd_ID,float64


---

**Quais são os atributos (colunas) e seus tipos** 🔎


1. **movieId (Filme_ID):** int64 --> inteiros
2. **imdbId (IMDb_ID):** int64 --> inteiros
3. **tmbdId (TMBd_ID):** float64 --> floating point number


---

In [17]:
# Quantidade de registros  e o número de colunas
df.shape

(9742, 3)

In [18]:
print(f'O dataset possui {df.shape[0]} de exemplos/amostras/linhas e {df.shape[1]} de atributos/variáveis/colunas.')

O dataset possui 9742 de exemplos/amostras/linhas e 3 de atributos/variáveis/colunas.


In [19]:
# Informação do Dataset
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9742 entries, 0 to 9741
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Filme_ID  9742 non-null   int64  
 1   IMDb_ID   9742 non-null   int64  
 2   TMBd_ID   9734 non-null   float64
dtypes: float64(1), int64(2)
memory usage: 228.5 KB


In [20]:
# Estatísticas descritivas resumidas
df.describe()

Unnamed: 0,Filme_ID,IMDb_ID,TMBd_ID
count,9742.0,9742.0,9734.0
mean,42200.353623,677183.9,55162.123793
std,52160.494854,1107228.0,93653.481487
min,1.0,417.0,2.0
25%,3248.25,95180.75,9665.5
50%,7300.0,167260.5,16529.0
75%,76232.0,805568.5,44205.75
max,193609.0,8391976.0,525662.0


---

**Preparação da Base de Dados** 🎯

Foi identificado somente um problema no dataset. A coluna TMDb_ID apresenta 9734 valores preenchidos, ao invés de 9742, indicando que alguns filmes podem não ter correspondência com a base do TMDb. No entanto, essa diferença não compromete a qualidade geral do dataset.

As colunas têm nomes claros e descritivos, facilitando a compreensão e o processamento. Não foram encontrados outliers significativos, e a organização dos dados segue um formato adequado para as análises subsequentes. Além disso, não houve necessidade de conversão de tipos de dados, já que todos os campos estão corretamente formatados.

Portanto, não foi necessário aplicar correções no dataset, pois ele já está pronto para ser utilizado sem ajustes adicionais.



---

# **RATINGS** 💯

In [21]:
# Importando dataset do repositório do GitHub
df = pd.read_csv(url_ratings)


In [22]:
# Tranformando o formato Unix Timestamp para o formato de Data e Hora tradicional
df['timestamp'] = pd.to_datetime(df['timestamp'], unit='s') #yyyy/mm/dd hh:mm:ss
df['timestamp'] = df['timestamp'].dt.strftime('%d/%m/%Y %H:%M:%S') #dd/mm/yyyy hh:mm:ss


In [23]:
# Renomeando as colunas
df = df.rename(columns={'userId': 'Usuário_ID', 'movieId': 'Filme_ID', 'rating': 'Avaliação', 'timestamp': 'Data_e_Hora'})


In [24]:
# Imprimindo Cabeçario
df.head()

Unnamed: 0,Usuário_ID,Filme_ID,Avaliação,Data_e_Hora
0,1,1,4.0,30/07/2000 18:45:03
1,1,3,4.0,30/07/2000 18:20:47
2,1,6,4.0,30/07/2000 18:37:04
3,1,47,5.0,30/07/2000 19:03:35
4,1,50,5.0,30/07/2000 18:48:51


In [25]:
# Imprimindo os últimos dados
df.tail()

Unnamed: 0,Usuário_ID,Filme_ID,Avaliação,Data_e_Hora
100831,610,166534,4.0,03/05/2017 21:53:22
100832,610,168248,5.0,03/05/2017 22:21:31
100833,610,168250,5.0,08/05/2017 19:50:47
100834,610,168252,5.0,03/05/2017 21:19:12
100835,610,170875,3.0,03/05/2017 21:20:15


---

**Significado de Cada Coluna** 🏛




1. **userId (Usuário_ID):** identificador único do usuário que fez a avaliação, cada número representa um usuário anônimo.
2. **movieId (Filme_ID):** identificador único para cada filme no sistema MovieLens
3. **rating (Avaliação):** nota dada pelo usuário para o filme, na escala de 0.5 a 5.0 (com incrementos de 0.5)
4. **timestamp (Data_e_Hora):** data e hora em que a avaliação foi feita


---

In [26]:
# Tipo de Dados
df.dtypes

Unnamed: 0,0
Usuário_ID,int64
Filme_ID,int64
Avaliação,float64
Data_e_Hora,object


---

**Quais são os atributos (colunas) e seus tipos** 🔎


1. **userId (Usuário_ID):** int64 --> inteiro
2. **movieId (Filme_ID):** int64 --> inteiro
3. **rating (Avaliação):** float64 --> floating point number
4. **timestamp (Data_e_Hora):** object --> string



---

In [27]:
# Quantidade de registros  e o número de colunas
df.shape

(100836, 4)

In [28]:
print(f'O dataset possui {df.shape[0]} de exemplos/amostras/linhas e {df.shape[1]} de atributos/variáveis/colunas.')

O dataset possui 100836 de exemplos/amostras/linhas e 4 de atributos/variáveis/colunas.


In [29]:
# Informação do Dataset
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100836 entries, 0 to 100835
Data columns (total 4 columns):
 #   Column       Non-Null Count   Dtype  
---  ------       --------------   -----  
 0   Usuário_ID   100836 non-null  int64  
 1   Filme_ID     100836 non-null  int64  
 2   Avaliação    100836 non-null  float64
 3   Data_e_Hora  100836 non-null  object 
dtypes: float64(1), int64(2), object(1)
memory usage: 3.1+ MB


In [30]:
# Estatísticas descritivas resumidas
df.describe()

Unnamed: 0,Usuário_ID,Filme_ID,Avaliação
count,100836.0,100836.0,100836.0
mean,326.127564,19435.295718,3.501557
std,182.618491,35530.987199,1.042529
min,1.0,1.0,0.5
25%,177.0,1199.0,3.0
50%,325.0,2991.0,3.5
75%,477.0,8122.0,4.0
max,610.0,193609.0,5.0


---

**Preparação da Base de Dados** 🎯

Foi identificado somente um problema no dataset. A coluna Data_e_Hora estava no formato Unix Timestamp, ao se perceber isso foi realizado duas correções para deixar no padrão que conhecemos 'dd/mm/yyyy hh:mm:ss'.

Tirando isso, as colunas têm nomes claros e descritivos, facilitando a compreensão e o processamento. Não foram encontrados outliers significativos, e a organização dos dados segue um formato adequado para as análises subsequentes.



---

# **TAGS** 🎫

In [31]:
# Importando dataset do repositório do GitHub
df = pd.read_csv(url_tags)


In [32]:
# Tranformando o formato Unix Timestamp para o formato de Data e Hora tradicional
df['timestamp'] = pd.to_datetime(df['timestamp'], unit='s') #yyyy/mm/dd hh:mm:ss
df['timestamp'] = df['timestamp'].dt.strftime('%d/%m/%Y %H:%M:%S') #dd/mm/yyyy hh:mm:ss


In [33]:
# Renomeando as colunas
df = df.rename(columns={'userId': 'Usuário_ID', 'movieId': 'Filme_ID', 'tag': 'Tag', 'timestamp': 'Data_e_Hora'})


In [34]:
# Imprimindo Cabeçario
df.head()

Unnamed: 0,Usuário_ID,Filme_ID,Tag,Data_e_Hora
0,2,60756,funny,24/10/2015 19:29:54
1,2,60756,Highly quotable,24/10/2015 19:29:56
2,2,60756,will ferrell,24/10/2015 19:29:52
3,2,89774,Boxing story,24/10/2015 19:33:27
4,2,89774,MMA,24/10/2015 19:33:20


In [35]:
# Imprimindo os últimos dados
df.tail()

Unnamed: 0,Usuário_ID,Filme_ID,Tag,Data_e_Hora
3678,606,7382,for katie,11/02/2007 22:46:59
3679,606,7936,austere,08/03/2007 22:18:54
3680,610,3265,gun fu,03/05/2017 20:39:44
3681,610,3265,heroic bloodshed,03/05/2017 20:39:38
3682,610,168248,Heroic Bloodshed,03/05/2017 20:44:30


---

**Significado de Cada Coluna** 🏛




1. **userId (Usuário_ID):** identificador único do usuário que fez a avaliação, cada número representa um usuário anônimo.
2. **movieId (Filme_ID):** identificador único para cada filme no sistema MovieLens
3. **tag (Tag):** palavra ou frase curta criada pelo usuário para descrever ou categorizar o filme
4. **timestamp (Data_e_Hora):** data e hora em que a tag foi criada

---

In [36]:
# Tipo de Dados
df.dtypes

Unnamed: 0,0
Usuário_ID,int64
Filme_ID,int64
Tag,object
Data_e_Hora,object


---

**Quais são os atributos (colunas) e seus tipos** 🔎


1. **userId (Usuário_ID):** int64 --> inteiro
2. **movieId (Filme_ID):** int64 --> inteiro
3. **tag (Tag):** object --> string
4. **timestamp (Data_e_Hora):** object --> string



---

In [37]:
# Quantidade de registros  e o número de colunas
df.shape

(3683, 4)

In [38]:
print(f'O dataset possui {df.shape[0]} de exemplos/amostras/linhas e {df.shape[1]} de atributos/variáveis/colunas.')

O dataset possui 3683 de exemplos/amostras/linhas e 4 de atributos/variáveis/colunas.


In [39]:
# Informação do Dataset
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3683 entries, 0 to 3682
Data columns (total 4 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   Usuário_ID   3683 non-null   int64 
 1   Filme_ID     3683 non-null   int64 
 2   Tag          3683 non-null   object
 3   Data_e_Hora  3683 non-null   object
dtypes: int64(2), object(2)
memory usage: 115.2+ KB


In [40]:
# Estatísticas descritivas resumidas
df.describe()

Unnamed: 0,Usuário_ID,Filme_ID
count,3683.0,3683.0
mean,431.149335,27252.013576
std,158.472553,43490.558803
min,2.0,1.0
25%,424.0,1262.5
50%,474.0,4454.0
75%,477.0,39263.0
max,610.0,193565.0


---

**Preparação da Base de Dados** 🎯

Foi identificado somente um problema no dataset. A coluna Data_e_Hora estava no formato Unix Timestamp, ao se perceber isso foi realizado duas correções para deixar no padrão que conhecemos 'dd/mm/yyyy hh:mm:ss'.

Tirando isso, as colunas têm nomes claros e descritivos, facilitando a compreensão e o processamento. Não foram encontrados outliers significativos, e a organização dos dados segue um formato adequado para as análises subsequentes.



---