Perguntas:
- Quantos gêneros o filme "The Matrix" tem? Quais são os gêneros?
- Quantos gêneros cada filme tem, em média?
- Quais são os cinco filmes com maior número de gêneros?
- Quantos usuários deram nota para o filme "The Matrix"?
- Quantos usuários, em média, deram nota para cada filme?
- Quais são os cinco filmes para os quais mais usuários deram nota?
- Qual o rating médio do filme "The Matrix"?
- Cada filme tem um rating médio. Qual a média desses ratings, por gênero?
- Para cada gênero de filme, quantos usuários deram cada nota possível?

Dicas:
1. Só é necessário as tabelas movies e ratings para este projeto.
2. Pesquise a função "explode" no pandas. Ela pode ser útil.

# Importando pacotes e dados

In [8]:
import pandas as pd
import numpy as np
import re

In [9]:
# Importando o arquivo RATINGS.csv
df_ratings = pd.read_csv('Dados/ratings.csv', sep=',')

# Convertendo Unix seconds timestamp para data e hora
df_ratings["date_timestamp"] = pd.to_datetime(df_ratings["timestamp"], unit='s')



# Importando o arquivo MOVIES.csv
df_movies = pd.read_csv('Dados/movies.csv', sep=',')

# Criando coluna apenas com o ano de lançamento do filme
df_movies["year"] = df_movies["title"].apply(lambda st: st[st.rfind("(")+1:st.rfind(")")])
df_movies["year"] = df_movies["year"].apply(lambda x: x if len(x) == 4 else 0)
df_movies["year"] = df_movies["year"].astype("int64")

# Criando coluna com apenas o nome do filme (tirando o ano)
df_movies["name"] = df_movies["title"].apply(lambda st: st[0:st.find("(")-1])

# Separando a coluna genres em varias colunas pelo separadador "|"
df_movies = df_movies.join(df_movies['genres'].str.split('|', expand=True).add_prefix('genres_').fillna(np.nan))

# Conta a quantidade de generos o fime possui
df_movies["qtd_genres"] = df_movies["genres"].apply(lambda st: len(re.findall("\|", st))+1)

# Cria coluna com a qtd de notas que cada filme recebeu
qtd_notas_por_filme = df_ratings.groupby(by = ["movieId"])["userId"].count().reset_index().rename(columns = {'userId':'qtd_notas'})
df_movies = pd.merge(df_movies, qtd_notas_por_filme, on = ["movieId"])

# Cria média de ratings por filme
mean_ratings = df_ratings.groupby(by=["movieId"])["rating"].mean()
df_movies = pd.merge(df_movies, mean_ratings, on = ["movieId"])

# Mostrando as primeiras 5 linhas da tabela
df_movies.head()

Unnamed: 0,movieId,title,genres,year,name,genres_0,genres_1,genres_2,genres_3,genres_4,genres_5,genres_6,genres_7,genres_8,genres_9,qtd_genres,qtd_notas,rating
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy,1995,Toy Story,Adventure,Animation,Children,Comedy,Fantasy,,,,,,5,215,3.92093
1,2,Jumanji (1995),Adventure|Children|Fantasy,1995,Jumanji,Adventure,Children,Fantasy,,,,,,,,3,110,3.431818
2,3,Grumpier Old Men (1995),Comedy|Romance,1995,Grumpier Old Men,Comedy,Romance,,,,,,,,,2,52,3.259615
3,4,Waiting to Exhale (1995),Comedy|Drama|Romance,1995,Waiting to Exhale,Comedy,Drama,Romance,,,,,,,,3,7,2.357143
4,5,Father of the Bride Part II (1995),Comedy,1995,Father of the Bride Part II,Comedy,,,,,,,,,,1,49,3.071429


## Explorando os dados: MOVIES

In [10]:
df_movies.head()

Unnamed: 0,movieId,title,genres,year,name,genres_0,genres_1,genres_2,genres_3,genres_4,genres_5,genres_6,genres_7,genres_8,genres_9,qtd_genres,qtd_notas,rating
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy,1995,Toy Story,Adventure,Animation,Children,Comedy,Fantasy,,,,,,5,215,3.92093
1,2,Jumanji (1995),Adventure|Children|Fantasy,1995,Jumanji,Adventure,Children,Fantasy,,,,,,,,3,110,3.431818
2,3,Grumpier Old Men (1995),Comedy|Romance,1995,Grumpier Old Men,Comedy,Romance,,,,,,,,,2,52,3.259615
3,4,Waiting to Exhale (1995),Comedy|Drama|Romance,1995,Waiting to Exhale,Comedy,Drama,Romance,,,,,,,,3,7,2.357143
4,5,Father of the Bride Part II (1995),Comedy,1995,Father of the Bride Part II,Comedy,,,,,,,,,,1,49,3.071429


In [11]:
# Tipo das variáveis
df_movies.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 9724 entries, 0 to 9723
Data columns (total 18 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   movieId     9724 non-null   int64  
 1   title       9724 non-null   object 
 2   genres      9724 non-null   object 
 3   year        9724 non-null   int64  
 4   name        9724 non-null   object 
 5   genres_0    9724 non-null   object 
 6   genres_1    6879 non-null   object 
 7   genres_2    3665 non-null   object 
 8   genres_3    1335 non-null   object 
 9   genres_4    348 non-null    object 
 10  genres_5    77 non-null     object 
 11  genres_6    14 non-null     object 
 12  genres_7    2 non-null      object 
 13  genres_8    1 non-null      object 
 14  genres_9    1 non-null      object 
 15  qtd_genres  9724 non-null   int64  
 16  qtd_notas   9724 non-null   int64  
 17  rating      9724 non-null   float64
dtypes: float64(1), int64(4), object(13)
memory usage: 1.4+ MB


In [12]:
# Quantidade de dados nulos
df_movies.isna().sum()

movieId          0
title            0
genres           0
year             0
name             0
genres_0         0
genres_1      2845
genres_2      6059
genres_3      8389
genres_4      9376
genres_5      9647
genres_6      9710
genres_7      9722
genres_8      9723
genres_9      9723
qtd_genres       0
qtd_notas        0
rating           0
dtype: int64

In [13]:
print("O dataset MOVIES tranformado possui ", df_movies.shape[0], " linhas e ", df_movies.shape[1]," colunas")

O dataset MOVIES tranformado possui  9724  linhas e  18  colunas


In [14]:
# Os anos que mais possuem filmes são 2002, 2006 e 2001, com cerca de 3% do total em cada ano.
df_movies["year"].value_counts(normalize=True).head()
#movieId	title	genres

2002    0.031983
2006    0.030337
2001    0.030234
2007    0.029206
2000    0.029103
Name: year, dtype: float64

## Explorando os dados: RATINGS

In [15]:
df_ratings.head()

Unnamed: 0,userId,movieId,rating,timestamp,date_timestamp
0,1,1,4.0,964982703,2000-07-30 18:45:03
1,1,3,4.0,964981247,2000-07-30 18:20:47
2,1,6,4.0,964982224,2000-07-30 18:37:04
3,1,47,5.0,964983815,2000-07-30 19:03:35
4,1,50,5.0,964982931,2000-07-30 18:48:51


In [16]:
# Tipo das variáveis
df_ratings.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100836 entries, 0 to 100835
Data columns (total 5 columns):
 #   Column          Non-Null Count   Dtype         
---  ------          --------------   -----         
 0   userId          100836 non-null  int64         
 1   movieId         100836 non-null  int64         
 2   rating          100836 non-null  float64       
 3   timestamp       100836 non-null  int64         
 4   date_timestamp  100836 non-null  datetime64[ns]
dtypes: datetime64[ns](1), float64(1), int64(3)
memory usage: 3.8 MB


In [17]:
# Quantidade de dados nulos
df_ratings.isna().sum()

userId            0
movieId           0
rating            0
timestamp         0
date_timestamp    0
dtype: int64

In [18]:
print("O dataset MOVIES tranformado possui ", df_ratings.shape[0], " linhas e ", df_ratings.shape[1]," colunas")

O dataset MOVIES tranformado possui  100836  linhas e  5  colunas


In [19]:
# Média de rating total
df_ratings["rating"].mean()

3.501556983616962

In [20]:
# Quantidade de fimes com pelo menos uma nota
len(df_ratings["movieId"].unique())

9724

# Respondendo as perguntas

### 01 - Quantos gêneros o filme "The Matrix" tem? Quais são os gêneros?

In [21]:
matrix = df_movies[df_movies["name"] == "Matrix, The"]
genres_matrix = matrix.filter(regex = 'genres_', axis = 1).dropna(axis = 1, how = 'all')
qtd_genres_matrix = matrix[matrix.filter(regex='genres_', axis = 1).columns].count(axis = 1)

print("Matrix possui os seguintes generos: ")
print(genres_matrix.reset_index(drop = True))

print("Que totalizam", qtd_genres_matrix.reset_index(drop = True)[0], "generos diferentes")


Matrix possui os seguintes generos: 
  genres_0 genres_1  genres_2
0   Action   Sci-Fi  Thriller
Que totalizam 3 generos diferentes


### 02 - Quantos gêneros cada filme tem, em média?

In [22]:
mean_genres = df_movies["qtd_genres"].mean()

print(f"Cada filme possui em média {mean_genres} generos".format(mean_genres))

Cada filme possui em média 2.26717400246812 generos


### 03 - Quais são os cinco filmes com maior número de gêneros?

In [23]:
# Os filmes abaixo são os TOP 5 com maior número de generos
df_movies[["title", "qtd_genres"]].sort_values(by = ["qtd_genres"], ascending = False).head(5)

Unnamed: 0,title,qtd_genres
7424,Rubber (2010),10
5543,Patlabor: The Movie (Kidô keisatsu patorebâ: T...,8
7533,Mars Needs Moms (2011),7
3455,Osmosis Jones (2001),7
6445,Aqua Teen Hunger Force Colon Movie Film for Th...,7


### 04 - Quantos usuários deram nota para o filme "The Matrix"?

In [24]:
matrix_id = int(df_movies[df_movies["name"] == "Matrix, The"]["movieId"])

qtd_notas_matrix = len(df_ratings[df_ratings["movieId"] == matrix_id]["userId"].unique())

print(f"O filme matrix teve um total de {qtd_notas_matrix} notas.".format(qtd_notas_matrix))

O filme matrix teve um total de 278 notas.


### 05 - Quantos usuários, em média, deram nota para cada filme?

In [25]:
media_qtd_notas_por_filme = df_ratings.groupby(by = ["movieId"])["userId"].count().mean()

print(f"Cada filme obteve, em média {media_qtd_notas_por_filme} usuários distintos votando".format(media_qtd_notas_por_filme))

Cada filme obteve, em média 10.369806663924312 usuários distintos votando


### 06 - Quais são os cinco filmes para os quais mais usuários deram nota?

In [26]:
df_movies[["title", "qtd_notas"]].sort_values(by = ["qtd_notas"], ascending=False).head(5)

Unnamed: 0,title,qtd_notas
314,Forrest Gump (1994),329
277,"Shawshank Redemption, The (1994)",317
257,Pulp Fiction (1994),307
510,"Silence of the Lambs, The (1991)",279
1938,"Matrix, The (1999)",278


### 07 - Qual o rating médio do filme "The Matrix"?

In [27]:
matrix_id = int(df_movies[df_movies["name"] == "Matrix, The"]["movieId"])

matrix_rating = df_ratings[df_ratings["movieId"] == matrix_id]["rating"].mean()

print(f"A nota média do filme The Matrix foi {matrix_rating}".format(matrix_rating))

A nota média do filme The Matrix foi 4.192446043165468


### 08 - Cada filme tem um rating médio. Qual a média desses ratings, por gênero?

In [28]:
df_movies[["genres","rating"]][0:0].reset_index()

Unnamed: 0,index,genres,rating


In [29]:
# Gera lista de colunas para iterar
genre_list = matrix.filter(regex='genres_', axis = 1).columns.tolist()

# Cria dataframe vazio para guardar o append das colunas
df_rating_by_genre = df_movies[["genres","rating"]][0:0].reset_index()

# For que pega cada coluna de genero_(i) e o seu respectivo rating e append em uma tabela única para facilitar o calculo para cada genero 
for i in set(genre_list):
    df_temp = df_movies[[ i, "rating"]]
    df_temp.columns = ["genres", "rating"]  
    df_rating_by_genre = df_rating_by_genre.append(df_temp, ignore_index = True)
    df_rating_by_genre = df_rating_by_genre[~df_rating_by_genre["genres"].isnull()]

# Drop da coluna de index
df_rating_by_genre = df_rating_by_genre.drop("index", axis = 1)

df_rating_by_genre.groupby(by=["genres"])["rating"].mean().sort_values(ascending=False)

genres
Documentary           3.781682
Film-Noir             3.670471
War                   3.571655
Animation             3.497119
Drama                 3.420905
Western               3.383389
(no genres listed)    3.371148
Romance               3.364870
Mystery               3.330364
IMAX                  3.311996
Crime                 3.301844
Musical               3.296371
Fantasy               3.218843
Adventure             3.215230
Comedy                3.181716
Thriller              3.156116
Children              3.107690
Sci-Fi                3.102637
Action                3.094498
Horror                2.918965
Name: rating, dtype: float64

### 09 - Para cada gênero de filme, quantos usuários deram cada nota possível?


In [30]:
# Gera lista de colunas para iterar
genre_list = matrix.filter(regex='genres_', axis = 1).columns.tolist()

# Cria dataframe vazio para guardar o append das colunas
df_notas_by_genre = df_movies[["genres", "qtd_notas"]][0:0].reset_index()

# For que pega cada coluna de genero_(i) e o sua respectiva nota e append em uma tabela única para facilitar o calculo para cada genero 
for i in set(genre_list):
    df_temp = df_movies[[ i, "qtd_notas"]]
    df_temp.columns = ["genres", "qtd_notas"]  
    df_notas_by_genre = df_notas_by_genre.append(df_temp, ignore_index = True)
    df_notas_by_genre = df_notas_by_genre[~df_notas_by_genre["genres"].isnull()]

# Drop da coluna de index
df_notas_by_genre = df_notas_by_genre.drop("index", axis = 1)

df_notas_by_genre.groupby(by = ["genres"])["qtd_notas"].mean().sort_values(ascending = False)

genres
IMAX                  26.234177
Adventure             19.145008
Sci-Fi                17.594898
Action                16.758753
Fantasy               15.210797
Thriller              14.003176
Crime                 13.947324
Children              13.867470
Mystery               13.392670
War                   12.753281
Musical               12.426426
Western               11.556886
Animation             11.455738
Romance               11.391578
Comedy                10.405809
Film-Noir             10.235294
Drama                  9.640837
Horror                 7.462641
Documentary            2.783105
(no genres listed)     1.382353
Name: qtd_notas, dtype: float64