# **Desafio Estágio Solvimm**


### **Contexto do desafio:**

Um novo aplicativo de streaming "5GFlix" está com o desafio de fazer um estudo de mercado para formular a estratégia de negócio que irão adotar. Como parte do estudo de mercado, a "5GFlix" precisa realizar análises em cima de filmes e séries que estão disponíveis na Netflix, a sua concorrente direta.

Para auxiliar no desafio da "5GFlix", seu CTO Alan Turing, entrou em contato com a Solvimm para construir uma estrutura lógica que possibilite o time de BI da "5GFlix" a responder várias perguntas de negócio relacionadas aos dados na Netflix, sendo elas:

1. Quantos filmes estão disponíveis no dataset?
2. Qual é o nome dos 5 filmes com melhor média de avaliação?
3. Quais os 9 anos com menos lançamentos de filmes?
4. Quantos filmes que possuem avaliação maior ou igual a 4.7, considerando apenas os filmes avaliados na última data de avaliação do dataset?
5. Dos filmes encontrados na questão anterior, quais são os 10 filmes com as piores notas e quais as notas?
6. Quais os id's dos 5 customer que mais avaliaram filmes e quantas avaliações cada um fez?



### **Base de dados da Netflix**

Base1: https://drive.google.com/file/d/1gLsCjaMrL91ECdThq58cZAzB9tPxG18g/view?usp=sharing

Base2: https://drive.google.com/file/d/1C_T1w8fc7Oa8MeTo4LMTEcv90IfEOS-6/view?usp=sharing

## **Informações contidas na base de dados**

**Base 1:**
1. ID do filme
2. título e ano de lançamento

**Base 2:**
1. Cust_Id: ID do customer que fez a avaliação
2. Rating: avaliação (nota)
3. Date: data da avaliação
4. Movie_Id: ID do filme

### Código para tratamento dos bancos dados

#### Tratamento do banco de dados da base1 com o nome dos filmes e id de identificação

In [2]:
# Importando a biblioteca Pandas
import pandas as pd

In [3]:
# Importando a base de dados dos filmes
df_movies = pd.read_csv('movies.csv', sep=";", header=None)

In [4]:
# Visualizando a base de dados
df_movies.head()

Unnamed: 0,0,1
0,1,"(Dinosaur Planet, 2003)"
1,2,"(Isle of Man TT 2004 Review, 2004)"
2,3,"(Character, 1997)"
3,4,"(Paula Abdul's Get Up & Dance, 1994)"
4,5,"(The Rise and Fall of ECW, 2004)"


In [5]:
# Na segunda coluna do dataframe temos duas informações importantes, o nome do filme e o ano de lançamento.
# Como as informações estão misturadas, é necessário a transformação do dataframe, criando uma coluna para cada dado.
# Criação da coluna com o nome do filme:
df_movies['Movie_Name'] = df_movies[1].str[1:-7]

In [6]:
# Criação da coluna com o ano de lançamento:
df_movies['Release_Year'] = df_movies[1].str[-6:-1]

In [7]:
# Visualização do dataframe com as novas colunas
df_movies.head()

Unnamed: 0,0,1,Movie_Name,Release_Year
0,1,"(Dinosaur Planet, 2003)",Dinosaur Planet,2003
1,2,"(Isle of Man TT 2004 Review, 2004)",Isle of Man TT 2004 Review,2004
2,3,"(Character, 1997)",Character,1997
3,4,"(Paula Abdul's Get Up & Dance, 1994)",Paula Abdul's Get Up & Dance,1994
4,5,"(The Rise and Fall of ECW, 2004)",The Rise and Fall of ECW,2004


In [8]:
# Exclusão da coluna inicial com nome e data de lançamento
df_movies.drop(columns=1, inplace=True)

In [9]:
# Visualização do banco de dados 
df_movies.head()

Unnamed: 0,0,Movie_Name,Release_Year
0,1,Dinosaur Planet,2003
1,2,Isle of Man TT 2004 Review,2004
2,3,Character,1997
3,4,Paula Abdul's Get Up & Dance,1994
4,5,The Rise and Fall of ECW,2004


In [10]:
# Renomeação da coluna de ID do filme com a mesma nomemclatura da base de dados de avaliações.
df_movies.rename(columns={0:'Movie_Id'}, inplace=True)

In [11]:
# Informações sobre o dataframe do banco de dados de filmes.
df_movies.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4499 entries, 0 to 4498
Data columns (total 3 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   Movie_Id      4499 non-null   int64 
 1   Movie_Name    4499 non-null   object
 2   Release_Year  4499 non-null   object
dtypes: int64(1), object(2)
memory usage: 105.6+ KB


In [12]:
# A coluna referente ao ano de lançamento dos filmes, está no formato de string, 
# vamos realizar a modificação para tratar esse valor como inteiro.
# Realizando a modificando do tipo de dado da coluna com a data de lançamento.
df_movies['Release_Year'] = pd.DatetimeIndex(df_movies['Release_Year']).year

In [13]:
# Informações do dataframe com os nomes das colunas e seu respectivo tipo, conforme as alterações realizadas.
df_movies.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4499 entries, 0 to 4498
Data columns (total 3 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   Movie_Id      4499 non-null   int64 
 1   Movie_Name    4499 non-null   object
 2   Release_Year  4499 non-null   int64 
dtypes: int64(2), object(1)
memory usage: 105.6+ KB


In [14]:
# Visualização do dataframe com todas as alterações.
df_movies.head()

Unnamed: 0,Movie_Id,Movie_Name,Release_Year
0,1,Dinosaur Planet,2003
1,2,Isle of Man TT 2004 Review,2004
2,3,Character,1997
3,4,Paula Abdul's Get Up & Dance,1994
4,5,The Rise and Fall of ECW,2004


In [15]:
# Verificando se possui dados ausentes.
print(df_movies.isnull().sum())

Movie_Id        0
Movie_Name      0
Release_Year    0
dtype: int64


In [16]:
# Verificando se possui linhas duplicadas na base de dados.
df_movies.value_counts()

Movie_Id  Movie_Name                                        Release_Year
1         Dinosaur Planet                                   2003            1
2998      Lucia Di Lammermoor: Donizetti: Australian Opera  1986            1
3004      Escanaba in da Moonlight                          2000            1
3003      The Three Stooges: Merry Mavericks                1951            1
3002      Knightriders                                      1981            1
                                                                           ..
1506      Paranoia Agent                                    2004            1
1507      The Hunchback of Notre Dame                       1999            1
1508      Hand Maid May                                     2000            1
1509      National Lampoon's Van Wilder                     2002            1
4499      In My Skin                                        2002            1
Length: 4499, dtype: int64

In [17]:
# Verificando se possui id's duplicados.
duplicado_id = (df_movies.duplicated(subset=['Movie_Id']))
df_movies[duplicado_id].head()

Unnamed: 0,Movie_Id,Movie_Name,Release_Year


In [18]:
# Verificando se possui filmes com mesmo nome e mesmo ano de lançamento.
duplicate_name_year = (df_movies.duplicated(subset=['Movie_Name', 'Release_Year']))

In [19]:
df_movies[duplicate_name_year].head()

Unnamed: 0,Movie_Id,Movie_Name,Release_Year
4004,4005,Dr. Quinn,1993


In [20]:
filter_movie_duplicate = (df_movies['Movie_Name']=='Dr. Quinn')

In [21]:
# Temos dois filmes do Dr. Quinn com ID_Filme diferente, porém, com mesmo nome e mesmo ano de lançamento.
df_movies[filter_movie_duplicate].head()

Unnamed: 0,Movie_Id,Movie_Name,Release_Year
349,350,Dr. Quinn,1993
1014,1015,Dr. Quinn,1996
4004,4005,Dr. Quinn,1993


Observação: Apesar de existir dois registros com o mesmo nome (Dr. Quinn) e mesmo ano de lançamento (1993), realizando uma busca na internet, foi verificado que no ano de 1993 foram lançados duas temporadas de Dr. Quinn. Dessa forma, os registros estão se referindo a temporadas diferentes, não sendo considerado um registro duplicado.

#### Tratamento do banco de dados da base2 com as avaliações dos usuários

In [22]:
# Importando a base de dados.
df_customers_rating = pd.read_csv('customers_rating.csv', sep=';')

In [23]:
# Visualização do dataframe.
df_customers_rating.head()

Unnamed: 0,Cust_Id,Rating,Date,Movie_Id
0,1488844,3.0,2005-09-06,1
1,822109,5.0,2005-05-13,1
2,885013,4.0,2005-10-19,1
3,30878,4.0,2005-12-26,1
4,823519,3.0,2004-05-03,1


In [24]:
# Verificando se possui dados ausentes.
print(df_customers_rating.isnull().sum())

Cust_Id     0
Rating      0
Date        0
Movie_Id    0
dtype: int64


In [25]:
# Informações sobre o dataframe. 
df_customers_rating.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 24053764 entries, 0 to 24053763
Data columns (total 4 columns):
 #   Column    Dtype  
---  ------    -----  
 0   Cust_Id   int64  
 1   Rating    float64
 2   Date      object 
 3   Movie_Id  int64  
dtypes: float64(1), int64(2), object(1)
memory usage: 734.1+ MB


In [26]:
# Realizando a converteção da coluna de Date para datetime. Importante trabalhar com essa coluna no formato de data.
df_customers_rating['Date'] = pd.to_datetime(df_customers_rating['Date'], format='%Y-%m-%d')

In [27]:
df_customers_rating.head()

Unnamed: 0,Cust_Id,Rating,Date,Movie_Id
0,1488844,3.0,2005-09-06,1
1,822109,5.0,2005-05-13,1
2,885013,4.0,2005-10-19,1
3,30878,4.0,2005-12-26,1
4,823519,3.0,2004-05-03,1


In [28]:
# Confirmando a mudança da coluna Date para datetime.
df_customers_rating.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 24053764 entries, 0 to 24053763
Data columns (total 4 columns):
 #   Column    Dtype         
---  ------    -----         
 0   Cust_Id   int64         
 1   Rating    float64       
 2   Date      datetime64[ns]
 3   Movie_Id  int64         
dtypes: datetime64[ns](1), float64(1), int64(2)
memory usage: 734.1 MB


In [29]:
# Verificação se possui avaliações duplicadas de clientes, considerando mesmo id do cliente, id do filme e avaliação.
duplicadas_clientes = (df_customers_rating.duplicated(subset=['Cust_Id', 'Movie_Id', 'Rating']))
df_customers_rating[duplicadas_clientes].head()

Unnamed: 0,Cust_Id,Rating,Date,Movie_Id


#### Verificando os registros de Dr. Quinn

In [30]:
# Verificando se possui algum cliente que fez avaliação para os dois ID do Dr. Quinn.
filtro_id_movie = (df_customers_rating['Movie_Id']==350)
df_customers_rating[filtro_id_movie].shape[0]

1151

In [31]:
filtro_id_movie_duplicado = (df_customers_rating['Movie_Id']==4005)
df_customers_rating[filtro_id_movie_duplicado].shape[0]

1381

Observação: Como temos avaliações para os dois registro de Dr. Quinn e a busca ter apresentado duas temporadas em 1993, será mantido os dois registros na base de dados.

### **Criando um novo dataframe com join do df_movies e df_customers_rating**

In [32]:
# Como a análise será realizada apenas com os filmes que possuem avaliações de clientes, 
# será realizado um join considerando a interseção entre as tabelas.
df_join_movies_rating = pd.merge(df_movies, df_customers_rating, how='inner', on='Movie_Id')
df_join_movies_rating.head()

Unnamed: 0,Movie_Id,Movie_Name,Release_Year,Cust_Id,Rating,Date
0,1,Dinosaur Planet,2003,1488844,3.0,2005-09-06
1,1,Dinosaur Planet,2003,822109,5.0,2005-05-13
2,1,Dinosaur Planet,2003,885013,4.0,2005-10-19
3,1,Dinosaur Planet,2003,30878,4.0,2005-12-26
4,1,Dinosaur Planet,2003,823519,3.0,2004-05-03


In [33]:
# Quantidade de registros no dataframe
df_join_movies_rating.shape[0]

24053764

### **Funções para as análises**

1. Quantos filmes estão disponíveis no dataset?

In [34]:
def show_movies_avaiable(df_movies):

    """Função reponsável por retornar a quantidade de filmes disponíveis da base de dados de filmes.

    Como foi realizado um tratamento inicial na base de dados, nessa função olhamos a dimensão das linhas do dataframe.
    A função recebe como argumento o dataframe df_movies e retorna sua dimensão.

    Método utilizado:
    ----------------

    - df.shape: Este método retorna uma tupla com as dimensões do dataframe, (quantidade de linhas, quantidade de colunas).
    Para acessar a quantidade de linhas, foi utilizado o index 0, acessando o primeiro elemento da tupla.

    Return: 
    -------
    
    f'A Netflix possui {total_movies} filmes disponíveis.'
    """

    total_movies = df_movies.shape[0]
    return print(f'A Netflix possui {total_movies} filmes disponíveis.')

2. Qual é o nome dos 5 filmes com melhor média de avaliação?

In [35]:
def best_rated_movies(df_join_movies_rating):

    """Função reponsável por retornar um dataframe com os 5 filmes com as melhores médias de avaliação.
    
    A função recebe como argumento o dataframe df_join_movies_rating que é o merge dos dois dataframes.
    A função realiza inicialmente um agrupamento pelo nome do filme e a média das avaliações.
    Posteriormente, faz a ordenação do dataframe de forma decrescente pelos valores das médias das avaliações.
    Por fim, apresenta o dataframe com as 5 melhores médias.

    Métodos utilizados:
    -------------------

    - groupby: agrupamento/combinação dos dados
    - mean: média dos valores
    - rename: renomear o nome da coluna de média 
    - sort_values: ordenar os valores
    - rename: renomear o nome da coluna

    Return: 
    -------
    
    dataframe com os 5 filmes 
    """
    
    df_groupby_filme = df_join_movies_rating[['Movie_Name', 'Rating']].groupby('Movie_Name').mean('Rating')\
        .rename(columns={'Rating':'Rating_Average'})
    df_groupby_filme.sort_values(['Rating_Average'], ascending=False, inplace=True)
    print('Os 5 filmes com as melhores médias de avaliação são:')
    return df_groupby_filme.reset_index().head()

3. Quais os 9 anos com menos lançamentos de filmes?

In [36]:
def years_fewer_movies(df_movies):

    """Função reponsável por retornar um dataframe com os 9 anos que tiveram menor quantidade de lançamentos de filmes.
    
    A função recebe como argumento o dataframe df_movies com as informações de ano de lançamento, nome do filme e identificação.
    A função realiza inicialmente um agrupamento por ano de lançamento com a soma da quantidade de filmes.
    Posteriormente, faz a ordenação do dataframe em ordem crescente da quantidade de filmes.
    Por fim, apresenta um dataframe com os 9 anos com menor quantidade de filmes lançados.

    Métodos utilizados:
    ------------------

    - groupby: agrupamento/combinação dos dados
    - nunique: conta o número de elementos distintos
    - rename: renomear o nome da coluna de quantidade de filmes 
    - sort_values: ordenar os valores
    - rename: renomear o nome da coluna

    Return: 
    -------
    
    dataframe com os 9 anos com menor quantidade de filmes lançados
    """

    df_groupby_qtd_filmes_ano = df_movies[['Release_Year','Movie_Id']].groupby('Release_Year')\
        .nunique('Movie_Id').rename(columns={'Movie_Id':'Quantity_Movies'})
    df_groupby_qtd_filmes_ano.sort_values(['Quantity_Movies'], ascending=True, inplace=True)
    print('Os 9 anos que tiveram menor quantidade de lançamentos de filmes foram:')
    return df_groupby_qtd_filmes_ano.reset_index().head(9)

4. Quantos filmes que possuem avaliação maior ou igual a 4.7, considerando apenas os filmes avaliados na última data de avaliação do dataset?

In [37]:
def movies_last_date_rating(df_join_movies_rating):

    """Função reponsável por retornar um dataframe com os registros de avaliação média maior ou igual a 4.7, 
    considerando apenas os filmes avaliados na última data de avaliação.
    
    A função recebe como argumento o dataframe df_join_movies_rating que é o merge dos dois dataframes.
    No primeiro momento a função atribui a variável max_date a última data de avaliação e filtra o dataframe por essa data.
    Em sequência, realiza um agrupamento pelo nome do filme e a média das avaliações.
    Posteriormente, faz uma filtragem dos dados com média >= 4.7 e atribui a uma variável a quantidade de registros resultantes no dataframe.
    Por fim, apresenta o dataframe filtrado.

    Métodos utilizados:
    -------------------

    - groupby: agrupamento/combinação dos dados
    - mean: média dos valores das avaliações
    - loc: selecionar dados específicos da coluna com os valores das avaliações
    - max: retorna o valor máximo   
    
    Return: 
    -------
    
    dataframe com os registros de avaliação média maior ou igual a 4.7 na última data de avaliação.
    """

    max_date = df_join_movies_rating['Date'].max()
    df_filter_last_date = df_join_movies_rating[df_join_movies_rating['Date']==str(max_date)]
    df_filter_last_date_mean = df_filter_last_date[['Movie_Name', 'Rating']].groupby('Movie_Name').mean('Rating')
    df_filter_last_date_mean_rating = df_filter_last_date_mean.loc[(df_filter_last_date_mean['Rating']>=4.7)]
    return df_filter_last_date_mean_rating

5. Dos filmes encontrados na questão anterior, quais são os 10 filmes com as piores notas e quais as notas?

In [38]:
def movies_last_date_rating_asc(df_filter_last_date_mean_rating):

    """Função reponsável por retornar os 10 filmes que tiveram piores notas e quais foram as notas.
    
    A função recebe como argumento o dataframe df_filter_last_date_mean_rating resultante da função movies_last_date_rating().
    A função realiza inicialmente a ordenação do dataframe em ordem crescente dos valores da média das avaliações.
    Por fim, apresenta um dataframe com os 10 filmes que tiveram piores notas e quais foram as notas.

    Método utilizado:
    -------------------

    - sort_values: ordenar os valores

    Return: 
    -------
    
    dataframe com os 10 filmes tiveram piores notas e quais foram as notas.
    """

    df_filter_last_date_mean_rating_asc = df_filter_last_date_mean_rating.sort_values(['Rating'], ascending=True)
    print('Os 10 filmes com as piores notas dentre os filmes com notas médias >= 4.7 são:')
    return df_filter_last_date_mean_rating_asc.reset_index().head(10)

6. Quais os id's dos 5 customer que mais avaliaram filmes e quantas avaliações cada um fez?

In [39]:
def top_rated_customers(df_customers_rating):

    """Função reponsável por retornar um dataframe com os id's dos 5 usuários que mais avaliaram e quantas avaliações cada um fez.
    
    A função recebe como argumento o dataframe df_customers_rating com as informações de avaliações dos usuários.
    A função realiza inicialmente um agrupamento pelo id do cliente e pela soma da quantidade de filmes que ele fez avaliação.
    Posteriormente, faz a ordenação do dataframe em ordem decrescente da quantidade de avaliações.
    Por fim, apresenta um dataframe com os id's dos 5 usuários que mais avaliaram e quantas avaliações cada um fez.

    Métodos utilizados:
    -------------------

    - groupby: agrupamento/combinação dos dados
    - nunique: conta o número de elementos distintos
    - sort_values: ordenar os valores
    - rename: renomear o nome da coluna

    Return: 
    -------
    
    dataframe com os id's dos 5 usuários que mais avaliaram e quantas avaliações cada um fez.
    """
    
    df_customers_rating_groupby = df_customers_rating[['Cust_Id', 'Movie_Id']].groupby('Cust_Id').nunique('Movie_Id')\
    .rename(columns={'Movie_Id':"Qtd_Avaliacoes"})
    print('Os 5 customers que mais avaliaram filmes foram:')
    return df_customers_rating_groupby.sort_values(['Qtd_Avaliacoes'], ascending=False).reset_index().head()

# **Análise solicitada pela "5GFlix"**

1. Quantos filmes estão disponíveis no dataset?

In [40]:
show_movies_avaiable(df_movies)

A Netflix possui 4499 filmes disponíveis.


2. Qual é o nome dos 5 filmes com melhor média de avaliação?

In [41]:
best_rated_movies(df_join_movies_rating)

Os 5 filmes com as melhores médias de avaliação são:


Unnamed: 0,Movie_Name,Rating_Average
0,Lost: Season 1,4.670989
1,Ghost in the Shell: Stand Alone Complex: 2nd Gig,4.586364
2,The Simpsons: Season 6,4.581296
3,Inu-Yasha,4.554434
4,Lord of the Rings: The Return of the King: Ext...,4.552


3. Quais os 9 anos com menos lançamentos de filmes?

In [42]:
years_fewer_movies(df_movies)

Os 9 anos que tiveram menor quantidade de lançamentos de filmes foram:


Unnamed: 0,Release_Year,Quantity_Movies
0,1915,1
1,1917,1
2,1922,1
3,1926,1
4,1916,2
5,1918,2
6,1924,2
7,1929,2
8,1931,2


4. Quantos filmes que possuem avaliação maior ou igual a 4.7, considerando apenas os filmes avaliados na última data de avaliação do dataset?

Observação: como nossa base de dados apresenta apenas notas de avaliações com valores inteiros (1.0 , 2.0, 3.0, 4.0, 5.0), para considerarmos uma avaliação acima de 4.7, foi realizado um filtro no dataframe com a última data de avaliação do dataframe e a média das avaliação nessa data.

In [44]:
print(f'Considerando a data de última avaliação de 31/12/2005, temos \
{(movies_last_date_rating(df_join_movies_rating)).shape[0]} filmes com média de avaliações maiores ou igual a 4.7.')

Considerando a data de última avaliação de 31/12/2005, temos 192 filmes com média de avaliações maiores ou igual a 4.7.


5. Dos filmes encontrados na questão anterior, quais são os 10 filmes com as piores notas e quais as notas?

In [46]:
movies_last_date_rating_asc(movies_last_date_rating(df_join_movies_rating))

Os 10 filmes com as piores notas dentre os filmes com notas médias >= 4.7 são:


Unnamed: 0,Movie_Name,Rating
0,Spirited Away,4.714286
1,Gilmore Girls: Season 3,4.75
2,The Twilight Zone: Vol. 15,4.75
3,SpongeBob SquarePants: Season 3,4.75
4,Pete's Dragon,4.75
5,Absolutely Fabulous: Series 2,4.75
6,The Twilight Zone: Vol. 41,4.75
7,An Evening With Kevin Smith,4.75
8,Curb Your Enthusiasm: Season 3,4.8
9,In the Mood for Love,4.8


6. Quais os id's dos 5 customer que mais avaliaram filmes e quantas avaliações cada um fez?


In [47]:
top_rated_customers(df_customers_rating)

Os 5 customers que mais avaliaram filmes foram:


Unnamed: 0,Cust_Id,Qtd_Avaliacoes
0,305344,4467
1,387418,4422
2,2439493,4195
3,1664010,4019
4,2118461,3769
