<a href="https://colab.research.google.com/github/GuilhermeDumam/Desafio_Estagio_Solvimm/blob/Master/Jos%C3%A9_Guilherme_Desafio_Est%C3%A1gio_em_Dados.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Desafio Solvimm

Este notebook tem como objetivo resolver o desafio proposto pela Solvimm, que resume em responder algumas perguntas com análise exploratória de dados contidas em datasets com informações de filmes e avaliações de usuários.


As próximas seções serão dividas em:

1.   Importando os datasets, criação dos dataframes, limpeza dos dados. 
2.   Análise exploratória dos dados e respostas do desafio.

##Importando os datasets, criação dos dataframes, limpeza dos dados.

Nesta seção, importamos a biblioteca `pandas` para a exploração dos dados, além de importar os datasets com os dados para se resolver o desafio, transformando eles em dataframes: `df_movies` e `df_customers_rating`.

O dataframe com os dados dos filmes contém 4499 linhas e duas colunas, uma variável categórica e a outra numérica.
O dataframe com as avaliações dos usuários, contém 24053764 linhas e 4 colunas. Três variáveis numéricas e uma categórica.
**Sem valores nulos e/ou valores duplicados. **




In [None]:
import pandas as pd

In [None]:
df_movies = pd.read_csv('/content/movies.csv', sep = ';', names =['Movie_Id', 'movie'])

In [None]:
df_customers_rating = pd.read_csv('/content/customers_rating.csv', sep =';')

In [None]:
df_movies.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4499 entries, 0 to 4498
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   Movie_Id  4499 non-null   int64 
 1   movie     4499 non-null   object
dtypes: int64(1), object(1)
memory usage: 70.4+ KB


In [None]:
df_customers_rating.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 24053764 entries, 0 to 24053763
Data columns (total 4 columns):
 #   Column    Dtype  
---  ------    -----  
 0   Cust_Id   int64  
 1   Rating    float64
 2   Date      object 
 3   Movie_Id  int64  
dtypes: float64(1), int64(2), object(1)
memory usage: 734.1+ MB


Com a função `.duplicated()`, nós obtemos a quantidade de valores repetidos dentro do dataframe, se aparecer apenas os nomes das colunas, quer dizer que não há nenhuma linha repitida.

In [None]:
df_movies[df_movies.duplicated()]

Unnamed: 0,Movie_Id,movie


In [None]:
df_customers_rating[df_customers_rating.duplicated()]

Unnamed: 0,Cust_Id,Rating,Date,Movie_Id


In [None]:
df_movies.head(5)

Unnamed: 0,Movie_Id,movie
0,1,"(Dinosaur Planet, 2003)"
1,2,"(Isle of Man TT 2004 Review, 2004)"
2,3,"(Character, 1997)"
3,4,"(Paula Abdul's Get Up & Dance, 1994)"
4,5,"(The Rise and Fall of ECW, 2004)"


In [None]:
df_movies.tail(5)

Unnamed: 0,Movie_Id,movie
4494,4495,(Clifford: Happy Birthday Clifford / Puppy Lov...
4495,4496,"(Farewell My Concubine, 1993)"
4496,4497,"(Texasville, 1990)"
4497,4498,"(Gonin, 2000)"
4498,4499,"(In My Skin, 2002)"


In [None]:
df_customers_rating.head(5)

Unnamed: 0,Cust_Id,Rating,Date,Movie_Id
0,1488844,3.0,2005-09-06,1
1,822109,5.0,2005-05-13,1
2,885013,4.0,2005-10-19,1
3,30878,4.0,2005-12-26,1
4,823519,3.0,2004-05-03,1


Percebemos que na coluna 'movie' contém o nome do filme e o ano de lançamento; precisamos separar ambos para que possamos manipulá-los. 

In [None]:
df_movies['Ano'] = df_movies['movie'].apply(lambda x: x.split(',')[1].strip().replace(')',''))

In [None]:
df_movies.head()

Unnamed: 0,Movie_Id,movie,Ano
0,1,"(Dinosaur Planet, 2003)",2003
1,2,"(Isle of Man TT 2004 Review, 2004)",2004
2,3,"(Character, 1997)",1997
3,4,"(Paula Abdul's Get Up & Dance, 1994)",1994
4,5,"(The Rise and Fall of ECW, 2004)",2004


O mesmo processo com o ano do filme, foi realizado com o nome, separamos também para ele ter sua própria coluna categórica, facilitando assim a manipulação para futuras consultas.

In [None]:
df_movies['Nome_Filme'] = df_movies['movie'].apply(lambda x: x.split(',')[0].replace('(',''))

In [None]:
df_movies.head()

Unnamed: 0,Movie_Id,movie,Ano,Nome_Filme
0,1,"(Dinosaur Planet, 2003)",2003,Dinosaur Planet
1,2,"(Isle of Man TT 2004 Review, 2004)",2004,Isle of Man TT 2004 Review
2,3,"(Character, 1997)",1997,Character
3,4,"(Paula Abdul's Get Up & Dance, 1994)",1994,Paula Abdul's Get Up & Dance
4,5,"(The Rise and Fall of ECW, 2004)",2004,The Rise and Fall of ECW


Criamos um novo dataframe com as colunas separadas e realizamos um `.drop` para tirarmos a coluna original que continha ambas informações juntas. Isso é feito apenas para que não alteremos o conteúdo do dataframe original, pois podemos manipular esse novo dataframe sem nos preocupar com danificar os dados originais.

In [None]:
df_movies_filter = df_movies.drop(columns='movie')

In [None]:
df_movies_filter.head()

Unnamed: 0,Movie_Id,Ano,Nome_Filme
0,1,2003,Dinosaur Planet
1,2,2004,Isle of Man TT 2004 Review
2,3,1997,Character
3,4,1994,Paula Abdul's Get Up & Dance
4,5,2004,The Rise and Fall of ECW


In [None]:
df_movies_filter.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4499 entries, 0 to 4498
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   Movie_Id    4499 non-null   int64 
 1   Ano         4499 non-null   object
 2   Nome_Filme  4499 non-null   object
dtypes: int64(1), object(2)
memory usage: 105.6+ KB


Join realizado utilizando a coluna 'Movie_ID' como chave de referência, realizamos um inner join, e desse join se origina o 'df_total' que seria um dataframe com todas as colunas de ambos datasets juntas.

In [None]:
df_movies_filter.index = df_movies_filter['Movie_Id']
df_movies_filter.drop(columns='Movie_Id', inplace=True)

In [None]:
df_total = df_customers_rating.join(df_movies_filter, on = 'Movie_Id', how = 'inner')

In [None]:
df_total.head(5)

Unnamed: 0,Cust_Id,Rating,Date,Movie_Id,Ano,Nome_Filme
0,1488844,3.0,2005-09-06,1,2003,Dinosaur Planet
1,822109,5.0,2005-05-13,1,2003,Dinosaur Planet
2,885013,4.0,2005-10-19,1,2003,Dinosaur Planet
3,30878,4.0,2005-12-26,1,2003,Dinosaur Planet
4,823519,3.0,2004-05-03,1,2003,Dinosaur Planet


Tranformamos a coluna 'Date' `.to_datetime` para que possamos analisá-la como data e variável contínua. 

In [None]:
df_total['Date']= pd.to_datetime(df_total['Date'])

In [None]:
df_total.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 24053764 entries, 0 to 24053763
Data columns (total 6 columns):
 #   Column      Dtype         
---  ------      -----         
 0   Cust_Id     int64         
 1   Rating      float64       
 2   Date        datetime64[ns]
 3   Movie_Id    int64         
 4   Ano         object        
 5   Nome_Filme  object        
dtypes: datetime64[ns](1), float64(1), int64(2), object(2)
memory usage: 1.3+ GB


##Análise exploratória dos dados e respostas do desafio.

Após feito a limpeza, e preparação dos dataframes, podemos começar a realizar análises exploratórias com esses dados e responder as perguntas do desafio.

**1) Quantos filmes estão disponíveis no dataset?**










Sabemos que não temos valores nulos nem duplicados nos dataframes, logo, o total de linhas no dataframe que contém o dataset de movies será o total de filmes.

In [None]:
df_movies.tail(5)

Unnamed: 0,Movie_Id,movie,Ano,Nome_Filme
4494,4495,(Clifford: Happy Birthday Clifford / Puppy Lov...,2002,Clifford: Happy Birthday Clifford / Puppy Love
4495,4496,"(Farewell My Concubine, 1993)",1993,Farewell My Concubine
4496,4497,"(Texasville, 1990)",1990,Texasville
4497,4498,"(Gonin, 2000)",2000,Gonin
4498,4499,"(In My Skin, 2002)",2002,In My Skin


**4499 Filmes estão disponíveis no dataset** 

**2) Qual é o nome dos 5 filmes com melhor média de avaliação?**

Agrupamos por nome de filme, a média de das cinco maiores avaliações dos filmes encontrados no dataset. 

In [None]:
df_total.groupby(by='Nome_Filme')['Rating'].mean().sort_values(ascending=False).head(5)

Filmes | Notas
------ | ------
**Lost: Season 1** | **4.670989**
**Ghost in the Shell: Stand Alone Complex: 2nd Gig** | **4.586364**
**The Simpsons: Season 6** | **4.581296**
**Inu-Yasha** | **4.554434**
**Lord of the Rings: The Return of the King: Extended Edition: Bonus Material** | **4.552000**





**3) Quais os 5 anos com menos lançamentos de filmes?**

Aqui, podemos pegar o dataframe 'df_movies_filter', que contém os anos, nomes do filme e, utilizar da função de agrupamento `.groupby` pelo 'Ano', a quantidade de filmes lançados em seu respectivo ano. 

In [None]:
df_movies_filter.groupby(by='Ano')['Nome_Filme'].count().sort_values(ascending = True).head(5)

Ano | Quantidade de filmes
------ | ------
**1915** | **1**
**1917** | **1**
**1922** | **1**
**1926** | **1**
**1916** | **2**






**4) Quantos filmes que possuem avaliação maior ou igual a 4.7, considerando apenas os
filmes avaliados na última data de avaliação do dataset?**

Para responder essa pergunta, precisamos criar dataframes que recebem as datas máximas contidas no dataset, ou seja, as últimas datas de avaliações; realizar um agrupamento, onde se quer encontrar a média das avaliações por nome de filme, e desse agrupamento, colocamos um operador matemático que tem como efeito, filtrar apenas os filmes que foram avaliados com nota maiore ou igual a 4.7.

In [None]:
avaliacao_ultima_data = df_total[df_total['Date'] == df_total['Date'].unique().max()]

In [None]:
media_avaliacao = avaliacao_ultima_data.groupby(by='Nome_Filme')['Rating'].mean().sort_values(ascending=True).reset_index()

In [None]:
media_avaliacao[media_avaliacao['Rating'] >= 4.7]['Nome_Filme'].count()

 **192 Filmes**

**5) Dos filmes encontrados na questão anterior, quais são os 10 filmes com as piores notas e
quais as notas?**

Com o dataframe já criado com as datas máximas, podemos apenas agrupar pelo nome do filme, as médias, em ordem crescente dos 10 primeiros filmes.

In [None]:
avaliacao_ultima_data.groupby(by='Nome_Filme')['Rating'].mean().sort_values(ascending = True).head(10)

Filmes | Notas
------ | ------
**The Muse** | **1.0**
**Commanding Heights: The Battle for the World Economy** | **1.0**
**Midsomer Murders: Ring Out Your Dead** | **1.0**
**Grand Theft Parsons** | **1.0**
**Convict 762** | **1.0**
**Cop and a Half** | **1.0**
**I love Lucy: Season 2** | **1.0**
**Angel Sanctuary** | **1.0**
**The Closet** | **1.0**
**Slam** | **1.0**





**6) Quais os id's dos 5 customer que mais avaliaram filmes e quantas avaliações cada um
fez?**

Para responder essa pergunta, nós agrupamos pelo ID dos usuários, e pedimos a quantidade, de forma crescente, das avaliações ('Ratings') realizadas pelos usuários.

In [None]:
df_total.groupby(by='Cust_Id')['Rating'].count().sort_values(ascending=False).head(5)

ID dos usuários | Quantidade de avaliações
------ | ------
**305344** | **4467**
**387418** | **4422**
**2439493** | **4195**
**1664010** | **4019**
**2118461** | **3769**


###Muito Obrigado!