<a href="https://colab.research.google.com/github/joaofranca13/5GFlix_CESAR/blob/main/5GFlix_Analysis.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 5GFlix Analysis


O novo aplicativo de streaming &quot;5GFlix&quot; está com o desafio de fazer estudos de mercado para formular a
estratégia de negócio que irão adotar.
Para uma parte do estudo de mercado, a &quot;5Gflix&quot; precisa fazer análises em cima de filmes e séries que
estão disponíveis na Netflix, a sua concorrente direta.
O CTO da &quot;5Gflix&quot;, Alan Turing, entrou em contato com a turma para construir uma estrutura lógica que
possibilite que o time de BI da &quot;5GFlix&quot; responda a várias perguntas de negócio relacionadas aos dados
da Netflix, detalhadas nos entregáveis deste desafio.


1.1. Quantos filmes estão disponíveis no dataset?


1.2. Qual é o nome dos 5 filmes com melhor média de avaliação?


1.3. Quais os 9 anos com menos lançamentos de filmes?


1.4. Quantos filmes que possuem avaliação maior ou igual a 4.7, considerando apenas os filmes avaliados na última data de avaliação do dataset?


1.5. Dos filmes encontrados na questão anterior, quais são os 10 filmes com as piores notas e quais as notas?


1.6. Quais os id&#39;s dos 5 customers que mais avaliaram filmes e quantas avaliações cada um fez?

## Dependencies

In [None]:
import gdown
import pandas as pd
import re

## Data Download

In [None]:
#Download Base 1

url_base1 = 'https://drive.google.com/file/d/1gLsCjaMrL91ECdThq58cZAzB9tPxG18g/view?usp=sharing'
output_base1 = 'movies.csv'
gdown.download(url_base1, output_base1, quiet=False, fuzzy=True)

Downloading...
From: https://drive.google.com/uc?id=1gLsCjaMrL91ECdThq58cZAzB9tPxG18g
To: /content/movies.csv
100%|██████████| 160k/160k [00:00<00:00, 2.85MB/s]


'movies.csv'

In [None]:
!head movies.csv

1;(Dinosaur Planet, 2003)
2;(Isle of Man TT 2004 Review, 2004)
3;(Character, 1997)
4;(Paula Abdul's Get Up & Dance, 1994)
5;(The Rise and Fall of ECW, 2004)
6;(Sick, 1997)
7;(8 Man, 1992)
8;(What the #$*! Do We Know!?, 2004)
9;(Class of Nuke 'Em High 2, 1991)
10;(Fighter, 2001)


In [None]:
#Download Base 2

url_base2 = 'https://drive.google.com/file/d/1C_T1w8fc7Oa8MeTo4LMTEcv90IfEOS-6/view?usp=sharing'
output_base2 = 'customer_ratings.csv'
gdown.download(url_base2, output_base2, quiet=False, fuzzy=True)

Downloading...
From: https://drive.google.com/uc?id=1C_T1w8fc7Oa8MeTo4LMTEcv90IfEOS-6
To: /content/customer_ratings.csv
100%|██████████| 658M/658M [00:07<00:00, 82.4MB/s]


'customer_ratings.csv'

In [None]:
!head customer_ratings.csv

Cust_Id;Rating;Date;Movie_Id
1488844;3.0;2005-09-06;1
822109;5.0;2005-05-13;1
885013;4.0;2005-10-19;1
30878;4.0;2005-12-26;1
823519;3.0;2004-05-03;1
893988;3.0;2005-11-17;1
124105;4.0;2004-08-05;1
1248029;3.0;2004-04-22;1
1842128;4.0;2004-05-09;1


## Data Cleaning

### Movies

In [None]:
df_movies = pd.read_csv(output_base1, sep=';', header=None, names=['Movie_Id', 'Movie_Name'])
df_movies.head()

Unnamed: 0,Movie_Id,Movie_Name
0,1,"(Dinosaur Planet, 2003)"
1,2,"(Isle of Man TT 2004 Review, 2004)"
2,3,"(Character, 1997)"
3,4,"(Paula Abdul's Get Up & Dance, 1994)"
4,5,"(The Rise and Fall of ECW, 2004)"


In [None]:
def extract_year(string):
    match = re.search(r',\s*(\d{4})\)$', string)
    if match:
        return match.group(1)
    else:
        return None

def extract_title(string):
    return re.sub(r'[\[\](){}<>]', '', string)

df_movies['movie_year'] = df_movies['Movie_Name'].apply(lambda x: extract_year(x)).astype(str).astype(int)
df_movies['movie_title'] = df_movies['Movie_Name'].apply(lambda x: extract_title(x))


df_movies.head()

Unnamed: 0,Movie_Id,Movie_Name,movie_year,movie_title
0,1,"(Dinosaur Planet, 2003)",2003,"Dinosaur Planet, 2003"
1,2,"(Isle of Man TT 2004 Review, 2004)",2004,"Isle of Man TT 2004 Review, 2004"
2,3,"(Character, 1997)",1997,"Character, 1997"
3,4,"(Paula Abdul's Get Up & Dance, 1994)",1994,"Paula Abdul's Get Up & Dance, 1994"
4,5,"(The Rise and Fall of ECW, 2004)",2004,"The Rise and Fall of ECW, 2004"


In [None]:
df_movies.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4499 entries, 0 to 4498
Data columns (total 4 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   Movie_Id     4499 non-null   int64 
 1   Movie_Name   4499 non-null   object
 2   movie_year   4499 non-null   int64 
 3   movie_title  4499 non-null   object
dtypes: int64(2), object(2)
memory usage: 140.7+ KB


In [None]:
df_movies.describe()

Unnamed: 0,Movie_Id,movie_year
count,4499.0,4499.0
mean,2250.0,1990.243165
std,1298.89376,16.710492
min,1.0,1915.0
25%,1125.5,1985.0
50%,2250.0,1997.0
75%,3374.5,2002.0
max,4499.0,2005.0


### Customer Ratings

In [None]:
df_customer_ratings = pd.read_csv(output_base2, sep=';', parse_dates=['Date'])
df_customer_ratings.head()

Unnamed: 0,Cust_Id,Rating,Date,Movie_Id
0,1488844,3.0,2005-09-06,1
1,822109,5.0,2005-05-13,1
2,885013,4.0,2005-10-19,1
3,30878,4.0,2005-12-26,1
4,823519,3.0,2004-05-03,1


In [None]:
df_customer_ratings.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 24053764 entries, 0 to 24053763
Data columns (total 4 columns):
 #   Column    Dtype         
---  ------    -----         
 0   Cust_Id   int64         
 1   Rating    float64       
 2   Date      datetime64[ns]
 3   Movie_Id  int64         
dtypes: datetime64[ns](1), float64(1), int64(2)
memory usage: 734.1 MB


## Respostas

#### 1.1. Quantos filmes estão disponíveis no dataset?

In [None]:
print(f"Estão disponíveis {df_movies.Movie_Name.nunique()} filmes no dataset")

Estão disponíveis 4498 filmes no dataset


#### 1.2. Qual é o nome dos 5 filmes com melhor média de avaliação?

In [None]:
top_5_movies = (df_customer_ratings
                .groupby('Movie_Id').Rating.mean()
                .sort_values(ascending=False)
                .head()
                .reset_index()
                .merge(df_movies[['Movie_Id', 'movie_title']], on='Movie_Id', how='left'))

top_5_movies

Unnamed: 0,Movie_Id,Rating,movie_title
0,3456,4.670989,"Lost: Season 1, 2004"
1,3033,4.586364,Ghost in the Shell: Stand Alone Complex: 2nd G...
2,2102,4.581296,"The Simpsons: Season 6, 1994"
3,4238,4.554434,"Inu-Yasha, 2000"
4,13,4.552,Lord of the Rings: The Return of the King: Ext...


In [None]:
print(f"O nome dos  filmes com melhor média de avaliação são: {list(top_5_movies.movie_title)}")

O nome dos  filmes com melhor média de avaliação são: ['Lost: Season 1, 2004', 'Ghost in the Shell: Stand Alone Complex: 2nd Gig, 2005', 'The Simpsons: Season 6, 1994', 'Inu-Yasha, 2000', 'Lord of the Rings: The Return of the King: Extended Edition: Bonus Material, 2003']


#### 1.3. Quais os 9 anos com menos lançamentos de filmes?

In [None]:
tail_9_anos_lancamentos = (df_movies
                          .groupby('movie_year').Movie_Id.count()
                          .sort_values()
                          .head()
                          .reset_index())

tail_9_anos_lancamentos

Unnamed: 0,movie_year,Movie_Id
0,1915,1
1,1917,1
2,1922,1
3,1926,1
4,1916,2


In [None]:
print(f"Os  anos com menos lançamentos de filmes foram: {list(tail_9_anos_lancamentos.movie_year)}")

Os  anos com menos lançamentos de filmes foram: [1915, 1917, 1922, 1926, 1916]


#### 1.4. Quantos filmes que possuem avaliação maior ou igual a 4.7, considerando apenas os filmes avaliados na última data de avaliação do dataset?

In [None]:
latest_movies_ratings = df_customer_ratings.sort_values(by='Date', ascending=False).drop_duplicates(subset=['Movie_Id'], keep='first')
latest_movies_ratings_greater_4_7 = latest_movies_ratings[latest_movies_ratings['Rating'] >= 4.7]
latest_movies_ratings_greater_4_7

Unnamed: 0,Cust_Id,Rating,Date,Movie_Id
4812300,1545783,5.0,2005-12-31,963
20971597,2567048,5.0,2005-12-31,3938
14230196,348946,5.0,2005-12-31,2751
10498168,2493839,5.0,2005-12-31,2040
20335517,2212378,5.0,2005-12-31,3864
...,...,...,...,...
2981251,744631,5.0,2005-10-24,559
18670542,289096,5.0,2005-10-24,3580
9223424,1918704,5.0,2005-10-22,1812
18365190,1498793,5.0,2005-09-07,3511


In [None]:
print(f"Existem {len(latest_movies_ratings_greater_4_7)} com avalição igual ou maior 4.7, considerando apenas os filmes avaliados na última data de avaliação do dataset")

Existem 846 com avalição igual ou maior 4.7, considerando apenas os filmes avaliados na última data de avaliação do dataset


#### 1.5. Dos filmes encontrados na questão anterior, quais são os 10 filmes com as piores notas e quais as notas?

In [None]:
latest_movies_ratings_greater_4_7.sort_values(by='Rating')

Unnamed: 0,Cust_Id,Rating,Date,Movie_Id
4812300,1545783,5.0,2005-12-31,963
3317859,582829,5.0,2005-12-29,613
12595453,477325,5.0,2005-12-29,2403
52396,510820,5.0,2005-12-29,27
4693889,78703,5.0,2005-12-29,923
...,...,...,...,...
11811284,2272739,5.0,2005-12-31,2267
11811337,635363,5.0,2005-12-31,2268
19848824,2128735,5.0,2005-12-31,3797
8680507,2205709,5.0,2005-12-31,1739


#### 1.6. Quais os id's dos 5 customers que mais avaliaram filmes e quantas avaliações cada um fez?

In [None]:
most_review_customers = df_customer_ratings.groupby('Cust_Id').Rating.count().sort_values(ascending=False).head().reset_index()
most_review_customers

Unnamed: 0,Cust_Id,Rating
0,305344,4467
1,387418,4422
2,2439493,4195
3,1664010,4019
4,2118461,3769


In [None]:
print(f"Os 5 customers que mais avaliaram filmes foram: {list(most_review_customers.Cust_Id)}")

Os 5 customers que mais avaliaram filmes foram: [305344, 387418, 2439493, 1664010, 2118461]
