In [98]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [99]:
dataset = pd.read_csv("desafio_indicium_imdb.csv", sep=",")

In [100]:
dataset.shape

(999, 16)

# 1 - Análise Exploratória

 ## 1.1 - Tipos dos dados

 Aqui já observamos algumas inconsistências no nosso dataset, pois encontramos variáveis tipo object onde deveriam ser do tipo int. Um exemplo seria o número de vendas (Gross)

In [101]:
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 999 entries, 0 to 998
Data columns (total 16 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Unnamed: 0     999 non-null    int64  
 1   Series_Title   999 non-null    object 
 2   Released_Year  999 non-null    object 
 3   Certificate    898 non-null    object 
 4   Runtime        999 non-null    object 
 5   Genre          999 non-null    object 
 6   IMDB_Rating    999 non-null    float64
 7   Overview       999 non-null    object 
 8   Meta_score     842 non-null    float64
 9   Director       999 non-null    object 
 10  Star1          999 non-null    object 
 11  Star2          999 non-null    object 
 12  Star3          999 non-null    object 
 13  Star4          999 non-null    object 
 14  No_of_Votes    999 non-null    int64  
 15  Gross          830 non-null    object 
dtypes: float64(2), int64(2), object(12)
memory usage: 125.0+ KB


Podemos ver que Unnamed: 0 é uma coluna que não tem valor para nosso dataset

In [102]:
dataset.head()

Unnamed: 0.1,Unnamed: 0,Series_Title,Released_Year,Certificate,Runtime,Genre,IMDB_Rating,Overview,Meta_score,Director,Star1,Star2,Star3,Star4,No_of_Votes,Gross
0,1,The Godfather,1972,A,175 min,"Crime, Drama",9.2,An organized crime dynasty's aging patriarch t...,100.0,Francis Ford Coppola,Marlon Brando,Al Pacino,James Caan,Diane Keaton,1620367,134966411
1,2,The Dark Knight,2008,UA,152 min,"Action, Crime, Drama",9.0,When the menace known as the Joker wreaks havo...,84.0,Christopher Nolan,Christian Bale,Heath Ledger,Aaron Eckhart,Michael Caine,2303232,534858444
2,3,The Godfather: Part II,1974,A,202 min,"Crime, Drama",9.0,The early life and career of Vito Corleone in ...,90.0,Francis Ford Coppola,Al Pacino,Robert De Niro,Robert Duvall,Diane Keaton,1129952,57300000
3,4,12 Angry Men,1957,U,96 min,"Crime, Drama",9.0,A jury holdout attempts to prevent a miscarria...,96.0,Sidney Lumet,Henry Fonda,Lee J. Cobb,Martin Balsam,John Fiedler,689845,4360000
4,5,The Lord of the Rings: The Return of the King,2003,U,201 min,"Action, Adventure, Drama",8.9,Gandalf and Aragorn lead the World of Men agai...,94.0,Peter Jackson,Elijah Wood,Viggo Mortensen,Ian McKellen,Orlando Bloom,1642758,377845905


In [103]:
dataset.describe()

Unnamed: 0.1,Unnamed: 0,IMDB_Rating,Meta_score,No_of_Votes
count,999.0,999.0,842.0,999.0
mean,500.0,7.947948,77.969121,271621.4
std,288.530761,0.27229,12.383257,320912.6
min,1.0,7.6,28.0,25088.0
25%,250.5,7.7,70.0,55471.5
50%,500.0,7.9,79.0,138356.0
75%,749.5,8.1,87.0,373167.5
max,999.0,9.2,100.0,2303232.0


## 1.2 - Valores nulos

In [104]:
dataset.isnull().sum()

Unnamed: 0         0
Series_Title       0
Released_Year      0
Certificate      101
Runtime            0
Genre              0
IMDB_Rating        0
Overview           0
Meta_score       157
Director           0
Star1              0
Star2              0
Star3              0
Star4              0
No_of_Votes        0
Gross            169
dtype: int64

In [105]:
# Ordenar os valores ao longo de um dos eixos

total = dataset.isnull().sum().sort_values(ascending=False)
total.head()

Gross          169
Meta_score     157
Certificate    101
Unnamed: 0       0
Runtime          0
dtype: int64

## 1.3 - Observação

Aqui podemos ver que aproximadamente 32% do nosso dataset tem dados nulos, o que é um valor considerável na falta de dados.

In [106]:
# Quantos porcento os valores nulos representam no dataset?

percent = ((dataset.isnull().sum()/dataset.shape[0])*100).sort_values(ascending=False)
percent_df = pd.DataFrame({'Total': total, 'Porcentagem':percent})
percent_df.head()

Unnamed: 0,Total,Porcentagem
Gross,169,16.916917
Meta_score,157,15.715716
Certificate,101,10.11011
Unnamed: 0,0,0.0
Runtime,0,0.0


In [107]:
# Removendo valores nulos

dataset.dropna(axis=0, how='any', inplace=True)
dataset.isnull().sum()

Unnamed: 0       0
Series_Title     0
Released_Year    0
Certificate      0
Runtime          0
Genre            0
IMDB_Rating      0
Overview         0
Meta_score       0
Director         0
Star1            0
Star2            0
Star3            0
Star4            0
No_of_Votes      0
Gross            0
dtype: int64

In [108]:
dataset.shape

(713, 16)

In [109]:
# Vendo filmes duplicados

dataset.duplicated(subset=['Series_Title']).sum()

np.int64(0)

## 1.4 - Comparativo da quantidade de vendas com relação ao IMDB, Faixa etária e Duração do filme

### 1.4.1 - Tratamento dos dados de Object para Int

In [110]:
dataset['Gross'] = dataset['Gross'].str.replace(",","")
dataset['Gross']

0      134966411
1      534858444
2       57300000
3        4360000
4      377845905
         ...    
989       696690
990      1378435
991    141843612
993     13780024
996     30500000
Name: Gross, Length: 713, dtype: object

In [111]:
dataset['Gross'] = pd.to_numeric(dataset['Gross'], errors='coerce')

In [112]:
dataset['Runtime'] = dataset['Runtime'].str.replace("min","")
dataset['Runtime'] = pd.to_numeric(dataset['Runtime'], errors='coerce')
dataset['Runtime']

0      175
1      152
2      202
3       96
4      201
      ... 
989    157
990    144
991     78
993     87
996    118
Name: Runtime, Length: 713, dtype: int64

In [113]:
# Passed e Approved é a mesma coisa que U
dataset['Certificate'] = dataset['Certificate'].replace(['Passed', 'Approved'], 'U')

certificate_list = list(dataset["Certificate"].unique())
certificate_imdb = []
certificate_gross = []
certificate_time = []

### 1.4.2 - Vendo qual o maior número de vendas com base no imdb, tempo de filme e faixa etária. 

In [114]:

for i in certificate_list:
    x = dataset[dataset["Certificate"] == i]
    if(len(x)!=0):
        imdb = sum(x.IMDB_Rating)/len(x)
        gross = sum(x.Gross)/len(x)
        time = sum(x.Runtime)/len(x)
        certificate_imdb.append(imdb)
        certificate_gross.append(gross)
        certificate_time.append(time)
    else:
        imdb = sum(x.IMDB_Rating)
        gross = sum(x.Gross)
        time = sum(x.Runtime)
        certificate_gross.append(gross)
        certificate_imdb.append(imdb)
        certificate_time.append(time)

df_certificate = pd.DataFrame({'Gross': certificate_gross,'Certificate': certificate_list, 'IMDB_Rating': certificate_imdb, 'Time':certificate_time})
df_certificate.sort_values(by="Gross", ascending=False).head(30)

Unnamed: 0,Gross,Certificate,IMDB_Rating,Time
1,150095600.0,UA,7.929577,127.711268
2,88058200.0,U,7.964646,121.676768
0,66253980.0,A,7.993642,128.959538
4,55087320.0,G,8.022222,115.0
5,37804000.0,PG-13,7.784211,112.210526
3,26538400.0,R,7.866412,121.091603
8,26020960.0,U/A,7.6,102.0
6,20154800.0,PG,7.905263,111.947368
9,1378435.0,GP,7.6,144.0
7,106662.0,TV-PG,8.0,119.0


Dos resultados acima vemos que a classificação de 12 anos (UA) é a que tem maior número de vendas, além de observarmos que os filmes na faixa de 115 - 130 minutos estão entre os mais vendidos.

### 1.4.3 - Qual filme recomendar para uma pessoa desconhecida?

Por ser uma pessoa desconhecida, devemos levar em consideração a faixa etária da pessoa, logo, devemos selecionar filmes com a faixa etária livre para todas as idades (U). Seguindo para a análise dos dados do filme, vamos selecionar o filme que tenha maior número de vendas e IMDB, e vamos selecionar os filmes com menor número Meta_score,ou seja, com a menor crítica.

* Qual filme recomendar? The Lord of the Rings: The Return of the King

In [117]:
filtered_dataset = dataset[dataset["Certificate"] == "U"]

# Normalizar as colunas (min-max normalization)
filtered_dataset['Gross_norm'] = (filtered_dataset['Gross'] - filtered_dataset['Gross'].min()) / (filtered_dataset['Gross'].max() - filtered_dataset['Gross'].min())
filtered_dataset['IMDB_Rating_norm'] = (filtered_dataset['IMDB_Rating'] - filtered_dataset['IMDB_Rating'].min()) / (filtered_dataset['IMDB_Rating'].max() - filtered_dataset['IMDB_Rating'].min())
filtered_dataset['Meta_score_norm'] = (filtered_dataset['Meta_score'] - filtered_dataset['Meta_score'].min()) / (filtered_dataset['Meta_score'].max() - filtered_dataset['Meta_score'].min())

# Calcular a soma das classificações normalizadas
filtered_dataset['Total_score'] = filtered_dataset['Gross_norm'] + filtered_dataset['IMDB_Rating_norm'] + filtered_dataset['Meta_score_norm']

# Encontrar o filme com a maior soma total
top_film = filtered_dataset.loc[filtered_dataset['Total_score'].idxmax()]

# Exibir os resultados
print("Filme com a maior soma de IMDB_Rating, Gross e Meta_score:")
print(top_film[['Series_Title', 'Gross', 'IMDB_Rating', 'Meta_score', 'Certificate']])
        

Filme com a maior soma de IMDB_Rating, Gross e Meta_score:
Series_Title    The Lord of the Rings: The Return of the King
Gross                                               377845905
IMDB_Rating                                               8.9
Meta_score                                               94.0
Certificate                                                 U
Name: 4, dtype: object


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  filtered_dataset['Gross_norm'] = (filtered_dataset['Gross'] - filtered_dataset['Gross'].min()) / (filtered_dataset['Gross'].max() - filtered_dataset['Gross'].min())
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  filtered_dataset['IMDB_Rating_norm'] = (filtered_dataset['IMDB_Rating'] - filtered_dataset['IMDB_Rating'].min()) / (filtered_dataset['IMDB_Rating'].max() - filtered_dataset['IMDB_Rating'].min())
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = v

## 1.5 - O que influência os as vendas de um filme?

Um método que seria bem interessante de utilizar aqui seria uma matriz de correlação, para ver o que mais quais variáveis que mais influênciam nas vendas de um filme.

### 1.5.1 - Transformando colunas 

Aqui nos vamos pegar a coluna de gênero dos filmes e separar cada gênero, transformando eles em uma coluna para cada gênero de filme.

In [116]:
df_encoded = (dataset['Genre'].str.split(',').explode()).str.replace(" ","")
df_encoded = pd.get_dummies(df_encoded).groupby(df_encoded.index).sum()
df_encoded = pd.concat([dataset,df_encoded], axis=1)
df_encoded = df_encoded.drop(['Genre','Unnamed: 0'], axis=1)
# df_encoded.info()

teste = pd.get_dummies(dataset['Certificate'])
# teste
teste = dataset[dataset["Certificate"].isin(["U", "Passed", "Approved"])]
# actors = set(df_encoded['Star1'].unique()).union(set(df_encoded['Star2'].unique())).union(set(df_encoded['Star3'].unique())).union(set(df_encoded['Star4'].unique()))

# actors = list(actors)
# actors.
