<a href="https://colab.research.google.com/github/JosenildoJunior/Lh_desafio/blob/main/Desafio_indicium.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Desafio**

Você foi contratado por um estúdio de Hollywood chamado PProductions, e agora deve fazer uma análise em cima de um banco de dados cinematográfico para orientar qual tipo de filme deve ser o próximo a ser desenvolvido. Lembre-se que há muito dinheiro envolvido, então a análise deve ser muito detalhada e levar em consideração o máximo de fatores possíveis (a introdução de dados externos é permitida - e encorajada).


# **Entregas**

- 1. Faça uma análise exploratória dos dados (EDA), demonstrando as principais características entre as variáveis e apresentando algumas hipóteses relacionadas. Seja criativo!

- 2. Responda também às seguintes perguntas:

  - Qual filme você recomendaria para uma pessoa que você não conhece?
  - Quais são os principais fatores que estão relacionados com alta expectativa de faturamento de um filme?
  - Quais insights podem ser tirados com a coluna Overview? É possível inferir o gênero do filme a partir dessa coluna?

- 3. Explique como você faria a previsão da nota do imdb a partir dos dados. Quais variáveis e/ou suas transformações você utilizou e por quê? Qual tipo de problema estamos resolvendo (regressão, classificação)? Qual modelo melhor se aproxima dos dados e quais seus prós e contras? Qual medida de performance do modelo foi escolhida e por quê?

- 4.Supondo um filme com as seguintes características:

  {'Series_Title': 'The Shawshank Redemption',
  'Released_Year': '1994',
  'Certificate': 'A',
  'Runtime': '142 min',
  'Genre': 'Drama',
  'Overview': 'Two imprisoned men bond over a number of years, finding solace and eventual redemption through acts of common decency.',
  'Meta_score': 80.0,
  'Director': 'Frank Darabont',
  'Star1': 'Tim Robbins',
  'Star2': 'Morgan Freeman',
  'Star3': 'Bob Gunton',
  'Star4': 'William Sadler',
  'No_of_Votes': 2343110,
  'Gross': '28,341,469'}


Qual seria a nota do IMDB?

- 5. Salve o modelo desenvolvido no formato .pkl.
- 6. A entrega deve ser feita através de um repositório de código público que contenha:

  - README explicando como instalar e executar o projeto
  - Arquivo de requisitos com todos os pacotes utilizados e suas versões
  - Relatórios das análises estatísticas e EDA em PDF, Jupyter Notebook ou semelhante conforme passo 1 e 2.
  - Códigos de modelagem utilizados no passo 3 (pode ser entregue no mesmo Jupyter Notebook).
  - Arquivo .pkl conforme passo 5 acima.
  Todos os códigos produzidos devem seguir as boas práticas de codificação.


# **Ajustes iniciais**

Antes de tudo, vamos importar as bibliotecas que serão necessárias para realizarmos nossas análises.

In [41]:
# Manipulação de dados
import pandas as pd

# Algébra linear
import numpy as np

# Visualização de dados
import matplotlib.pyplot as plt
import seaborn as sns

# Funções estatísticas
import statistics
from scipy import stats

# Importando o skew
from scipy.stats import skew

Agora vamos importar nossos dados.

In [42]:
# Acesso ao drive
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [43]:
# Importando o dataset
df = pd.read_csv('/content/drive/MyDrive/Dados/desafio_indicium_imdb.csv')

# Observando os primeiro registros
df.head()

Unnamed: 0.1,Unnamed: 0,Series_Title,Released_Year,Certificate,Runtime,Genre,IMDB_Rating,Overview,Meta_score,Director,Star1,Star2,Star3,Star4,No_of_Votes,Gross
0,1,The Godfather,1972,A,175 min,"Crime, Drama",9.2,An organized crime dynasty's aging patriarch t...,100.0,Francis Ford Coppola,Marlon Brando,Al Pacino,James Caan,Diane Keaton,1620367,134966411
1,2,The Dark Knight,2008,UA,152 min,"Action, Crime, Drama",9.0,When the menace known as the Joker wreaks havo...,84.0,Christopher Nolan,Christian Bale,Heath Ledger,Aaron Eckhart,Michael Caine,2303232,534858444
2,3,The Godfather: Part II,1974,A,202 min,"Crime, Drama",9.0,The early life and career of Vito Corleone in ...,90.0,Francis Ford Coppola,Al Pacino,Robert De Niro,Robert Duvall,Diane Keaton,1129952,57300000
3,4,12 Angry Men,1957,U,96 min,"Crime, Drama",9.0,A jury holdout attempts to prevent a miscarria...,96.0,Sidney Lumet,Henry Fonda,Lee J. Cobb,Martin Balsam,John Fiedler,689845,4360000
4,5,The Lord of the Rings: The Return of the King,2003,U,201 min,"Action, Adventure, Drama",8.9,Gandalf and Aragorn lead the World of Men agai...,94.0,Peter Jackson,Elijah Wood,Viggo Mortensen,Ian McKellen,Orlando Bloom,1642758,377845905


Neste primeiro contato, podemos notar que nossa base de dados possui diversos tipos de dados, desde numéricos até categóricos. Dito isso, vamos observar as dimensões deste nosso dataset.

In [44]:
# Dimensão do nosso DF
df.shape

(999, 16)

Temos um total de 999 linhas e 16 colunas. Sabendo disso, vamos dar uma olhada no nosso dicionário de dados.

Agora vamos observar o dicionário dos dados.

- Series_Title – Nome do filme
- Released_Year - Ano de lançamento
- Certificate - Classificação etária
- Runtime – Tempo de duração
- Genre - Gênero
- IMDB_Rating - Nota do IMDB
- Overview - Overview do filme
- Meta_score - Média ponderada de todas as críticas
- Director – Diretor
- Star1 - Ator/atriz #1
- Star2 - Ator/atriz #2
- Star3 - Ator/atriz #3
- Star4 - Ator/atriz #4
- No_of_Votes - Número de votos
- Gross - Faturamento


Agora que temos o dicionário para nos auxiliar, vamos observar o tipo de dado presente em cada uma das nossas colunas.

In [45]:
# Observando o tipo dos dados
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 999 entries, 0 to 998
Data columns (total 16 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Unnamed: 0     999 non-null    int64  
 1   Series_Title   999 non-null    object 
 2   Released_Year  999 non-null    object 
 3   Certificate    898 non-null    object 
 4   Runtime        999 non-null    object 
 5   Genre          999 non-null    object 
 6   IMDB_Rating    999 non-null    float64
 7   Overview       999 non-null    object 
 8   Meta_score     842 non-null    float64
 9   Director       999 non-null    object 
 10  Star1          999 non-null    object 
 11  Star2          999 non-null    object 
 12  Star3          999 non-null    object 
 13  Star4          999 non-null    object 
 14  No_of_Votes    999 non-null    int64  
 15  Gross          830 non-null    object 
dtypes: float64(2), int64(2), object(12)
memory usage: 125.0+ KB


Agora podemos notar que a variável 'Unnamed' é do tipo inteiro. Essa variável normalmente aparece em arquivos do tipo CSV; ela é algo como um índice sem nome. Dito isso vamos excluir ela do nosso df

In [46]:
# Excluindo a coluna 'Unnamed:0'
df = df.drop('Unnamed: 0', axis = 1)

Agora, vamos seguir para as próximas e dividir nossos dados numéricos dos nossos dados categóricos.

**Dados numéricos**

- A variável 'IMDB_Rating' é uma variável numérica do tipo float.
- A variável 'Meta_score' também é numérica do tipo float.
- A variável 'No_of_Votes' é do tipo numérica e int.

**Dados categóricos**

Já os dados categóricos são compostos pelas seguintes variáveis:

- 'Series_Title', 'Released_Year', 'Certificate', 'Runtime', 'Genre', 'Overview', 'Director', 'Star1', 'Star2', 'Star3', 'Star4', 'Gross'.


Aqui podemos notar que alguns dados categóricos deveriam ser do tipo numérico. Um exemplo é a variável 'Gross', que é referente ao faturamento e deveria ser do tipo float. Algo semelhante acontece com a variável 'Released_Year', que deveria ser do tipo numérico ou do tipo date. Também podemos observar a variável 'Runtime', que representa o tempo do filme em minutos e está como categórica.

É possível realizar algumas conversões necessárias para que possamos trabalhar melhor com esses dados.


Dito isso antes de partirmos para os proximos passos vamos realizar essas conversões visando conseguirmos analisar os dados de forma mais assertiva

Ajustando os dados presentes na coluna **'Gross'**

In [47]:
# Removendo as vírgulas, convertendo para numérico e substituindo valores inválidos por NaN
df['Gross'] = df['Gross'].str.replace(',', '')
df['Gross'] = pd.to_numeric(df['Gross'], errors='coerce')

# Convertendo para float
df['Gross'] = df['Gross'].astype(float)

# Formatando a coluna 'Gross' para exibição
df['Gross_formatted'] = df['Gross'].apply(lambda x: f"{x:,.0f}" if pd.notnull(x) else 'NaN')

Apos essas operações nossos dados na coluna 'Gross_formatted' que criamos ja devem estar no formato float, dito isso vamos ajustar o restante das nossas variaveis

Ajustando os dados rpesentes na coluna **'Realeased_Year'**

In [48]:
# Convertendo as datas
df['Released_Year'] = pd.to_datetime(df['Released_Year'], format='%Y', errors='coerce')

Dessa forma nossos dados na coluna 'REaleased_Year' assumem o tipo datetime

Ajustando os dados presentes na coluna **'Runtime'**

In [49]:
# Removendo a unidade de tempo e transformando para inteiro
df['Runtime/min'] = df['Runtime'].str.replace(' min', '').astype(float)

# Excluindo a coluna Runtime
df.drop('Runtime', axis = 1)

Unnamed: 0,Series_Title,Released_Year,Certificate,Genre,IMDB_Rating,Overview,Meta_score,Director,Star1,Star2,Star3,Star4,No_of_Votes,Gross,Gross_formatted,Runtime/min
0,The Godfather,1972-01-01,A,"Crime, Drama",9.200,An organized crime dynasty's aging patriarch t...,100.000,Francis Ford Coppola,Marlon Brando,Al Pacino,James Caan,Diane Keaton,1620367,134966411.000,134966411,175.000
1,The Dark Knight,2008-01-01,UA,"Action, Crime, Drama",9.000,When the menace known as the Joker wreaks havo...,84.000,Christopher Nolan,Christian Bale,Heath Ledger,Aaron Eckhart,Michael Caine,2303232,534858444.000,534858444,152.000
2,The Godfather: Part II,1974-01-01,A,"Crime, Drama",9.000,The early life and career of Vito Corleone in ...,90.000,Francis Ford Coppola,Al Pacino,Robert De Niro,Robert Duvall,Diane Keaton,1129952,57300000.000,57300000,202.000
3,12 Angry Men,1957-01-01,U,"Crime, Drama",9.000,A jury holdout attempts to prevent a miscarria...,96.000,Sidney Lumet,Henry Fonda,Lee J. Cobb,Martin Balsam,John Fiedler,689845,4360000.000,4360000,96.000
4,The Lord of the Rings: The Return of the King,2003-01-01,U,"Action, Adventure, Drama",8.900,Gandalf and Aragorn lead the World of Men agai...,94.000,Peter Jackson,Elijah Wood,Viggo Mortensen,Ian McKellen,Orlando Bloom,1642758,377845905.000,377845905,201.000
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
994,Breakfast at Tiffany's,1961-01-01,A,"Comedy, Drama, Romance",7.600,A young New York socialite becomes interested ...,76.000,Blake Edwards,Audrey Hepburn,George Peppard,Patricia Neal,Buddy Ebsen,166544,,,115.000
995,Giant,1956-01-01,G,"Drama, Western",7.600,Sprawling epic covering the life of a Texas ca...,84.000,George Stevens,Elizabeth Taylor,Rock Hudson,James Dean,Carroll Baker,34075,,,201.000
996,From Here to Eternity,1953-01-01,Passed,"Drama, Romance, War",7.600,"In Hawaii in 1941, a private is cruelly punish...",85.000,Fred Zinnemann,Burt Lancaster,Montgomery Clift,Deborah Kerr,Donna Reed,43374,30500000.000,30500000,118.000
997,Lifeboat,1944-01-01,,"Drama, War",7.600,Several survivors of a torpedoed merchant ship...,78.000,Alfred Hitchcock,Tallulah Bankhead,John Hodiak,Walter Slezak,William Bendix,26471,,,97.000


Apos essa mudança os dados na coluna 'Runtime' assumem o tipo float

Dessa forma acabamos de converter os valores presentes na coluna 'gross' para valores do tipo float, já na coluna 'Released_Year' estamos convertendo os dados para o tipo data, enquanto a coluna runtime retiramos a palavra 'min' deixamos um espaço em branco no lugar e transformamos o restante do valor que sobrou em valores do tipo int

Vamos confirmar as mudanãs observando algumas informações dos nossos dados

In [50]:
# Observando algumas informações
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 999 entries, 0 to 998
Data columns (total 17 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   Series_Title     999 non-null    object        
 1   Released_Year    998 non-null    datetime64[ns]
 2   Certificate      898 non-null    object        
 3   Runtime          999 non-null    object        
 4   Genre            999 non-null    object        
 5   IMDB_Rating      999 non-null    float64       
 6   Overview         999 non-null    object        
 7   Meta_score       842 non-null    float64       
 8   Director         999 non-null    object        
 9   Star1            999 non-null    object        
 10  Star2            999 non-null    object        
 11  Star3            999 non-null    object        
 12  Star4            999 non-null    object        
 13  No_of_Votes      999 non-null    int64         
 14  Gross            830 non-null    float64  

Aqui podemos confirmar que nossas mudanças foram aplicadas com exito, dito isso vamos avançar com a nossa analise

# **Análise inicial nos dados**

Nessa etapa, vamos estabelecer um primeiro contato com os nossos dados. Para começar, vamos responder algumas perguntas:



- Quantos dados temos? (Número de linhas e colunas)

- Quais são as colunas numéricas?

- Existem dados nulos nesta base de dados? O que será que esses dados indicam ?

- Qual é a média, mediana, 25º percentil, 75º percentil, mínimo e máximo de cada uma das colunas numéricas?

Como vimos anteriormente nosso df possui 999 linhas e 16 colunas

Agora vamos checar quantas colunas numericas restaram após aplicarmos as devidas transformações

In [51]:
# Observando algumas informações
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 999 entries, 0 to 998
Data columns (total 17 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   Series_Title     999 non-null    object        
 1   Released_Year    998 non-null    datetime64[ns]
 2   Certificate      898 non-null    object        
 3   Runtime          999 non-null    object        
 4   Genre            999 non-null    object        
 5   IMDB_Rating      999 non-null    float64       
 6   Overview         999 non-null    object        
 7   Meta_score       842 non-null    float64       
 8   Director         999 non-null    object        
 9   Star1            999 non-null    object        
 10  Star2            999 non-null    object        
 11  Star3            999 non-null    object        
 12  Star4            999 non-null    object        
 13  No_of_Votes      999 non-null    int64         
 14  Gross            830 non-null    float64  

**Dados numéricos**

- As variáveis 'IMDB_Rating', 'Meta_score', 'No_of_Votes', 'Runtime/min'.

**Dados do tipo data**

- A variavel 'Released_Year'

**Dados categóricos**

- 'Series_Title', 'Certificate', 'Genre', 'Overview', 'Director', 'Star1', 'Star2', 'Star3', 'Star4'.

Agora vamos observar quantos valores ausentes existem em nossa base.

In [52]:
# Observando os valores ausentes
def percent_ausentes(df):
    p_faltantes = df.isnull().mean()
    valores_faltantes = pd.DataFrame({'Variavéis': df.columns,
                                           '% de ausentes': p_faltantes}
                                      ).reset_index(drop = True)

    return valores_faltantes.sort_values(by = ['% de ausentes'], ascending = False)

# Exibindo a quantidade de valores ausentes
percent_ausentes(df)

Unnamed: 0,Variavéis,% de ausentes
14,Gross,0.169
7,Meta_score,0.157
2,Certificate,0.101
1,Released_Year,0.001
0,Series_Title,0.0
10,Star2,0.0
15,Gross_formatted,0.0
13,No_of_Votes,0.0
12,Star4,0.0
11,Star3,0.0


A variavel 'Gross' apresenta cerca de 16,9% de valores ausentes também podemos observar cerca de 15,7% dados ausentes na variavel 'Meta_score', 10,1% em 'Certificate' e 1% em 'Released_Year'. Levando em consideração a quantidade dos nosso dados muito provavelmente teremos 169 valores ausentes em 'Gross', 157 em 'Meta_score', 101 em 'Certificate' e 1 em 'Released_Year'

Vamos ver se essas suspeitas realmente estão corretas

In [53]:
# Observando a soma dos valores ausentes
df.isnull().sum().sort_values(ascending = False)

Gross              169
Meta_score         157
Certificate        101
Released_Year        1
Series_Title         0
Star2                0
Gross_formatted      0
No_of_Votes          0
Star4                0
Star3                0
Director             0
Star1                0
Overview             0
IMDB_Rating          0
Genre                0
Runtime              0
Runtime/min          0
dtype: int64

Confirmarmos nossas suspetias, agora podemos seguir para a observação do resumo estatistico dos nossos dados

In [54]:
# Resumo estatístico dos dados
desc = df.describe()

# Formatar números para exibir menos casas decimais
pd.options.display.float_format = '{:.3f}'.format

# Exibindo as estatísticas descritivas formatadas
desc

Unnamed: 0,Released_Year,IMDB_Rating,Meta_score,No_of_Votes,Gross,Runtime/min
count,998,999.0,842.0,999.0,830.0,999.0
mean,1991-03-20 10:33:25.611222400,7.948,77.969,271621.422,68082574.105,122.872
min,1920-01-01 00:00:00,7.6,28.0,25088.0,1305.0,45.0
25%,1976-01-01 00:00:00,7.7,70.0,55471.5,3245338.5,103.0
50%,1999-01-01 00:00:00,7.9,79.0,138356.0,23457439.5,119.0
75%,2009-01-01 00:00:00,8.1,87.0,373167.5,80876340.25,137.0
max,2020-01-01 00:00:00,9.2,100.0,2303232.0,936662225.0,321.0
std,,0.272,12.383,320912.621,109807553.386,28.101


Observando os os dados em 'Realeased_Year' que é referente ao ano de lançamento dos filmes

- Podemos observar que o filme mais antigo em nossa base é de 1920, podemos observar que 25% dos filmes foram lançados antes de 1976, sendo que metade dos filmes foram lançados antes de 1999 consequentemente a outra metade foi lançado após 1999, apenas 25% filems foram lançados depois de 2009. Aqui a média esta um pouco distante da mediana, provavelmente a distribuição apresenta alguma assimetria

Agora vamos observar a coluna 'IMDB_Rating'

- Temos uma nota média de 7,9 sendo que a menor nota é 7,6 25% dos nossos filmes apresentam uma nota menor que a media, 50% dos nossos filmes apresentam notas abaixo ou igual a média temos que 25% dos filems apresetam uma nota maior que 8,1. A maior nota de um filme foi de 9,2. Importante frisarmos que temos uma media bem proximo a uma mediana o que pode indicar uma distribuição bem proxima de uma normal, podemos fortalecer nossas suspeitas quando observamos o desvio padrão que é e 0,27 é um desvio bem baixo indicando que os dados variam pouco em relação a média

Observando a coluna 'Meta_score'

- Podemos observar que A media é de 77 enquanto a menor nota é de 28, 25% dos nossos filmes tem notas iguais ou inferior a 70 sendo que a metade dos filmes tem notas iguais ou inferior a 75 e 25% apresentam nota superior a 87, é possivel observar que temos regfistros de filmes com a nota maxima que é de 100. Não temos um desvio padrão tão alto indicando assim que os dados se distanciam mas não tanto da média

Observando a coluna 'No_of_Votes'

- Temos uma media de numero de votos de 271 mil enquanto o menor numero de votos é de 25 mil, 25% dos filmes apresentam um numero de votos igual ou inferior a 55 mil, sendo que metade dos nossos filmes apresentam um numero de votos igual ou inferior 138 mil 25% dos filmes apresentam um numero de notas igual ou superior a 373 mil votos enquanto o maior numero de votos é de 2 milhões e 300 mil votos, temos um desvio padrão de 320 mil e julgando pela distancia entre a media e a mediana provavelmente esses dados estão bem dispersos

Coluna 'Gross'

- O faturamento medio dos filmes é de 68 milhões, sendo que o menor faturamento registrado em nossa base é de 1 milhão e 300 mil, 25% dos filmes apresentam um faturamento igual ou inferior a 3 milhões, sendo que metade dos filmes faturam um valor igual ou inferior a 23 milhões enquanto 25% dos nossos filmes que mais faturam apresentam um faturamento igual ou superior a 80 milhões o filme com maior faturamento em nossa base é de 936 milhões, temos um desvio padrão bem alto de 100 milhões e a julgar também pela diferença entre a media e mediana podemos concluir que esses dados estão bem dispersos e sua distribuição muito provavelmente não esta proxima de uma normal

# **Gerando o requirements**

In [None]:
"""

# Gerar o arquivo de requisitos
!pip freeze > requirements.txt

# Verificar o conteúdo do arquivo de requisitos
!cat requirements.txt

# Baixar o arquivo de requisitos
from google.colab import files
files.download('requirements.txt')

"""

"\n\n# Gerar o arquivo de requisitos\n!pip freeze > requirements.txt\n\n# Verificar o conteúdo do arquivo de requisitos\n!cat requirements.txt\n\n# Baixar o arquivo de requisitos\nfrom google.colab import files\nfiles.download('requirements.txt')\n\n"