# Desafio Cientista de Dados da PProductions

## Objetivo do Projeto
O objetivo deste projeto é analisar um banco de dados cinematográfico para orientar a **PProductions**, a qual tipo de filme deve ser o próximo a ser desenvolvido

## Passo 1: Análise Exploratória e Limpeza dos Dados (EDA)

In [3]:
import pandas as pd

In [4]:
df = pd.read_csv('desafio_indicium_imdb.csv')

In [5]:
df.head()

Unnamed: 0.1,Unnamed: 0,Series_Title,Released_Year,Certificate,Runtime,Genre,IMDB_Rating,Overview,Meta_score,Director,Star1,Star2,Star3,Star4,No_of_Votes,Gross
0,1,The Godfather,1972,A,175 min,"Crime, Drama",9.2,An organized crime dynasty's aging patriarch t...,100.0,Francis Ford Coppola,Marlon Brando,Al Pacino,James Caan,Diane Keaton,1620367,134966411
1,2,The Dark Knight,2008,UA,152 min,"Action, Crime, Drama",9.0,When the menace known as the Joker wreaks havo...,84.0,Christopher Nolan,Christian Bale,Heath Ledger,Aaron Eckhart,Michael Caine,2303232,534858444
2,3,The Godfather: Part II,1974,A,202 min,"Crime, Drama",9.0,The early life and career of Vito Corleone in ...,90.0,Francis Ford Coppola,Al Pacino,Robert De Niro,Robert Duvall,Diane Keaton,1129952,57300000
3,4,12 Angry Men,1957,U,96 min,"Crime, Drama",9.0,A jury holdout attempts to prevent a miscarria...,96.0,Sidney Lumet,Henry Fonda,Lee J. Cobb,Martin Balsam,John Fiedler,689845,4360000
4,5,The Lord of the Rings: The Return of the King,2003,U,201 min,"Action, Adventure, Drama",8.9,Gandalf and Aragorn lead the World of Men agai...,94.0,Peter Jackson,Elijah Wood,Viggo Mortensen,Ian McKellen,Orlando Bloom,1642758,377845905


In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 999 entries, 0 to 998
Data columns (total 16 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Unnamed: 0     999 non-null    int64  
 1   Series_Title   999 non-null    object 
 2   Released_Year  999 non-null    object 
 3   Certificate    898 non-null    object 
 4   Runtime        999 non-null    object 
 5   Genre          999 non-null    object 
 6   IMDB_Rating    999 non-null    float64
 7   Overview       999 non-null    object 
 8   Meta_score     842 non-null    float64
 9   Director       999 non-null    object 
 10  Star1          999 non-null    object 
 11  Star2          999 non-null    object 
 12  Star3          999 non-null    object 
 13  Star4          999 non-null    object 
 14  No_of_Votes    999 non-null    int64  
 15  Gross          830 non-null    object 
dtypes: float64(2), int64(2), object(12)
memory usage: 125.0+ KB


Durante a análise exploratória, é possível identificar que:

- A coluna **Gross** foi lida como texto.
- A coluna **Released_Year** foi lida como texto.
Precisamos entender **por que** essas inconsistências aconteceram

In [7]:
df['Gross'].sample(10)

847    119,500,000
761            NaN
824     82,418,501
815      3,151,130
155      1,223,240
708            NaN
685     21,500,000
973     66,666,062
602    102,515,793
888     18,340,051
Name: Gross, dtype: object

In [8]:
df['Released_Year'].unique()

array(['1972', '2008', '1974', '1957', '2003', '1994', '1993', '2010',
       '1999', '2001', '1966', '2002', '1990', '1980', '1975', '2020',
       '2019', '2014', '1998', '1997', '1995', '1991', '1977', '1962',
       '1954', '1946', '2011', '2006', '2000', '1988', '1985', '1968',
       '1960', '1942', '1936', '1931', '2018', '2017', '2016', '2012',
       '2009', '2007', '1984', '1981', '1979', '1971', '1963', '1964',
       '1950', '1940', '2013', '2005', '2004', '1992', '1987', '1986',
       '1983', '1976', '1973', '1965', '1959', '1958', '1952', '1948',
       '1944', '1941', '1927', '1921', '2015', '1996', '1989', '1978',
       '1961', '1955', '1953', '1925', '1924', '1982', '1967', '1951',
       '1949', '1939', '1937', '1934', '1928', '1926', '1920', '1970',
       '1969', '1956', '1947', '1945', '1930', '1938', '1935', '1933',
       '1932', '1922', '1943', 'PG'], dtype=object)

 **Gross**  
  - **Motivo do erro:** a coluna contém vírgulas (`','`) o que faz o Pandas interpretar os dados como texto.  
  - **Correção:** remover vírgulas e substituir valores nulos.  

- **Released_Year**  
  - **Motivo do erro:** há registros incorretos, como o valor `'PG'`, que não representa um ano.  
  - **Correção:** remover os registros inválidos e converter a coluna para **int**.  

In [9]:
df = df[df['Released_Year'] != 'PG']

In [10]:
df['Released_Year'] = df['Released_Year'].astype(int)

In [11]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 998 entries, 0 to 998
Data columns (total 16 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Unnamed: 0     998 non-null    int64  
 1   Series_Title   998 non-null    object 
 2   Released_Year  998 non-null    int64  
 3   Certificate    897 non-null    object 
 4   Runtime        998 non-null    object 
 5   Genre          998 non-null    object 
 6   IMDB_Rating    998 non-null    float64
 7   Overview       998 non-null    object 
 8   Meta_score     841 non-null    float64
 9   Director       998 non-null    object 
 10  Star1          998 non-null    object 
 11  Star2          998 non-null    object 
 12  Star3          998 non-null    object 
 13  Star4          998 non-null    object 
 14  No_of_Votes    998 non-null    int64  
 15  Gross          829 non-null    object 
dtypes: float64(2), int64(3), object(11)
memory usage: 132.5+ KB


In [12]:
df['Released_Year'].unique()

array([1972, 2008, 1974, 1957, 2003, 1994, 1993, 2010, 1999, 2001, 1966,
       2002, 1990, 1980, 1975, 2020, 2019, 2014, 1998, 1997, 1995, 1991,
       1977, 1962, 1954, 1946, 2011, 2006, 2000, 1988, 1985, 1968, 1960,
       1942, 1936, 1931, 2018, 2017, 2016, 2012, 2009, 2007, 1984, 1981,
       1979, 1971, 1963, 1964, 1950, 1940, 2013, 2005, 2004, 1992, 1987,
       1986, 1983, 1976, 1973, 1965, 1959, 1958, 1952, 1948, 1944, 1941,
       1927, 1921, 2015, 1996, 1989, 1978, 1961, 1955, 1953, 1925, 1924,
       1982, 1967, 1951, 1949, 1939, 1937, 1934, 1928, 1926, 1920, 1970,
       1969, 1956, 1947, 1945, 1930, 1938, 1935, 1933, 1932, 1922, 1943])

## Correção do Released_Year feita

In [13]:
df['Gross'] = df['Gross'].fillna('0')

In [14]:
df['Gross'] = df['Gross'].str.replace(',', '')

In [15]:
df['Gross'] = df['Gross'].astype('int64')

In [16]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 998 entries, 0 to 998
Data columns (total 16 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Unnamed: 0     998 non-null    int64  
 1   Series_Title   998 non-null    object 
 2   Released_Year  998 non-null    int64  
 3   Certificate    897 non-null    object 
 4   Runtime        998 non-null    object 
 5   Genre          998 non-null    object 
 6   IMDB_Rating    998 non-null    float64
 7   Overview       998 non-null    object 
 8   Meta_score     841 non-null    float64
 9   Director       998 non-null    object 
 10  Star1          998 non-null    object 
 11  Star2          998 non-null    object 
 12  Star3          998 non-null    object 
 13  Star4          998 non-null    object 
 14  No_of_Votes    998 non-null    int64  
 15  Gross          998 non-null    int64  
dtypes: float64(2), int64(4), object(10)
memory usage: 132.5+ KB


In [17]:
df['Gross'].sample(10)

544     22276975
256       309811
138      1626289
159            0
63       6532908
683     34700291
190      5014000
991    141843612
771      4398392
498     21002919
Name: Gross, dtype: int64

## Correção do Gross feita

In [18]:
df.describe()

Unnamed: 0.1,Unnamed: 0,Released_Year,IMDB_Rating,Meta_score,No_of_Votes,Gross
count,998.0,998.0,998.0,841.0,998.0,998.0
mean,499.533066,1991.214429,7.948297,77.970273,271623.9,56447590.0
std,288.297542,23.308539,0.272203,12.390581,321073.5,103271000.0
min,1.0,1920.0,7.6,28.0,25088.0,0.0
25%,250.25,1976.0,7.7,70.0,55416.75,438747.2
50%,499.5,1999.0,7.9,79.0,138168.5,10655800.0
75%,748.75,2009.0,8.1,87.0,373506.2,61446630.0
max,999.0,2020.0,9.2,100.0,2303232.0,936662200.0


## Hipótese 1: Diretores com maior média de notas tendem a produzir filmes mais bem avaliados

### Objetivo
**“Diretores que apresentam uma média de notas mais alta tendem a manter um padrão de qualidade em seus filmes, o que pode indicar maior probabilidade de sucesso em produções futuras.”**

### Estratégia de Análise
- O nome do diretor.  
- A nota média de seus filmes no dataset.  
- O número de filmes que cada diretor possui no conjunto. 

In [19]:
director_ratings = df.groupby('Director').agg(
    Media_IMDB_Rating=('IMDB_Rating', 'mean'),
    Numero_de_Filmes=('Series_Title', 'count')
).sort_values(by='Media_IMDB_Rating', ascending=False)

In [20]:
print("Tabela de Média de Notas por Diretor:")

Tabela de Média de Notas por Diretor:


In [21]:
print(director_ratings.head(15).to_string())

                                  Media_IMDB_Rating  Numero_de_Filmes
Director                                                             
Lana Wachowski                               8.7000                 1
Irvin Kershner                               8.7000                 1
Thomas Kail                                  8.6000                 1
Masaki Kobayashi                             8.6000                 1
George Lucas                                 8.6000                 1
Frank Darabont                               8.6000                 1
Sudha Kongara                                8.6000                 1
Fernando Meirelles                           8.6000                 1
Roberto Benigni                              8.6000                 1
Milos Forman                                 8.5000                 2
Roger Allers                                 8.5000                 1
Olivier Nakache                              8.5000                 1
Christopher Nolan   

### Resultados
A análise revelou os seguintes pontos principais:
- **Média de Notas Elevada:** a maioria dos diretores no topo da lista possui média ≥ 8.4.  
- **Consistência**  
  - Ex.: **Christopher Nolan** tem nota média 8.46 em **8 filmes**, mostrando repetição de sucesso.  
  - Ex.: **Lana Wachowski** tem média 8.7, mas com **apenas 1 filme**, o que pode indicar um caso isolado.  
- **Filmes com múltiplos diretores:** casos como o de **Roger Allers** devem ser interpretados com cautela, pois a média pode refletir a colaboração de mais de um profissional.  

**um diretor é melhor avaliado quando apresenta bons resultados em vários filmes, não apenas em um.** 

## Hipótese 2: O gênero influencia o desempenho de um diretor

### Objetivo
**“A avaliação média dos filmes de um diretor pode variar significativamente de acordo com o gênero em que ele atua, indicando que a especialização em determinados nichos pode aumentar suas chances de sucesso.”**

### Estratégia de Análise
Analisar as notas médias dos diretores **separadas por gênero**.  
Essa abordagem permite observar:
- Se diretores mantêm o mesmo desempenho em diferentes gêneros.  
- Se a especialização em um nicho específico pode ser uma vantagem competitiva.   

In [23]:
df['Genre'] = df['Genre'].str.split(', ')

In [53]:
df_exploded = df.explode('Genre')

In [54]:
director_genre_ratings = df_exploded.groupby(['Director', 'Genre']).agg(
    Media_IMDB_Rating=('IMDB_Rating', 'mean'),
    Numero_de_Filmes=('Series_Title', 'count')
).reset_index()

In [55]:
multi_genre_directors = director_genre_ratings.groupby('Director').filter(lambda x: len(x) > 1)

In [56]:
print("Média de Notas de Diretores que Trabalharam em Múltiplos Gêneros:")

Média de Notas de Diretores que Trabalharam em Múltiplos Gêneros:


In [57]:
print(multi_genre_directors.sort_values(by='Director').to_string())

                              Director      Genre  Media_IMDB_Rating  Numero_de_Filmes
0                           Aamir Khan      Drama           8.400000                 1
1                           Aamir Khan     Family           8.400000                 1
2                         Aaron Sorkin      Drama           7.800000                 1
3                         Aaron Sorkin    History           7.800000                 1
4                         Aaron Sorkin   Thriller           7.800000                 1
5                  Abdellatif Kechiche      Drama           7.700000                 1
6                  Abdellatif Kechiche    Romance           7.700000                 1
7                     Abhishek Chaubey     Action           7.800000                 1
8                     Abhishek Chaubey      Crime           7.800000                 1
9                     Abhishek Chaubey      Drama           7.800000                 1
10                     Abhishek Kapoor     

### Resultados
A análise revelou que:
- **Variação de desempenho:** diretores podem ter grandes diferenças de nota dependendo do gênero.  
  - Ex.: **Christopher Nolan** → 9.0 em Crime vs. 7.8 em História.  
- **Especialização como fator positivo:**  
  - **Alfred Hitchcock** → altas notas em Suspense (Aventura: 8.30, Horror: 8.10).  
  - **Akira Kurosawa** → destaque em Ação (8.28) e Aventura (8.35).  
- **Combinação de gêneros:** filmes que mesclam **Crime + Drama** ou **Ação + Aventura** aparecem entre os mais bem avaliados.  

# 2)a) Qual filme você recomendaria para uma pessoa que você não conhece?

In [58]:
recommendation_table = df[
    (df['IMDB_Rating'] > 8.5) & 
    (df['Meta_score'] >= 80) & 
    (df['No_of_Votes'] > 1500000)
].sort_values(by=['IMDB_Rating', 'No_of_Votes'], ascending=False)

In [59]:
if not recommendation_table.empty:
    print("Tabela de Filmes Recomendados:")
    print(recommendation_table[['Series_Title', 'IMDB_Rating', 'Meta_score', 'No_of_Votes']].head(3).to_string())
else:
    print("Nenhum filme se encaixa nos critérios rigorosos. Tente flexibilizar a busca.")


Tabela de Filmes Recomendados:
      Series_Title  IMDB_Rating  Meta_score  No_of_Votes
0    The Godfather          9.2       100.0      1620367
1  The Dark Knight          9.0        84.0      2303232
5     Pulp Fiction          8.9        94.0      1826188


**Eu escolheria The Dark Knight visto que há uma nota 9;0 e mais de 2.3 milhões de votos**

# 2)b) Quais são os principais fatores que estão relacionados com alta expectativa de faturamento de um filme? 

In [63]:
highest_grossing = df.sort_values(by='Gross', ascending=False)

In [64]:
top_grossing_table = highest_grossing.head(10)[[
    'Series_Title',
    'Director',
    'Genre',
    'IMDB_Rating',
    'Meta_score',
    'No_of_Votes',
    'Gross'
]]

In [65]:
print("Tabela dos 10 Filmes de Maior Faturamento:")

Tabela dos 10 Filmes de Maior Faturamento:


In [66]:
print(top_grossing_table.to_string())

                                   Series_Title           Director                           Genre  IMDB_Rating  Meta_score  No_of_Votes      Gross
476  Star Wars: Episode VII - The Force Awakens        J.J. Abrams     [Action, Adventure, Sci-Fi]          7.9        80.0       860823  936662225
58                            Avengers: Endgame      Anthony Russo      [Action, Adventure, Drama]          8.4        78.0       809955  858373000
622                                      Avatar      James Cameron    [Action, Adventure, Fantasy]          7.8        83.0      1118998  760507625
59                       Avengers: Infinity War      Anthony Russo     [Action, Adventure, Sci-Fi]          8.4        68.0       834477  678815482
651                                     Titanic      James Cameron                [Drama, Romance]          7.8        75.0      1046089  659325379
356                                The Avengers        Joss Whedon     [Action, Adventure, Sci-Fi]          8.0 

**Os principais fatores que estão relacionados com alta expectativa de faturamento de um filme são:**                                                                                                                                                                                                                                                                                                                                                                                                                          
**Gênero: Ação, Aventura e Sci-Fi dominam os filmes de maior faturamento.**

**Popularidade: O número de votos é um forte preditor de receita.**

**Diretor: Nomes como Christopher Nolan e James Cameron mostram a importância da reputação.**

# 2)c) Quais insights podem ser tirados com a coluna Overview? É possível inferir o gênero do filme a partir dessa coluna?


In [69]:
df['Overview'] = df['Overview'].str.lower()

In [68]:
keywords = {
    'Action': ['action', 'battle', 'fight', 'spy', 'mission'],
    'Sci-Fi': ['science fiction', 'space', 'future', 'robot', 'alien', 'planet'],
    'Crime': ['crime', 'gangster', 'mafia', 'murder', 'syndicate'],
    'Drama': ['family', 'story', 'life', 'relationship', 'personal'],
    'Fantasy': ['magic', 'creatures', 'fantasy', 'mythical', 'quest'],
    'Horror': ['horror', 'scary', 'fear', 'evil', 'ghost', 'haunted']
}


In [70]:
keyword_insights = []

In [71]:
for index, row in df.iterrows():
    overview_text = str(row['Overview'])
    movie_insights = {
        'Series_Title': row['Series_Title'],
        'Genre': row['Genre']
    }
    
    # Encontrar as palavras-chave que aparecem no resumo
    found_keywords = []
    inferred_genres = []
    
    for genre, genre_keywords in keywords.items():
        if any(keyword in overview_text for keyword in genre_keywords):
            found_keywords.extend([keyword for keyword in genre_keywords if keyword in overview_text])
            inferred_genres.append(genre)
            
    movie_insights['Inferred_Genres'] = ', '.join(list(set(inferred_genres)))
    movie_insights['Found_Keywords'] = ', '.join(list(set(found_keywords)))
    
    keyword_insights.append(movie_insights)


In [72]:
insights_df = pd.DataFrame(keyword_insights)

In [73]:
inferred_successfully = insights_df[insights_df['Inferred_Genres'] != '']

In [74]:
print("Tabela de Insights da Coluna Overview (Amostra):")

Tabela de Insights da Coluna Overview (Amostra):


In [75]:
print(inferred_successfully.head(10).to_string())

                                      Series_Title                         Genre Inferred_Genres                               Found_Keywords
0                                    The Godfather                [Crime, Drama]           Crime                                        crime
1                                  The Dark Knight        [Action, Crime, Drama]          Action                                        fight
2                           The Godfather: Part II                [Crime, Drama]    Drama, Crime               family, life, crime, syndicate
5                                     Pulp Fiction                [Crime, Drama]           Crime                                     gangster
8                                       Fight Club                       [Drama]  Action, Horror                                  evil, fight
13                                      The Matrix              [Action, Sci-Fi]   Drama, Horror                                   evil, life
14    

A coluna *Overview* traz resumos que dão bastante informação sobre os filmes. Nesses textos aparecem palavras que ajudam a identificar o gênero, como **"crime"**, **"fight"**, **"family"** ou **"space"**. Em muitos casos, dá para inferir o gênero pelo resumo. Por exemplo, em *The Godfather*, aparece a palavra "crime" e o gênero oficial é exatamente `Crime`. Mas nem sempre é tão simples: no caso de *Fight Club*, o gênero oficial é `Drama`, mas o resumo tem palavras como "fight" e "evil", o que poderia fazer o sistema pensar em `Ação` ou até `Horror`. Ou seja, os resumos podem ter termos de vários gêneros ao mesmo tempo. No geral, a coluna *Overview* é super útil para ter uma ideia do gênero, mas não dá para confiar 100% nela.

# 3)Explique como você faria a previsão da nota do imdb a partir dos dados. Quais variáveis e/ou suas transformações você utilizou e por quê? Qual tipo de problema estamos resolvendo (regressão, classificação)? Qual modelo melhor se aproxima dos dados e quais seus prós e contras? Qual medida de performance do modelo foi escolhida e por quê?

Eu faria a previsão da nota a partir desses dados utilizando as variáveis que mostraram maior relevância durante a minha análise, sendo estas: **`Meta_score`**, **`No_of_Votes`**, **`Director`**, **`Genre`**, além de **`Gross`** e **`Runtime`** como variáveis auxiliares. Para variáveis categóricas, como diretor e gênero, aplicaria **One-Hot Encoding** para transformá-las em valores numéricos.  

Esse é um problema de **regressão**, pois estamos prevendo um valor contínuo (a nota do IMDB). Entre os modelos disponíveis, acredito que o que melhor se aproxima dos dados é a **Random Forest Regressor**.  

- **Prós:** consegue capturar relações não lineares, lida bem com variáveis numéricas e categóricas.  
- **Contras:** é difícil entender em detalhe por que chegou a determinada conclusão.  

A medida de performance escolhida foi o **RMSE (Root Mean Squared Error)**, pois dá uma noção melhor de quão distante, em média, nossas previsões estão dos valores reais.  

# 4) Supondo um filme com as seguintes características:

# {'Series_Title': 'The Shawshank Redemption',
# 'Released_Year': '1994',
# 'Certificate': 'A',
# 'Runtime': '142 min',
# 'Genre': 'Drama',
# 'Overview': 'Two imprisoned men bond over a number of years, finding solace and eventual redemption through acts of common decency.',
# 'Meta_score': 80.0,
# 'Director': 'Frank Darabont',
# 'Star1': 'Tim Robbins',
# 'Star2': 'Morgan Freeman',
# 'Star3': 'Bob Gunton',
# 'Star4': 'William Sadler',
# 'No_of_Votes': 2343110,
# 'Gross': '28,341,469'}


# Qual seria a nota do IMDB?


In [78]:
shawshank_data = {
    'Series_Title': 'The Shawshank Redemption',
    'Released_Year': '1994',
    'Certificate': 'A',
    'Runtime': '142 min',
    'Genre': 'Drama',
    'Overview': 'Two imprisoned men bond over a number of years, finding solace and eventual redemption through acts of common decency.',
    'Meta_score': 80.0,
    'Director': 'Frank Darabont',
    'Star1': 'Tim Robbins',
    'Star2': 'Morgan Freeman',
    'Star3': 'Bob Gunton',
    'Star4': 'William Sadler',
    'No_of_Votes': 2343110,
    'Gross': '28,341,469'
}

In [79]:
df_predict = pd.DataFrame([shawshank_data])

In [80]:
print("DataFrame do filme preparado para o modelo:")

DataFrame do filme preparado para o modelo:


In [81]:
print(df_predict)

               Series_Title Released_Year Certificate  Runtime  Genre  \
0  The Shawshank Redemption          1994           A  142 min  Drama   

                                            Overview  Meta_score  \
0  Two imprisoned men bond over a number of years...        80.0   

         Director        Star1           Star2       Star3           Star4  \
0  Frank Darabont  Tim Robbins  Morgan Freeman  Bob Gunton  William Sadler   

   No_of_Votes       Gross  
0      2343110  28,341,469  


**Eu acredito que a nota do IMDB seria perto de 9.0 porque, olhando os dados, os filmes com notas mais altas têm características bem parecidas. Por exemplo, *The Godfather* tem a maior nota (9.2).**  

**As características de *The Shawshank Redemption*, como o número enorme de votos e um Meta_score de 80, colocam ele na mesma categoria de alta qualidade Por isso, 9.0 é uma estimativa baseada diretamente nos dados.**