# Análise de dados do IMDb #

- [IMDB](https://www.imdb.com/) (Internet Movie Database) é uma base de dados online para avaliação e informações sobre filmes e séries de TV.

<center>
    
<p><img src="https://m.media-amazon.com/images/G/01/IMDb/brand/guidelines/imdb/IMDb_BrandBanner_1920x425.jpg" alt="Logo_IMDb" width='85%'></p>

</center>

Realizar tratamento e análise exploratória dos dados 

- Verificar o top 10 filmes melhores avaliações
- Verificar o top 10 filmes piores avaliações
- Número de Títulos por Gênero (Top 10)
- Quantidade de Títulos por Ano


A base de dados foi disponibilizada no [**Keagle**](https://www.kaggle.com/datasets/kianindeed/imdb-movie-dataset-dec-2023?select=imdb_movie_data_2023.csv)

### Importando Dados

Importando as bibliotecas necessárias e a base de dados


In [1]:
#Importando bibliotecas
import pandas as pd


#Importando dados
base_imdb = pd.read_csv('imdb_movie_data_2023.csv')


### Análise e visualização inicial dos Dados

### Qual o tamanho da nossa base de dados?

Podemos verificar no código abaixo, que temos 1950 linhas e 11 colunas em nossa base

In [2]:
base_imdb.shape

(1950, 11)

### Quais os nomes das colunas?

In [3]:
base_imdb.columns

Index(['Unnamed: 0', 'Moive Name', 'Rating', 'Votes', 'Meta Score', 'Genre',
       'PG Rating', 'Year', 'Duration', 'Cast', 'Director'],
      dtype='object')

### Quais os tipos das váriaveis

In [4]:
base_imdb.dtypes

Unnamed: 0      int64
Moive Name     object
Rating        float64
Votes         float64
Meta Score    float64
Genre          object
PG Rating      object
Year            int64
Duration       object
Cast           object
Director       object
dtype: object

### Conteúdo das primeiras linhas

Com essa visualização inicial é possível verificar como os dados estão organizados e apresentados.
Através disso, podemos começar a ver o que precisamos tratar nos dados.

In [5]:
base_imdb.head(5)

Unnamed: 0.1,Unnamed: 0,Moive Name,Rating,Votes,Meta Score,Genre,PG Rating,Year,Duration,Cast,Director
0,0,Leave the World Behind,6.5,90000.0,67.0,"Drama, Mystery, Thriller",R,2023,2h 18m,"Julia Roberts, Mahershala Ali, Ethan Hawke, My...",Sam Esmail
1,1,Wonka,7.4,24000.0,66.0,"Adventure, Comedy, Family",PG,2023,1h 56m,"Timothée Chalamet, Gustave Die, Murray McArthu...",Paul King
2,2,Poor Things,8.5,6700.0,86.0,"Comedy, Drama, Romance",R,2023,2h 21m,"Emma Stone, Mark Ruffalo, Willem Dafoe, Ramy Y...",Yorgos Lanthimos
3,3,Killers of the Flower Moon,7.8,128000.0,89.0,"Crime, Drama, History",R,2023,3h 26m,"Leonardo DiCaprio, Robert De Niro, Lily Gladst...",Martin Scorsese
4,4,May December,7.0,21000.0,85.0,"Comedy, Drama",R,2023,1h 57m,"Natalie Portman, Chris Tenzis, Charles Melton,...",Todd Haynes


Através da visualização inicial, podemos notar que existe uma coluna **"Unnamed"** com índice, podemos retirar e a coluna **"Moive Name"** possui um erro na digitação, ajustaremos para **Movie Name**

### Excluindo a coluna "Unnamed"

In [6]:
#Excluindo a coluna "Unnamed: 0
base_imdb = base_imdb.drop(['Unnamed: 0'], axis=1)
base_imdb.head()

Unnamed: 0,Moive Name,Rating,Votes,Meta Score,Genre,PG Rating,Year,Duration,Cast,Director
0,Leave the World Behind,6.5,90000.0,67.0,"Drama, Mystery, Thriller",R,2023,2h 18m,"Julia Roberts, Mahershala Ali, Ethan Hawke, My...",Sam Esmail
1,Wonka,7.4,24000.0,66.0,"Adventure, Comedy, Family",PG,2023,1h 56m,"Timothée Chalamet, Gustave Die, Murray McArthu...",Paul King
2,Poor Things,8.5,6700.0,86.0,"Comedy, Drama, Romance",R,2023,2h 21m,"Emma Stone, Mark Ruffalo, Willem Dafoe, Ramy Y...",Yorgos Lanthimos
3,Killers of the Flower Moon,7.8,128000.0,89.0,"Crime, Drama, History",R,2023,3h 26m,"Leonardo DiCaprio, Robert De Niro, Lily Gladst...",Martin Scorsese
4,May December,7.0,21000.0,85.0,"Comedy, Drama",R,2023,1h 57m,"Natalie Portman, Chris Tenzis, Charles Melton,...",Todd Haynes


### Corrigindo nome da coluna

In [7]:
base_imdb = base_imdb.rename(columns={'Moive Name': 'Movie Name'})
base_imdb.head()

Unnamed: 0,Movie Name,Rating,Votes,Meta Score,Genre,PG Rating,Year,Duration,Cast,Director
0,Leave the World Behind,6.5,90000.0,67.0,"Drama, Mystery, Thriller",R,2023,2h 18m,"Julia Roberts, Mahershala Ali, Ethan Hawke, My...",Sam Esmail
1,Wonka,7.4,24000.0,66.0,"Adventure, Comedy, Family",PG,2023,1h 56m,"Timothée Chalamet, Gustave Die, Murray McArthu...",Paul King
2,Poor Things,8.5,6700.0,86.0,"Comedy, Drama, Romance",R,2023,2h 21m,"Emma Stone, Mark Ruffalo, Willem Dafoe, Ramy Y...",Yorgos Lanthimos
3,Killers of the Flower Moon,7.8,128000.0,89.0,"Crime, Drama, History",R,2023,3h 26m,"Leonardo DiCaprio, Robert De Niro, Lily Gladst...",Martin Scorsese
4,May December,7.0,21000.0,85.0,"Comedy, Drama",R,2023,1h 57m,"Natalie Portman, Chris Tenzis, Charles Melton,...",Todd Haynes


### Dados Ausentes

Devemos sempre fazer a verificação dos dados ausentes para decidir como será a tratativa para os mesmos para que não afete a análise dos dados

In [8]:
base_imdb.isnull().sum().sort_values(ascending=False)

Meta Score    117
Genre         117
Cast          117
Director      117
PG Rating      76
Rating          6
Votes           6
Duration        2
Movie Name      0
Year            0
dtype: int64

#### Podemos ter várias formas de tratar os valores vazios
#### Para essa análise, iremos excluir as linhas que possuirem ao menos uma informação vazia. 

In [9]:
base_imdb=base_imdb.dropna()

#### Verificando se ainda existem dados vazios

In [10]:
base_imdb.isnull().sum().sort_values(ascending=False)

Movie Name    0
Rating        0
Votes         0
Meta Score    0
Genre         0
PG Rating     0
Year          0
Duration      0
Cast          0
Director      0
dtype: int64

#### Verificando o tamanho atualizado da base

In [11]:
base_imdb.shape

(1784, 10)

## Após os tratamentos nos dados, podemos responder as perguntas

### Top 10 títulos com maiores avaliações

In [None]:
top_filmes = base_imdb.sort_values(by=['Rating'], ascending=False)
top_filmes.reset_index(inplace=True)
top_filmes[['Movie Name','Rating']].head(10)

### Top 10 títulos com piores avaliações

In [None]:
piores_filmes = base_imdb.sort_values(by=['Rating'], ascending=True)
piores_filmes.reset_index(inplace=True)
piores_filmes[['Movie Name','Rating']].head(10)

### Número de títulos por Gênero (Top 10)

In [27]:
titulos_genero = base_imdb['Genre'].value_counts()
titulos_genero.head(10)

Action, Adventure, Sci-Fi       92
Comedy                          62
Comedy, Drama, Romance          58
Animation, Adventure, Comedy    52
Action, Adventure, Fantasy      51
Drama                           50
Action, Adventure, Comedy       47
Comedy, Romance                 45
Drama, Romance                  44
Comedy, Drama                   40
Name: Genre, dtype: int64

### Quantidade de títulos por Ano

In [43]:
titulos_ano = base_imdb[['Movie Name','Year']].groupby('Year').count()
display(titulos_ano)

Unnamed: 0_level_0,Movie Name
Year,Unnamed: 1_level_1
1938,1
1939,3
1941,1
1942,2
1944,1
...,...
2019,71
2020,40
2021,67
2022,100
