## Projeto 2: Análise de Dados de Filmes

### Objetivo:

Manipular e limpar dados de filmes e criar visualizações para entender tendências e padrões.

### Passos:

#### 1. Obtenção dos Dados:

- Baixe um dataset de filmes. O IMDB Movies Dataset é uma boa escolha. 

#### 2. Exploração Inicial dos Dados:

- Carregue os dados usando Pandas.
- Exiba as primeiras linhas e verifique a estrutura do DataFrame.
- Obtenha informações básicas: tipos de dados, valores ausentes, estatísticas descritivas.

In [43]:
import pandas as pd
import seaborn as sns

In [25]:
df_filmes = pd.read_csv("imdb_top_1000.csv")

In [26]:
df_filmes.head()

Unnamed: 0,Poster_Link,Series_Title,Released_Year,Certificate,Runtime,Genre,IMDB_Rating,Overview,Meta_score,Director,Star1,Star2,Star3,Star4,No_of_Votes,Gross
0,https://m.media-amazon.com/images/M/MV5BMDFkYT...,The Shawshank Redemption,1994,A,142 min,Drama,9.3,Two imprisoned men bond over a number of years...,80.0,Frank Darabont,Tim Robbins,Morgan Freeman,Bob Gunton,William Sadler,2343110,28341469
1,https://m.media-amazon.com/images/M/MV5BM2MyNj...,The Godfather,1972,A,175 min,"Crime, Drama",9.2,An organized crime dynasty's aging patriarch t...,100.0,Francis Ford Coppola,Marlon Brando,Al Pacino,James Caan,Diane Keaton,1620367,134966411
2,https://m.media-amazon.com/images/M/MV5BMTMxNT...,The Dark Knight,2008,UA,152 min,"Action, Crime, Drama",9.0,When the menace known as the Joker wreaks havo...,84.0,Christopher Nolan,Christian Bale,Heath Ledger,Aaron Eckhart,Michael Caine,2303232,534858444
3,https://m.media-amazon.com/images/M/MV5BMWMwMG...,The Godfather: Part II,1974,A,202 min,"Crime, Drama",9.0,The early life and career of Vito Corleone in ...,90.0,Francis Ford Coppola,Al Pacino,Robert De Niro,Robert Duvall,Diane Keaton,1129952,57300000
4,https://m.media-amazon.com/images/M/MV5BMWU4N2...,12 Angry Men,1957,U,96 min,"Crime, Drama",9.0,A jury holdout attempts to prevent a miscarria...,96.0,Sidney Lumet,Henry Fonda,Lee J. Cobb,Martin Balsam,John Fiedler,689845,4360000


In [27]:
df_filmes.shape

(1000, 16)

In [28]:
df_filmes.columns

Index(['Poster_Link', 'Series_Title', 'Released_Year', 'Certificate',
       'Runtime', 'Genre', 'IMDB_Rating', 'Overview', 'Meta_score', 'Director',
       'Star1', 'Star2', 'Star3', 'Star4', 'No_of_Votes', 'Gross'],
      dtype='object')

In [29]:
colunas_selecionadas = ["Series_Title", "Released_Year", "Certificate", "Runtime", "Genre", "IMDB_Rating", "Meta_score", "No_of_Votes"]

In [30]:
df_filmes_selecionados = df_filmes.filter(items=colunas_selecionadas)

In [31]:
df_filmes_selecionados.shape

(1000, 8)

In [32]:
df_filmes_selecionados.columns

Index(['Series_Title', 'Released_Year', 'Certificate', 'Runtime', 'Genre',
       'IMDB_Rating', 'Meta_score', 'No_of_Votes'],
      dtype='object')

In [33]:
df_filmes_selecionados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 8 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Series_Title   1000 non-null   object 
 1   Released_Year  1000 non-null   object 
 2   Certificate    899 non-null    object 
 3   Runtime        1000 non-null   object 
 4   Genre          1000 non-null   object 
 5   IMDB_Rating    1000 non-null   float64
 6   Meta_score     843 non-null    float64
 7   No_of_Votes    1000 non-null   int64  
dtypes: float64(2), int64(1), object(5)
memory usage: 62.6+ KB


In [40]:
df_filmes_selecionados.isna().sum()

Series_Title     0
Released_Year    0
Certificate      0
Runtime          0
Genre            0
IMDB_Rating      0
Meta_score       0
No_of_Votes      0
dtype: int64

In [39]:
df_filmes_selecionados.dropna(inplace=True)

In [41]:
df_filmes_selecionados.shape

(787, 8)

In [42]:
df_filmes_selecionados.describe()

Unnamed: 0,IMDB_Rating,Meta_score,No_of_Votes
count,787.0,787.0,787.0
mean,7.935578,77.560356,331045.6
std,0.288331,12.300825,346766.7
min,7.6,28.0,25229.0
25%,7.7,70.0,82183.5
50%,7.9,78.0,206294.0
75%,8.1,87.0,465596.5
max,9.3,100.0,2343110.0


#### 3. Limpeza dos Dados:

- Identifique e trate dados ausentes.
- Corrija tipos de dados incorretos.
- Remova duplicatas.
- Trate valores anômalos.

#### 4. Manipulação dos Dados:

- Crie colunas adicionais: ano de lançamento, gênero.
- Calcule métricas: média de avaliação por gênero, número de filmes lançados por ano.
- Agrupe dados por gênero, ano de lançamento, diretor.

In [44]:
df_filmes_selecionados.columns

Index(['Series_Title', 'Released_Year', 'Certificate', 'Runtime', 'Genre',
       'IMDB_Rating', 'Meta_score', 'No_of_Votes'],
      dtype='object')

In [49]:
agrp_media_aval_gen = df_filmes_selecionados.groupby("Genre").agg({"IMDB_Rating": "mean"}).reset_index()
agrp_media_aval_gen.sort_values(by="IMDB_Rating", ascending=False)

Unnamed: 0,Genre,IMDB_Rating
121,"Crime, Mystery, Thriller",8.50
71,"Animation, Drama, War",8.50
29,"Action, Sci-Fi",8.40
153,"Drama, Mystery, War",8.35
179,Western,8.35
...,...,...
104,"Comedy, Music, Musical",7.60
3,"Action, Adventure, Family",7.60
19,"Action, Crime, Mystery",7.60
130,"Drama, Fantasy, Mystery",7.60


In [52]:
agrp_filme_ano = df_filmes_selecionados.groupby("Released_Year").agg({"Series_Title": "count"}).reset_index()
agrp_filme_ano.sort_values(by="Series_Title", ascending=False)

Unnamed: 0,Released_Year,Series_Title
82,2014,29
72,2004,28
69,2001,24
77,2009,23
81,2013,22
...,...,...
12,1943,1
10,1941,1
6,1936,1
3,1932,1


In [53]:
agrp_filme_genre = df_filmes_selecionados.groupby("Genre").agg({"Series_Title": "count"}).reset_index()
agrp_filme_genre.sort_values(by="Series_Title", ascending=False)

Unnamed: 0,Genre,Series_Title
123,Drama,63
154,"Drama, Romance",30
90,"Comedy, Drama",24
59,"Animation, Adventure, Comedy",23
78,"Biography, Drama, History",23
...,...,...
128,"Drama, Fantasy, History",1
25,"Action, Drama, Sport",1
80,"Biography, Drama, Romance",1
124,"Drama, Family",1


##### 5. Visualização dos Dados:

- Crie gráficos de barras para mostrar a distribuição de filmes por gênero.
- Use gráficos de linha para mostrar a evolução da média de avaliações ao longo do tempo.
- Crie um gráfico de dispersão para relacionar orçamento e receita.