# IMDB Data Visualization

## Projeto da disciplina **SSC0252 - Visualização Computacional**

* Lucas Ivars Cadima Ciziks - luciziks@usp.br - 125599472

* Gustavo Silva de Oliveira - guspfc03@usp.br - 12567231

---

# 1. Introdução

O conjunto de dados **IMDB Movies** é uma valiosa fonte de informações para pesquisadores do mundo cinematográfico. Composta por uma seleção dos Top 1000 filmes mais bem avaliados na plataforma IMDB, essa base oferece uma visão abrangente das tendências culturais. Cada filme na base possui atributos interessantes, como o título do filme, os gêneros a que pertencem, o *rating* no IMDB e seu ano de lançamento, proporcionando assim um conjunto de dados robusto que pode ser utilizado para análises de tendências audiovisuais, pesquisas culturais e até mesmo em sistemas de recomendações. A riqueza de informações contidas nessa base de dados a torna uma ferramenta indispensável para explorar e compreender a evolução do cinema ao longo das décadas.

---

# 2. Compreensão dos Dados

O projeto está armazenado no respositório disponível em [Github](https://github.com/ciziks/IMDB-data-visualization).

## 2.1. Coleta dos Dados

O conjunto de dados utilizado para a análise do projeto foi extraído da plataforma Kaggle, disponível em [IMDB Movies Dataset](https://www.kaggle.com/datasets/harshitshankhdhar/imdb-dataset-of-top-1000-movies-and-tv-shows). Os dados se referem às 1000 produções audiovisuais com maior nota no site [IMDB](https://www.imdb.com).

## 2.2. Dicionário de Dados

* **Series_Title**: Nome do Filme;

* **Released_Year** - Ano de lançamento do Filme;

* **Certificate** - Certificado do Filme;

* **Runtime** - Duração total do Filme;

* **Genre** - Gêneros do Filme;

* **IMDB_Rating** - Nota do Filme no site do IMDB (0 - 10);

* **Overview** - Sinopse do Filme;

* **Meta_score** - Nota do Filme no site do MetaCritic (0 - 100);

* **Director** - Nome do Diretor;

* **Star1, Star2, Star3, Star4** - Nome dos atores que estrelaram o Filme;

* **No_of_votes** - Número de votos do Filme;

* **Gross** - Arrecadação do Filme;

* **Poster_Link** - Link do poster do Filme no IMDB.

## 2.3. Tipo das Variáveis

* **Variáveis Qualitativas**
    * Ordinais
        * Released_Year;
        * Certificate.

    * Nominais:
        * Series_Title;
        * Genre;
        * Overview;
        * Director;
        * Star1, Star2, Star3, Star4.



* **Variáveis Quantitativas**:
    * Discretas:
        * Runtime;
        * Meta_score;
        * No_of_Votes.

    * Contínuas:
        * IMDB_Rating;
        * Gross.

---

# 3. Tratamento dos Dados

In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import plotly as px

In [25]:
df = pd.read_csv("./imdb_top_1000.csv")

df.head()

Unnamed: 0,Poster_Link,Series_Title,Released_Year,Certificate,Runtime,Genre,IMDB_Rating,Overview,Meta_score,Director,Star1,Star2,Star3,Star4,No_of_Votes,Gross
0,https://m.media-amazon.com/images/M/MV5BMDFkYT...,The Shawshank Redemption,1994,A,142 min,Drama,9.3,Two imprisoned men bond over a number of years...,80.0,Frank Darabont,Tim Robbins,Morgan Freeman,Bob Gunton,William Sadler,2343110,28341469
1,https://m.media-amazon.com/images/M/MV5BM2MyNj...,The Godfather,1972,A,175 min,"Crime, Drama",9.2,An organized crime dynasty's aging patriarch t...,100.0,Francis Ford Coppola,Marlon Brando,Al Pacino,James Caan,Diane Keaton,1620367,134966411
2,https://m.media-amazon.com/images/M/MV5BMTMxNT...,The Dark Knight,2008,UA,152 min,"Action, Crime, Drama",9.0,When the menace known as the Joker wreaks havo...,84.0,Christopher Nolan,Christian Bale,Heath Ledger,Aaron Eckhart,Michael Caine,2303232,534858444
3,https://m.media-amazon.com/images/M/MV5BMWMwMG...,The Godfather: Part II,1974,A,202 min,"Crime, Drama",9.0,The early life and career of Vito Corleone in ...,90.0,Francis Ford Coppola,Al Pacino,Robert De Niro,Robert Duvall,Diane Keaton,1129952,57300000
4,https://m.media-amazon.com/images/M/MV5BMWU4N2...,12 Angry Men,1957,U,96 min,"Crime, Drama",9.0,A jury holdout attempts to prevent a miscarria...,96.0,Sidney Lumet,Henry Fonda,Lee J. Cobb,Martin Balsam,John Fiedler,689845,4360000


In [4]:
df.columns

Index(['Poster_Link', 'Series_Title', 'Released_Year', 'Certificate',
       'Runtime', 'Genre', 'IMDB_Rating', 'Overview', 'Meta_score', 'Director',
       'Star1', 'Star2', 'Star3', 'Star4', 'No_of_Votes', 'Gross'],
      dtype='object')

In [19]:
df.dtypes

Poster_Link       object
Series_Title      object
Released_Year     object
Certificate       object
Runtime           object
Genre             object
IMDB_Rating      float64
Overview          object
Meta_score       float64
Director          object
Star1             object
Star2             object
Star3             object
Star4             object
No_of_Votes        int64
Gross             object
dtype: object

In [27]:
df.drop(columns=['Poster_Link'], inplace = True)

In [29]:
df_nan = (df[df.isna().any(axis=1)])
df_nan

Unnamed: 0,Series_Title,Released_Year,Certificate,Runtime,Genre,IMDB_Rating,Overview,Meta_score,Director,Star1,Star2,Star3,Star4,No_of_Votes,Gross
18,Hamilton,2020,PG-13,160 min,"Biography, Drama, History",8.6,The real life of one of America's foremost fou...,90.0,Thomas Kail,Lin-Manuel Miranda,Phillipa Soo,Leslie Odom Jr.,Renée Elise Goldsberry,55291,
20,Soorarai Pottru,2020,U,153 min,Drama,8.6,"Nedumaaran Rajangam ""Maara"" sets out to make t...",,Sudha Kongara,Suriya,Madhavan,Paresh Rawal,Aparna Balamurali,54995,
30,Seppuku,1962,,133 min,"Action, Drama, Mystery",8.6,When a ronin requesting seppuku at a feudal lo...,85.0,Masaki Kobayashi,Tatsuya Nakadai,Akira Ishihama,Shima Iwashita,Tetsurô Tanba,42004,
32,It's a Wonderful Life,1946,PG,130 min,"Drama, Family, Fantasy",8.6,An angel is sent from Heaven to help a despera...,89.0,Frank Capra,James Stewart,Donna Reed,Lionel Barrymore,Thomas Mitchell,405801,
46,Hotaru no haka,1988,U,89 min,"Animation, Drama, War",8.5,A young boy and his little sister struggle to ...,94.0,Isao Takahata,Tsutomu Tatsumi,Ayano Shiraishi,Akemi Yamaguchi,Yoshiko Shinohara,235231,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
993,Blowup,1966,A,111 min,"Drama, Mystery, Thriller",7.6,A fashion photographer unknowingly captures a ...,82.0,Michelangelo Antonioni,David Hemmings,Vanessa Redgrave,Sarah Miles,John Castle,56513,
995,Breakfast at Tiffany's,1961,A,115 min,"Comedy, Drama, Romance",7.6,A young New York socialite becomes interested ...,76.0,Blake Edwards,Audrey Hepburn,George Peppard,Patricia Neal,Buddy Ebsen,166544,
996,Giant,1956,G,201 min,"Drama, Western",7.6,Sprawling epic covering the life of a Texas ca...,84.0,George Stevens,Elizabeth Taylor,Rock Hudson,James Dean,Carroll Baker,34075,
998,Lifeboat,1944,,97 min,"Drama, War",7.6,Several survivors of a torpedoed merchant ship...,78.0,Alfred Hitchcock,Tallulah Bankhead,John Hodiak,Walter Slezak,William Bendix,26471,


In [33]:
df[['IMDB_Rating','Meta_score','Gross']].describe()

Unnamed: 0,IMDB_Rating,Meta_score
count,1000.0,843.0
mean,7.9493,77.97153
std,0.275491,12.376099
min,7.6,28.0
25%,7.7,70.0
50%,7.9,79.0
75%,8.1,87.0
max,9.3,100.0


# 4. Análise Exploratória dos Dados