# üé¨ An√°lise de Dados de Filmes com Seaborn

Este projeto tem como objetivo explorar e visualizar dados relacionados a filmes utilizando a biblioteca Seaborn em Python. Atrav√©s de gr√°ficos estat√≠sticos, buscamos identificar padr√µes, tend√™ncias e correla√ß√µes entre vari√°veis como nota dos filmes, dura√ß√£o, g√™nero, or√ßamento, receita e ano de lan√ßamento.

### Objetivos principais:
- Investigar a distribui√ß√£o das notas dos filmes
- Comparar dura√ß√£o m√©dia por g√™nero
- Analisar a rela√ß√£o entre or√ßamento e receita
- Observar tend√™ncias de lan√ßamentos ao longo dos anos
- Identificar correla√ß√µes entre vari√°veis num√©ricas

A an√°lise ser√° conduzida em um ambiente Jupyter Notebook, com foco em visualiza√ß√µes claras e insights relevantes para entender melhor o comportamento da ind√∫stria cinematogr√°fica.


## üîó Fonte dos dados

Os dados utilizados neste projeto foram obtidos a partir do Kaggle, na seguinte base:

**IMDb Dataset**  
üìé [https://www.kaggle.com/datasets/PromptCloudHQ/imdb-data](https://www.kaggle.com/datasets/PromptCloudHQ/imdb-data)

Este conjunto inclui informa√ß√µes sobre filmes como t√≠tulo, g√™nero, dura√ß√£o, nota, diretor, elenco, or√ßamento e receita, permitindo uma an√°lise rica e variada sobre o comportamento da ind√∫stria cinematogr√°fica.


## üì• Carregamento e inspe√ß√£o inicial dos dados

Nesta etapa, vamos importar as bibliotecas necess√°rias, carregar o dataset de filmes e realizar uma inspe√ß√£o preliminar. O objetivo √© entender a estrutura dos dados, verificar tipos de vari√°veis, identificar valores nulos e preparar o terreno para a an√°lise explorat√≥ria.

### A√ß√µes realizadas:
- Importa√ß√£o das bibliotecas `pandas`, `seaborn` e `matplotlib`
- Carregamento do arquivo CSV com os dados dos filmes
- Visualiza√ß√£o das primeiras linhas do dataset
- Verifica√ß√£o de tipos de dados e presen√ßa de valores ausentes


In [1]:
# üìö Importando bibliotecas
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# üîç Configurando estilo dos gr√°ficos
sns.set(style='whitegrid')
plt.rcParams['figure.figsize'] = (10, 6)

# üì• Carregando o dataset
df = pd.read_csv('movies.csv')  # Substitua pelo nome correto do seu arquivo

# üëÄ Visualizando as primeiras linhas
df.head()


Unnamed: 0,Rank,Title,Genre,Description,Director,Actors,Year,Runtime (Minutes),Rating,Votes,Revenue (Millions),Metascore
0,1,Guardians of the Galaxy,"Action,Adventure,Sci-Fi",A group of intergalactic criminals are forced ...,James Gunn,"Chris Pratt, Vin Diesel, Bradley Cooper, Zoe S...",2014,121,8.1,757074,333.13,76.0
1,2,Prometheus,"Adventure,Mystery,Sci-Fi","Following clues to the origin of mankind, a te...",Ridley Scott,"Noomi Rapace, Logan Marshall-Green, Michael Fa...",2012,124,7.0,485820,126.46,65.0
2,3,Split,"Horror,Thriller",Three girls are kidnapped by a man with a diag...,M. Night Shyamalan,"James McAvoy, Anya Taylor-Joy, Haley Lu Richar...",2016,117,7.3,157606,138.12,62.0
3,4,Sing,"Animation,Comedy,Family","In a city of humanoid animals, a hustling thea...",Christophe Lourdelet,"Matthew McConaughey,Reese Witherspoon, Seth Ma...",2016,108,7.2,60545,270.32,59.0
4,5,Suicide Squad,"Action,Adventure,Fantasy",A secret government agency recruits some of th...,David Ayer,"Will Smith, Jared Leto, Margot Robbie, Viola D...",2016,123,6.2,393727,325.02,40.0


In [2]:
# ‚ÑπÔ∏è Informa√ß√µes gerais sobre o dataset
df.info()

# üìä Estat√≠sticas descritivas
df.describe()

# ‚ùì Verificando valores nulos
df.isnull().sum()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 12 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Rank                1000 non-null   int64  
 1   Title               1000 non-null   object 
 2   Genre               1000 non-null   object 
 3   Description         1000 non-null   object 
 4   Director            1000 non-null   object 
 5   Actors              1000 non-null   object 
 6   Year                1000 non-null   int64  
 7   Runtime (Minutes)   1000 non-null   int64  
 8   Rating              1000 non-null   float64
 9   Votes               1000 non-null   int64  
 10  Revenue (Millions)  872 non-null    float64
 11  Metascore           936 non-null    float64
dtypes: float64(3), int64(4), object(5)
memory usage: 93.9+ KB


Rank                    0
Title                   0
Genre                   0
Description             0
Director                0
Actors                  0
Year                    0
Runtime (Minutes)       0
Rating                  0
Votes                   0
Revenue (Millions)    128
Metascore              64
dtype: int64

## üßπ Limpeza dos dados

Antes de realizar as visualiza√ß√µes, √© essencial garantir que os dados estejam limpos e prontos para an√°lise. Nesta etapa, vamos:

- Verificar e tratar valores nulos
- Corrigir tipos de dados (como datas e valores num√©ricos)
- Remover duplicatas, se houver
- Padronizar nomes de colunas e categorias
- Separar colunas compostas (como m√∫ltiplos g√™neros em uma √∫nica c√©lula)

Essas a√ß√µes ajudam a evitar erros nas visualiza√ß√µes e garantem que os gr√°ficos reflitam informa√ß√µes confi√°veis.
