### 01  Exploração do dataset

O código presente na célula serve para preparar o dataset: é importada a biblioteca pandas e atribuido o arquivo csv a um df. Ele mostra as primeiras linhas e exibe informações sobre colunas, tipos e valores faltantes. Em seguida, calcula estatísticas básicas das colunas numéricas e conta os valores ausentes em cada coluna. Por fim, converte a coluna de datas para o formato ```datetime``` e confirma os tipos de dados para garantir que a conversão foi feita corretamente. 


In [None]:
# 01 - Exploração inicial do dataset

import pandas as pd 

df = pd.read_csv('tmdb_5000_movies.csv')

print(df.head())
print(df.info())
print(df.describe())
print(df.isnull().sum())

df['release_date'] = pd.to_datetime(df['release_date'], errors='coerce')
print(df.dtypes)



### 02 Análise de Receita

O código importa as bibliotecas necessárias, lê o arquivo CSV e seleciona os 10 filmes com maior receita, ordenando do maior para o menor. Depois, mostra os títulos, orçamentos e receitas desses filmes. Em seguida, cria um gráfico de barras mostrando a receita dos 10 filmes. Por fim, o gráfico com os 10 filmes mais lucrativos e suas receitas é exibido.

In [None]:
# 02 - Análise de Receita

import pandas as pd
import matplotlib.pyplot as plt

df = pd.read_csv('tmdb_5000_movies.csv')
top_10 = df.sort_values('revenue', ascending=False).head(10)

print(top_10[['title', 'budget', 'revenue']])

plt.figure(figsize=(12, 6), facecolor='powderblue')
plt.bar(top_10['title'], top_10['revenue'], color='skyblue')
plt.xticks(rotation=45, ha='right')
plt.title(('Top 10 Filmes por Receita'), color='darkcyan')
plt.xlabel(('Filmes'), color='darkcyan')
plt.ylabel(('Receita'), color='darkcyan')
plt.tight_layout()
plt.show()

### 03 ROI (Retorno sobre Investimento)

O código lê o arquivo csv com dados dos filmes e filtra os que têm orçamento maior que zero. A seguir, ele calcula o roi para cada filme, usando a fórmula ```((receita - orçamento)/orçamento)```. Por último, exibe os 10 filmes com maior roi, ordenados do maior para o menor, mostrando título e valor do roi.

In [None]:
# 03 - ROI (Retorno sobre investimento)

import pandas as pd

df = pd.read_csv('tmdb_5000_movies.csv')
df = df[df['budget'] > 0]
df['roi'] = (df['revenue'] - df['budget']) / df['budget']

print(df[['title', 'roi']].sort_values('roi', ascending=False).head(10))

### 04 Lançamento por Ano

São carregados os dados dos filmes e a coluna de datas é ajustada para um formato reconhecido pelo Python. Em seguida, é coletado o ano de lançamento de cada filme, contando quantos filmes saíram em cada ano. Por fim, um gráfico de linha que mostra a evolução do número de filmes lançados por ano é exibido.

In [None]:
# 04 - Lançamento por Ano

import pandas as pd
import matplotlib.pyplot as plt

df = pd.read_csv('tmdb_5000_movies.csv')
df['release_date'] = pd.to_datetime(df['release_date'], errors='coerce')
df['year'] = df['release_date'].dt.year

count_by_year = df['year'].value_counts().sort_index()

count_by_year.plot(kind='line', figsize=(10, 6), title='Filmes Lançados por Ano', color='darkcyan')
plt.xlabel('Ano', color='darkcyan')
plt.ylabel('Quantidade de Filmes', color='darkcyan')
plt.grid(True)
plt.show()

# 05 Duração dos Filmes (Runtime)

O código lê os dados dos filmes e cria um gráfico para mostrar a duração dos filmes. Ele ignora valores inexistentes e divide a duração em 30 bins. Ele exibe quantos filmes se encaixam em cada faixa de duração.

In [None]:
# 05 - Duração dos Filmes (Runtime)

import pandas as pd
import matplotlib.pyplot as plt

df = pd.read_csv('tmdb_5000_movies.csv')

plt.hist(df['runtime'].dropna(), bins=30, color='skyblue', edgecolor='steelblue')
plt.title(('Distribuição da Duração dos Filmes'), color='darkcyan')
plt.xlabel('Minutos')
plt.ylabel('Frequência')
plt.show()


### 06 Filmes Mais Populares e Mais Votados

O código da célula carrega os dados dos filmes e mostra duas listas: a primeira com os 10 filmes mais populares ordenados pela popularidade e a segunda com os 10 filmes que receberam mais votos ordenados pelo número de votos.

In [None]:
# 06 - Filmes Mais Populares e Mais Votados

import pandas as pd

df = pd.read_csv('tmdb_5000_movies.csv')

print('Top 10 por Popularidade:')
print(df[['title', 'popularity']].sort_values('popularity', ascending=False).head(10))

print('\nTop 10 por Número de Votos:')
print(df[['title', 'vote_count']].sort_values(by='vote_count', ascending=False).head(10))

### 07 Média de Avaliação por Idioma

O código lê os dados dos filmes e calcula a média das avaliações para cada idioma original. Depois, ordena os idiomas da média mais alta para a mais baixa e mostra essa lista, apresentando os idiomas com os filmes com melhores avaliações.

In [None]:
# 07 - Média de Avaliação por Idioma

import pandas as pd

df = pd.read_csv('tmdb_5000_movies.csv')

avg_by_lang = df.groupby('original_language')['vote_average'].mean().sort_values(ascending=False)
print(avg_by_lang)

### 08 Análise de Gêneros

Os dados dos filmes são lidos e é transformada a coluna dos gêneros de texto para listas de nomes dos gêneros. A seguir, são reuídos todos os gêneros de todos os filmes em uma única lista, contando quantas vezes cada gênero aparece. Por fim, são exibidos os 10 gêneros mais comuns.


In [None]:
# 08 - Análise de Gêneros

import pandas as pd
import ast
from collections import Counter

df = pd.read_csv('tmdb_5000_movies.csv')
df['genres'] = df['genres'].apply(lambda x: [d['name'] for d in ast.literal_eval(x)] if pd.notnull(x) else [])

all_genres = sum(df['genres'], [])
genre_counts = Counter(all_genres)

print(genre_counts.most_common(10))


### 09 Palavras Chave Mais Frequentes

O código lê os dados dos filmes e converte a coluna ```keywords``` de texto para listas com as palavras-chave de cada filme. Depois, reúne todas as palavras-chave em uma lista única e conta a frequência de cada uma. Por fim, mostra as 10 palavras-chave mais frequentes, explicitando os temas mais comuns nos filmes presentes.

In [None]:
# 09 - Palavras-chave Mais Frequentes

import pandas as pd
import ast
from collections import Counter

df = pd.read_csv('tmdb_5000_movies.csv')
df['keywords'] = df['keywords'].apply(lambda x: [d['name'] for d in ast.literal_eval(x)] if pd.notnull(x) else [])

all_keywords = sum(df['keywords'], [])
keyword_counts = Counter(all_keywords)

print(keyword_counts.most_common(10))


### 10 Produtoras Mais Ativas

São carregados os dados dos filmes e a coluna ```production_companies``` é transformada de texto para listas com os nomes das produtoras. Depois, são reunidas todas as produtoras em uma lista única, contando quantas vezes cada uma aparece. Por último, são mostradas as 10 produtoras que mais produziram filmes com base nos dados presentes.

In [None]:
# 10 - Produtoras Mais Ativas

import pandas as pd
import ast
from collections import Counter

df = pd.read_csv('tmdb_5000_movies.csv')
df['production_companies'] = df['production_companies'].apply(lambda x: [d['name'] for d in ast.literal_eval(x)] if pd.notnull(x) else [])

all_companies = sum(df['production_companies'], [])
company_counts = Counter(all_companies)

print(company_counts.most_common(10))

print(company_counts.most_common(10))
