# Análise dos Filmes IMDB
## Matheus Stepple

Vou analisar os dados dos filmes para ver o que funciona melhor

*Feito por Matheus Stepple*


In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

df = pd.read_csv('../desafio_indicium_imdb.csv')
print(f"Carregados {len(df)} filmes")
print(f"Colunas: {list(df.columns)}")


In [None]:
print("Vamos ver o que tem aqui:")
print(f"Total: {df.shape[0]} filmes, {df.shape[1]} colunas")
print(f"Colunas: {list(df.columns)}")
print("\nPrimeiros filmes:")
df.head()


In [None]:
print("Algumas estatísticas:")
df.describe()


In [None]:
print("Vamos ver as notas:")
print(f"Média: {df['IMDB_Rating'].mean():.2f}")
print(f"Mediana: {df['IMDB_Rating'].median():.2f}")
print(f"Menor: {df['IMDB_Rating'].min():.2f}")
print(f"Maior: {df['IMDB_Rating'].max():.2f}")

plt.figure(figsize=(10, 6))
plt.hist(df['IMDB_Rating'], bins=30, alpha=0.7)
plt.title('Notas dos Filmes')
plt.xlabel('Nota')
plt.ylabel('Quantos filmes')
plt.show()


In [None]:
print("Vamos ver os gêneros:")
all_genres = []
for genres in df['Genre'].dropna():
    genre_list = [g.strip() for g in genres.split(',')]
    all_genres.extend(genre_list)

genre_counts = pd.Series(all_genres).value_counts().head(10)
print("Os 10 gêneros que mais aparecem:")
print(genre_counts)

plt.figure(figsize=(12, 6))
genre_counts.plot(kind='bar')
plt.title('Gêneros Mais Comuns')
plt.xlabel('Gênero')
plt.ylabel('Quantos filmes')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()


In [None]:
print("Vamos ver por ano:")
df['Released_Year'] = pd.to_numeric(df['Released_Year'], errors='coerce')
print(f"De {df['Released_Year'].min():.0f} até {df['Released_Year'].max():.0f}")

plt.figure(figsize=(12, 6))
df['Released_Year'].hist(bins=20, alpha=0.7)
plt.title('Filmes por Ano')
plt.xlabel('Ano')
plt.ylabel('Quantos filmes')
plt.show()


In [None]:
print("Vamos ver o que influencia a nota:")
numeric_vars = ['IMDB_Rating', 'Released_Year', 'Meta_score', 'No_of_Votes']
correlations = df[numeric_vars].corr()['IMDB_Rating'].sort_values(ascending=False)

print("Correlações:")
for var, corr in correlations.items():
    if var != 'IMDB_Rating':
        print(f"{var}: {corr:.3f}")

plt.figure(figsize=(10, 8))
plt.scatter(df['Meta_score'], df['IMDB_Rating'], alpha=0.6)
plt.title('Meta Score vs Nota')
plt.xlabel('Meta Score')
plt.ylabel('Nota')
plt.show()


In [None]:
print("Os melhores filmes:")
top_movies = df.nlargest(10, 'IMDB_Rating')[['Series_Title', 'IMDB_Rating', 'Released_Year', 'Genre']]
print(top_movies)

print("\nOs piores filmes:")
worst_movies = df.nsmallest(10, 'IMDB_Rating')[['Series_Title', 'IMDB_Rating', 'Released_Year', 'Genre']]
print(worst_movies)


In [None]:
print("Vamos ver a duração:")
df['Runtime_numeric'] = df['Runtime'].str.extract('(\d+)').astype(float)
print(f"Média: {df['Runtime_numeric'].mean():.1f} minutos")
print(f"Mediana: {df['Runtime_numeric'].median():.1f} minutos")

plt.figure(figsize=(10, 6))
plt.hist(df['Runtime_numeric'], bins=30, alpha=0.7)
plt.title('Duração dos Filmes')
plt.xlabel('Minutos')
plt.ylabel('Quantos filmes')
plt.show()

print("\nDuração influencia a nota?")
corr_duration = df['Runtime_numeric'].corr(df['IMDB_Rating'])
print(f"Correlação: {corr_duration:.3f}")


In [None]:
print("Resumo do que vi:")
print(f"Total: {len(df)} filmes")
print(f"Período: {df['Released_Year'].min():.0f} - {df['Released_Year'].max():.0f}")
print(f"Nota média: {df['IMDB_Rating'].mean():.2f}")
print(f"Duração média: {df['Runtime_numeric'].mean():.1f} min")
print(f"Gênero mais comum: {genre_counts.index[0]} ({genre_counts.iloc[0]} filmes)")

print("\nO que descobri:")
print("1. Meta Score tem correlação forte com nota")
print("2. Drama é o gênero mais comum")
print("3. Duração não influencia muito a qualidade")
print("4. Filmes novos não são melhores")
