In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.linear_model import LinearRegression
import scipy.stats as stats

In [None]:
# Carregando dataset
df = pd.read_csv('merged_rotten_tomatoes_2019.csv')

In [None]:
# Filtrando o DataFrame para manter apenas as colunas relevantes
relevant_columns = [
    'movie_title', 'critics_consensus', 'genres', 'directors', 'actors', 'original_release_date',
    'runtime', 'content_rating', 'production_company', 'tomatometer_rating',
    'tomatometer_count', 'audience_rating', 'audience_count', 'tomatometer_top_critics_count',
    'tomatometer_fresh_critics_count', 'tomatometer_rotten_critics_count', 'review_type',
    'review_score', 'review_date'
]

df_cleaned = df[relevant_columns]

# Exibindo as primeiras linhas do DataFrame limpo
df_cleaned.head()

In [None]:
# 1. Qual é a relação entre o número de críticas de um filme e sua pontuação média no Tomatometer?

# Filtrando dados relevantes e removendo valores ausentes
df_critics = df_cleaned[['movie_title', 'tomatometer_count', 'tomatometer_rating']].drop_duplicates()
df_critics = df_critics.dropna(subset=['tomatometer_count', 'tomatometer_rating'])

# Gráfico de Dispersão
plt.figure(figsize=(10, 6))
sns.scatterplot(x='tomatometer_count', y='tomatometer_rating', data=df_critics, alpha=0.7)
plt.title('Relação entre o Número de Críticas e a Pontuação Média no Tomatometer')
plt.xlabel('Número de Críticas')
plt.ylabel('Pontuação Média no Tomatometer')

# Regressão Linear
X = df_critics['tomatometer_count'].values.reshape(-1, 1)
y = df_critics['tomatometer_rating'].values.reshape(-1, 1)
reg = LinearRegression().fit(X, y)
plt.plot(X, reg.predict(X), color='red', linewidth=2)

# Exibindo o gráfico
plt.show()

# Calculando a correlação
correlation, p_value = stats.pearsonr(df_critics['tomatometer_count'], df_critics['tomatometer_rating'])
print(f'Correlação entre o número de críticas e a pontuação média no Tomatometer: {correlation:.2f}')


In [None]:
# 2. Qual é a relação entre a duração de um filme e sua pontuação média no Tomatometer?

# Filtrando dados relevantes e removendo valores ausentes
df_runtime = df_cleaned[['movie_title', 'runtime', 'tomatometer_rating']].drop_duplicates()
df_runtime = df_runtime.dropna(subset=['runtime', 'tomatometer_rating'])

# Gráfico de Dispersão
plt.figure(figsize=(12, 8))
sns.scatterplot(x='runtime', y='tomatometer_rating', data=df_runtime, alpha=0.7)
plt.title('Relação entre a Duração do Filme e a Pontuação Média no Tomatometer')
plt.xlabel('Duração do Filme (minutos)')
plt.ylabel('Pontuação Média no Tomatometer')

# Regressão Linear
X = df_runtime['runtime'].values.reshape(-1, 1)
y = df_runtime['tomatometer_rating'].values.reshape(-1, 1)
reg = LinearRegression().fit(X, y)
plt.plot(X, reg.predict(X), color='red', linewidth=2)

# Exibindo o gráfico
plt.show()

# Calculando a correlação
correlation, p_value = stats.pearsonr(df_runtime['runtime'], df_runtime['tomatometer_rating'])
print(f'Correlação entre a duração do filme e a pontuação média no Tomatometer: {correlation:.2f}')


In [None]:
# 3. Há uma correlação significativa entre a avaliação dos críticos e a avaliação do público para filmes lançados em 2019?

# Filtrando os dados relevantes para as pontuações dos críticos e do público
df_scores = df_cleaned[['movie_title', 'tomatometer_rating', 'audience_rating']].drop_duplicates()
df_scores = df_scores.dropna(subset=['tomatometer_rating', 'audience_rating'])

# Gráfico de Dispersão
plt.figure(figsize=(10, 6))
sns.scatterplot(x='tomatometer_rating', y='audience_rating', data=df_scores, alpha=0.7)
plt.title('Relação entre Pontuação dos Críticos e do Público')
plt.xlabel('Pontuação dos Críticos (Tomatometer)')
plt.ylabel('Pontuação do Público')

# Regressão Linear
X = df_scores['tomatometer_rating'].values.reshape(-1, 1)
y = df_scores['audience_rating'].values.reshape(-1, 1)
reg = LinearRegression().fit(X, y)
plt.plot(X, reg.predict(X), color='red', linewidth=2)

# Exibindo o gráfico
plt.show()

# Calculando a correlação
correlation, p_value = stats.pearsonr(df_scores['tomatometer_rating'], df_scores['audience_rating'])
print(f'Correlação entre pontuações dos críticos e do público: {correlation:.2f}')


In [None]:
# 4. Quais são os melhores e piores diretores, medidos pela pontuação média de seus filmes no Tomatometer?

# Importando bibliotecas necessárias
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd

# Filtrando dados relevantes, removendo valores ausentes e duplicados
df_directors = df_cleaned[['directors', 'tomatometer_rating']].dropna().drop_duplicates()
df_directors = df_directors.dropna(subset=['tomatometer_rating'])

# Calculando a pontuação média para cada diretor
director_avg_rating = df_directors.groupby('directors')['tomatometer_rating'].mean().reset_index()

# Ordenando para identificar os melhores e piores diretores
top_directors = director_avg_rating.sort_values(by='tomatometer_rating', ascending=False).head(10)
worst_directors = director_avg_rating.sort_values(by='tomatometer_rating', ascending=True).head(10)

# Plotando os 10 melhores diretores
plt.figure(figsize=(12, 6))
sns.barplot(x='tomatometer_rating', y='directors', data=top_directors, palette='Greens_r')
plt.title('Top 10 Diretores com Maiores Pontuações Médias no Tomatometer')
plt.xlabel('Pontuação Média no Tomatometer')
plt.ylabel('Diretores')
plt.show()

# Plotando os 10 piores diretores
plt.figure(figsize=(12, 6))
sns.barplot(x='tomatometer_rating', y='directors', data=worst_directors, palette='Reds_r')
plt.title('Top 10 Diretores com Menores Pontuações Médias no Tomatometer')
plt.xlabel('Pontuação Média no Tomatometer')
plt.ylabel('Diretores')
plt.show()


In [None]:
# 5. Os filmes de conteúdo restrito (Classificação R) têm avaliações mais baixas em comparação com os filmes de classificação PG-13 ou inferiores?

# Separando os dados por classificação
r_rated = df_cleaned[df_cleaned['content_rating'] == 'R']['tomatometer_rating']
pg13_rated = df_cleaned[df_cleaned['content_rating'] == 'PG-13']['tomatometer_rating']

# Teste t de duas amostras
t_stat, p_value = stats.ttest_ind(r_rated, pg13_rated, nan_policy='omit')
print(f'Estatística t: {t_stat:.2f}, Valor p: {p_value:.2f}')


In [None]:
# 6. O número de avaliações de críticos "Top" influencia significativamente a pontuação média do Tomatometer?

# Filtrando dados relevantes e removendo valores ausentes
df_top_critics = df_cleaned[['tomatometer_top_critics_count', 'tomatometer_rating']].dropna()

# Gráfico de Dispersão
plt.figure(figsize=(10, 6))
sns.scatterplot(x='tomatometer_top_critics_count', y='tomatometer_rating', data=df_top_critics, alpha=0.7)
plt.title('Relação entre Número de Críticas de Top Críticos e Pontuação Média no Tomatometer')
plt.xlabel('Número de Críticas de Top Críticos')
plt.ylabel('Pontuação Média no Tomatometer')

# Regressão Linear
X = df_top_critics['tomatometer_top_critics_count'].values.reshape(-1, 1)
y = df_top_critics['tomatometer_rating'].values.reshape(-1, 1)
reg = LinearRegression().fit(X, y)
plt.plot(X, reg.predict(X), color='red', linewidth=2)

# Exibindo o gráfico
plt.show()

# Calculando a correlação
correlation, p_value = stats.pearsonr(df_top_critics['tomatometer_top_critics_count'], df_top_critics['tomatometer_rating'])
print(f'Correlação entre número de críticas de top críticos e pontuação média no Tomatometer: {correlation:.2f}')

In [None]:
# 7. Quais são as diferenças nas médias de pontuação do Tomatometer entre filmes com e sem consenso dos críticos?

# Filtrando filmes com e sem consenso dos críticos
with_consensus = df_cleaned[~df_cleaned['critics_consensus'].isna()]['tomatometer_rating']
without_consensus = df_cleaned[df_cleaned['critics_consensus'].isna()]['tomatometer_rating']

# Teste t de duas amostras
t_stat, p_value = stats.ttest_ind(with_consensus, without_consensus, nan_policy='omit')
print(f'Estatística t: {t_stat:.2f}, Valor p: {p_value:.2f}')


In [None]:
# 8. Qual é a influência do número de atores principais listados nas críticas dos filmes?

# Removendo valores ausentes na coluna 'actors'
df_actors = df_cleaned[['actors', 'tomatometer_rating']].dropna()

# Contando o número de atores principais listados
df_actors['actor_count'] = df_actors['actors'].apply(lambda x: len(x.split(',')))

# Gráfico de Dispersão
plt.figure(figsize=(10, 6))
sns.scatterplot(x='actor_count', y='tomatometer_rating', data=df_actors, alpha=0.7)
plt.title('Relação entre Número de Atores Principais e Pontuação Média no Tomatometer')
plt.xlabel('Número de Atores Principais')
plt.ylabel('Pontuação Média no Tomatometer')

# Regressão Linear
X = df_actors['actor_count'].values.reshape(-1, 1)
y = df_actors['tomatometer_rating'].values.reshape(-1, 1)
reg = LinearRegression().fit(X, y)
plt.plot(X, reg.predict(X), color='red', linewidth=2)

# Exibindo o gráfico
plt.show()

# Calculando a correlação
correlation, p_value = stats.pearsonr(df_actors['actor_count'], df_actors['tomatometer_rating'])
print(f'Correlação entre número de atores principais e pontuação média no Tomatometer: {correlation:.2f}')


In [None]:
# 9. Qual é o impacto de múltiplos gêneros no sucesso de um filme?

# Removendo valores ausentes na coluna 'genres'
df_genres = df_cleaned[['genres', 'tomatometer_rating']].dropna()

# Contando o número de gêneros de cada filme
df_genres['genre_count'] = df_genres['genres'].apply(lambda x: len(x.split(',')))

# Gráfico de Barras
plt.figure(figsize=(10, 6))
sns.barplot(x='genre_count', y='tomatometer_rating', data=df_genres, palette='viridis', ci=None)
plt.title('Impacto do Número de Gêneros na Pontuação Média no Tomatometer')
plt.xlabel('Número de Gêneros')
plt.ylabel('Pontuação Média no Tomatometer')
plt.show()

# Calculando a média das pontuações para diferentes números de gêneros
genre_grouped = df_genres.groupby('genre_count')['tomatometer_rating'].mean().reset_index()
print(genre_grouped)

In [None]:
# 10. Quais são os padrões e tendências nas críticas ao longo do tempo (analisando datas de críticas)?

# Convertendo a coluna de data para o formato datetime
df_cleaned['review_date'] = pd.to_datetime(df_cleaned['review_date'])

# Extraindo o mês da data de crítica
df_cleaned['review_month'] = df_cleaned['review_date'].dt.month

# Gráfico de Linhas
plt.figure(figsize=(12, 6))
sns.lineplot(x='review_month', y='tomatometer_rating', data=df_cleaned, ci=None)
plt.title('Tendência das Pontuações do Tomatometer ao Longo dos Meses')
plt.xlabel('Mês')
plt.ylabel('Pontuação Média no Tomatometer')
plt.show()
