<a href="https://colab.research.google.com/github/tavares-fiap/cp2-datasciense/blob/main/cp2_ds.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Projeto: Análise Comparativa entre Marvel e DC
## Guilherme Rocha - RM97974 e Pedro Henrique - RM97877

Este projeto visa realizar uma análise comparativa entre os universos cinematográficos da Marvel e DC, utilizando um conjunto de dados que inclui informações sobre filmes e séries de ambos os universos. O objetivo é explorar visualmente e estatisticamente as características desses filmes e séries, como a distribuição de notas no IMDb, os tipos de produções (filmes ou séries) e suas evoluções ao longo dos anos.

## Objetivos do Projeto

1. **Analisar a quantidade de filmes e séries produzidos por cada universo (Marvel e DC)**:
   - Quantificar a diferença de produções e identificar tendências ao longo do tempo.
   
2. **Comparar as avaliações de filmes e séries nos dois universos**:
   - Avaliar a distribuição das notas IMDb entre Marvel e DC.

3. **Gerar insights visuais sobre a evolução dos filmes e séries**:
   - Visualizar a relação entre o ano de lançamento e a nota IMDb.

4. **Criar um relatório interativo em HTML**:
   - Consolidar as análises e visualizações em um relatório que possa ser compartilhado e acessado facilmente.

## Estrutura do Projeto

### 1. Instalação de Dependências
O projeto utiliza diversas bibliotecas de visualização e manipulação de dados, como `Pandas`, `Matplotlib` e `Seaborn`, além de `Jinja2` para a geração de relatórios em HTML. A instalação dessas bibliotecas é necessária antes de rodar o código.

### 2. Carregamento dos Dados
Os dados utilizados para a análise incluem informações sobre filmes e séries dos universos Marvel e DC, como:

- **Título**: Nome do filme ou série.
- **Ano de Lançamento**: O ano em que o conteúdo foi lançado.
- **Tipo**: Especifica se é um filme ou uma série.
- **Nota IMDb**: Avaliação do público no site IMDb.
- **Universo**: Especifica se o conteúdo pertence à Marvel ou DC.

### 3. Resumo dos Dados
É gerado um resumo estatístico do dataset, mostrando o número de registros, tipos de colunas, dados faltantes, e a distribuição geral das informações.

### 4. Análises Visuais
Diversas visualizações são criadas para facilitar a análise dos dados:

- **Distribuição de Filmes e Séries por Universo**:
  Um gráfico de barras empilhadas é utilizado para comparar o número de filmes e séries produzidos pela Marvel e DC.
  
- **Distribuição das Notas IMDb**:
  Um boxplot é usado para visualizar como as avaliações no IMDb se distribuem entre os dois universos.

- **Relação entre Ano de Lançamento e Nota IMDb**:
  Um gráfico de dispersão (scatter plot) é criado para mostrar como as notas dos filmes e séries variaram ao longo dos anos, separados por universo.

### 5. Geração do Relatório HTML
O relatório consolidado é gerado em formato HTML, contendo as análises e gráficos criados. Esse relatório pode ser facilmente compartilhado, permitindo que outras pessoas visualizem as análises de forma interativa.

## Conclusão
Este projeto oferece uma visão detalhada e comparativa das produções da Marvel e DC, utilizando visualizações de dados e uma interface de fácil leitura para destacar as diferenças e semelhanças entre os dois universos. O relatório gerado facilita a exploração dos dados, fornecendo uma base sólida para a tomada de decisões e discussões futuras sobre a evolução desses universos no cinema e na TV.


In [1]:
# Instalação de bibliotecas necessárias
!pip install jinja2
!pip install matplotlib seaborn pandas



In [3]:
import pandas as pd

# Carregar o dataset enviado pelo usuário
file_path = '/content/MarvelVsDC.csv'
df = pd.read_csv(file_path)

# Exibir as primeiras linhas do dataset para verificar sua estrutura
df.head()


Unnamed: 0,ID,Movie,Year,Genre,RunTime,Description,IMDB_Score
0,0,Eternals,-2021,"Action,Adventure,Drama",0,"The saga of the Eternals, a race of immortal b...",0.0
1,1,Loki,(2021– ),"Action,Adventure,Fantasy",0,A new Marvel chapter with Loki at its center.,0.0
2,2,The Falcon and the Winter Soldier,-2021,"Action,Adventure,Drama",50 min,"Following the events of 'Avengers: Endgame,' S...",7.5
3,3,WandaVision,-2021,"Action,Comedy,Drama",350 min,Blends the style of classic sitcoms with the M...,8.1
4,4,Spider-Man: No Way Home,-2021,"Action,Adventure,Sci-Fi",0,A continuation of Spider-Man: Far From Home.,0.0


In [15]:
# Agora podemos gerar o relatório HTML utilizando o código fornecido
import matplotlib.pyplot as plt
import seaborn as sns
from jinja2 import Environment, FileSystemLoader
import os
import base64
from io import BytesIO
import numpy as np

# Função para gerar resumo do dataframe
def resumo_df(df):
    num_var = len(df.columns)
    num_obs = len(df)
    cels_faltantes = df.isnull().sum().sum()
    linhas_duplicadas = df.duplicated().sum()

    summary = {
        'shape': df.shape,
        'num_var': num_var,
        'num_obs': num_obs,
        'cels_faltantes': cels_faltantes,
        'linhas_duplicadas': linhas_duplicadas,
        'dtypes': df.dtypes.to_dict(),
        'valores_faltantes': df.isnull().sum().to_dict(),
    }
    return summary

# Função para converter gráficos para Base64
def plot_64(fig):
    buf = BytesIO()
    fig.savefig(buf, format='png')
    buf.seek(0)
    img_base64 = base64.b64encode(buf.read()).decode('utf-8')
    buf.close()
    return img_base64

# Função para gerar gráficos avançados e retornar como Base64 com descrição
def criar_plot(df):
    plots = []
    colunas_excluir = ['ID']  # Adicione outros nomes de colunas que você deseja excluir

    # Histogramas para variáveis numéricas (exceto IDs e colunas não numéricas)
    for column in df.select_dtypes(include=np.number).columns:
        if column in colunas_excluir:
            continue  # Pula colunas de ID ou outras que não são úteis para histogramas

        fig, ax = plt.subplots()
        sns.histplot(df[column], kde=True, ax=ax)
        plt.title(f'Histograma de {column}')
        img_base64 = plot_64(fig)
        description = (f"O histograma de {column} mostra a distribuição dos valores numéricos dessa variável. "
                       "Ele permite identificar padrões de distribuição, como a presença de uma distribuição normal "
                       "ou assimetria. A curva KDE ajuda a visualizar a densidade dos dados.")
        plots.append({'img': img_base64, 'description': description})
        plt.close(fig)

    # Gráfico de correlação entre variáveis numéricas
    fig, ax = plt.subplots(figsize=(20, 18))
    corr = df.select_dtypes(include=np.number).corr()  # Apenas colunas numéricas
    sns.heatmap(corr, annot=True, fmt=".2f", cmap='coolwarm', ax=ax)
    plt.title('Matriz de Correlação entre Variáveis Numéricas')
    plt.tight_layout()
    img_base64 = plot_64(fig)
    description = ("Este heatmap mostra a matriz de correlação entre as variáveis numéricas do dataset. "
                   "Valores próximos de 1 indicam uma correlação forte positiva, enquanto valores próximos de -1 indicam uma correlação negativa.")
    plots.append({'img': img_base64, 'description': description})
    plt.close(fig)

    # Gráficos de dispersão (Scatterplot) entre orçamento e receita
    if 'Budget' in df.columns and 'Revenue' in df.columns:
        try:
            df['Budget'] = pd.to_numeric(df['Budget'], errors='coerce')  # Tentar converter para numérico
            df['Revenue'] = pd.to_numeric(df['Revenue'], errors='coerce')

            fig, ax = plt.subplots(figsize=(20, 18))
            sns.scatterplot(data=df, x='Budget', y='Revenue', hue='Universe', ax=ax)
            plt.title('Orçamento vs Receita (Marvel vs DC)')
            plt.tight_layout()
            img_base64 = plot_64(fig)
            description = ("Este gráfico de dispersão compara o orçamento e a receita dos filmes dos universos Marvel e DC. "
                           "Ele ajuda a identificar se filmes com maior orçamento tendem a gerar maior receita.")
            plots.append({'img': img_base64, 'description': description})
            plt.close(fig)
        except ValueError:
            pass  # Ignora se não puder converter para numérico

    # Gráficos de dispersão (Scatterplot) entre IMDb e orçamento
    if 'IMDb' in df.columns and 'Budget' in df.columns:
        try:
            df['IMDb'] = pd.to_numeric(df['IMDb'], errors='coerce')  # Tentar converter para numérico
            df['Budget'] = pd.to_numeric(df['Budget'], errors='coerce')

            fig, ax = plt.subplots(figsize=(20, 18))
            sns.scatterplot(data=df, x='Budget', y='IMDb', hue='Universe', ax=ax)
            plt.title('IMDb vs Orçamento (Marvel vs DC)')
            plt.tight_layout()
            img_base64 = plot_64(fig)
            description = ("Este gráfico de dispersão mostra a relação entre as notas IMDb e o orçamento dos filmes. "
                           "Ele permite visualizar se filmes com maior orçamento tendem a ter uma melhor recepção do público.")
            plots.append({'img': img_base64, 'description': description})
            plt.close(fig)
        except ValueError:
            pass  # Ignora se não puder converter para numérico

    # Gráficos de linha para a evolução do número de filmes por ano
    if 'Year' in df.columns and 'Type' in df.columns:
        fig, ax = plt.subplots(figsize=(20, 18))
        sns.countplot(data=df, x='Year', hue='Universe', ax=ax)
        plt.title('Evolução do Número de Filmes e Séries por Ano')
        plt.tight_layout()
        img_base64 = plot_64(fig)
        description = ("Este gráfico de linha mostra a evolução do número de produções (filmes e séries) ao longo dos anos. "
                       "Ele ajuda a identificar tendências no número de lançamentos, como aumentos ou quedas em anos específicos.")
        plots.append({'img': img_base64, 'description': description})
        plt.close(fig)

    # Gráfico de barras empilhadas: Comparação Marvel vs DC
    if 'Universe' in df.columns:
        fig, ax = plt.subplots(figsize=(20, 18))
        sns.countplot(data=df, x='Universe', hue='Type', ax=ax)
        plt.title('Marvel vs DC por Tipo (Filme/Série)')
        plt.tight_layout()
        img_base64 = plot_64(fig)
        description = ("Este gráfico de barras empilhadas compara o número de filmes e séries entre os universos Marvel e DC. "
                       "Através deste gráfico, é possível verificar qual universo tem mais produções e a proporção de filmes e séries.")
        plots.append({'img': img_base64, 'description': description})
        plt.close(fig)

    return plots


# Gerar o relatório HTML
template_dir = '/mnt/data/templates'
os.makedirs(template_dir, exist_ok=True)

template_html = """
<!DOCTYPE html>
<html lang="pt-br">
<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>Relatório com Análise dos Dados de Filmes - Marvel vs DC</title>
    <link href="https://stackpath.bootstrapcdn.com/bootstrap/4.5.2/css/bootstrap.min.css" rel="stylesheet">
</head>
<body class="bg-light">
    <div class="container my-5">
        <h1 class="text-center mb-4">Relatório com Análise dos Dados de Filmes - Marvel vs DC</h1>

        <!-- Seção de introdução -->
        <div class="card mb-4">
            <div class="card-body">
                <h2 class="card-title">Introdução</h2>
                <p>Este relatório tem como objetivo analisar os dados de filmes e séries dos universos Marvel e DC.
                Ele inclui uma análise detalhada das características dos filmes e séries, comparações entre os dois universos
                (Marvel vs DC), e informações sobre as avaliações IMDb. Gráficos visuais e resumos estatísticos são apresentados
                para fornecer insights sobre as diferenças e semelhanças entre as produções.</p>
            </div>
        </div>

        <!-- Seção de Sumário -->
        <div class="card mb-4">
            <div class="card-body">
                <h2 class="card-title">Sumário</h2>
                <p><strong>Número de Linhas:</strong> {{ summary.shape[0] }}</p>
                <p><strong>Número de Colunas:</strong> {{ summary.shape[1] }}</p>
                <p><strong>Células Faltantes:</strong> {{ summary.cels_faltantes }}</p>
                <p><strong>Linhas Duplicadas:</strong> {{ summary.linhas_duplicadas }}</p>
            </div>
        </div>

        <!-- Seção de Gráficos -->
        <h2 class="mt-5">Gráficos</h2>
        <div class="row">
            {% for plot in plots %}
            <div class="col-md-6 mb-4">
                <div class="card">
                    <img src="data:image/png;base64,{{ plot.img }}" class="card-img-top" alt="Plot">
                    <div class="card-body">
                        <p class="card-text">{{ plot.description }}</p>
                    </div>
                </div>
            </div>
            {% endfor %}
        </div>
    </div>
</body>
</html>
"""

with open(os.path.join(template_dir, 'report_template.html'), 'w') as file:
    file.write(template_html)

# Função para gerar relatório HTML
def gerar_html(df):
    env = Environment(loader=FileSystemLoader(template_dir))
    template = env.get_template('report_template.html')

    summary = resumo_df(df)
    plots = criar_plot(df)

    html_content = template.render(summary=summary, plots=plots)

    # Salvar o relatório HTML
    report_path = '/mnt/data/relatorio_marvel_dc.html'
    with open(report_path, 'w') as f:
        f.write(html_content)

    print(f'Report saved at: {report_path}')
    return report_path

# Gerar o relatório HTML
report_path = gerar_html(df)
report_path

Report saved at: /mnt/data/relatorio_marvel_dc.html


'/mnt/data/relatorio_marvel_dc.html'