### Setup

In [3]:
pip install sqlalchemy pymysql

Collecting sqlalchemy
  Downloading sqlalchemy-2.0.41-cp313-cp313-win_amd64.whl.metadata (9.8 kB)
Collecting pymysql
  Downloading PyMySQL-1.1.1-py3-none-any.whl.metadata (4.4 kB)
Collecting greenlet>=1 (from sqlalchemy)
  Downloading greenlet-3.2.2-cp313-cp313-win_amd64.whl.metadata (4.2 kB)
Downloading sqlalchemy-2.0.41-cp313-cp313-win_amd64.whl (2.1 MB)
   ---------------------------------------- 0.0/2.1 MB ? eta -:--:--
   ---------------------------------------- 2.1/2.1 MB 27.0 MB/s eta 0:00:00
Downloading PyMySQL-1.1.1-py3-none-any.whl (44 kB)
Downloading greenlet-3.2.2-cp313-cp313-win_amd64.whl (296 kB)
Installing collected packages: pymysql, greenlet, sqlalchemy
Successfully installed greenlet-3.2.2 pymysql-1.1.1 sqlalchemy-2.0.41
Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 24.3.1 -> 25.1.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [4]:
import pandas as pd
import os
from transformers import pipeline
from tqdm import tqdm
from sqlalchemy import create_engine, text

In [None]:
# Definir caminho da pasta onde estao os CSVs
pasta_imdb = 'IMDB'

# Definir caminho completo de cada ficheiro
ficheiros = {
    'oscar': os.path.join(pasta_imdb, 'OSCAR.csv'),
    'filmes': os.path.join(pasta_imdb, 'FILMES.csv'),
    'avaliador': os.path.join(pasta_imdb, 'AVALIADOR.csv'),
    'tipo_filme': os.path.join(pasta_imdb, 'TIPO_FILME.csv'),
    'filmes_avaliacao': os.path.join(pasta_imdb, 'FILMES_AVALIACAO.csv'),
    'imdb_comments': 'imdb_reviews.csv' # é necessário executar o script scraping_imdb_reviews.ipynb antes
}

In [6]:
# Dicionario para guardar os DataFrames
dfs = {}

def ler_csv_com_fallback(caminho):
    try:
        return pd.read_csv(caminho, sep=',', encoding='utf-8')
    except UnicodeDecodeError:
        return pd.read_csv(caminho, sep=',', encoding='latin-1')

# Ler todos os CSVs para DataFrames
try:
    oscar = ler_csv_com_fallback(ficheiros['oscar'])
    filmes = ler_csv_com_fallback(ficheiros['filmes'])
    avaliador = ler_csv_com_fallback(ficheiros['avaliador'])
    tipo_filme = ler_csv_com_fallback(ficheiros['tipo_filme'])
    filmes_avaliacao = ler_csv_com_fallback(ficheiros['filmes_avaliacao'])
    imdb_comments = ler_csv_com_fallback(ficheiros['imdb_comments'])
    print("Todos os ficheiros carregados com sucesso.")
except Exception as e:
    print(f"Erro ao carregar os ficheiros: {e}")

Todos os ficheiros carregados com sucesso.


### Análise da tabela OSCAR

In [49]:
oscar.head(6)

Unnamed: 0,ID_OSCAR,DESCRICAO
0,0,Sem Oscar
1,1,Melhor Filme
2,2,Melhor Ator(a)
3,3,Melhor Realização
4,4,Melhor Interpretação
5,5,Melhor Guarda-Roupa


In [50]:
print("Missing Values:")
print(oscar.isnull().sum())

print("\nResumo estatístico:")
oscar.describe(include='all').T

Missing Values:
ID_OSCAR     0
DESCRICAO    0
dtype: int64

Resumo estatístico:


Unnamed: 0,count,unique,top,freq,mean,std,min,25%,50%,75%,max
ID_OSCAR,6.0,,,,2.5,1.870829,0.0,1.25,2.5,3.75,5.0
DESCRICAO,6.0,6.0,Sem Oscar,1.0,,,,,,,


### Análise da tabela FILMES

In [51]:
filmes.head(10)

Unnamed: 0,ID,TITULO,ANO,ID_TIPO,DURACAO,DIRECAO,CINEMA,ID_OSCAR
0,1,The Father,2020,1,98,Florian Zeller,S,1
1,2,Soul,2020,2,100,Pete Docter | Kemp Powers,S,2
2,3,The Trial of the Chicago 7,2020,3,129,Aaron Sorkin,N,0
3,4,Bad Boys for Life,2020,4,124,Adil El Arbi | Bilall Fallah,N,0
4,5,Enola Holmes,2020,5,123,Harry Bradbeer,N,0
5,6,Homem-Aranha: Sem Volta para Casa,2021,6,148,Jon Watts,S,1
6,7,Cruella,2021,1,134,Craig Gillespie,S,1
7,8,Shang-Chi and the Legend of the Ten Rings,2021,6,132,Destin Daniel Cretton,S,0
8,9,A Quiet Place Part II,2021,7,157,John Krasinski,N,0
9,10,The Black Phone,2021,7,103,Scott Derrickson,N,3


In [52]:
print("Missing Values:")
print(filmes.isnull().sum())

print("\nResumo estatístico:")
filmes.describe(include='all').T

Missing Values:
ID          0
TITULO      0
ANO         0
ID_TIPO     0
DURACAO     0
DIRECAO     0
CINEMA      0
ID_OSCAR    0
dtype: int64

Resumo estatístico:


Unnamed: 0,count,unique,top,freq,mean,std,min,25%,50%,75%,max
ID,10.0,,,,5.5,3.02765,1.0,3.25,5.5,7.75,10.0
TITULO,10.0,10.0,The Father,1.0,,,,,,,
ANO,10.0,,,,2020.5,0.527046,2020.0,2020.0,2020.5,2021.0,2021.0
ID_TIPO,10.0,,,,4.2,2.347576,1.0,2.25,4.5,6.0,7.0
DURACAO,10.0,,,,124.8,19.837114,98.0,108.0,126.5,133.5,157.0
DIRECAO,10.0,10.0,Florian Zeller,1.0,,,,,,,
CINEMA,10.0,2.0,S,5.0,,,,,,,
ID_OSCAR,10.0,,,,0.8,1.032796,0.0,0.0,0.5,1.0,3.0


In [53]:
filmes = filmes.rename(columns={'ID': 'ID_FILME'})

In [54]:
filmes = filmes.merge(oscar, on='ID_OSCAR', how='left')
filmes.drop(columns=['ID_OSCAR'], inplace=True)
filmes.rename(columns={'DESCRICAO': 'OSCAR'}, inplace=True)

In [55]:
filmes.head(10)

Unnamed: 0,ID_FILME,TITULO,ANO,ID_TIPO,DURACAO,DIRECAO,CINEMA,OSCAR
0,1,The Father,2020,1,98,Florian Zeller,S,Melhor Filme
1,2,Soul,2020,2,100,Pete Docter | Kemp Powers,S,Melhor Ator(a)
2,3,The Trial of the Chicago 7,2020,3,129,Aaron Sorkin,N,Sem Oscar
3,4,Bad Boys for Life,2020,4,124,Adil El Arbi | Bilall Fallah,N,Sem Oscar
4,5,Enola Holmes,2020,5,123,Harry Bradbeer,N,Sem Oscar
5,6,Homem-Aranha: Sem Volta para Casa,2021,6,148,Jon Watts,S,Melhor Filme
6,7,Cruella,2021,1,134,Craig Gillespie,S,Melhor Filme
7,8,Shang-Chi and the Legend of the Ten Rings,2021,6,132,Destin Daniel Cretton,S,Sem Oscar
8,9,A Quiet Place Part II,2021,7,157,John Krasinski,N,Sem Oscar
9,10,The Black Phone,2021,7,103,Scott Derrickson,N,Melhor Realização


### Análise da tabela TIPO_FILME

In [56]:
tipo_filme.head(7)

Unnamed: 0,ID,DESCRICAO
0,1,Drama
1,2,Animação
2,3,Histórico
3,4,Ação
4,5,Policial
5,6,Fantasia
6,7,Terror


In [57]:
print("Missing Values:")
print(tipo_filme.isnull().sum())

print("\nResumo estatístico:")
tipo_filme.describe(include='all').T

Missing Values:
ID           0
DESCRICAO    0
dtype: int64

Resumo estatístico:


Unnamed: 0,count,unique,top,freq,mean,std,min,25%,50%,75%,max
ID,7.0,,,,4.0,2.160247,1.0,2.5,4.0,5.5,7.0
DESCRICAO,7.0,7.0,Drama,1.0,,,,,,,


In [58]:
tipo_filme = tipo_filme.rename(columns={'ID': 'ID_TIPO'})

In [59]:
tipo_filme.head(7)

Unnamed: 0,ID_TIPO,DESCRICAO
0,1,Drama
1,2,Animação
2,3,Histórico
3,4,Ação
4,5,Policial
5,6,Fantasia
6,7,Terror


### Análise da tabela AVALIADOR

In [61]:
avaliador.head()

Unnamed: 0,ID,GENERO,IDADE,FILHOS,PAIS,INTERESSES
0,201,F,48,S,Fullerton,Drama - Histórico
1,202,F,49,N,Nashville,Fantasia - Animação
2,203,M,47,S,Berna,Ação - Policial
3,204,M,38,N,Atlanta,Drama - Histórico
4,205,M,38,N,Berna,Fantasia - Animação


In [62]:
print("Missing Values:")
print(avaliador.isnull().sum())

print("\nResumo estatístico:")
avaliador.describe(include='all').T

Missing Values:
ID            0
GENERO        0
IDADE         0
FILHOS        0
PAIS          0
INTERESSES    0
dtype: int64

Resumo estatístico:


Unnamed: 0,count,unique,top,freq,mean,std,min,25%,50%,75%,max
ID,1033.0,,,,717.0,298.345717,201.0,459.0,717.0,975.0,1233.0
GENERO,1033.0,2.0,F,542.0,,,,,,,
IDADE,1033.0,,,,37.31365,10.916188,18.0,28.0,38.0,47.0,55.0
FILHOS,1033.0,2.0,S,535.0,,,,,,,
PAIS,1033.0,107.0,San Diego,20.0,,,,,,,
INTERESSES,1033.0,4.0,Fantasia - Animação,268.0,,,,,,,


In [63]:
pd.set_option('display.max_rows', None)

avaliador['PAIS'].value_counts().sort_index()

PAIS
Albuquerque         11
Amarillo             5
Anaheim              6
Arlington           11
Atlanta             13
Bakersfield         14
Baltimore            7
Bellevue             7
Berlin               9
Berna               14
Boston               8
Bridgeport          13
Bucharest           10
Charlotte            5
Chicago             11
Cincinnati           8
Colorado Springs    10
Columbus             9
Dallas              11
Denver              10
Detroit              9
El Paso              9
Escondido            4
Fayetteville        13
Fort Lauderdale      9
Fremont             13
Fullerton           10
Garland             12
Glendale             7
Hayward             19
Henderson           10
Hollywood           10
Honolulu            11
Houston             10
Huntsville          12
Indianapolis         5
Innsbruck            9
Irving               8
Jacksonville        10
Jersey City          5
Kansas City          9
Lakewood             8
Lancaster            7
Laredo

In [64]:
avaliador['INTERESSES'].value_counts()

INTERESSES
Fantasia -  Animação    268
Ação -  Policial        259
Drama -  Histórico      255
Terror -  Fantasia      251
Name: count, dtype: int64

In [65]:
avaliador = avaliador.rename(columns={'PAIS': 'CIDADE', 'ID': 'ID_AVALIADOR'})

In [66]:
avaliador.head()

Unnamed: 0,ID_AVALIADOR,GENERO,IDADE,FILHOS,CIDADE,INTERESSES
0,201,F,48,S,Fullerton,Drama - Histórico
1,202,F,49,N,Nashville,Fantasia - Animação
2,203,M,47,S,Berna,Ação - Policial
3,204,M,38,N,Atlanta,Drama - Histórico
4,205,M,38,N,Berna,Fantasia - Animação


### Análise da tabela FILMES_AVALIACAO

In [7]:
filmes_avaliacao.head()

Unnamed: 0,ID_FILME,ID_AVALIADOR,AVALIACAO,DT_AVALIACAO
0,1,201,4,02/04/2021
1,1,202,4,05/12/2020
2,1,203,2,04/07/2020
3,1,204,1,13/04/2020
4,1,205,3,08/06/2020


In [8]:
print("Missing Values:")
print(filmes_avaliacao.isnull().sum())

print("\nResumo estatístico:")
filmes_avaliacao.describe(include='all').T

Missing Values:
ID_FILME        0
ID_AVALIADOR    0
AVALIACAO       0
DT_AVALIACAO    0
dtype: int64

Resumo estatístico:


Unnamed: 0,count,unique,top,freq,mean,std,min,25%,50%,75%,max
ID_FILME,9999.0,,,,5.49615,2.875902,1.0,3.0,5.0,8.0,10.0
ID_AVALIADOR,9999.0,,,,700.627863,288.970747,201.0,450.5,700.0,950.0,1233.0
AVALIACAO,9999.0,,,,3.005301,1.407149,1.0,2.0,3.0,4.0,5.0
DT_AVALIACAO,9999.0,731.0,15/09/2020,26.0,,,,,,,


In [9]:
# Rescaling da avaliação
filmes_avaliacao['AVALIACAO'] = 1 + (filmes_avaliacao['AVALIACAO'] - 1) * 2.25

In [10]:
filmes_avaliacao['DT_AVALIACAO'] = pd.to_datetime(filmes_avaliacao['DT_AVALIACAO'], dayfirst=True, errors='coerce')

In [11]:
filmes_avaliacao.dtypes

ID_FILME                 int64
ID_AVALIADOR             int64
AVALIACAO              float64
DT_AVALIACAO    datetime64[ns]
dtype: object

In [14]:
print("\nResumo estatístico:")
filmes_avaliacao.describe(include='all').T


Resumo estatístico:


Unnamed: 0,count,mean,min,25%,50%,75%,max,std
ID_FILME,9999.0,5.49615,1.0,3.0,5.0,8.0,10.0,2.875902
ID_AVALIADOR,9999.0,700.627863,201.0,450.5,700.0,950.0,1233.0,288.970747
AVALIACAO,9999.0,5.511926,1.0,3.25,5.5,7.75,10.0,3.166085
DT_AVALIACAO,9999.0,2020-12-31 04:03:40.342034176,2020-01-01 00:00:00,2020-06-28 00:00:00,2020-12-30 00:00:00,2021-07-03 00:00:00,2021-12-31 00:00:00,


### Scraping de comentários IMDB

In [69]:
# Importante destacar que os spoilers não são capturados 
imdb_comments['Filme'].value_counts()

Filme
Homem-Aranha: Sem Volta para Casa            6172
Shang-Chi and the Legend of the Ten Rings    2546
Cruella                                      2050
Soul                                         1850
A Quiet Place Part II                        1840
Enola Holmes                                 1759
The Black Phone                              1561
Bad Boys for Life                            1281
The Father                                   1113
The Trial of the Chicago 7                    679
Name: count, dtype: int64

In [70]:
imdb_comments.head()

Unnamed: 0,Filme,Comentario,Data
0,The Father,"""I don't know what's happening anymore.""","Apr 13, 2021"
1,The Father,How does one respond when they cannot know rea...,"Mar 22, 2020"
2,The Father,Something I'll never forget - This is a film t...,"Sep 17, 2020"
3,The Father,So good I never want to watch it again,"Mar 14, 2021"
4,The Father,This movie will haunt me for awhile. - It's ju...,"Mar 19, 2021"


In [71]:
imdb_comments_com_id = imdb_comments.merge(
    filmes[['ID_FILME', 'TITULO']], 
    how='left',
    left_on='Filme',     # Coluna na imdb_comments
    right_on='TITULO'    # Coluna na filmes
)

# Apagar as colunas extra
imdb_comments_com_id = imdb_comments_com_id.drop(['Filme', 'TITULO'], axis=1)

imdb_comments_com_id = imdb_comments_com_id.rename(columns={'Comentario': 'COMENTARIO'})

In [72]:
imdb_comments_com_id.head()

Unnamed: 0,COMENTARIO,Data,ID_FILME
0,"""I don't know what's happening anymore.""","Apr 13, 2021",1
1,How does one respond when they cannot know rea...,"Mar 22, 2020",1
2,Something I'll never forget - This is a film t...,"Sep 17, 2020",1
3,So good I never want to watch it again,"Mar 14, 2021",1
4,This movie will haunt me for awhile. - It's ju...,"Mar 19, 2021",1


In [115]:
# Converter a coluna 'Data' para datetime e formatar para YYYY-MM-DD
imdb_comments_com_id['Data'] = pd.to_datetime(imdb_comments_com_id['Data'], format='%b %d, %Y').dt.strftime('%d-%m-%Y')

In [116]:
imdb_comments_com_id.head()

Unnamed: 0,COMENTARIO,Data,ID_FILME,SENTIMENTO
0,"""I don't know what's happening anymore.""",13-04-2021,1,Negativo
1,How does one respond when they cannot know rea...,22-03-2020,1,Negativo
2,Something I'll never forget - This is a film t...,17-09-2020,1,Positivo
3,So good I never want to watch it again,14-03-2021,1,Positivo
4,This movie will haunt me for awhile. - It's ju...,19-03-2021,1,Negativo


### Classificação de sentimento dos comentários

In [None]:
# Inicializa o modelo de sentimento (com todos os scores!)
sentiment_pipeline = pipeline("sentiment-analysis", model="cardiffnlp/twitter-roberta-base-sentiment", return_all_scores=True)

# Mapear os labels para sentimento real
mapeamento_sentimentos = {
    'LABEL_0': 'Negativo',
    'LABEL_1': 'Neutro',
    'LABEL_2': 'Positivo'
}

# Abrir o ficheiro de log para escrita
log_file = open('log_classificacao.txt', 'w', encoding='utf-8')

# Função para classificar e guardar no log
def classificar_sentimento(texto):
    try:
        resultado = sentiment_pipeline(texto[:512])[0]
        melhor_label = max(resultado, key=lambda x: x['score'])['label']
        sentimento = mapeamento_sentimentos.get(melhor_label, 'Desconhecido')

        # Criar o texto de log
        log_text = "\n" + "="*60 + "\n"
        log_text += f"Comentário: {texto[:250]}...\n"
        log_text += f"Sentimento principal: {sentimento}\n"

        for item in resultado:
            label_traduzida = mapeamento_sentimentos.get(item['label'], item['label'])
            score = round(item['score'] * 100, 2)
            log_text += f"  {label_traduzida}: {score}%\n"
        
        # Escrever no ficheiro de log
        log_file.write(log_text)
        
        return sentimento
    except Exception as e:
        log_file.write(f"\nComentário: {texto[:80]}...\nErro: {e}\n")
        return "Erro"

# Aplicar a função ao DataFrame com barra de progresso
imdb_comments_com_id['SENTIMENTO'] = [classificar_sentimento(texto) for texto in tqdm(imdb_comments_com_id['COMENTARIO'])]

# Fechar o ficheiro de log no final
log_file.close()

Device set to use cpu
100%|██████████| 20851/20851 [24:32<00:00, 14.16it/s]


### Upload in mysql

In [None]:
# Ligação ao MySQL
engine = create_engine("mysql+pymysql://root:12345678@localhost:3306/imdb_filmdata")    # user (root) + password (12345678) + localhost:3306

# No workbench fazer:    CREATE DATABASE imdb_filmdata;

# Mapeamento nome da tabela → dataframe
dfs = {
    'filmes': filmes,
    'avaliador': avaliador,
    'tipo_filme': tipo_filme,
    'filmes_avaliacao': filmes_avaliacao,
    'imdb_comments': imdb_comments_com_id
}

# DDLs para garantir tipos corretos
ddl_map = {
    'imdb_comments': """
        CREATE TABLE IF NOT EXISTS imdb_comments (
            ID INT AUTO_INCREMENT PRIMARY KEY,
            COMENTARIO TEXT,
            Data DATE,
            ID_FILME INT,
            SENTIMENTO VARCHAR(20)
        )
    """,
    'filmes_avaliacao': """
        CREATE TABLE IF NOT EXISTS filmes_avaliacao (
            ID INT AUTO_INCREMENT PRIMARY KEY,
            ID_FILME INT,
            ID_AVALIADOR INT,
            AVALIACAO FLOAT,
            DT_AVALIACAO DATE
        )
    """,
    'avaliador': """
        CREATE TABLE IF NOT EXISTS avaliador (
            ID_AVALIADOR INT PRIMARY KEY,
            GENERO CHAR(1),
            IDADE INT,
            FILHOS CHAR(1),
            CIDADE VARCHAR(100),
            INTERESSES VARCHAR(255)
        )
    """,
    'tipo_filme': """
        CREATE TABLE IF NOT EXISTS tipo_filme (
            ID_TIPO INT PRIMARY KEY,
            DESCRICAO VARCHAR(100)
        )
    """,
    'filmes': """
        CREATE TABLE IF NOT EXISTS filmes (
            ID_FILME INT PRIMARY KEY,
            TITULO VARCHAR(255),
            ANO INT,
            ID_TIPO INT,
            DURACAO INT,
            DIRECAO VARCHAR(255),
            CINEMA CHAR(1),
            OSCAR VARCHAR(100)
        )
    """
}

In [18]:
# Função para inserir apenas registos novos
def inserir_novos_registos(table_name, df):
    for col in df.columns:
        if 'data' in col.lower():
            df[col] = pd.to_datetime(df[col], errors='coerce', dayfirst=True)

    with engine.connect() as conn:
        conn.execute(text(ddl_map[table_name]))

    chave = ['COMENTARIO', 'Data', 'ID_FILME'] if table_name == 'imdb_comments' \
        else ['ID_FILME', 'ID_AVALIADOR', 'DT_AVALIACAO'] if table_name == 'filmes_avaliacao' \
        else list(df.columns)

    query_cols = ", ".join(chave)
    try:
        existentes = pd.read_sql(f"SELECT {query_cols} FROM {table_name}", engine)

        # Normalizar tipos das chaves (especialmente datas)
        for col in chave:
            if col.lower().startswith('dt') or 'data' in col.lower():
                df[col] = pd.to_datetime(df[col], errors='coerce')
                existentes[col] = pd.to_datetime(existentes[col], errors='coerce')

        novos = df.merge(existentes, on=chave, how='left', indicator=True)
        novos = novos[novos['_merge'] == 'left_only'].drop(columns=['_merge'])
    except Exception as e:
        print(f"Erro a comparar registos existentes para '{table_name}': {e}")
        novos = df

    if not novos.empty:
        novos.to_sql(table_name, engine, if_exists='append', index=False)
        print(f"✅ {len(novos)} novos registos inseridos em '{table_name}'")
    else:
        print(f"ℹ️ Sem novos registos para '{table_name}'")

In [19]:
# Executar para cada DataFrame
for nome, df in dfs.items():
    inserir_novos_registos(nome, df)

✅ 9999 novos registos inseridos em 'filmes_avaliacao'


### Save csvs

In [230]:
# Garantir que a pasta existe
output_folder = 'preprocessed_files'
os.makedirs(output_folder, exist_ok=True)

# Guardar todos os DataFrames
oscar.to_csv(os.path.join(output_folder, 'oscar.csv'), index=False)
filmes.to_csv(os.path.join(output_folder, 'filmes.csv'), index=False)
avaliador.to_csv(os.path.join(output_folder, 'avaliador.csv'), index=False)
tipo_filme.to_csv(os.path.join(output_folder, 'tipo_filme.csv'), index=False)
filmes_avaliacao.to_csv(os.path.join(output_folder, 'filmes_avaliacao.csv'), index=False)
imdb_comments_com_id.to_csv(os.path.join(output_folder, 'imdb_comments_id.csv'), index=False)