In [1]:
import pandas as pd

# Se o arquivo usa vírgula como separador padrão:
df = pd.read_csv(r"base de dados nao normalizada\world_imdb_movies_top_movies_per_year.csv[1]", encoding='utf-8')

# Filtrar filmes após 2000 em inglês
filmes_ingles_2000 = df[
    (df['year'] >= 2000) &
    (df['language'].str.contains('English', case=False, na=False))
]

print(filmes_ingles_2000.head())
filmes_ingles_2000.to_csv("filmes_ingles_apos_2000.csv", index=False)

            id          title                                   link  year  \
45  tt10713340           Held  https://www.imdb.com/title/tt10713340  2020   
46  tt12801356        MLK/FBI  https://www.imdb.com/title/tt12801356  2020   
47  tt10268550         Minyan  https://www.imdb.com/title/tt10268550  2020   
48   tt7556122  The Old Guard   https://www.imdb.com/title/tt7556122  2020   
49   tt8633478            Run   https://www.imdb.com/title/tt8633478  2020   

   duration rating_mpa  rating_imdb      vote      budget  gross_world_wide  \
45   1h 34m        NaN          5.3   31000.0         NaN          150913.0   
46   1h 44m      TV-PG          7.0   18000.0         NaN           91833.0   
47   1h 58m    Unrated          6.5   12000.0         NaN           13861.0   
48    2h 5m          R          6.7  189000.0  70000000.0               NaN   
49   1h 30m      PG-13          6.7  102000.0         NaN         5184368.0   

    ...                                         writer  

In [2]:
df = filmes_ingles_2000

min_ano = df['year'].min()
max_ano = df['year'].max()

print("Ano mínimo:", min_ano)
print("Ano máximo:", max_ano)
#anos entre 2000 ate hoje

Ano mínimo: 2000
Ano máximo: 2024


In [3]:
idiomas_unicos = filmes_ingles_2000['language'].dropna().unique()

print(idiomas_unicos)

['English' 'English, Hebrew, Yiddish, Russian'
 'English, Arabic, French, Italian' ... 'English, Lao'
 'English, Dari, Russian, Spanish, Uzbek'
 'French, English, Italian, German']


In [12]:

movies = df.drop(columns=['director','writer','star','genre','language'])


movie_director = (
    df[['id','director']]
    .assign(director=df['director'].str.split(',\s*'))
    .explode('director')
)

movie_writer = (
    df[['id','writer']]
    .assign(writer=df['writer'].str.split(',\s*'))
    .explode('writer')
)


movie_star = (
    df[['id','star']]
    .assign(star=df['star'].str.split(',\s*'))
    .explode('star')
)


movie_genre = (
    df[['id','genre']]
    .assign(genre=df['genre'].str.split(',\s*'))
    .explode('genre')

)

movie_language = (
    df[['id','language']]
    .assign(language=df['language'].str.split(',\s*'))
    .explode('language')
)


  .assign(director=df['director'].str.split(',\s*'))
  .assign(writer=df['writer'].str.split(',\s*'))
  .assign(star=df['star'].str.split(',\s*'))
  .assign(genre=df['genre'].str.split(',\s*'))
  .assign(language=df['language'].str.split(',\s*'))


In [None]:
import pandas as pd


# --- Pessoas (diretores, roteiristas, atores)
pessoas = pd.concat([
    movie_director[['director']].rename(columns={'director':'nome'}),
    movie_writer[['writer']].rename(columns={'writer':'nome'}),
    movie_star[['star']].rename(columns={'star':'nome'})
]).drop_duplicates().reset_index(drop=True)

pessoas['id_pessoa'] = pessoas.index + 1

# --- Gêneros
generos = movie_genre[['genre']].drop_duplicates().reset_index(drop=True)
generos['id_genero'] = generos.index + 1

# --- Idiomas
idiomas = movie_language[['language']].drop_duplicates().reset_index(drop=True)
idiomas['id_idioma'] = idiomas.index + 1

# --- Países (exemplo com country_origin)
paises = movies[['country_origin']].drop_duplicates().reset_index(drop=True)
paises['id_pais'] = paises.index + 1

# --- Empresas (exemplo com production_company)
empresas = movies[['production_company']].drop_duplicates().reset_index(drop=True)
empresas['id_empresa'] = empresas.index + 1


In [14]:
# Filme ↔ Pessoas
filme_equipe = pd.concat([
    movie_director.merge(pessoas, left_on='director', right_on='nome')[['id', 'id_pessoa']].assign(papel='Diretor'),
    movie_writer.merge(pessoas, left_on='writer', right_on='nome')[['id', 'id_pessoa']].assign(papel='Roteirista'),
    movie_star.merge(pessoas, left_on='star', right_on='nome')[['id', 'id_pessoa']].assign(papel='Ator')
])

filme_equipe = filme_equipe.rename(columns={'id':'id_filme'})

# Filme ↔ Gênero
filme_genero = movie_genre.merge(generos, left_on='genre', right_on='genre')[['id', 'id_genero']].rename(columns={'id':'id_filme'})

# Filme ↔ Idioma
filme_idioma = movie_language.merge(idiomas, left_on='language', right_on='language')[['id', 'id_idioma']].rename(columns={'id':'id_filme'})

# Filme ↔ País
filme_pais = movies.merge(paises, left_on='country_origin', right_on='country_origin')[['id', 'id_pais']].rename(columns={'id':'id_filme'})

# Filme ↔ Empresa
filme_empresa = movies.merge(empresas, left_on='production_company', right_on='production_company')[['id', 'id_empresa']].rename(columns={'id':'id_filme'})


In [19]:
from sqlalchemy import create_engine, text

engine = create_engine("postgresql+psycopg2://postgres:password@localhost:5433/filmes")

# Usando conexão
with engine.begin() as conn:
    # Apagar tabelas dependentes
    for table in ['movie_director','movie_writer','movie_star','movie_genre','movie_language']:
        conn.execute(text(f'DROP TABLE IF EXISTS {table} CASCADE'))

    # Apagar tabela principal
    conn.execute(text('DROP TABLE IF EXISTS movies CASCADE'))


In [17]:

text_cols = df.select_dtypes(include='object').columns

# Converte tudo para string segura em UTF-8
for col in text_cols:
    df[col] = df[col].astype(str).apply(lambda x: x.encode('utf-8', errors='ignore').decode('utf-8'))


movie_director = movie_director.rename(columns={'id':'movie_id'})
movie_writer   = movie_writer.rename(columns={'id':'movie_id'})
movie_star     = movie_star.rename(columns={'id':'movie_id'})
movie_genre    = movie_genre.rename(columns={'id':'movie_id'})
movie_language = movie_language.rename(columns={'id':'movie_id'})


In [20]:
import pandas as pd
from sqlalchemy import create_engine, text
from urllib.parse import quote_plus

# =============================
# 0️⃣ Configuração do banco
# =============================
user = "postgres"
password = "password"
password_enc = quote_plus(password)  # escapa caracteres especiais
database = "filmes"
port = 5433

engine = create_engine(f"postgresql+psycopg2://{user}:{password_enc}@localhost:{port}/{database}")

# =============================
# 1️⃣ Preparar os DataFrames
# =============================

# movies (tabela principal)
movies = df.drop(columns=['director','writer','star','genre','language'])

# Explode os dados de diretor, escritor, ator, gênero, idioma
movie_director = df[['id','director']].assign(director=df['director'].str.split(',\s*')).explode('director')
movie_writer   = df[['id','writer']].assign(writer=df['writer'].str.split(',\s*')).explode('writer')
movie_star     = df[['id','star']].assign(star=df['star'].str.split(',\s*')).explode('star')
movie_genre    = df[['id','genre']].assign(genre=df['genre'].str.split(',\s*')).explode('genre')
movie_language = df[['id','language']].assign(language=df['language'].str.split(',\s*')).explode('language')

# Dimensões
pessoas = pd.concat([
    movie_director[['director']].rename(columns={'director':'nome_pessoa'}),
    movie_writer[['writer']].rename(columns={'writer':'nome_pessoa'}),
    movie_star[['star']].rename(columns={'star':'nome_pessoa'})
]).drop_duplicates().reset_index(drop=True)
pessoas['id_pessoa'] = pessoas.index + 1

generos = movie_genre[['genre']].drop_duplicates().rename(columns={'genre':'nome_genero'}).reset_index(drop=True)
generos['id_genero'] = generos.index + 1

idiomas = movie_language[['language']].drop_duplicates().rename(columns={'language':'nome_idioma'}).reset_index(drop=True)
idiomas['id_idioma'] = idiomas.index + 1

paises = movies[['country_origin']].drop_duplicates().rename(columns={'country_origin':'nome_pais'}).reset_index(drop=True)
paises['id_pais'] = paises.index + 1

empresas = movies[['production_company']].drop_duplicates().rename(columns={'production_company':'nome_empresa'}).reset_index(drop=True)
empresas['id_empresa'] = empresas.index + 1

# Tabelas associativas
filme_equipe = pd.concat([
    movie_director.merge(pessoas, left_on='director', right_on='nome_pessoa')[['id','id_pessoa']].assign(papel='Diretor'),
    movie_writer.merge(pessoas, left_on='writer', right_on='nome_pessoa')[['id','id_pessoa']].assign(papel='Roteirista'),
    movie_star.merge(pessoas, left_on='star', right_on='nome_pessoa')[['id','id_pessoa']].assign(papel='Ator')
]).rename(columns={'id':'id_filme'})

filme_genero = movie_genre.merge(generos, left_on='genre', right_on='nome_genero')[['id','id_genero']].rename(columns={'id':'id_filme'})
filme_idioma = movie_language.merge(idiomas, left_on='language', right_on='nome_idioma')[['id','id_idioma']].rename(columns={'id':'id_filme'})
filme_pais    = movies.merge(paises, left_on='country_origin', right_on='nome_pais')[['id','id_pais']].rename(columns={'id':'id_filme'})
filme_empresa = movies.merge(empresas, left_on='production_company', right_on='nome_empresa')[['id','id_empresa']].rename(columns={'id':'id_filme'})

# =============================
# 2️⃣ Criar tabelas no PostgreSQL
# =============================
with engine.begin() as conn:
    # Apaga tabelas antigas
    for table in ['filme_empresa','filme_pais','filme_idioma','filme_genero','filme_equipe',
                  'empresas','paises','idiomas','generos','pessoas','movies']:
        conn.execute(text(f'DROP TABLE IF EXISTS {table} CASCADE'))

    # Tabela principal
    conn.execute(text("""
        CREATE TABLE movies (
            id TEXT PRIMARY KEY,
            title TEXT NOT NULL,
            link TEXT,
            year INT,
            duration TEXT,
            rating_mpa TEXT,
            rating_imdb FLOAT,
            vote BIGINT,
            budget BIGINT,
            gross_world_wide BIGINT,
            gross_us_canada BIGINT,
            gross_opening_weekend BIGINT,
            country_origin TEXT,
            filming_location TEXT,
            production_company TEXT,
            win INT,
            nomination INT,
            oscar INT
        );
    """))

    # Tabelas de dimensão
    conn.execute(text("""
        CREATE TABLE pessoas (
            id_pessoa INT PRIMARY KEY,
            nome_pessoa TEXT UNIQUE
        );
    """))
    conn.execute(text("""
        CREATE TABLE generos (
            id_genero INT PRIMARY KEY,
            nome_genero TEXT UNIQUE
        );
    """))
    conn.execute(text("""
        CREATE TABLE idiomas (
            id_idioma INT PRIMARY KEY,
            nome_idioma TEXT UNIQUE
        );
    """))
    conn.execute(text("""
        CREATE TABLE paises (
            id_pais INT PRIMARY KEY,
            nome_pais TEXT UNIQUE
        );
    """))
    conn.execute(text("""
        CREATE TABLE empresas (
            id_empresa INT PRIMARY KEY,
            nome_empresa TEXT UNIQUE
        );
    """))

    # Tabelas associativas
    conn.execute(text("""
        CREATE TABLE filme_equipe (
            id_filme TEXT NOT NULL REFERENCES movies(id) ON DELETE CASCADE,
            id_pessoa INT NOT NULL REFERENCES pessoas(id_pessoa),
            papel TEXT
        );
    """))
    conn.execute(text("""
        CREATE TABLE filme_genero (
            id_filme TEXT NOT NULL REFERENCES movies(id) ON DELETE CASCADE,
            id_genero INT NOT NULL REFERENCES generos(id_genero)
        );
    """))
    conn.execute(text("""
        CREATE TABLE filme_idioma (
            id_filme TEXT NOT NULL REFERENCES movies(id) ON DELETE CASCADE,
            id_idioma INT NOT NULL REFERENCES idiomas(id_idioma)
        );
    """))
    conn.execute(text("""
        CREATE TABLE filme_pais (
            id_filme TEXT NOT NULL REFERENCES movies(id) ON DELETE CASCADE,
            id_pais INT NOT NULL REFERENCES paises(id_pais)
        );
    """))
    conn.execute(text("""
        CREATE TABLE filme_empresa (
            id_filme TEXT NOT NULL REFERENCES movies(id) ON DELETE CASCADE,
            id_empresa INT NOT NULL REFERENCES empresas(id_empresa)
        );
    """))

# =============================
# 3️⃣ Inserir dados
# =============================
movies.to_sql('movies', engine, index=False, if_exists='append')
pessoas.to_sql('pessoas', engine, index=False, if_exists='append')
generos.to_sql('generos', engine, index=False, if_exists='append')
idiomas.to_sql('idiomas', engine, index=False, if_exists='append')
paises.to_sql('paises', engine, index=False, if_exists='append')
empresas.to_sql('empresas', engine, index=False, if_exists='append')

filme_equipe.to_sql('filme_equipe', engine, index=False, if_exists='append')
filme_genero.to_sql('filme_genero', engine, index=False, if_exists='append')
filme_idioma.to_sql('filme_idioma', engine, index=False, if_exists='append')
filme_pais.to_sql('filme_pais', engine, index=False, if_exists='append')
filme_empresa.to_sql('filme_empresa', engine, index=False, if_exists='append')

print("Todas as tabelas foram criadas e os dados inseridos com sucesso!")


  movie_director = df[['id','director']].assign(director=df['director'].str.split(',\s*')).explode('director')
  movie_writer   = df[['id','writer']].assign(writer=df['writer'].str.split(',\s*')).explode('writer')
  movie_star     = df[['id','star']].assign(star=df['star'].str.split(',\s*')).explode('star')
  movie_genre    = df[['id','genre']].assign(genre=df['genre'].str.split(',\s*')).explode('genre')
  movie_language = df[['id','language']].assign(language=df['language'].str.split(',\s*')).explode('language')


Todas as tabelas foram criadas e os dados inseridos com sucesso!


In [None]:
from dotenv import load_dotenv
import os
from sqlalchemy import create_engine, text
from urllib.parse import quote_plus

# Usuário do MySQL
user = "user"               
# Senha do MySQL
password = "user123"        
# Codifica caracteres especiais (recomendado)
password_enc = quote_plus(password)
# Host do container
host = "localhost"          
# Porta mapeada no host
port = 33016                
# Nome do banco
database = "filmes"     

# Cria engine do SQLAlchemy
engine = create_engine(f"mysql+pymysql://{user}:{password_enc}@{host}:{port}/{database}")
print(engine)

# Criação de tabelas
with engine.begin() as conn:
    # Tabelas de dimensão
    conn.execute(text("""
        CREATE TABLE pessoas (
            id_pessoa INT AUTO_INCREMENT PRIMARY KEY,
            nome_pessoa VARCHAR(255) UNIQUE
        );
    """))
    
    conn.execute(text("""
        CREATE TABLE generos (
            id_genero INT AUTO_INCREMENT PRIMARY KEY,
            nome_genero VARCHAR(255) UNIQUE
        );
    """))
    
    conn.execute(text("""
        CREATE TABLE idiomas (
            id_idioma INT AUTO_INCREMENT PRIMARY KEY,
            nome_idioma VARCHAR(255) UNIQUE
        );
    """))
    
    conn.execute(text("""
        CREATE TABLE paises (
            id_pais INT AUTO_INCREMENT PRIMARY KEY,
            nome_pais VARCHAR(255) UNIQUE
        );
    """))
    
    conn.execute(text("""
        CREATE TABLE empresas (
            id_empresa INT AUTO_INCREMENT PRIMARY KEY,
            nome_empresa VARCHAR(255) UNIQUE
        );
    """))
    
    # Tabela principal
    conn.execute(text("""
        CREATE TABLE movies (
            id VARCHAR(50) PRIMARY KEY,
            title VARCHAR(255) NOT NULL,
            link VARCHAR(255),
            year INT,
            duration VARCHAR(50),
            rating_mpa VARCHAR(50),
            rating_imdb FLOAT,
            vote BIGINT,
            budget BIGINT,
            gross_world_wide BIGINT,
            gross_us_canada BIGINT,
            gross_opening_weekend BIGINT,
            country_origin VARCHAR(255),
            filming_location VARCHAR(255),
            production_company VARCHAR(255),
            win INT,
            nomination INT,
            oscar INT
        );
    """))

    # Tabelas associativas
    conn.execute(text("""
        CREATE TABLE filme_equipe (
            id_filme VARCHAR(50),
            id_pessoa INT,
            papel VARCHAR(50),
            FOREIGN KEY (id_filme) REFERENCES movies(id) ON DELETE CASCADE,
            FOREIGN KEY (id_pessoa) REFERENCES pessoas(id_pessoa)
        );
    """))
    
    conn.execute(text("""
        CREATE TABLE filme_genero (
            id_filme VARCHAR(50),
            id_genero INT,
            FOREIGN KEY (id_filme) REFERENCES movies(id) ON DELETE CASCADE,
            FOREIGN KEY (id_genero) REFERENCES generos(id_genero)
        );
    """))
    
    conn.execute(text("""
        CREATE TABLE filme_idioma (
            id_filme VARCHAR(50),
            id_idioma INT,
            FOREIGN KEY (id_filme) REFERENCES movies(id) ON DELETE CASCADE,
            FOREIGN KEY (id_idioma) REFERENCES idiomas(id_idioma)
        );
    """))
    
    conn.execute(text("""
        CREATE TABLE filme_pais (
            id_filme VARCHAR(50),
            id_pais INT,
            FOREIGN KEY (id_filme) REFERENCES movies(id) ON DELETE CASCADE,
            FOREIGN KEY (id_pais) REFERENCES paises(id_pais)
        );
    """))
    
    conn.execute(text("""
        CREATE TABLE filme_empresa (
            id_filme VARCHAR(50),
            id_empresa INT,
            FOREIGN KEY (id_filme) REFERENCES movies(id) ON DELETE CASCADE,
            FOREIGN KEY (id_empresa) REFERENCES empresas(id_empresa)
        );
    """))

print("Todas as tabelas foram criadas com sucesso no MySQL!")


Engine(mysql+pymysql://root:***@localhost:3306/filmes)
Todas as tabelas foram criadas com sucesso no MySQL!


(1,)
