In [6]:
import pandas as pd

# Se o arquivo usa vírgula como separador padrão:
df = pd.read_csv(r"base de dados nao normalizada\world_imdb_movies_top_movies_per_year.csv[1]", encoding='utf-8')

# Filtrar filmes após 2000 em inglês
filmes_ingles_2000 = df[
    (df['year'] >= 2000) &
    (df['language'].str.contains('English', case=False, na=False))
]

print(filmes_ingles_2000.head())
filmes_ingles_2000.to_csv("filmes_ingles_apos_2000.csv", index=False)

ModuleNotFoundError: No module named 'pandas'

In [None]:
df = filmes_ingles_2000

min_ano = df['year'].min()
max_ano = df['year'].max()

print("Ano mínimo:", min_ano)
print("Ano máximo:", max_ano)
#anos entre 2000 ate hoje

In [None]:
idiomas_unicos = filmes_ingles_2000['language'].dropna().unique()

print(idiomas_unicos)

In [None]:

movies = df.drop(columns=['director','writer','star','genre','language'])


movie_director = (
    df[['id','director']]
    .assign(director=df['director'].str.split(',\s*'))
    .explode('director')
)

movie_writer = (
    df[['id','writer']]
    .assign(writer=df['writer'].str.split(',\s*'))
    .explode('writer')
)


movie_star = (
    df[['id','star']]
    .assign(star=df['star'].str.split(',\s*'))
    .explode('star')
)


movie_genre = (
    df[['id','genre']]
    .assign(genre=df['genre'].str.split(',\s*'))
    .explode('genre')

)

movie_language = (
    df[['id','language']]
    .assign(language=df['language'].str.split(',\s*'))
    .explode('language')
)


In [None]:
import pandas as pd


# --- Pessoas (diretores, roteiristas, atores)
pessoas = pd.concat([
    movie_director[['director']].rename(columns={'director':'nome_pessoa'}),
    movie_writer[['writer']].rename(columns={'writer':'nome_pessoa'}),
    movie_star[['star']].rename(columns={'star':'nome_pessoa'})
]).drop_duplicates().reset_index(drop=True)

pessoas['id_pessoa'] = pessoas.index + 1

# --- Gêneros
generos = movie_genre[['genre']].drop_duplicates().rename(columns={'genre':'nome_genero'}).reset_index(drop=True)
generos['id_genero'] = generos.index + 1

# --- Idiomas
idiomas = movie_language[['language']].drop_duplicates().rename(columns={'language':'nome_idioma'}).reset_index(drop=True)
idiomas['id_idioma'] = idiomas.index + 1

# --- Países (exemplo com country_origin)
paises = movies[['country_origin']].drop_duplicates().rename(columns={'country_origin':'nome_pais'}).reset_index(drop=True)
paises['id_pais'] = paises.index + 1

# --- Empresas (exemplo com production_company)
empresas = movies[['production_company']].drop_duplicates().rename(columns={'production_company':'nome_empresa'}).reset_index(drop=True)
empresas['id_empresa'] = empresas.index + 1

In [None]:
# Tabelas associativas separadas por papel
# Filme ↔ Diretores
filme_diretor = movie_director.merge(pessoas, left_on='director', right_on='nome_pessoa')[['id', 'id_pessoa']].rename(columns={'id':'id_filme'})

# Filme ↔ Roteiristas  
filme_roteirista = movie_writer.merge(pessoas, left_on='writer', right_on='nome_pessoa')[['id', 'id_pessoa']].rename(columns={'id':'id_filme'})

# Filme ↔ Estrelas (com ordem de crédito)
filme_estrela = movie_star.merge(pessoas, left_on='star', right_on='nome_pessoa')[['id', 'id_pessoa']].rename(columns={'id':'id_filme'})
filme_estrela['ordem_credito'] = filme_estrela.groupby('id_filme').cumcount() + 1

# Filme ↔ Gênero
filme_genero = movie_genre.merge(generos, left_on='genre', right_on='nome_genero')[['id', 'id_genero']].rename(columns={'id':'id_filme'})

# Filme ↔ Idioma
filme_idioma = movie_language.merge(idiomas, left_on='language', right_on='nome_idioma')[['id', 'id_idioma']].rename(columns={'id':'id_filme'})

# Filme ↔ País
filme_pais = movies.merge(paises, left_on='country_origin', right_on='nome_pais')[['id', 'id_pais']].rename(columns={'id':'id_filme'})

# Filme ↔ Empresa
filme_empresa = movies.merge(empresas, left_on='production_company', right_on='nome_empresa')[['id', 'id_empresa']].rename(columns={'id':'id_filme'})

In [None]:
from sqlalchemy import create_engine, text

engine = create_engine("postgresql+psycopg2://postgres:password@localhost:5433/filmes")

# Usando conexão
with engine.begin() as conn:
    # Apagar tabelas dependentes
    for table in ['movie_director','movie_writer','movie_star','movie_genre','movie_language']:
        conn.execute(text(f'DROP TABLE IF EXISTS {table} CASCADE'))

    # Apagar tabela principal
    conn.execute(text('DROP TABLE IF EXISTS movies CASCADE'))


In [None]:

text_cols = df.select_dtypes(include='object').columns

# Converte tudo para string segura em UTF-8
for col in text_cols:
    df[col] = df[col].astype(str).apply(lambda x: x.encode('utf-8', errors='ignore').decode('utf-8'))


movie_director = movie_director.rename(columns={'id':'movie_id'})
movie_writer   = movie_writer.rename(columns={'id':'movie_id'})
movie_star     = movie_star.rename(columns={'id':'movie_id'})
movie_genre    = movie_genre.rename(columns={'id':'movie_id'})
movie_language = movie_language.rename(columns={'id':'movie_id'})


In [None]:
import pandas as pd
from sqlalchemy import create_engine, text
from urllib.parse import quote_plus

# =============================
# 0️⃣ Configuração do banco MySQL
# =============================
user = "root"
password = "mdrzz.0301"  # Altere para sua senha
password_enc = quote_plus(password)  # escapa caracteres especiais
database = "filmes_db"
port = 3306

engine = create_engine(f"mysql+pymysql://{user}:{password_enc}@localhost:{port}/{database}")

# =============================
# 1️⃣ Preparar os DataFrames
# =============================

# movies (tabela principal) - remover colunas que serão normalizadas
movies = df.drop(columns=['director','writer','star','genre','language'])

# Explode os dados de diretor, escritor, ator, gênero, idioma
movie_director = df[['id','director']].assign(director=df['director'].str.split(',\s*')).explode('director')
movie_writer   = df[['id','writer']].assign(writer=df['writer'].str.split(',\s*')).explode('writer')
movie_star     = df[['id','star']].assign(star=df['star'].str.split(',\s*')).explode('star')
movie_genre    = df[['id','genre']].assign(genre=df['genre'].str.split(',\s*')).explode('genre')
movie_language = df[['id','language']].assign(language=df['language'].str.split(',\s*')).explode('language')

# Dimensões
pessoas = pd.concat([
    movie_director[['director']].rename(columns={'director':'nome_pessoa'}),
    movie_writer[['writer']].rename(columns={'writer':'nome_pessoa'}),
    movie_star[['star']].rename(columns={'star':'nome_pessoa'})
]).drop_duplicates().reset_index(drop=True)
pessoas['id_pessoa'] = pessoas.index + 1

generos = movie_genre[['genre']].drop_duplicates().rename(columns={'genre':'nome_genero'}).reset_index(drop=True)
generos['id_genero'] = generos.index + 1

idiomas = movie_language[['language']].drop_duplicates().rename(columns={'language':'nome_idioma'}).reset_index(drop=True)
idiomas['id_idioma'] = idiomas.index + 1

paises = movies[['country_origin']].drop_duplicates().rename(columns={'country_origin':'nome_pais'}).reset_index(drop=True)
paises['id_pais'] = paises.index + 1

empresas = movies[['production_company']].drop_duplicates().rename(columns={'production_company':'nome_empresa'}).reset_index(drop=True)
empresas['id_empresa'] = empresas.index + 1

# Tabelas associativas separadas
filme_diretor = movie_director.merge(pessoas, left_on='director', right_on='nome_pessoa')[['id','id_pessoa']].rename(columns={'id':'id_filme'})
filme_roteirista = movie_writer.merge(pessoas, left_on='writer', right_on='nome_pessoa')[['id','id_pessoa']].rename(columns={'id':'id_filme'})
filme_estrela = movie_star.merge(pessoas, left_on='star', right_on='nome_pessoa')[['id','id_pessoa']].rename(columns={'id':'id_filme'})
filme_estrela['ordem_credito'] = filme_estrela.groupby('id_filme').cumcount() + 1

filme_genero = movie_genre.merge(generos, left_on='genre', right_on='nome_genero')[['id','id_genero']].rename(columns={'id':'id_filme'})
filme_idioma = movie_language.merge(idiomas, left_on='language', right_on='nome_idioma')[['id','id_idioma']].rename(columns={'id':'id_filme'})
filme_pais = movies.merge(paises, left_on='country_origin', right_on='nome_pais')[['id','id_pais']].rename(columns={'id':'id_filme'})
filme_empresa = movies.merge(empresas, left_on='production_company', right_on='nome_empresa')[['id','id_empresa']].rename(columns={'id':'id_filme'})

# =============================
# 2️⃣ Criar tabelas no MySQL
# =============================
with engine.begin() as conn:
    # Apaga tabelas antigas
    conn.execute(text("SET FOREIGN_KEY_CHECKS = 0"))
    
    for table in ['Filme_Idioma','Filme_Empresa_Producao','Filme_Pais_Origem',
                  'Filme_Genero','Filme_Roteirista','Filme_Diretor','Filme_Estrela',
                  'Filmes','Pessoas','Generos','Paises','Empresas','Idiomas']:
        conn.execute(text(f'DROP TABLE IF EXISTS {table}'))

    conn.execute(text("SET FOREIGN_KEY_CHECKS = 1"))

    # Tabela principal
    conn.execute(text("""
        CREATE TABLE Filmes (
            id_filme INT AUTO_INCREMENT PRIMARY KEY,
            titulo VARCHAR(255) NOT NULL,
            link_imdb VARCHAR(500),
            ano_lancamento INT,
            duracao_minutos INT,
            classificacao_mpa VARCHAR(20),
            nota_imdb DECIMAL(3,1),
            votos_imdb INT,
            orcamento DECIMAL(15,2),
            bilheteria_mundial DECIMAL(15,2),
            bilheteria_eua_canada DECIMAL(15,2),
            bilheteria_abertura DECIMAL(15,2),
            vitorias_premios INT,
            nominacoes_premios INT,
            vitorias_oscar INT
        ) ENGINE=InnoDB;
    """))

    # Tabelas de dimensão
    conn.execute(text("""
        CREATE TABLE Pessoas (
            id_pessoa INT AUTO_INCREMENT PRIMARY KEY,
            nome_pessoa VARCHAR(255) NOT NULL
        ) ENGINE=InnoDB;
    """))
    conn.execute(text("""
        CREATE TABLE Generos (
            id_genero INT AUTO_INCREMENT PRIMARY KEY,
            nome_genero VARCHAR(100) NOT NULL
        ) ENGINE=InnoDB;
    """))
    conn.execute(text("""
        CREATE TABLE Paises (
            id_pais INT AUTO_INCREMENT PRIMARY KEY,
            nome_pais VARCHAR(150) NOT NULL
        ) ENGINE=InnoDB;
    """))
    conn.execute(text("""
        CREATE TABLE Empresas (
            id_empresa INT AUTO_INCREMENT PRIMARY KEY,
            nome_empresa VARCHAR(255) NOT NULL
        ) ENGINE=InnoDB;
    """))
    conn.execute(text("""
        CREATE TABLE Idiomas (
            id_idioma INT AUTO_INCREMENT PRIMARY KEY,
            nome_idioma VARCHAR(150) NOT NULL
        ) ENGINE=InnoDB;
    """))

    # Tabelas associativas
    conn.execute(text("""
        CREATE TABLE Filme_Diretor (
            id_filme INT,
            id_pessoa INT,
            PRIMARY KEY (id_filme, id_pessoa),
            FOREIGN KEY (id_filme) REFERENCES Filmes(id_filme) ON DELETE CASCADE,
            FOREIGN KEY (id_pessoa) REFERENCES Pessoas(id_pessoa) ON DELETE CASCADE
        ) ENGINE=InnoDB;
    """))
    conn.execute(text("""
        CREATE TABLE Filme_Roteirista (
            id_filme INT,
            id_pessoa INT,
            PRIMARY KEY (id_filme, id_pessoa),
            FOREIGN KEY (id_filme) REFERENCES Filmes(id_filme) ON DELETE CASCADE,
            FOREIGN KEY (id_pessoa) REFERENCES Pessoas(id_pessoa) ON DELETE CASCADE
        ) ENGINE=InnoDB;
    """))
    conn.execute(text("""
        CREATE TABLE Filme_Estrela (
            id_filme INT,
            id_pessoa INT,
            ordem_credito INT DEFAULT NULL,
            PRIMARY KEY (id_filme, id_pessoa),
            FOREIGN KEY (id_filme) REFERENCES Filmes(id_filme) ON DELETE CASCADE,
            FOREIGN KEY (id_pessoa) REFERENCES Pessoas(id_pessoa) ON DELETE CASCADE
        ) ENGINE=InnoDB;
    """))
    conn.execute(text("""
        CREATE TABLE Filme_Genero (
            id_filme INT,
            id_genero INT,
            PRIMARY KEY (id_filme, id_genero),
            FOREIGN KEY (id_filme) REFERENCES Filmes(id_filme) ON DELETE CASCADE,
            FOREIGN KEY (id_genero) REFERENCES Generos(id_genero) ON DELETE CASCADE
        ) ENGINE=InnoDB;
    """))
    conn.execute(text("""
        CREATE TABLE Filme_Idioma (
            id_filme INT,
            id_idioma INT,
            PRIMARY KEY (id_filme, id_idioma),
            FOREIGN KEY (id_filme) REFERENCES Filmes(id_filme) ON DELETE CASCADE,
            FOREIGN KEY (id_idioma) REFERENCES Idiomas(id_idioma) ON DELETE CASCADE
        ) ENGINE=InnoDB;
    """))
    conn.execute(text("""
        CREATE TABLE Filme_Pais_Origem (
            id_filme INT,
            id_pais INT,
            PRIMARY KEY (id_filme, id_pais),
            FOREIGN KEY (id_filme) REFERENCES Filmes(id_filme) ON DELETE CASCADE,
            FOREIGN KEY (id_pais) REFERENCES Paises(id_pais) ON DELETE CASCADE
        ) ENGINE=InnoDB;
    """))
    conn.execute(text("""
        CREATE TABLE Filme_Empresa_Producao (
            id_filme INT,
            id_empresa INT,
            PRIMARY KEY (id_filme, id_empresa),
            FOREIGN KEY (id_filme) REFERENCES Filmes(id_filme) ON DELETE CASCADE,
            FOREIGN KEY (id_empresa) REFERENCES Empresas(id_empresa) ON DELETE CASCADE
        ) ENGINE=InnoDB;
    """))

# =============================
# 3️⃣ Processar dados dos filmes
# =============================
import re

def limpar_duracao(duracao_str):
    """Converte duração do formato '1h 34m' para minutos"""
    if pd.isna(duracao_str):
        return None
    
    duracao_str = str(duracao_str).strip()
    total_minutos = 0
    
    # Extrair horas
    horas_match = re.search(r'(\d+)h', duracao_str)
    if horas_match:
        total_minutos += int(horas_match.group(1)) * 60
    
    # Extrair minutos
    minutos_match = re.search(r'(\d+)m', duracao_str)
    if minutos_match:
        total_minutos += int(minutos_match.group(1))
    
    return total_minutos if total_minutos > 0 else None

# Preparar tabela de filmes
filmes_final = movies.copy()
filmes_final['duracao_minutos'] = filmes_final['duration'].apply(limpar_duracao)

# Mapear colunas para o padrão do banco
filmes_banco = filmes_final[[
    'title', 'link', 'year', 'duracao_minutos', 'rating_mpa', 
    'rating_imdb', 'vote', 'budget', 'gross_world_wide', 
    'gross_us_canada', 'gross_opening_weekend', 'win', 'nomination', 'oscar'
]].rename(columns={
    'title': 'titulo',
    'link': 'link_imdb', 
    'year': 'ano_lancamento',
    'rating_mpa': 'classificacao_mpa',
    'rating_imdb': 'nota_imdb',
    'vote': 'votos_imdb',
    'budget': 'orcamento',
    'gross_world_wide': 'bilheteria_mundial',
    'gross_us_canada': 'bilheteria_eua_canada',
    'gross_opening_weekend': 'bilheteria_abertura',
    'win': 'vitorias_premios',
    'nomination': 'nominacoes_premios',
    'oscar': 'vitorias_oscar'
})

# =============================
# 4️⃣ Inserir dados
# =============================
pessoas[['nome_pessoa']].to_sql('Pessoas', engine, index=False, if_exists='append')
generos[['nome_genero']].to_sql('Generos', engine, index=False, if_exists='append')
idiomas[['nome_idioma']].to_sql('Idiomas', engine, index=False, if_exists='append')
paises[['nome_pais']].to_sql('Paises', engine, index=False, if_exists='append')
empresas[['nome_empresa']].to_sql('Empresas', engine, index=False, if_exists='append')

filmes_banco.to_sql('Filmes', engine, index=False, if_exists='append')

filme_diretor.to_sql('Filme_Diretor', engine, index=False, if_exists='append')
filme_roteirista.to_sql('Filme_Roteirista', engine, index=False, if_exists='append')
filme_estrela.to_sql('Filme_Estrela', engine, index=False, if_exists='append')
filme_genero.to_sql('Filme_Genero', engine, index=False, if_exists='append')
filme_idioma.to_sql('Filme_Idioma', engine, index=False, if_exists='append')
filme_pais.to_sql('Filme_Pais_Origem', engine, index=False, if_exists='append')
filme_empresa.to_sql('Filme_Empresa_Producao', engine, index=False, if_exists='append')

print("Todas as tabelas foram criadas e os dados inseridos com sucesso no MySQL!")
print(f"Filmes inseridos: {len(filmes_banco)}")
print(f"Pessoas: {len(pessoas)}")
print(f"Gêneros: {len(generos)}")
print(f"Países: {len(paises)}")
print(f"Empresas: {len(empresas)}")
print(f"Idiomas: {len(idiomas)}")

In [None]:

from sqlalchemy import create_engine, text
from urllib.parse import quote_plus

# Usuário do MySQL
user = "user"               
# Senha do MySQL
password = "user123"        
# Codifica caracteres especiais (recomendado)
password_enc = quote_plus(password)
# Host do container
host = "localhost"          
# Porta mapeada no host
port = 33016                
# Nome do banco
database = "filmes"     

# Cria engine do SQLAlchemy
engine = create_engine(f"mysql+pymysql://{user}:{password_enc}@{host}:{port}/{database}")
print(engine)

# Criação de tabelas
with engine.begin() as conn:
    # Tabelas de dimensão
    conn.execute(text("""
        CREATE TABLE pessoas (
            id_pessoa INT AUTO_INCREMENT PRIMARY KEY,
            nome_pessoa VARCHAR(255) UNIQUE
        );
    """))
    
    conn.execute(text("""
        CREATE TABLE generos (
            id_genero INT AUTO_INCREMENT PRIMARY KEY,
            nome_genero VARCHAR(255) UNIQUE
        );
    """))
    
    conn.execute(text("""
        CREATE TABLE idiomas (
            id_idioma INT AUTO_INCREMENT PRIMARY KEY,
            nome_idioma VARCHAR(255) UNIQUE
        );
    """))
    
    conn.execute(text("""
        CREATE TABLE paises (
            id_pais INT AUTO_INCREMENT PRIMARY KEY,
            nome_pais VARCHAR(255) UNIQUE
        );
    """))
    
    conn.execute(text("""
        CREATE TABLE empresas (
            id_empresa INT AUTO_INCREMENT PRIMARY KEY,
            nome_empresa VARCHAR(255) UNIQUE
        );
    """))
    
    # Tabela principal
    conn.execute(text("""
        CREATE TABLE movies (
            id VARCHAR(50) PRIMARY KEY,
            title VARCHAR(255) NOT NULL,
            link VARCHAR(255),
            year INT,
            duration VARCHAR(50),
            rating_mpa VARCHAR(50),
            rating_imdb FLOAT,
            vote BIGINT,
            budget BIGINT,
            gross_world_wide BIGINT,
            gross_us_canada BIGINT,
            gross_opening_weekend BIGINT,
            country_origin VARCHAR(255),
            filming_location VARCHAR(255),
            production_company VARCHAR(255),
            win INT,
            nomination INT,
            oscar INT
        );
    """))

    # Tabelas associativas
    conn.execute(text("""
        CREATE TABLE filme_equipe (
            id_filme VARCHAR(50),
            id_pessoa INT,
            papel VARCHAR(50),
            FOREIGN KEY (id_filme) REFERENCES movies(id) ON DELETE CASCADE,
            FOREIGN KEY (id_pessoa) REFERENCES pessoas(id_pessoa)
        );
    """))
    
    conn.execute(text("""
        CREATE TABLE filme_genero (
            id_filme VARCHAR(50),
            id_genero INT,
            FOREIGN KEY (id_filme) REFERENCES movies(id) ON DELETE CASCADE,
            FOREIGN KEY (id_genero) REFERENCES generos(id_genero)
        );
    """))
    
    conn.execute(text("""
        CREATE TABLE filme_idioma (
            id_filme VARCHAR(50),
            id_idioma INT,
            FOREIGN KEY (id_filme) REFERENCES movies(id) ON DELETE CASCADE,
            FOREIGN KEY (id_idioma) REFERENCES idiomas(id_idioma)
        );
    """))
    
    conn.execute(text("""
        CREATE TABLE filme_pais (
            id_filme VARCHAR(50),
            id_pais INT,
            FOREIGN KEY (id_filme) REFERENCES movies(id) ON DELETE CASCADE,
            FOREIGN KEY (id_pais) REFERENCES paises(id_pais)
        );
    """))
    
    conn.execute(text("""
        CREATE TABLE filme_empresa (
            id_filme VARCHAR(50),
            id_empresa INT,
            FOREIGN KEY (id_filme) REFERENCES movies(id) ON DELETE CASCADE,
            FOREIGN KEY (id_empresa) REFERENCES empresas(id_empresa)
        );
    """))

print("Todas as tabelas foram criadas com sucesso no MySQL!")


In [None]:
with engine.connect() as conn:
    result = conn.execute("SELECT 1")
    print(result.fetchone())  