In [None]:
# Bibliotecas utilizadas
import pandas as pd
import numpy as np

def cria_banco_de_filmes(numero_ids=100, numero_filmes=10):
    # Função que gera o banco de dados para aprendizado de máquina no geral

    # Cria os nomes das colunas do dataframe
    dados_colunas = ['id_consumidor','id_filme', 'nota_filme']
    
    # Cria o dataframe junto com as colunas vazias
    dados = pd.DataFrame(columns=dados_colunas)
    
    # Cria a lista de IDs dos filmes, se não for especificado, será 10
    filmes = np.arange(1,numero_filmes+1)
    
    # Cria uma lista de notas que vai de 0 a 10, com passo 1
    notas = np.arange(0,11,1)
    
    
    for n in range(1,numero_ids+1):
        # Loop que cria um usuário com ID, os filmes que ele assistiu e a nota de cada filme
        
        # Escolhe aleatoriamente o número de filmes que cada usuário assistiu, podendo ser um valor entre 1 e 5
        assitiu = np.random.randint(low=1, high=5)
        
        # Realiza a escolha aleatória dos filmes que o usuário escolheu, dentre as opção dentro da lista de filmes
        escolhas = np.random.choice(filmes, assitiu, replace=False)
        
        for escolha in escolhas:
            # Loop para concatenar o usuário (100 é o padrão), o filme e a nota de cada filme, individualmente, no banco de dados
            
            # Escolhe aleatoriamente uma nota para o filme assistido 
            nota = np.random.choice(notas)
            # Cria a linha completa que será adicionada no banco de dados
            linha = pd.DataFrame([{'id_consumidor':n, 'id_filme': escolha, 'nota_filme': nota}])
            # Adicionando a linha no banco de dados
            dados = pd.concat([dados, linha], ignore_index=True)

    # Retorna o banco de dados gerado
    return dados

In [None]:
# Bibliotecas utilizadas
import pandas as pd
import numpy as np

def cria_banco_relacional_de_filmes(numero_ids=100, numero_filmes=10):
    # Função que gera o banco de dados para aprendizado de máquina no geral

    # Cria a coluna do ID do usuário no dataframe    
    dados_colunas = ['id_consumidor']
    
    # Cria a lista de IDs dos filmes, se não for especificado, será 10     
    filmes = np.arange(1,numero_filmes+1)
    
    # Cria as colunas restantes, uma para cada filme, que receberá um valor 0 ou 1
    dados_colunas = dados_colunas + [f'{f}' for f in filmes]
    
    # Cria o dataframe junto com as colunas vazias    
    dados = pd.DataFrame(columns=dados_colunas) 
    
    for n in range(1,numero_ids+1):
        # Loop que cria um usuário com ID (100 é o padrão), os filmes que ele assistiu e a nota de cada filme
        
        # Escolhe aleatoriamente o número de filmes que cada usuário assistiu, podendo ser um valor entre 1 e 5
        assitiu = np.random.randint(low=1, high=5)
        
        # Realiza a escolha aleatória dos filmes que o usuário escolheu, dentre as opção dentro da lista de filmes
        escolhas = np.random.choice(filmes, assitiu, replace=False)
        
        # Atribui o valor 1 para os filmes que o usuário assistiu e 0 para os que ele não assistiu
        lista_filmes = {f'{filme}':1 if filme in escolhas else 0 for filme in filmes}
        
        # Concatena os dois dicionários
        linha = {'id_consumidor':n} | lista_filmes
        
        # Transforma os dicionários em formato de dataframe para serem concatenados no banco de dados
        adiciona_linha = pd.DataFrame([linha])
        
        # Concatena o usuário e os seus filmes no banco de dados
        dados = pd.concat([dados, adiciona_linha], ignore_index=True)
        
    # Retorna o banco de dados gerado
    return dados
        

In [None]:
# Gera um dataframe com 10000 usuários e 50 filmes
dados = cria_banco_de_filmes(10000,50)

# Cria um arquivo csv com o dataframe gerado
dados.to_csv('banco_de_dados_de_filmes.csv',index=False)


In [None]:
# Gera um dataframe com 100000 usuários e 20 filmes
dados2 = cria_banco_relacional_de_filmes(100000, 20)

# Cria um arquivo csv com o dataframe gerado
dados2.to_csv('banco_de_dados_relacional_de_filmes.csv',index=False)