ARQUIVO NA 1° FORMA NORMAL

In [None]:
import pandas as pd

# Carregar o arquivo CSV para um DataFrame
df = pd.read_csv('netflix_titles.csv', encoding='latin1')

# Lista para armazenar os DataFrames normalizados
normalized_dfs = []

# Normalizar colunas com mais de um valor por linha
for col in df.columns:
    # Converter a coluna para o tipo string
    df[col] = df[col].astype(str)
    # Dividir a coluna em várias colunas
    split_cols = df[col].str.split(',').apply(pd.Series)
    # Renomear as novas colunas
    split_cols = split_cols.rename(columns=lambda x: f'{col}_{x}')
    # Adicionar os novos DataFrames à lista
    normalized_dfs.append(split_cols)

# Concatenar todos os DataFrames normalizados
result_df = pd.concat(normalized_dfs, axis=1)

# Salvar o DataFrame normalizado em um novo arquivo CSV
result_df.to_csv('arquivo_normalizado.csv', index=False)


ARQUIVO DIRETORES SEPARADO

In [7]:
import pandas as pd

# Ler o arquivo CSV
df = pd.read_csv('arquivo_normalizado.csv', low_memory=False)

# Selecionar todas as colunas relacionadas a diretores
diretor_columns = [col for col in df.columns if 'director' in col.lower()]

# Combinar todas as colunas de diretores em uma única coluna
df['director'] = df[diretor_columns].apply(lambda x: ', '.join(x.dropna().astype(str)), axis=1)

# Remover as colunas de diretores originais
df.drop(diretor_columns, axis=1, inplace=True)

# Dividir os diretores em linhas separadas
df = df.assign(director=df['director'].str.split(', ')).explode('director')

# Remover linhas vazias
df = df.dropna(subset=['director'])

# Resetar os índices
df.reset_index(drop=True, inplace=True)

# Salvar os diretores em um novo arquivo CSV
df['director'].to_csv('diretores.csv', index=False, header=['director'])


ARQUIVO DIRETOR SEM LINHAS VAZIAS

In [1]:
import pandas as pd

# Ler o arquivo CSV
df = pd.read_csv('diretores.csv')

# Remover linhas vazias da coluna 'director'
df = df.dropna(subset=['director'])

# Resetar os índices
df.reset_index(drop=True, inplace=True)

# Salvar o DataFrame resultante em um novo arquivo CSV
df.to_csv('diretores_sem_vazios.csv', index=False)


ARQUIVO ELENCO SEM LINHAS VAZIO

In [5]:
import pandas as pd

# Ler o arquivo CSV
df = pd.read_csv('netflix_titles.csv', encoding='latin1')

# Remover linhas vazias da coluna 'cast'
df = df.dropna(subset=['cast'])

# Dividir os valores da coluna 'cast' em múltiplas linhas
cast_series = df['cast'].str.split(',').explode().str.strip()

# Criar um novo DataFrame com a coluna 'cast' isolada
new_df = pd.DataFrame({'cast': cast_series})

# Salvar o novo DataFrame em um novo arquivo CSV
new_df.to_csv('netflix_cast.csv', index=False)


ARQUIVO PAÍS SEM LINHAS VAZIO

In [7]:
import pandas as pd

# Ler o arquivo CSV
df = pd.read_csv('netflix_titles.csv', encoding='latin1')

# Remover linhas vazias da coluna 'country'
df = df.dropna(subset=['country'])

# Dividir os valores da coluna 'country' em múltiplas linhas
country_series = df['country'].str.split(',').explode().str.strip()

# Criar um novo DataFrame com a coluna 'country' isolada
new_df = pd.DataFrame({'country': country_series})

# Salvar o novo DataFrame em um novo arquivo CSV
new_df.to_csv('netflix_country.csv', index=False)


ARQUIVO 'LISTADO EM' SEM LINHAS VAZIO

In [9]:
import pandas as pd

# Ler o arquivo CSV
df = pd.read_csv('netflix_titles.csv', encoding='latin1')

# Remover linhas vazias da coluna 'country'
df = df.dropna(subset=['listed_in'])

# Dividir os valores da coluna 'country' em múltiplas linhas
country_series = df['listed_in'].str.split(',').explode().str.strip()

# Criar um novo DataFrame com a coluna 'country' isolada
new_df = pd.DataFrame({'listed_in': country_series})

# Salvar o novo DataFrame em um novo arquivo CSV
new_df.to_csv('netflix_listed_in.csv', index=False)


UNIÃO DAS TABELAS NORMALIZADAS

In [12]:
import pandas as pd

# Carregar os arquivos CSV
df1 = pd.read_csv('diretores_sem_vazios.csv')
df2 = pd.read_csv('netflix_elenco.csv')
df3 = pd.read_csv('netflix_país.csv')
df4 = pd.read_csv('netflix_listado em.csv')

# Unir os dataframes horizontalmente (axis=1)
df_novo = pd.concat([df1, df2, df3,df4], axis=1)

# Salvar o novo dataframe em um novo arquivo CSV
df_novo.to_csv('novo_arquivo.csv', index=False)


SEPARANDO COLUNAS QUE NÃO PRECISAM SER NORMALIZADAS DA TABELA ORIGINAL E CRIANDO UMA NOVA TABELA

In [15]:
import pandas as pd

# Carregar o arquivo CSV original
df = pd.read_csv('netflix_titles.csv', encoding='latin1')


# Selecionar as colunas desejadas
colunas_desejadas = ['show_id', 'type', 'date_added','release_year','rating','duration','description']
novo_df = df[colunas_desejadas]

# Salvar o novo dataframe em um novo arquivo CSV
novo_df.to_csv('separarcolunas_arquivo.csv', index=False)


TABELA NORMALIZADA

In [20]:
import pandas as pd

# Carregar os arquivos CSV
df1 = pd.read_csv('netflix_titulo.csv')
df2 = pd.read_csv('diretores_sem_vazios.csv')
df3 = pd.read_csv('netflix_elenco.csv')
df4 = pd.read_csv('netflix_país.csv')
df5 = pd.read_csv('netflix_listado em.csv')
df6 = pd.read_csv('separarcolunas_arquivo.csv')

# Unir os dataframes horizontalmente (axis=1)
df_novo = pd.concat([df1, df2, df3,df4,df5,df6], axis=1)

# Salvar o novo dataframe em um novo arquivo CSV
df_novo.to_csv('novo_arquivo_normalizado.csv', index=False)
