# Tratamento de Dados para Dataset de Animes

## Carregamento dos Dados

In [1]:

import pandas as pd

# Carregamento dos dados
file_path = 'animes.csv'  # Substitua pelo caminho correto do arquivo
animes_data = pd.read_csv(file_path)
        

## Renomeação das Colunas

In [2]:

# Renomeando colunas para Português
columns_rename = {
    'rate': 'Avaliação',
    'votes': 'Votos Totais',
    'episodes': 'Número de Episódios'
}
animes_data.rename(columns=columns_rename, inplace=True)
        

## Cálculo de Indicadores Estatísticos

In [3]:

# Adicionando indicadores estatísticos
genre_columns = [col for col in animes_data.columns if 'genre_' in col]
genre_data_summary = {}

for genre in genre_columns:
    genre_data = animes_data[animes_data[genre] == 1]
    genre_data_summary[genre] = {
        'Média de Avaliações': genre_data['Avaliação'].mean(),
        'Votos Totais por Gênero': genre_data['Votos Totais'].sum(),
        'Contagem de Animes': genre_data.shape[0],
        'Média de Episódios': genre_data['Número de Episódios'].mean()
    }

# Calculando os gêneros mais populares
most_popular_genre = max(genre_data_summary, key=lambda x: genre_data_summary[x]['Votos Totais por Gênero'])
most_anime_genre = max(genre_data_summary, key=lambda x: genre_data_summary[x]['Contagem de Animes'])

# Inserindo as estatísticas calculadas de volta no DataFrame
for genre in genre_columns:
    animes_data[f'{genre}_Votos Totais por Gênero'] = genre_data_summary[genre]['Votos Totais por Gênero']
    animes_data[f'{genre}_Contagem de Animes'] = genre_data_summary[genre]['Contagem de Animes']

# Reorganizando colunas
cols_order = ['anime', 'Número de Episódios', 'Votos Totais', 'Avaliação'] + [col for col in animes_data.columns if col.startswith('genre_')]
animes_data = animes_data[cols_order]
        

## Salvando o Dataset Processado

In [4]:

# Salvando o dataframe processado
processed_file_path = 'Animes_ETL.csv'  # Substitua pelo caminho desejado
animes_data.to_csv(processed_file_path, index=False)

print(f"Arquivo processado salvo em: {processed_file_path}")
        

Arquivo processado salvo em: Animes_ETL.csv
