In [17]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [18]:
#Global Variables

# File names
## Import
csvFile = 'vgsales-12-4-2019.csv'

## Export
excelFileName = 'ficheiro.xlsx'
tab1Name = 'Raw Data'
tab2Name = 'Platform Rank'

# Pandas CSV configuration
encodingName = 'utf8'
separator = ','

# Pandas XLS configuration
engineName = 'xlsxwriter'


file = pd.read_csv(csvFile,sep=separator,encoding=encodingName)

In [None]:
# Datframe de teste para testar a função fillNull
df_teste = file.iloc[31:41,12:17]

print(df_teste)


In [26]:
def fill_null(df, *column_name ,fill_value=0):
    for column in column_name:
        if column in df.columns:
            df[column] = df[column].fillna(fill_value)
    return df

In [None]:
print (fill_null(df_teste, 'Global_Sales', 'NA_Sales', 'PAL_Sales', 'JP_Sales', 'Other_Sales'))

Tarefa 2 - Limpeza e pré-processamento de dados

1 - Eliminar colunas: Index, Rank, Critic_Score, User_Score, Total_Shipped - Jesus
2 - Eliminar null em global_sales - Diogo
3 - Substituir por 0 em PAL_Sales, JP_Sales, Other_Sales e NA_Sales quando o valor é null - Nuno
4 - (Analisar quantas linhas sobram em Rated) - Matheus



In [None]:
# Essa função é responsável por remover a primeira coluna de index do ficheiro
# o parâmetro axis=1 indica que o drop é na coluna.
def transform_remove_index(inFile):
    return inFile.drop(inFile.columns[0], axis=1)

In [None]:
# Função responsável somar valores de uma coluna e agrupar por uma ou mais colunas
# O reset index cria indexes para a nova lista criada
# A função sort_values ordena os dados por ordem descendente da soma
# No final é renomeada a coluna da soma para o nome que se quiser

def sum_column_by_group(df, column, *group_by_column, new_column_name):
    group_by_list = list(group_by_column)

    df_sum_grouped = df.groupby(group_by_list)[column].sum().reset_index()
    df_sum_sorted = df_sum_grouped.sort_values(by=column, ascending = True).reset_index()
    df_sum_sorted.rename(columns={column: new_column_name}, inplace = True)
    return df_sum_sorted

In [None]:
# Função responsável por cacular a média dos valores de uma coluna e agrupar por uma ou mais colunas
# O reset index cria indexes para a nova lista criada
# A função sort_values ordena os dados por ordem descendente da média
# No final é renomeada a coluna da soma para o nome que se quiser

def mean_column_by_group(df, column, *group_by_column, new_column_name):
    group_by_list = list(group_by_column)

    df_mean_grouped = df.groupby(group_by_list)[column].mean().reset_index()
    df_mean_sorted = df_mean_grouped.sort_values(by=column, ascending = True).reset_index()
    df_mean_sorted.rename(columns={column: new_column_name}, inplace = True)
    return df_mean_sorted

In [2]:
# Função para plotar gráfico com as tendencias

def plot_game_sales_trends(df, x_column, y_column, hue_column, title_name, xlabel_name, ylabel_name, legend_name, marker_type='o'):
    # Set the plot size
    plt.figure(figsize=(12, 6))
    
    # Create a line plot
    sns.lineplot(data=df, x=x_column, y=y_column, hue=hue_column, marker=marker_type)
    
    # Add titles and labels
    plt.title(title_name)
    plt.xlabel(xlabel_name)
    plt.ylabel(ylabel_name)
    plt.legend(title=legend_name)
    
    # Show the plot
    plt.show()

In [None]:
# Essa função recebe como parâmetro o pd.ExcelWriter, o file e a tab do excel e escreve no ficheiro
def write_xls(inWriter,inFile,inTab):
    inFile.to_excel(inWriter, sheet_name=inTab,index=False)

In [None]:
writer = pd.ExcelWriter(excelFileName, engine=engineName)

file = transform_remove_index(file)
write_xls(writer,file,tab1Name)

sum_global_by_platform = sum_column_by_group(file, 'Global_Sales', 'Platform', 'Total_Global_Sales')
write_xls(writer,sum_global_by_platform,tab2Name)

writer.close()