# Funções

Importar bibliotecas:

In [1]:
import pandas as pd
import numpy as np
from sklearn import preprocessing

Remove colunas:

In [8]:
# ------------------------------------------------------- #
# Remove as colunas listadas de um dataframe e o retorna;
# se ocorrer algum erro o data frame que será retornado é igual ao recebido.
# df = dataframe
# c_lista = lita com o name das colunas a ser removidas do dataframe

def RemoveColunas(df, colunas):
    df_copia = df
    try:
        if type(colunas) == list:
            for c in colunas:
                df_copia.drop(c, axis=1, inplace=True)
        elif type(colunas) == str:
            df_copia.drop(colunas, axis=1, inplace=True)
        return df_copia
    except:
        print("Erro")
        return df
# ------------------------------------------------------- #

Coluna de string para int:

In [3]:
# -------------------------------------------------------------------- #
# Recebe um valor de string e retorna um int, de acordo com um dicionário;
# se o valor não for uma chave do dicionário ele se torna "none".
# valor = valor que será transformado
# dicio = dicionario que indica os valores e seus resultados
# valor_fora = valor atribuido caso o valor não esteja no dicionario 

def ValoresStrInt(valor, dicio, valor_fora):
    for k in dicio.keys():
        if valor == k:
            return dicio[k]
    return valor_fora
# -------------------------------------------------------------------- #

# ------------------------------------------------------------------------------------ #
# Recebe uma coluna de string e retorna uma coluna de int, de acordo com um dicionário;
# se ocorrer algum erro a coluna que será retornada é igual a recebida.
# coluna = Coluna que será transformada
# dicio = dicionario que indica os valores e seus resultados
# valor_fora = valor atribuido caso o valor não esteja no dicionario

def ColunaStrInt(coluna, dicio, valor_fora = "none"):
    try:
        lista = []
        for v in coluna:
            lista.append(ValoresStrInt(v, dicio, valor_fora))
        s = pd.Series(data=lista)
        return s
    except:
        print("Erro")
        return coluna
# ------------------------------------------------------------------------------------ #

Automatico de string para int:

In [4]:
# ------------------------------------------------------------------------------------------------- #
# Recebe uma coluna de string e retorna uma coluna de int, mas os valores não podem ser escolhidos;
# col = Coluna

def AutoColunaStrInt(col):
    le = preprocessing.LabelEncoder()
    le.fit(col)
    nova_col = le.transform(col)
    return nova_col
# ------------------------------------------------------------------------------------------------- #

# ---------------------------------------------------------------------------------------------------------------- #
# Recebe um data frame e aplica o metodo "AutoColunaStringInt" nas colunas do data frame; 
# retorna o data frame transformado de string para int.
# Se ocorrer algum erro o data frame que será retornado é igual ao recebido.
# df = data frame que será transformado

def AutoColunasStrInt(df):
    df_copia = df
    try:
        for c_nome in df_copia:
            df_copia[c_nome] = AutoColunaStrInt(df_copia[c_nome])
        return df_copia
    except:
        print("Erro")
        return df
# --------------------------------------------------------------------------------------------------------------------- #

# ------------------------------------------------------------------ #
# Recebe um data frame e uma lista de strings com o nome de colunas;
# As colunas do data frame cujos nome estão na lista serão usadas para criar novas colunas com valores numéricos;
# O novo data frame com as colunas normais e as numéricas é retornado.
# # se ocorrer algum erro a coluna que será retornada é igual a recebida.
# df = Data frame
# col_list = Lista com o nome das colunas

def Colunas_num(df, col_list):
    df_copia = df
    try:
        parte_df = pd.DataFrame()
        novo_df = df_copia

        parte_df = ParteDataFrame(df_copia, col_list)
        parte_df = AutoColunasStrInt(parte_df)

        for col_nome in parte_df:
            novo_df[col_nome + "_num"] = parte_df[col_nome]

        return novo_df
    except:
        print("Erro")
        return df
# ------------------------------------------------------------------ #

Divide data frames:

In [5]:
# ------------------------------------------------------------------- #
# Retorna um dataframe que contem algumas colunas de outro dataframe;
# as colunas que serão adicionadas ao novo data frame são as cujo nome está na lista de nomes recebida.
# Se ocorrer algum erro o data frame que será retornado é igual ao recebido.
# df = Data frame
# col_list = Lista com o nome das colunas

def ParteDataFrame(df, col_list):
    try:
        novo_df = pd.DataFrame()
        for nome in col_list:
            novo_df[nome] = df[nome]
        return novo_df
    except:
        print("Erro")
        return df
# ------------------------------------------------------------------- #

Calcula idades:

In [6]:
# ---------------------------------------------------------------------------------------- #
# Recebe uma coluna de idades e retorna uma coluna de idades de acordo com o ano recebido;
# se ocorrer algum erro a coluna que será retornada é igual a recebida.
# coluna_nascimento = coluna com os anos de nascimento
# ano = ano que será comparado

def CalculaIdades(coluna_nascimento, ano):
    idades_lista = []
    try:
        for n in coluna_nascimento:
            idades_lista.append(ano - n)
        idades = pd.Series(data=idades_lista)
        return idades
    except:
        print("Erro")
        return coluna_nascimento
# ---------------------------------------------------------------------------------------- #

Pré-processamento:

In [7]:
def ProcessamentoBinario(df, ano, colunas_remover = [], colunas_ordem = []):
    df_copia = df
    try:
        # Criação:
        # parte 1
        df_copia['HOMEM'] = ColunaStrInt(df['SEXO'], {"F" : 0, "M" : 1})
        df_copia['MULHER'] = ColunaStrInt(df['SEXO'], {"F" : 1, "M" : 0})
        df_copia['DEFICIENCIA'] = ColunaStrInt(df['DEFICIENCIA'], {"S" : 1, "N" : 0})
        
        # Parte 2 : colunas _num
        df_copia = Colunas_num(df, ["CAMPUS","BAIRRO_ENDERECO","CIDADE_ENDERECO","TIPO_COTA"])
        
        # Parte 3: ensino PAI/MAE
        df_copia['FUNDAMENTAL_PAI'] = ColunaStrInt(df['ESCOLARIDADE_PAI'], {"ENSINO FUNDAMENTAL INCOMPLETO" : 1}, 0)
        df_copia['ENSINO MEDIO_PAI'] = ColunaStrInt(df['ESCOLARIDADE_PAI'], {"ENSINO MEDIO" : 1}, 0)
        df_copia['ENSINO SUPERIOR_PAI'] = ColunaStrInt(df['ESCOLARIDADE_PAI'], {"ENSINO SUPERIOR" : 1}, 0)
        df_copia['FUNDAMENTAL_MAE'] = ColunaStrInt(df['ESCOLARIDADE_MAE'], {"ENSINO FUNDAMENTAL INCOMPLETO" : 1}, 0)
        df_copia['ENSINO MEDIO_MAE'] = ColunaStrInt(df['ESCOLARIDADE_MAE'], {"ENSINO MEDIO" : 1}, 0)
        df_copia['ENSINO SUPERIOR_MAE'] = ColunaStrInt(df['ESCOLARIDADE_MAE'], {"ENSINO SUPERIOR" : 1}, 0)
        
        # Parte 4: idades
        df_copia["IDADE"] = CalculaIdades(df["ANO_NASCIMENTO"], ano)
        
        # Remoção:
        colunas_remover = ['CD_DISCENTE', 'ANO_INGRESSO', 'SEMESTRE_INGRESSO', 'TIPO_INGRESSO', 'CURSO', 'NATURALIDADE', 
                           "SEXO", 'PAIS_NATURALIDADE','UF_NATURALIDADE', 'UF_ENDERECO', 'COTA', "ESCOLARIDADE_PAI",
                           "ESCOLARIDADE_MAE",]
        df_copia = RemoveColunas(df_copia, colunas_remover)
        
        # Ordenação:
        colunas_ordem = ["COD_CURSO","ANO_NASCIMENTO", "IDADE","DEFICIENCIA","HOMEM","MULHER","CAMPUS_num",
                         "BAIRRO_ENDERECO_num", "CIDADE_ENDERECO_num","TIPO_COTA_num","FUNDAMENTAL_PAI","ENSINO MEDIO_PAI",
                         "ENSINO SUPERIOR_PAI", "FUNDAMENTAL_MAE","ENSINO MEDIO_MAE","ENSINO SUPERIOR_MAE"]
        df_copia = df[colunas_ordem]
        
        return df_copia
    except:
        print("Erro")
        return df