#### ⚙️ Importações

In [461]:
import numpy as np
import pandas as pd
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from pycaret.classification import ClassificationExperiment

In [462]:
# from google.colab import drive

# drive.mount('/content/drive')
# df = pd.read_excel('/content/drive/MyDrive/Colab Notebooks/censo_cultural.xlsx')

In [463]:
# df = pd.read_excel('/mnt/g/Meu Drive/Colab Notebooks/censo_cultural.xlsx')
df = pd.read_excel('censo_cultural.xlsx')

#### 🔌 Functions

##### Renomear colunas

In [464]:
def rename_columns()->None:
    df.rename(columns={
    '2) Qual o seu curso?': 'curso',
    '3) Qual o Ano que está cursando? ': 'serie',
    '5) Você é um aluno(a)...  ': 'tipo_residente',
    '6) Quais dessas ATIVIDADES CULTURAIS você participa ou já participou?': 'atv_culturais',
    '7) Quais dessas HABILIDADES MUSICAIS você possui?': 'hab_musicais',
    '8) Quais desses ESPORTES você pratica?': 'esportes',
    '9) Quais desses JOGOS você pratica?': 'jogos',
    '10) Quais dessas LUTAS você pratica?': 'lutas',
    '11) Em relação às 5 perguntas anteriores, quais dessas atividades você se considera bom e capaz de ensinar aos seus colegas?': 'melhores_atividades', # remover
    '12) Quais dessas ATIVIDADES CULTURAIS você gostaria de participar?': 'atv_culturais_a_fazer',
    '13) Quais dessas HABILIDADES MUSICAIS você gostaria de possuir?': 'hab_musicais_desejadas',
    '14) Quais desses ESPORTES você gostaria de praticar?': 'esportes_desejados',
    '15) Quais desses JOGOS você gostaria de praticar?': 'jogos_desejados',
    '16) Quais dessas LUTAS você gostaria de praticar?': 'lutas_desejadas',
    '17) Em quais HORÁRIOS você teria disponibilidades para exercer Atividades Culturais?': 'horarios_disponiveis', # remover
    '18) Em quais LOCAIS você teria disponibilidades para exercer Atividades Culturais ': 'locais_disponiveis', # remover
    '19) Em relação às ESTRUTURAS EXISTENTES, o que você gostaria que melhorasse em nossa instituição?': 'melhoria_estrutura',
    '20) Em relação às NOVAS ESTRUTURAS, o que você desejaria que houvesse em nossa instituição?': 'novas_estruturas',
    '21) Em relação à ALIMENTAÇÃO, o que você desejaria que fosse melhorado em nossa instituição?': 'melhoria_alimentacao',
    '22) Em relação ao TRANSPORTE, o que você desejaria que fosse melhorado?': 'transporte',
    '23) Quais desse PROJETOS ESPECIAIS, você teria interesse em participar?': 'projetos_a_participar'
}, inplace=True)

##### Tratamento de strings

In [465]:
def encoder(series_names: list)->None:
   for serie_name in series_names:
      enc = LabelEncoder()
      df[serie_name] = enc.fit_transform(df[serie_name])

In [466]:
import unidecode as uni

def remove_accent(name):
    return uni.unidecode(str(name))

##### Dummies

In [467]:
def insert_dummies(df: pd.DataFrame, dummies: pd.DataFrame, insert_position: int) -> None:
    df = pd.concat([df.iloc[:, :insert_position], dummies, df.iloc[:, insert_position:]], axis=1)
    df.drop('aux', axis=1, inplace=True)

#### 📑 Pré-processamento dos dados

In [468]:
rename_columns()

In [469]:
df.drop(
    columns=[
        "Carimbo de data/hora",
        "1) Nome Completo: ",
        "4) Qual a sua Turma? ",
        "melhores_atividades",
        "horarios_disponiveis",
        "locais_disponiveis",
    ],
    inplace=True,
)

In [470]:
for column in df.columns:
    df[column] = df[column].str.lower()
    df[column] = df[column].apply(remove_accent)

In [471]:
encoder([
    'serie',
    'tipo_residente',
])

In [472]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 611 entries, 0 to 610
Data columns (total 18 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   curso                   611 non-null    object
 1   serie                   611 non-null    int64 
 2   tipo_residente          611 non-null    int64 
 3   atv_culturais           611 non-null    object
 4   hab_musicais            611 non-null    object
 5   esportes                611 non-null    object
 6   jogos                   611 non-null    object
 7   lutas                   611 non-null    object
 8   atv_culturais_a_fazer   611 non-null    object
 9   hab_musicais_desejadas  611 non-null    object
 10  esportes_desejados      611 non-null    object
 11  jogos_desejados         611 non-null    object
 12  lutas_desejadas         611 non-null    object
 13  melhoria_estrutura      611 non-null    object
 14  novas_estruturas        611 non-null    object
 15  melhor

#### 📑 Pré processamento - Valores unicos

##### atv_culturais

In [473]:
df['aux'] = df['atv_culturais'].apply(
    lambda column: [
        item.strip() for item in column
            .replace(' / ', '/')
            .replace('/ ', '/')
            .replace(' /', '/')
            .replace('artes marciais', 'luta')
            .replace('capoeira', 'luta')
            .replace('karate', 'luta')
            .replace('canto', 'musica')
            .replace('outro: musica', 'musica')
            .replace('praticava futsal no ginasio da vila sao joao', 'futsal')
            .split(',')
    ]
)

dummies = df['aux'].str.join('|').str.get_dummies(sep='|').add_prefix('atv_cultural_')

insert_position = df.columns.get_loc('atv_culturais') + 1

df = pd.concat([df.iloc[:, :insert_position], dummies, df.iloc[:, insert_position:]], axis=1)
df.drop('aux', axis=1, inplace=True)

##### hab_musicais

In [474]:
df['aux'] = df['hab_musicais'].apply(
    lambda column: [
        item.strip() for item in column
            .replace(' / ', '/')
            .replace('/ ', '/')
            .replace(' /', '/')
            .split(',')
    ]
)

dummies = df['aux'].str.join('|').str.get_dummies(sep='|').add_prefix('hab_musical_')

insert_position = df.columns.get_loc('hab_musicais') + 1

df = pd.concat([df.iloc[:, :insert_position], dummies, df.iloc[:, insert_position:]], axis=1)
df.drop('aux', axis=1, inplace=True)

##### esportes

In [475]:
df['aux'] = df['esportes'].apply(
    lambda column: [
        item.strip() for item in column
            .replace(' / ', '/')
            .replace('/ ', '/')
            .replace(' /', '/')
            .replace('caminhada/corridaa', 'caminhada/corrida')
            .replace('futbol de campo', 'futebol de campo')
            .replace('futbol de salao', 'futebol de salao')
            .replace('handbol', 'handebol')
            .replace('musculacao', 'academia')
            .replace('karate', 'artes marciais')
            .split(',')
    ]
)

dummies = df['aux'].str.join('|').str.get_dummies(sep='|').add_prefix('esporte_')

insert_position = df.columns.get_loc('esportes') + 1

df = pd.concat([df.iloc[:, :insert_position], dummies, df.iloc[:, insert_position:]], axis=1)
df.drop('aux', axis=1, inplace=True)

##### jogos

In [476]:
df['aux'] = df['jogos'].apply(
    lambda column: [
        item.strip() for item in column
            .replace(' / ', '/')
            .replace('/ ', '/')
            .replace(' /', '/')
            .replace('assim como o de mesa', 'rpg')
            .replace('filho da puta', 'nenhuma opcao')
            .replace('league of legends', 'jogos eletronicos')
            .replace('overwatch', 'jogos eletronicos')
            .replace("(toto)", '')
            .replace('pebolin', 'pebolin/toto')
            .replace('por exemplo o d&d', 'rpg')
            .replace('rpg variados', 'rpg')
            .replace('xadres', 'xadrez')
            .split(',')
    ]
)

dummies = df['aux'].str.join('|').str.get_dummies(sep='|').add_prefix('jogo_')

insert_position = df.columns.get_loc('jogos') + 1

df = pd.concat([df.iloc[:, :insert_position], dummies, df.iloc[:, insert_position:]], axis=1)
df.drop('aux', axis=1, inplace=True)

##### lutas

In [477]:
df['aux'] = df['lutas'].apply(
    lambda column: [
        item.strip() for item in column
            .replace(' / ', '/')
            .replace('/ ', '/')
            .replace(' /', '/')
            .replace('ja pratiquei karate', 'karate')
            .split(',')
    ]
)

dummies = df['aux'].str.join('|').str.get_dummies(sep='|').add_prefix('luta_')

insert_position = df.columns.get_loc('lutas') + 1

df = pd.concat([df.iloc[:, :insert_position], dummies, df.iloc[:, insert_position:]], axis=1)
df.drop('aux', axis=1, inplace=True)

##### atv_culturais_a_fazer

In [478]:
df['aux'] = df['atv_culturais_a_fazer'].apply(
    lambda column: [
        item.strip() for item in column
            .replace(' / ', '/')
            .replace('/ ', '/')
            .replace(' /', '/')
            .replace('aula de bateria', 'aprender algum instrumento')
            .replace('tocar teclado ou outros instrumentos.', 'aprender algum instrumento')
            .replace('(marquei poesia, mas sou boa em leitura, nao em escrever)', '')
            .replace('outras opcoes (especifique) ou observacoes', '')
            .replace('karate', 'luta')
            .replace('jiu-jitsu', 'luta')
            .split(',')
    ]
)

dummies = df['aux'].str.join('|').str.get_dummies(sep='|').add_prefix('atv_culturais_a_fazer_')

insert_position = df.columns.get_loc('atv_culturais_a_fazer') + 1

df = pd.concat([df.iloc[:, :insert_position], dummies, df.iloc[:, insert_position:]], axis=1)
df.drop('aux', axis=1, inplace=True)

##### hab_musicais_desejadas

In [479]:
df['aux'] = df['hab_musicais_desejadas'].apply(
    lambda column: [
        item.strip() for item in column
            .replace(' / ', '/')
            .replace('/ ', '/')
            .replace(' /', '/')
            .replace('percussao', '')
            .replace('percussa', '')
            .replace('bateria/', 'bateria/percussao')
            .replace('violao/guitarra/demais instrumentos de corda', 'canto, instrumentos de corda')
            .replace('canto/violao/guitarra/demais instrumentos de corda', 'canto/canto, instrumentos de corda')
            .replace('canto/canto', 'canto')
            .split(',')
    ]
)

dummies = df['aux'].str.join('|').str.get_dummies(sep='|').add_prefix('hab_musicais_desejadas_')

insert_position = df.columns.get_loc('hab_musicais_desejadas') + 1

df = pd.concat([df.iloc[:, :insert_position], dummies, df.iloc[:, insert_position:]], axis=1)
df.drop('aux', axis=1, inplace=True)

##### esportes_desejados

In [480]:
df['aux'] = df['esportes_desejados'].apply(
    lambda column: [
        item.strip() for item in column
            .replace(' / ', '/')
            .replace('/ ', '/')
            .replace(' /', '/')
            .replace('futbol de campo', 'futebol de campo')
            .replace('futebol de campo/basquete/handebol/pingue pongue/peteca/futmesa', 'futebol de campo, basquete, handebol, pingue pongue, peteca, futmesa')
            .replace('futvilei', 'futvolei')
            .replace('handbol', 'handebol')
            .replace('queimada e atletismo', 'queimada, atletismo')
            .replace('voleiboll', 'voleibol')
            .replace('voleiwheeling e moto crossboll', 'wheeling/moto cross')
            .split(',')
    ]
)

dummies = df['aux'].str.join('|').str.get_dummies(sep='|').add_prefix('esportes_desejados_')

insert_position = df.columns.get_loc('esportes_desejados') + 1

df = pd.concat([df.iloc[:, :insert_position], dummies, df.iloc[:, insert_position:]], axis=1)
df.drop('aux', axis=1, inplace=True)

##### jogos_desejados

In [481]:
df['aux'] = df['jogos_desejados'].apply(
    lambda column: [
        item.strip() for item in column
            .replace(' / ', '/')
            .replace('/ ', '/')
            .replace(' /', '/')
            .replace("(toto)", '')
            .replace('pebolin', 'pebolin/toto')
            .split(',')
    ]
)

dummies = df['aux'].str.join('|').str.get_dummies(sep='|').add_prefix('jogos_desejados_')

insert_position = df.columns.get_loc('jogos_desejados') + 1

df = pd.concat([df.iloc[:, :insert_position], dummies, df.iloc[:, insert_position:]], axis=1)
df.drop('aux', axis=1, inplace=True)

##### lutas_desejadas

In [482]:
df['aux'] = df['lutas_desejadas'].apply(
    lambda column: [
        item.strip() for item in column
            .replace(' / ', '/')
            .replace('/ ', '/')
            .replace(' /', '/')
            .replace("kung fuh", 'kung fu')
            .split(',')
    ]
)

dummies = df['aux'].str.join('|').str.get_dummies(sep='|').add_prefix('lutas_desejadas_')

insert_position = df.columns.get_loc('lutas_desejadas') + 1

df = pd.concat([df.iloc[:, :insert_position], dummies, df.iloc[:, insert_position:]], axis=1)
df.drop('aux', axis=1, inplace=True)

In [483]:
# Anqlisar viabilidade de usar essa técnica aqui também
# def melt_columns(prefix: str, var_name: str, value_name: str):
#     return df.melt(
#         id_vars=["curso"],
#         value_vars=[col for col in df.columns if col.startswith(prefix)],
#         var_name=var_name,
#         value_name=value_name,
#     )

# atv_melt = melt_columns("atv_cultural_", "atividade", "tipo")


#### 🗃️ Bases - Criar bases para aplicação dos algoritmos

In [484]:
df.drop(columns=[
    'atv_culturais',
    'hab_musicais',
    'esportes',
    'jogos',
    'lutas',
    'atv_culturais_a_fazer',
    'hab_musicais_desejadas',
    'esportes_desejados',
    'jogos_desejados',
    'lutas_desejadas',
], inplace=True)

In [485]:
# Buscar os índices de cada coluna para falicitar a divisão das bases de dados
for index, column in enumerate(df.columns):
    print(f"Índice: {index}, Coluna: {column}")

Índice: 0, Coluna: curso
Índice: 1, Coluna: serie
Índice: 2, Coluna: tipo_residente
Índice: 3, Coluna: atv_cultural_apresentacoes musicais
Índice: 4, Coluna: atv_cultural_artesanato
Índice: 5, Coluna: atv_cultural_crio historia e enigmas
Índice: 6, Coluna: atv_cultural_danca
Índice: 7, Coluna: atv_cultural_edicoes de video...
Índice: 8, Coluna: atv_cultural_esporte
Índice: 9, Coluna: atv_cultural_fotografia
Índice: 10, Coluna: atv_cultural_futsal
Índice: 11, Coluna: atv_cultural_grafite/arte urbana
Índice: 12, Coluna: atv_cultural_luta
Índice: 13, Coluna: atv_cultural_musica
Índice: 14, Coluna: atv_cultural_natacao
Índice: 15, Coluna: atv_cultural_nenhuma opcao
Índice: 16, Coluna: atv_cultural_oficinas de gastronomia
Índice: 17, Coluna: atv_cultural_pesquisa cientifica
Índice: 18, Coluna: atv_cultural_piano
Índice: 19, Coluna: atv_cultural_pintura de pano
Índice: 20, Coluna: atv_cultural_pintura/desenho
Índice: 21, Coluna: atv_cultural_poesia/literatura
Índice: 22, Coluna: atv_cultural

##### base das perguntas sobre as atividades que o aluno faz - colunas 0-83

In [486]:
df_atv = df.iloc[:, :83].copy()
df_atv

Unnamed: 0,curso,serie,tipo_residente,atv_cultural_apresentacoes musicais,atv_cultural_artesanato,atv_cultural_crio historia e enigmas,atv_cultural_danca,atv_cultural_edicoes de video...,atv_cultural_esporte,atv_cultural_fotografia,...,luta_boxe,luta_capoeira,luta_jeet kune do,luta_jiu-jitsu,luta_judo,luta_karate,luta_krav maga,luta_kung fu,luta_muay thai,luta_nenhuma opcao
0,agro,0,1,0,0,0,1,0,0,0,...,0,0,0,0,0,0,0,0,0,1
1,agro,0,1,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,1,0
2,agro,0,0,0,1,0,1,0,0,0,...,0,0,0,0,0,0,0,0,0,1
3,agro,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,1
4,agro,0,0,0,0,0,0,0,0,0,...,0,1,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
606,mamb,2,0,0,0,0,1,0,0,0,...,0,0,0,0,0,0,0,0,0,1
607,mamb,2,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,1
608,mamb,2,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,1
609,mamb,2,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,1


##### base das perguntas sobre as atividades culturais que o aluno deseja aprender - colunas 88-157

In [487]:
df_atv_a_fazer = pd.concat([df.iloc[:, :3], df.iloc[:, 83:147]], axis=1)
df_atv_a_fazer

Unnamed: 0,curso,serie,tipo_residente,atv_culturais_a_fazer_aprender algum instrumento,atv_culturais_a_fazer_apresentacoes musicais,atv_culturais_a_fazer_artesanato,atv_culturais_a_fazer_danca,atv_culturais_a_fazer_fotografia,atv_culturais_a_fazer_grafite/arte urbana,atv_culturais_a_fazer_luta,...,jogos_desejados_xadrez,lutas_desejadas_boxe,lutas_desejadas_capoeira,lutas_desejadas_jiu-jitsu,lutas_desejadas_judo,lutas_desejadas_karate,lutas_desejadas_kung fu,lutas_desejadas_muay thai,lutas_desejadas_nenhuma opcao,lutas_desejadas_taekwondo
0,agro,0,1,0,0,0,0,0,0,0,...,1,0,0,0,0,0,0,1,0,0
1,agro,0,1,0,0,0,1,0,0,0,...,1,0,0,0,0,1,0,0,0,0
2,agro,0,0,0,0,1,1,0,1,0,...,0,1,0,0,0,0,0,0,0,0
3,agro,0,0,0,0,1,0,0,1,0,...,0,0,0,0,0,0,0,0,1,0
4,agro,0,0,0,0,0,0,0,0,0,...,1,0,0,0,0,1,1,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
606,mamb,2,0,0,0,0,0,0,0,0,...,1,0,0,0,0,0,0,1,0,0
607,mamb,2,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,1,0
608,mamb,2,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,1,0
609,mamb,2,0,0,0,0,0,0,0,0,...,0,0,0,1,0,1,0,1,0,0


##### base das perguntas sobre estrutura - colunas 1-3, 157:

In [488]:
df_estrutura = pd.concat([df.iloc[:, :3], df.iloc[:, 147:]], axis=1)
df_estrutura

Unnamed: 0,curso,serie,tipo_residente,melhoria_estrutura,novas_estruturas,melhoria_alimentacao,transporte,projetos_a_participar
0,agro,0,1,"recuperacao da sala de jogos, recuperacao do c...","areas para descanso para o intervalo, salas de...",lanches diarios,"criacao de uma ciclovia, para seguranca de que...",recuperacao e ocupacao do antigo cine januaria
1,agro,0,1,"melhora na qualidade e alcance da internet, re...",areas para descanso para o intervalo,lanches diarios,nenhuma opcao,oficina de violao
2,agro,0,0,"melhora na qualidade e alcance da internet, re...","areas para descanso para o intervalo, colchone...","opcoes vegetarianas no almoco, almoco para tod...",melhores condicoes dos onibus terceirizados (m...,recuperacao e ocupacao do antigo cine januaria
3,agro,0,0,"melhora na qualidade e alcance da internet, re...","areas para descanso para o intervalo, salas de...","almoco para todos, lanches diarios, compra de ...","criacao de uma ciclovia, para seguranca de que...",recuperacao e ocupacao do antigo cine januaria
4,agro,0,0,"melhora na qualidade e alcance da internet, su...",salas de aula ao ar livre,"opcoes vegetarianas no almoco, lanches diarios...","criacao de uma ciclovia, para seguranca de que...",oficina de violao
...,...,...,...,...,...,...,...,...
606,mamb,2,0,"melhora na qualidade e alcance da internet, ma...","areas para descanso para o intervalo, colchone...","almoco para todos, lanches diarios, compra de ...","criacao de uma ciclovia, para seguranca de que...",recuperacao e ocupacao do antigo cine januaria
607,mamb,2,0,"melhora na qualidade e alcance da internet, ma...","areas para descanso para o intervalo, microond...","almoco para todos, lanches diarios, poder paga...","criacao de uma ciclovia, para seguranca de que...",nenhuma opcao
608,mamb,2,0,"melhora na qualidade e alcance da internet, ma...","areas para descanso para o intervalo, colchone...","almoco para todos, lanches diarios, compra de ...","criacao de uma ciclovia, para seguranca de que...",recuperacao e ocupacao do antigo cine januaria
609,mamb,2,0,"melhora na qualidade e alcance da internet, ma...",areas para descanso para o intervalo,compra de ticktes on-line (sem precisar enfren...,"criacao de uma ciclovia, para seguranca de que...",oficina de violao


##### base para dashboard

In [489]:
# df.drop(columns=[
#     'atv_culturais',
#     'hab_musicais',
#     'esportes',
#     'jogos',
#     'lutas',
#     'atv_culturais_a_fazer',
#     'hab_musicais_desejadas',
#     'esportes_desejados',
#     'jogos_desejados',
#     'lutas_desejadas',
#     # Analisar como fazer a tratativa nessas colunas ao invés de remover
#     'melhoria_estrutura',
#     'novas_estruturas',
#     'melhoria_alimentacao',
#     'transporte',
#     'projetos_a_participar',
# ], inplace=True)

# df.to_csv('data.csv', index=False)

#### 🧮 Algoritmos - Classificação

In [498]:
s = ClassificationExperiment()
s.setup(df_atv, target='curso', session_id=1)

Unnamed: 0,Description,Value
0,Session id,1
1,Target,curso
2,Target type,Multiclass
3,Target mapping,"agro: 0, info: 1, mamb: 2"
4,Original data shape,"(611, 83)"
5,Transformed data shape,"(611, 83)"
6,Transformed train set shape,"(427, 83)"
7,Transformed test set shape,"(184, 83)"
8,Numeric features,82
9,Preprocess,True


<pycaret.classification.oop.ClassificationExperiment at 0x7577350e3210>

In [499]:
best = s.compare_models()

Unnamed: 0,Model,Accuracy,AUC,Recall,Prec.,F1,Kappa,MCC,TT (Sec)
lr,Logistic Regression,0.5083,0.0,0.5083,0.4896,0.489,0.1956,0.1998,0.15
lda,Linear Discriminant Analysis,0.5083,0.0,0.5083,0.5019,0.4894,0.2031,0.2086,0.007
ridge,Ridge Classifier,0.506,0.0,0.506,0.5057,0.4847,0.19,0.1955,0.006
gbc,Gradient Boosting Classifier,0.4918,0.0,0.4918,0.4695,0.4624,0.1569,0.1629,0.047
dummy,Dummy Classifier,0.4824,0.5,0.4824,0.2328,0.314,0.0,0.0,0.01
ada,Ada Boost Classifier,0.4802,0.0,0.4802,0.4624,0.4655,0.1619,0.165,0.015
nb,Naive Bayes,0.4801,0.6207,0.4801,0.4378,0.413,0.109,0.1192,0.007
et,Extra Trees Classifier,0.478,0.6085,0.478,0.4318,0.4423,0.118,0.1236,0.023
svm,SVM - Linear Kernel,0.4642,0.0,0.4642,0.487,0.4483,0.1584,0.1718,0.008
rf,Random Forest Classifier,0.4568,0.6026,0.4568,0.3974,0.4105,0.0676,0.0735,0.028


In [None]:
s = ClassificationExperiment()
s.setup(df_atv_a_fazer, target='curso', session_id=2)

Unnamed: 0,Description,Value
0,Session id,123
1,Target,curso
2,Target type,Multiclass
3,Target mapping,"agro: 0, info: 1, mamb: 2"
4,Original data shape,"(611, 67)"
5,Transformed data shape,"(611, 67)"
6,Transformed train set shape,"(427, 67)"
7,Transformed test set shape,"(184, 67)"
8,Numeric features,66
9,Preprocess,True


<pycaret.classification.oop.ClassificationExperiment at 0x757734fcce10>

In [493]:
best = s.compare_models()

Unnamed: 0,Model,Accuracy,AUC,Recall,Prec.,F1,Kappa,MCC,TT (Sec)
rf,Random Forest Classifier,0.5033,0.615,0.5033,0.4573,0.455,0.1406,0.1526,0.026
gbc,Gradient Boosting Classifier,0.5009,0.0,0.5009,0.4838,0.484,0.1813,0.1847,0.042
et,Extra Trees Classifier,0.4844,0.6081,0.4844,0.4467,0.4457,0.1159,0.124,0.022
dummy,Dummy Classifier,0.4824,0.5,0.4824,0.2328,0.314,0.0,0.0,0.008
lr,Logistic Regression,0.4823,0.0,0.4823,0.4675,0.4646,0.149,0.1518,0.007
lightgbm,Light Gradient Boosting Machine,0.4823,0.615,0.4823,0.4756,0.4718,0.1569,0.1596,0.161
knn,K Neighbors Classifier,0.4727,0.585,0.4727,0.4456,0.4394,0.1162,0.1251,0.007
dt,Decision Tree Classifier,0.4705,0.5747,0.4705,0.4758,0.4655,0.1617,0.1646,0.006
lda,Linear Discriminant Analysis,0.4612,0.0,0.4612,0.457,0.4455,0.1198,0.1214,0.006
ridge,Ridge Classifier,0.4611,0.0,0.4611,0.4486,0.4391,0.1078,0.1105,0.006


In [None]:
s = ClassificationExperiment()
s.setup(df_estrutura, target='curso', session_id=3)

Unnamed: 0,Description,Value
0,Session id,123
1,Target,curso
2,Target type,Multiclass
3,Target mapping,"agro: 0, info: 1, mamb: 2"
4,Original data shape,"(611, 8)"
5,Transformed data shape,"(611, 42)"
6,Transformed train set shape,"(427, 42)"
7,Transformed test set shape,"(184, 42)"
8,Numeric features,2
9,Categorical features,5


<pycaret.classification.oop.ClassificationExperiment at 0x75772d7681d0>

In [495]:
best = s.compare_models()

Unnamed: 0,Model,Accuracy,AUC,Recall,Prec.,F1,Kappa,MCC,TT (Sec)
lr,Logistic Regression,0.5597,0.0,0.5597,0.5031,0.5095,0.2424,0.2596,0.015
ridge,Ridge Classifier,0.5573,0.0,0.5573,0.4694,0.4957,0.2343,0.2526,0.021
knn,K Neighbors Classifier,0.5317,0.639,0.5317,0.5358,0.5102,0.2119,0.2248,0.015
rf,Random Forest Classifier,0.5267,0.6875,0.5267,0.5216,0.518,0.2342,0.2373,0.034
gbc,Gradient Boosting Classifier,0.5244,0.0,0.5244,0.5306,0.5219,0.2399,0.2427,0.051
lda,Linear Discriminant Analysis,0.52,0.0,0.52,0.4631,0.4797,0.1839,0.1933,0.014
et,Extra Trees Classifier,0.4985,0.6679,0.4985,0.4933,0.4932,0.1902,0.1915,0.032
dt,Decision Tree Classifier,0.4939,0.5983,0.4939,0.5037,0.4938,0.1954,0.1971,0.014
svm,SVM - Linear Kernel,0.4894,0.0,0.4894,0.5189,0.4742,0.1892,0.2021,0.015
dummy,Dummy Classifier,0.4824,0.5,0.4824,0.2328,0.314,0.0,0.0,0.014


In [None]:
s = ClassificationExperiment()
s.setup(df, target='curso', session_id=4)

Unnamed: 0,Description,Value
0,Session id,123
1,Target,curso
2,Target type,Multiclass
3,Target mapping,"agro: 0, info: 1, mamb: 2"
4,Original data shape,"(611, 152)"
5,Transformed data shape,"(611, 186)"
6,Transformed train set shape,"(427, 186)"
7,Transformed test set shape,"(184, 186)"
8,Numeric features,146
9,Categorical features,5


<pycaret.classification.oop.ClassificationExperiment at 0x7577350b3e10>

In [497]:
best = s.compare_models()

Unnamed: 0,Model,Accuracy,AUC,Recall,Prec.,F1,Kappa,MCC,TT (Sec)
et,Extra Trees Classifier,0.5973,0.7265,0.5973,0.5786,0.5615,0.3091,0.3314,0.048
rf,Random Forest Classifier,0.5876,0.7226,0.5876,0.5677,0.5533,0.2949,0.3141,0.043
gbc,Gradient Boosting Classifier,0.5642,0.0,0.5642,0.5696,0.5605,0.3017,0.3053,0.081
lr,Logistic Regression,0.5477,0.0,0.5477,0.5515,0.5426,0.2762,0.2806,0.022
ridge,Ridge Classifier,0.5315,0.0,0.5315,0.5263,0.5204,0.2402,0.2456,0.019
lightgbm,Light Gradient Boosting Machine,0.5312,0.7028,0.5312,0.5414,0.5316,0.2559,0.2584,0.149
knn,K Neighbors Classifier,0.5105,0.6267,0.5105,0.499,0.4926,0.1939,0.1989,0.019
svm,SVM - Linear Kernel,0.5102,0.0,0.5102,0.5119,0.4977,0.2171,0.2232,0.022
ada,Ada Boost Classifier,0.5059,0.0,0.5059,0.5418,0.512,0.2374,0.2436,0.031
lda,Linear Discriminant Analysis,0.5032,0.0,0.5032,0.5091,0.4996,0.2113,0.2144,0.028
