## Transformação de Dados

### Carregando itens necessários

**Bibliotecas**

In [43]:
import pandas as pd
import matplotlib.pyplot as plt 
import seaborn as sb
import numpy as np

**Datasets**

In [44]:
ano_2021 = pd.read_csv('../datasets/cleaned/ano_2021.csv', sep=';', on_bad_lines='skip', encoding='latin-1')
ano_2020 = pd.read_csv('../datasets/cleaned/ano_2020.csv', sep=';', on_bad_lines='skip', encoding='latin-1')
ano_2019 = pd.read_csv('../datasets/cleaned/ano_2019.csv', sep=';', on_bad_lines='skip', encoding='latin-1')
ano_2018 = pd.read_csv('../datasets/cleaned/ano_2018.csv', sep=';', on_bad_lines='skip', encoding='latin-1')

In [45]:
datasets = [ano_2021, ano_2020, ano_2019, ano_2018]

In [46]:
for df in datasets:
    df.drop(df.columns[0], axis=1, inplace=True)
    print(df.columns)

Index(['situacao', 'regiao', 'estado', 'subeixo_tec', 'nome_curso',
       'modalidade', 'turno', 'carga_horaria', 'fator_esforco_curso', 'sexo',
       'etnia', 'faixa_etaria', 'renda_familiar', 'tipo_curso'],
      dtype='object')
Index(['situacao', 'regiao', 'estado', 'subeixo_tec', 'nome_curso',
       'modalidade', 'turno', 'carga_horaria', 'fator_esforco_curso', 'sexo',
       'etnia', 'faixa_etaria', 'renda_familiar', 'tipo_curso'],
      dtype='object')
Index(['situacao', 'regiao', 'estado', 'subeixo_tec', 'nome_curso',
       'modalidade', 'turno', 'carga_horaria', 'fator_esforco_curso', 'sexo',
       'etnia', 'faixa_etaria', 'renda_familiar', 'tipo_curso'],
      dtype='object')
Index(['situacao', 'regiao', 'estado', 'subeixo_tec', 'nome_curso',
       'modalidade', 'turno', 'carga_horaria', 'fator_esforco_curso', 'sexo',
       'etnia', 'faixa_etaria', 'renda_familiar', 'tipo_curso'],
      dtype='object')


In [47]:
# Concatenate the DataFrames
df = pd.concat([ano_2021, ano_2020, ano_2019, ano_2018], ignore_index=True)
df.shape

(715238, 14)

### Valores numéricos

In [48]:
df['fator_esforco_curso']=df['fator_esforco_curso'].str.replace(',','.')
df

Unnamed: 0,situacao,regiao,estado,subeixo_tec,nome_curso,modalidade,turno,carga_horaria,fator_esforco_curso,sexo,etnia,faixa_etaria,renda_familiar,tipo_curso
0,Evadidos,Região Nordeste,RN,Informática,Programador de Dispositivos Móveis,Educação a Distância,Não se aplica,200,1.1,Feminino,Amarela,50 a 54 anos,"0,5<RFP<=1,0",QUALIFICACAO
1,Concluintes,Região Norte,TO,Informática,Técnico em Informática Para Internet,Educação Presencial,Noturno,1233,1.028,Feminino,Branca,20 a 24 anos,,TECNICO_SUBSEQUENTE
2,Concluintes,Região Norte,AM,Informática,Técnico em Informática,Educação Presencial,Noturno,1200,1.053,Feminino,Branca,20 a 24 anos,,TECNICO_SUBSEQUENTE
3,Evadidos,Região Norte,TO,Informática,Técnico em Informática,Educação Presencial,Noturno,1200,1.053,Feminino,Branca,35 a 39 anos,,TECNICO_SUBSEQUENTE
4,Concluintes,Região Norte,PA,Informática,Técnico em Manutenção e Suporte em Informática,Educação Presencial,Vespertino,3850,1.028,Feminino,Branca,20 a 24 anos,"2,5<RFP<=3,5",TECNICO_INTEGRADO
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
715233,Evadidos,Região Norte,RO,Informática,Técnico em Informática,Educação Presencial,Vespertino,3960,1.25,M,Amarela,15 a 19 anos,"0,5<RFP<=1",TECNICO_INTEGRADO
715234,Evadidos,Região Norte,RO,Informática,Técnico em Informática,Educação Presencial,Vespertino,3960,1.25,M,Amarela,15 a 19 anos,"0,5<RFP<=1",TECNICO_INTEGRADO
715235,Evadidos,Região Norte,RO,Informática,Técnico em Informática,Educação Presencial,Vespertino,3960,1.25,F,Amarela,15 a 19 anos,"1,5<RFP<=2,5",TECNICO_INTEGRADO
715236,Evadidos,Região Norte,RO,Informática,Técnico em Informática,Educação Presencial,Vespertino,3960,1.25,F,Amarela,15 a 19 anos,"1,5<RFP<=2,5",TECNICO_INTEGRADO


In [49]:
from sklearn.preprocessing import MinMaxScaler

scaler_ch = MinMaxScaler()
scaler_fec = MinMaxScaler()

# Fit the scaler on the column (reshape for 2D compatibility)
scaler_ch.fit(df['carga_horaria'].values.reshape(-1, 1))  # Reshape to 2D
scaler_fec.fit(df['fator_esforco_curso'].values.reshape(-1, 1))  # Reshape to 2D

# Transform the column using the fitted scaler
df['carga_horaria'] = scaler_ch.transform(df['carga_horaria'].values.reshape(-1, 1))
df['fator_esforco_curso'] = scaler_ch.transform(df['fator_esforco_curso'].values.reshape(-1, 1))

df

Unnamed: 0,situacao,regiao,estado,subeixo_tec,nome_curso,modalidade,turno,carga_horaria,fator_esforco_curso,sexo,etnia,faixa_etaria,renda_familiar,tipo_curso
0,Evadidos,Região Nordeste,RN,Informática,Programador de Dispositivos Móveis,Educação a Distância,Não se aplica,0.032143,-0.003375,Feminino,Amarela,50 a 54 anos,"0,5<RFP<=1,0",QUALIFICACAO
1,Concluintes,Região Norte,TO,Informática,Técnico em Informática Para Internet,Educação Presencial,Noturno,0.216607,-0.003388,Feminino,Branca,20 a 24 anos,,TECNICO_SUBSEQUENTE
2,Concluintes,Região Norte,AM,Informática,Técnico em Informática,Educação Presencial,Noturno,0.210714,-0.003383,Feminino,Branca,20 a 24 anos,,TECNICO_SUBSEQUENTE
3,Evadidos,Região Norte,TO,Informática,Técnico em Informática,Educação Presencial,Noturno,0.210714,-0.003383,Feminino,Branca,35 a 39 anos,,TECNICO_SUBSEQUENTE
4,Concluintes,Região Norte,PA,Informática,Técnico em Manutenção e Suporte em Informática,Educação Presencial,Vespertino,0.683929,-0.003388,Feminino,Branca,20 a 24 anos,"2,5<RFP<=3,5",TECNICO_INTEGRADO
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
715233,Evadidos,Região Norte,RO,Informática,Técnico em Informática,Educação Presencial,Vespertino,0.703571,-0.003348,M,Amarela,15 a 19 anos,"0,5<RFP<=1",TECNICO_INTEGRADO
715234,Evadidos,Região Norte,RO,Informática,Técnico em Informática,Educação Presencial,Vespertino,0.703571,-0.003348,M,Amarela,15 a 19 anos,"0,5<RFP<=1",TECNICO_INTEGRADO
715235,Evadidos,Região Norte,RO,Informática,Técnico em Informática,Educação Presencial,Vespertino,0.703571,-0.003348,F,Amarela,15 a 19 anos,"1,5<RFP<=2,5",TECNICO_INTEGRADO
715236,Evadidos,Região Norte,RO,Informática,Técnico em Informática,Educação Presencial,Vespertino,0.703571,-0.003348,F,Amarela,15 a 19 anos,"1,5<RFP<=2,5",TECNICO_INTEGRADO


### Valores categóricos

In [50]:
df_dummies = pd.get_dummies(df, columns=[  'regiao', 'subeixo_tec', 'modalidade', 'turno', 'sexo', 'faixa_etaria', 'tipo_curso'])
df_dummies

Unnamed: 0,situacao,estado,nome_curso,carga_horaria,fator_esforco_curso,etnia,renda_familiar,regiao_Região Centro-Oeste,regiao_Região Nordeste,regiao_Região Norte,...,faixa_etaria_55 a 59 anos,faixa_etaria_Maior de 60 anos,faixa_etaria_Menor de 14 anos,tipo_curso_POS_GRADUACAO,tipo_curso_QUALIFICACAO,tipo_curso_SUPERIOR,tipo_curso_TECNICO_CONCOMITANTE,tipo_curso_TECNICO_EJA,tipo_curso_TECNICO_INTEGRADO,tipo_curso_TECNICO_SUBSEQUENTE
0,Evadidos,RN,Programador de Dispositivos Móveis,0.032143,-0.003375,Amarela,"0,5<RFP<=1,0",False,True,False,...,False,False,False,False,True,False,False,False,False,False
1,Concluintes,TO,Técnico em Informática Para Internet,0.216607,-0.003388,Branca,,False,False,True,...,False,False,False,False,False,False,False,False,False,True
2,Concluintes,AM,Técnico em Informática,0.210714,-0.003383,Branca,,False,False,True,...,False,False,False,False,False,False,False,False,False,True
3,Evadidos,TO,Técnico em Informática,0.210714,-0.003383,Branca,,False,False,True,...,False,False,False,False,False,False,False,False,False,True
4,Concluintes,PA,Técnico em Manutenção e Suporte em Informática,0.683929,-0.003388,Branca,"2,5<RFP<=3,5",False,False,True,...,False,False,False,False,False,False,False,False,True,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
715233,Evadidos,RO,Técnico em Informática,0.703571,-0.003348,Amarela,"0,5<RFP<=1",False,False,True,...,False,False,False,False,False,False,False,False,True,False
715234,Evadidos,RO,Técnico em Informática,0.703571,-0.003348,Amarela,"0,5<RFP<=1",False,False,True,...,False,False,False,False,False,False,False,False,True,False
715235,Evadidos,RO,Técnico em Informática,0.703571,-0.003348,Amarela,"1,5<RFP<=2,5",False,False,True,...,False,False,False,False,False,False,False,False,True,False
715236,Evadidos,RO,Técnico em Informática,0.703571,-0.003348,Amarela,"1,5<RFP<=2,5",False,False,True,...,False,False,False,False,False,False,False,False,True,False


#### Etnia

In [51]:
df_etnia = df_dummies.drop(['situacao', 'renda_familiar', 'estado', 'nome_curso'], axis=1)
df_etnia

Unnamed: 0,carga_horaria,fator_esforco_curso,etnia,regiao_Região Centro-Oeste,regiao_Região Nordeste,regiao_Região Norte,regiao_Região Sudeste,regiao_Região Sul,subeixo_tec_Informação e Comunicação,subeixo_tec_Informática,...,faixa_etaria_55 a 59 anos,faixa_etaria_Maior de 60 anos,faixa_etaria_Menor de 14 anos,tipo_curso_POS_GRADUACAO,tipo_curso_QUALIFICACAO,tipo_curso_SUPERIOR,tipo_curso_TECNICO_CONCOMITANTE,tipo_curso_TECNICO_EJA,tipo_curso_TECNICO_INTEGRADO,tipo_curso_TECNICO_SUBSEQUENTE
0,0.032143,-0.003375,Amarela,False,True,False,False,False,False,True,...,False,False,False,False,True,False,False,False,False,False
1,0.216607,-0.003388,Branca,False,False,True,False,False,False,True,...,False,False,False,False,False,False,False,False,False,True
2,0.210714,-0.003383,Branca,False,False,True,False,False,False,True,...,False,False,False,False,False,False,False,False,False,True
3,0.210714,-0.003383,Branca,False,False,True,False,False,False,True,...,False,False,False,False,False,False,False,False,False,True
4,0.683929,-0.003388,Branca,False,False,True,False,False,False,True,...,False,False,False,False,False,False,False,False,True,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
715233,0.703571,-0.003348,Amarela,False,False,True,False,False,False,True,...,False,False,False,False,False,False,False,False,True,False
715234,0.703571,-0.003348,Amarela,False,False,True,False,False,False,True,...,False,False,False,False,False,False,False,False,True,False
715235,0.703571,-0.003348,Amarela,False,False,True,False,False,False,True,...,False,False,False,False,False,False,False,False,True,False
715236,0.703571,-0.003348,Amarela,False,False,True,False,False,False,True,...,False,False,False,False,False,False,False,False,True,False


In [52]:
df_etnia.isna().sum()

carga_horaria                                0
fator_esforco_curso                          0
etnia                                   184425
regiao_Região Centro-Oeste                   0
regiao_Região Nordeste                       0
regiao_Região Norte                          0
regiao_Região Sudeste                        0
regiao_Região Sul                            0
subeixo_tec_Informação e Comunicação         0
subeixo_tec_Informática                      0
subeixo_tec_Telecomunicações                 0
modalidade_Educação Presencial               0
modalidade_Educação a Distância              0
turno_Integral                               0
turno_Matutino                               0
turno_Noturno                                0
turno_Não se aplica                          0
turno_Vespertino                             0
sexo_F                                       0
sexo_Feminino                                0
sexo_M                                       0
sexo_Masculin

In [53]:
df_etnia.sort_values(by='etnia', inplace=True)
df_etnia

Unnamed: 0,carga_horaria,fator_esforco_curso,etnia,regiao_Região Centro-Oeste,regiao_Região Nordeste,regiao_Região Norte,regiao_Região Sudeste,regiao_Região Sul,subeixo_tec_Informação e Comunicação,subeixo_tec_Informática,...,faixa_etaria_55 a 59 anos,faixa_etaria_Maior de 60 anos,faixa_etaria_Menor de 14 anos,tipo_curso_POS_GRADUACAO,tipo_curso_QUALIFICACAO,tipo_curso_SUPERIOR,tipo_curso_TECNICO_CONCOMITANTE,tipo_curso_TECNICO_EJA,tipo_curso_TECNICO_INTEGRADO,tipo_curso_TECNICO_SUBSEQUENTE
372551,0.237500,-0.003348,AMARELA,False,True,False,False,False,False,True,...,False,False,False,False,False,False,False,False,False,True
305332,0.532143,-0.003355,AMARELA,False,False,False,False,True,False,True,...,False,False,False,False,False,True,False,False,False,False
305331,0.532143,-0.003355,AMARELA,False,False,False,False,True,False,True,...,False,False,False,False,False,True,False,False,False,False
305330,0.567857,-0.003348,AMARELA,False,False,False,False,True,False,True,...,False,False,False,False,False,False,False,False,True,False
305329,0.587143,-0.003348,AMARELA,False,False,False,False,True,False,True,...,False,False,False,False,False,False,False,False,True,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
707903,0.591071,-0.003348,,False,False,False,False,True,False,True,...,False,False,False,False,False,False,False,False,True,False
707904,0.591071,-0.003348,,False,False,False,False,True,False,True,...,False,False,False,False,False,False,False,False,True,False
707905,0.639286,-0.003348,,False,False,False,False,True,False,True,...,False,False,False,False,False,False,False,False,True,False
707906,0.639286,-0.003348,,False,False,False,False,True,False,True,...,False,False,False,False,False,False,False,False,True,False


In [54]:
X = df_etnia[~df_etnia['etnia'].isna()]
X.drop('etnia', axis=1, inplace=True)
X

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  X.drop('etnia', axis=1, inplace=True)


Unnamed: 0,carga_horaria,fator_esforco_curso,regiao_Região Centro-Oeste,regiao_Região Nordeste,regiao_Região Norte,regiao_Região Sudeste,regiao_Região Sul,subeixo_tec_Informação e Comunicação,subeixo_tec_Informática,subeixo_tec_Telecomunicações,...,faixa_etaria_55 a 59 anos,faixa_etaria_Maior de 60 anos,faixa_etaria_Menor de 14 anos,tipo_curso_POS_GRADUACAO,tipo_curso_QUALIFICACAO,tipo_curso_SUPERIOR,tipo_curso_TECNICO_CONCOMITANTE,tipo_curso_TECNICO_EJA,tipo_curso_TECNICO_INTEGRADO,tipo_curso_TECNICO_SUBSEQUENTE
372551,0.237500,-0.003348,False,True,False,False,False,False,True,False,...,False,False,False,False,False,False,False,False,False,True
305332,0.532143,-0.003355,False,False,False,False,True,False,True,False,...,False,False,False,False,False,True,False,False,False,False
305331,0.532143,-0.003355,False,False,False,False,True,False,True,False,...,False,False,False,False,False,True,False,False,False,False
305330,0.567857,-0.003348,False,False,False,False,True,False,True,False,...,False,False,False,False,False,False,False,False,True,False
305329,0.587143,-0.003348,False,False,False,False,True,False,True,False,...,False,False,False,False,False,False,False,False,True,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
59592,0.688036,-0.003383,False,False,False,True,False,False,True,False,...,False,False,False,False,False,False,False,False,True,False
59591,0.596429,-0.003383,False,False,False,True,False,False,True,False,...,False,False,False,False,False,False,False,False,True,False
59590,0.567857,-0.003383,False,False,False,True,False,False,True,False,...,False,False,False,False,False,False,False,False,True,False
59601,0.869286,-0.003383,False,False,False,True,False,False,True,False,...,False,False,False,False,False,False,False,False,True,False


In [55]:
ya = df_etnia[~df_etnia['etnia'].isna()]
y = ya['etnia']
y

372551    AMARELA
305332    AMARELA
305331    AMARELA
305330    AMARELA
305329    AMARELA
           ...   
59592       Preta
59591       Preta
59590       Preta
59601       Preta
61868       Preta
Name: etnia, Length: 530813, dtype: object

In [56]:
from sklearn.model_selection import train_test_split

X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=42)

In [57]:
X_train

Unnamed: 0,carga_horaria,fator_esforco_curso,regiao_Região Centro-Oeste,regiao_Região Nordeste,regiao_Região Norte,regiao_Região Sudeste,regiao_Região Sul,subeixo_tec_Informação e Comunicação,subeixo_tec_Informática,subeixo_tec_Telecomunicações,...,faixa_etaria_55 a 59 anos,faixa_etaria_Maior de 60 anos,faixa_etaria_Menor de 14 anos,tipo_curso_POS_GRADUACAO,tipo_curso_QUALIFICACAO,tipo_curso_SUPERIOR,tipo_curso_TECNICO_CONCOMITANTE,tipo_curso_TECNICO_EJA,tipo_curso_TECNICO_INTEGRADO,tipo_curso_TECNICO_SUBSEQUENTE
442659,0.356429,-0.003348,False,True,False,False,False,False,True,False,...,False,False,False,False,False,True,False,False,False,False
409222,0.032143,-0.003393,False,True,False,False,False,False,True,False,...,False,False,False,False,True,False,False,False,False,False
320009,0.567857,-0.003348,False,False,False,False,True,False,False,True,...,False,False,False,False,False,False,False,False,True,False
293168,0.725000,-0.003382,False,True,False,False,False,False,True,False,...,False,False,False,False,False,True,False,False,False,False
355251,0.032143,-0.003393,False,True,False,False,False,False,True,False,...,False,False,False,False,True,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
594627,0.695179,-0.003348,False,False,False,True,False,False,True,False,...,False,False,False,False,False,False,False,False,True,False
279325,0.617679,-0.003348,False,False,True,False,False,False,True,False,...,False,False,False,False,False,False,False,False,True,False
569723,0.317857,-0.003348,False,True,False,False,False,False,True,False,...,False,False,False,False,False,False,False,False,False,True
711727,0.810714,-0.003348,False,False,False,False,True,False,True,False,...,False,False,False,False,False,False,False,False,True,False


In [58]:
X_val

Unnamed: 0,carga_horaria,fator_esforco_curso,regiao_Região Centro-Oeste,regiao_Região Nordeste,regiao_Região Norte,regiao_Região Sudeste,regiao_Região Sul,subeixo_tec_Informação e Comunicação,subeixo_tec_Informática,subeixo_tec_Telecomunicações,...,faixa_etaria_55 a 59 anos,faixa_etaria_Maior de 60 anos,faixa_etaria_Menor de 14 anos,tipo_curso_POS_GRADUACAO,tipo_curso_QUALIFICACAO,tipo_curso_SUPERIOR,tipo_curso_TECNICO_CONCOMITANTE,tipo_curso_TECNICO_EJA,tipo_curso_TECNICO_INTEGRADO,tipo_curso_TECNICO_SUBSEQUENTE
604905,0.567857,-0.003348,False,True,False,False,False,False,False,True,...,False,False,False,False,False,False,False,False,True,False
135859,0.667679,-0.003383,False,False,False,True,False,False,True,False,...,False,False,False,False,False,False,False,False,True,False
92767,0.755000,-0.003383,False,True,False,False,False,False,True,False,...,False,False,False,False,False,False,False,False,True,False
693047,0.175000,-0.003348,False,True,False,False,False,False,True,False,...,False,False,False,False,False,False,False,False,False,True
274735,0.712143,-0.003348,False,False,False,True,False,False,True,False,...,False,False,False,False,False,False,False,False,True,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
541547,0.225000,-0.003348,False,True,False,False,False,False,True,False,...,False,False,False,False,False,False,True,False,False,False
690726,0.593750,-0.003348,True,False,False,False,False,False,True,False,...,False,False,False,False,False,False,False,False,True,False
27322,0.723571,-0.003383,False,False,True,False,False,False,True,False,...,False,False,False,False,False,False,False,False,True,False
237350,0.175000,-0.003348,False,False,False,True,False,False,True,False,...,False,False,False,False,False,False,True,False,False,False


In [59]:
X_test = df_etnia[df_etnia['etnia'].isna()]
X_test.drop('etnia', axis=1, inplace=True)
X_test

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  X_test.drop('etnia', axis=1, inplace=True)


Unnamed: 0,carga_horaria,fator_esforco_curso,regiao_Região Centro-Oeste,regiao_Região Nordeste,regiao_Região Norte,regiao_Região Sudeste,regiao_Região Sul,subeixo_tec_Informação e Comunicação,subeixo_tec_Informática,subeixo_tec_Telecomunicações,...,faixa_etaria_55 a 59 anos,faixa_etaria_Maior de 60 anos,faixa_etaria_Menor de 14 anos,tipo_curso_POS_GRADUACAO,tipo_curso_QUALIFICACAO,tipo_curso_SUPERIOR,tipo_curso_TECNICO_CONCOMITANTE,tipo_curso_TECNICO_EJA,tipo_curso_TECNICO_INTEGRADO,tipo_curso_TECNICO_SUBSEQUENTE
9,0.664286,-0.003383,False,False,True,False,False,False,True,False,...,False,False,False,False,False,False,False,False,True,False
18,0.742143,-0.003388,True,False,False,False,False,False,True,False,...,False,False,False,False,False,False,False,False,True,False
19,0.633393,-0.003383,True,False,False,False,False,False,True,False,...,False,False,False,False,False,False,False,False,True,False
22,0.354107,-0.003387,False,False,True,False,False,False,True,False,...,False,False,False,False,False,True,False,False,False,False
23,0.242857,-0.003383,False,False,True,False,False,False,True,False,...,False,False,False,False,False,False,False,False,False,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
707903,0.591071,-0.003348,False,False,False,False,True,False,True,False,...,False,False,False,False,False,False,False,False,True,False
707904,0.591071,-0.003348,False,False,False,False,True,False,True,False,...,False,False,False,False,False,False,False,False,True,False
707905,0.639286,-0.003348,False,False,False,False,True,False,True,False,...,False,False,False,False,False,False,False,False,True,False
707906,0.639286,-0.003348,False,False,False,False,True,False,True,False,...,False,False,False,False,False,False,False,False,True,False


In [60]:
ya_test = df_etnia[df_etnia['etnia'].isna()]
y_test = ya_test['etnia']
y_test

9         NaN
18        NaN
19        NaN
22        NaN
23        NaN
         ... 
707903    NaN
707904    NaN
707905    NaN
707906    NaN
707907    NaN
Name: etnia, Length: 184425, dtype: object

In [61]:
from sklearn.metrics import accuracy_score
from sklearn.tree import DecisionTreeClassifier

# Create a KNN classifier object
tree = DecisionTreeClassifier(max_depth=7)

# Train the model on your features (X) and target variable (y)
tree.fit(X_train, y_train)

# Make predictions on the testing set (containing null values)
predicted = tree.predict(X_val)

# Calculate accuracy on the testing set
accuracy = accuracy_score(y_val, predicted)
print("Decision Tree Accuracy:", round(accuracy, 2))

Decision Tree Accuracy: 0.49


In [62]:
from sklearn.neighbors import KNeighborsClassifier

knn = KNeighborsClassifier(n_neighbors=7)  # You can adjust n_neighbors
knn.fit(X_train, y_train)
predicted = knn.predict(X_val)
accuracy = accuracy_score(y_val, predicted)
print("KNN Accuracy:", round(accuracy, 2))

KNN Accuracy: 0.48


In [63]:
pred = tree.predict(X_test)
pred

array(['Parda', 'Parda', 'Parda', ..., 'BRANCA', 'BRANCA', 'BRANCA'],
      dtype=object)

In [64]:
ya_test['etnia'] = pred
ya_test['etnia']

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  ya_test['etnia'] = pred


9          Parda
18         Parda
19         Parda
22         Parda
23         Parda
           ...  
707903    BRANCA
707904    BRANCA
707905    BRANCA
707906    BRANCA
707907    BRANCA
Name: etnia, Length: 184425, dtype: object

In [65]:
X_final = pd.concat([X_train, X_val, X_test], axis=0)
X_final

Unnamed: 0,carga_horaria,fator_esforco_curso,regiao_Região Centro-Oeste,regiao_Região Nordeste,regiao_Região Norte,regiao_Região Sudeste,regiao_Região Sul,subeixo_tec_Informação e Comunicação,subeixo_tec_Informática,subeixo_tec_Telecomunicações,...,faixa_etaria_55 a 59 anos,faixa_etaria_Maior de 60 anos,faixa_etaria_Menor de 14 anos,tipo_curso_POS_GRADUACAO,tipo_curso_QUALIFICACAO,tipo_curso_SUPERIOR,tipo_curso_TECNICO_CONCOMITANTE,tipo_curso_TECNICO_EJA,tipo_curso_TECNICO_INTEGRADO,tipo_curso_TECNICO_SUBSEQUENTE
442659,0.356429,-0.003348,False,True,False,False,False,False,True,False,...,False,False,False,False,False,True,False,False,False,False
409222,0.032143,-0.003393,False,True,False,False,False,False,True,False,...,False,False,False,False,True,False,False,False,False,False
320009,0.567857,-0.003348,False,False,False,False,True,False,False,True,...,False,False,False,False,False,False,False,False,True,False
293168,0.725000,-0.003382,False,True,False,False,False,False,True,False,...,False,False,False,False,False,True,False,False,False,False
355251,0.032143,-0.003393,False,True,False,False,False,False,True,False,...,False,False,False,False,True,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
707903,0.591071,-0.003348,False,False,False,False,True,False,True,False,...,False,False,False,False,False,False,False,False,True,False
707904,0.591071,-0.003348,False,False,False,False,True,False,True,False,...,False,False,False,False,False,False,False,False,True,False
707905,0.639286,-0.003348,False,False,False,False,True,False,True,False,...,False,False,False,False,False,False,False,False,True,False
707906,0.639286,-0.003348,False,False,False,False,True,False,True,False,...,False,False,False,False,False,False,False,False,True,False


In [66]:
y_final = pd.concat([y_train, y_val, ya_test['etnia']], axis=0)
y_final

442659      Parda
409222      PARDA
320009     BRANCA
293168      PARDA
355251    AMARELA
           ...   
707903     BRANCA
707904     BRANCA
707905     BRANCA
707906     BRANCA
707907     BRANCA
Name: etnia, Length: 715238, dtype: object

In [67]:
df_renda = X_final

In [68]:
df_renda['etnia'] = y_final
df_renda

Unnamed: 0,carga_horaria,fator_esforco_curso,regiao_Região Centro-Oeste,regiao_Região Nordeste,regiao_Região Norte,regiao_Região Sudeste,regiao_Região Sul,subeixo_tec_Informação e Comunicação,subeixo_tec_Informática,subeixo_tec_Telecomunicações,...,faixa_etaria_Maior de 60 anos,faixa_etaria_Menor de 14 anos,tipo_curso_POS_GRADUACAO,tipo_curso_QUALIFICACAO,tipo_curso_SUPERIOR,tipo_curso_TECNICO_CONCOMITANTE,tipo_curso_TECNICO_EJA,tipo_curso_TECNICO_INTEGRADO,tipo_curso_TECNICO_SUBSEQUENTE,etnia
442659,0.356429,-0.003348,False,True,False,False,False,False,True,False,...,False,False,False,False,True,False,False,False,False,Parda
409222,0.032143,-0.003393,False,True,False,False,False,False,True,False,...,False,False,False,True,False,False,False,False,False,PARDA
320009,0.567857,-0.003348,False,False,False,False,True,False,False,True,...,False,False,False,False,False,False,False,True,False,BRANCA
293168,0.725000,-0.003382,False,True,False,False,False,False,True,False,...,False,False,False,False,True,False,False,False,False,PARDA
355251,0.032143,-0.003393,False,True,False,False,False,False,True,False,...,False,False,False,True,False,False,False,False,False,AMARELA
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
707903,0.591071,-0.003348,False,False,False,False,True,False,True,False,...,False,False,False,False,False,False,False,True,False,BRANCA
707904,0.591071,-0.003348,False,False,False,False,True,False,True,False,...,False,False,False,False,False,False,False,True,False,BRANCA
707905,0.639286,-0.003348,False,False,False,False,True,False,True,False,...,False,False,False,False,False,False,False,True,False,BRANCA
707906,0.639286,-0.003348,False,False,False,False,True,False,True,False,...,False,False,False,False,False,False,False,True,False,BRANCA


In [69]:
df_renda = pd.get_dummies(df_renda, columns=['etnia'])
df_renda

Unnamed: 0,carga_horaria,fator_esforco_curso,regiao_Região Centro-Oeste,regiao_Região Nordeste,regiao_Região Norte,regiao_Região Sudeste,regiao_Região Sul,subeixo_tec_Informação e Comunicação,subeixo_tec_Informática,subeixo_tec_Telecomunicações,...,etnia_AMARELA,etnia_Amarela,etnia_BRANCA,etnia_Branca,etnia_INDÍGENA,etnia_Indígena,etnia_PARDA,etnia_PRETA,etnia_Parda,etnia_Preta
442659,0.356429,-0.003348,False,True,False,False,False,False,True,False,...,False,False,False,False,False,False,False,False,True,False
409222,0.032143,-0.003393,False,True,False,False,False,False,True,False,...,False,False,False,False,False,False,True,False,False,False
320009,0.567857,-0.003348,False,False,False,False,True,False,False,True,...,False,False,True,False,False,False,False,False,False,False
293168,0.725000,-0.003382,False,True,False,False,False,False,True,False,...,False,False,False,False,False,False,True,False,False,False
355251,0.032143,-0.003393,False,True,False,False,False,False,True,False,...,True,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
707903,0.591071,-0.003348,False,False,False,False,True,False,True,False,...,False,False,True,False,False,False,False,False,False,False
707904,0.591071,-0.003348,False,False,False,False,True,False,True,False,...,False,False,True,False,False,False,False,False,False,False
707905,0.639286,-0.003348,False,False,False,False,True,False,True,False,...,False,False,True,False,False,False,False,False,False,False
707906,0.639286,-0.003348,False,False,False,False,True,False,True,False,...,False,False,True,False,False,False,False,False,False,False


#### Renda Familiar

In [70]:
df_renda['renda_familiar'] = df_dummies['renda_familiar']
df_renda

Unnamed: 0,carga_horaria,fator_esforco_curso,regiao_Região Centro-Oeste,regiao_Região Nordeste,regiao_Região Norte,regiao_Região Sudeste,regiao_Região Sul,subeixo_tec_Informação e Comunicação,subeixo_tec_Informática,subeixo_tec_Telecomunicações,...,etnia_Amarela,etnia_BRANCA,etnia_Branca,etnia_INDÍGENA,etnia_Indígena,etnia_PARDA,etnia_PRETA,etnia_Parda,etnia_Preta,renda_familiar
442659,0.356429,-0.003348,False,True,False,False,False,False,True,False,...,False,False,False,False,False,False,False,True,False,"1,0<RFP<=1,5"
409222,0.032143,-0.003393,False,True,False,False,False,False,True,False,...,False,False,False,False,False,True,False,False,False,"1<RFP<=1,5"
320009,0.567857,-0.003348,False,False,False,False,True,False,False,True,...,False,True,False,False,False,False,False,False,False,"0<RFP<=0,5"
293168,0.725000,-0.003382,False,True,False,False,False,False,True,False,...,False,False,False,False,False,True,False,False,False,"1<RFP<=1,5"
355251,0.032143,-0.003393,False,True,False,False,False,False,True,False,...,False,False,False,False,False,False,False,False,False,"0<RFP<=0,5"
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
707903,0.591071,-0.003348,False,False,False,False,True,False,True,False,...,False,True,False,False,False,False,False,False,False,
707904,0.591071,-0.003348,False,False,False,False,True,False,True,False,...,False,True,False,False,False,False,False,False,False,
707905,0.639286,-0.003348,False,False,False,False,True,False,True,False,...,False,True,False,False,False,False,False,False,False,
707906,0.639286,-0.003348,False,False,False,False,True,False,True,False,...,False,True,False,False,False,False,False,False,False,


In [71]:
X = df_renda[~df_renda['renda_familiar'].isna()]
X.drop('renda_familiar', axis=1, inplace=True)
X

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  X.drop('renda_familiar', axis=1, inplace=True)


Unnamed: 0,carga_horaria,fator_esforco_curso,regiao_Região Centro-Oeste,regiao_Região Nordeste,regiao_Região Norte,regiao_Região Sudeste,regiao_Região Sul,subeixo_tec_Informação e Comunicação,subeixo_tec_Informática,subeixo_tec_Telecomunicações,...,etnia_AMARELA,etnia_Amarela,etnia_BRANCA,etnia_Branca,etnia_INDÍGENA,etnia_Indígena,etnia_PARDA,etnia_PRETA,etnia_Parda,etnia_Preta
442659,0.356429,-0.003348,False,True,False,False,False,False,True,False,...,False,False,False,False,False,False,False,False,True,False
409222,0.032143,-0.003393,False,True,False,False,False,False,True,False,...,False,False,False,False,False,False,True,False,False,False
320009,0.567857,-0.003348,False,False,False,False,True,False,False,True,...,False,False,True,False,False,False,False,False,False,False
293168,0.725000,-0.003382,False,True,False,False,False,False,True,False,...,False,False,False,False,False,False,True,False,False,False
355251,0.032143,-0.003393,False,True,False,False,False,False,True,False,...,True,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
707876,0.210714,-0.003348,False,False,False,False,True,False,True,False,...,False,False,True,False,False,False,False,False,False,False
707878,0.210714,-0.003348,False,False,False,False,True,False,True,False,...,False,False,True,False,False,False,False,False,False,False
707879,0.210714,-0.003348,False,False,False,False,True,False,True,False,...,False,False,True,False,False,False,False,False,False,False
707880,0.210714,-0.003348,False,True,False,False,False,False,True,False,...,False,False,False,False,False,False,False,False,True,False


In [72]:
ya = df_renda[~df_renda['renda_familiar'].isna()]
y = ya['renda_familiar']
y

442659    1,0<RFP<=1,5
409222      1<RFP<=1,5
320009      0<RFP<=0,5
293168      1<RFP<=1,5
355251      0<RFP<=0,5
              ...     
707876      0<RFP<=0,5
707878    1,5<RFP<=2,5
707879      0,5<RFP<=1
707880      0<RFP<=0,5
707894      1<RFP<=1,5
Name: renda_familiar, Length: 423928, dtype: object

In [73]:
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.3, random_state=42)

In [74]:
X_test = df_renda[df_renda['renda_familiar'].isna()]
X_test.drop('renda_familiar', axis=1, inplace=True)
X_test

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  X_test.drop('renda_familiar', axis=1, inplace=True)


Unnamed: 0,carga_horaria,fator_esforco_curso,regiao_Região Centro-Oeste,regiao_Região Nordeste,regiao_Região Norte,regiao_Região Sudeste,regiao_Região Sul,subeixo_tec_Informação e Comunicação,subeixo_tec_Informática,subeixo_tec_Telecomunicações,...,etnia_AMARELA,etnia_Amarela,etnia_BRANCA,etnia_Branca,etnia_INDÍGENA,etnia_Indígena,etnia_PARDA,etnia_PRETA,etnia_Parda,etnia_Preta
302344,0.417857,-0.003348,False,False,False,False,True,False,True,False,...,False,False,True,False,False,False,False,False,False,False
523282,0.232143,-0.003348,False,False,False,True,False,False,True,False,...,False,False,False,True,False,False,False,False,False,False
210315,0.032143,-0.003375,False,False,False,False,True,False,True,False,...,False,False,False,False,False,False,False,False,False,True
237547,0.635714,-0.003375,False,False,False,True,False,False,True,False,...,False,False,True,False,False,False,False,False,False,False
298544,0.001786,-0.003393,False,False,False,False,True,True,False,False,...,False,False,False,False,False,False,True,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
707903,0.591071,-0.003348,False,False,False,False,True,False,True,False,...,False,False,True,False,False,False,False,False,False,False
707904,0.591071,-0.003348,False,False,False,False,True,False,True,False,...,False,False,True,False,False,False,False,False,False,False
707905,0.639286,-0.003348,False,False,False,False,True,False,True,False,...,False,False,True,False,False,False,False,False,False,False
707906,0.639286,-0.003348,False,False,False,False,True,False,True,False,...,False,False,True,False,False,False,False,False,False,False


In [75]:
ya = df_renda[df_renda['renda_familiar'].isna()]
y = ya['renda_familiar']
y

302344    NaN
523282    NaN
210315    NaN
237547    NaN
298544    NaN
         ... 
707903    NaN
707904    NaN
707905    NaN
707906    NaN
707907    NaN
Name: renda_familiar, Length: 291310, dtype: object

In [76]:
tree = DecisionTreeClassifier(max_depth=9)
tree.fit(X_train, y_train)
predicted = tree.predict(X_val)
accuracy = accuracy_score(y_val, predicted)
print("Decision Tree Accuracy:", round(accuracy, 2))

Decision Tree Accuracy: 0.37


In [77]:
knn = KNeighborsClassifier(n_neighbors=7)
knn.fit(X_train, y_train)
predicted = knn.predict(X_val)
accuracy = accuracy_score(y_val, predicted)
print("KNN Accuracy:", round(accuracy, 2))

KNN Accuracy: 0.36


In [78]:
pred = tree.predict(X_test)
pred

array(['0,5<RFP<=1', '0,5<RFP<=1,0', '0<RFP<=0,5', ..., '1<RFP<=1,5',
       '1<RFP<=1,5', '1<RFP<=1,5'], dtype=object)

In [79]:
ya['renda_familiar'] = pred
ya['renda_familiar']

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  ya['renda_familiar'] = pred


302344      0,5<RFP<=1
523282    0,5<RFP<=1,0
210315      0<RFP<=0,5
237547      0,5<RFP<=1
298544    1,5<RFP<=2,5
              ...     
707903      1<RFP<=1,5
707904      1<RFP<=1,5
707905      1<RFP<=1,5
707906      1<RFP<=1,5
707907      1<RFP<=1,5
Name: renda_familiar, Length: 291310, dtype: object

In [80]:
X_final = pd.concat([X_train, X_val, X_test], axis=0)
X_final

Unnamed: 0,carga_horaria,fator_esforco_curso,regiao_Região Centro-Oeste,regiao_Região Nordeste,regiao_Região Norte,regiao_Região Sudeste,regiao_Região Sul,subeixo_tec_Informação e Comunicação,subeixo_tec_Informática,subeixo_tec_Telecomunicações,...,etnia_AMARELA,etnia_Amarela,etnia_BRANCA,etnia_Branca,etnia_INDÍGENA,etnia_Indígena,etnia_PARDA,etnia_PRETA,etnia_Parda,etnia_Preta
449718,0.717857,-0.003348,False,True,False,False,False,False,True,False,...,False,False,False,False,False,False,False,False,True,False
109568,0.294643,-0.003387,False,True,False,False,False,False,True,False,...,False,False,False,False,False,False,False,False,True,False
58341,0.000000,-0.003375,False,False,False,False,True,True,False,False,...,False,False,False,False,False,False,False,False,True,False
278238,0.427500,-0.003348,False,True,False,False,False,False,True,False,...,False,False,False,False,False,False,True,False,False,False
552340,0.567857,-0.003348,False,False,False,False,True,False,True,False,...,False,False,False,True,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
707903,0.591071,-0.003348,False,False,False,False,True,False,True,False,...,False,False,True,False,False,False,False,False,False,False
707904,0.591071,-0.003348,False,False,False,False,True,False,True,False,...,False,False,True,False,False,False,False,False,False,False
707905,0.639286,-0.003348,False,False,False,False,True,False,True,False,...,False,False,True,False,False,False,False,False,False,False
707906,0.639286,-0.003348,False,False,False,False,True,False,True,False,...,False,False,True,False,False,False,False,False,False,False


In [81]:
y_final = pd.concat([y_train, y_val, ya['renda_familiar']], axis=0)
y_final

449718      0<RFP<=0,5
109568      0<RFP<=0,5
58341     0,5<RFP<=1,0
278238      1<RFP<=1,5
552340      0<RFP<=0,5
              ...     
707903      1<RFP<=1,5
707904      1<RFP<=1,5
707905      1<RFP<=1,5
707906      1<RFP<=1,5
707907      1<RFP<=1,5
Name: renda_familiar, Length: 715238, dtype: object

In [87]:
dft = X_final
dft['renda_familiar'] = y_final
dft

Unnamed: 0,carga_horaria,fator_esforco_curso,regiao_Região Centro-Oeste,regiao_Região Nordeste,regiao_Região Norte,regiao_Região Sudeste,regiao_Região Sul,subeixo_tec_Informação e Comunicação,subeixo_tec_Informática,subeixo_tec_Telecomunicações,...,etnia_Amarela,etnia_BRANCA,etnia_Branca,etnia_INDÍGENA,etnia_Indígena,etnia_PARDA,etnia_PRETA,etnia_Parda,etnia_Preta,renda_familiar
449718,0.717857,-0.003348,False,True,False,False,False,False,True,False,...,False,False,False,False,False,False,False,True,False,"0<RFP<=0,5"
109568,0.294643,-0.003387,False,True,False,False,False,False,True,False,...,False,False,False,False,False,False,False,True,False,"0<RFP<=0,5"
58341,0.000000,-0.003375,False,False,False,False,True,True,False,False,...,False,False,False,False,False,False,False,True,False,"0,5<RFP<=1,0"
278238,0.427500,-0.003348,False,True,False,False,False,False,True,False,...,False,False,False,False,False,True,False,False,False,"1<RFP<=1,5"
552340,0.567857,-0.003348,False,False,False,False,True,False,True,False,...,False,False,True,False,False,False,False,False,False,"0<RFP<=0,5"
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
707903,0.591071,-0.003348,False,False,False,False,True,False,True,False,...,False,True,False,False,False,False,False,False,False,"1<RFP<=1,5"
707904,0.591071,-0.003348,False,False,False,False,True,False,True,False,...,False,True,False,False,False,False,False,False,False,"1<RFP<=1,5"
707905,0.639286,-0.003348,False,False,False,False,True,False,True,False,...,False,True,False,False,False,False,False,False,False,"1<RFP<=1,5"
707906,0.639286,-0.003348,False,False,False,False,True,False,True,False,...,False,True,False,False,False,False,False,False,False,"1<RFP<=1,5"


In [88]:
dft = pd.get_dummies(dft, columns=['renda_familiar'])
dft

Unnamed: 0,carga_horaria,fator_esforco_curso,regiao_Região Centro-Oeste,regiao_Região Nordeste,regiao_Região Norte,regiao_Região Sudeste,regiao_Região Sul,subeixo_tec_Informação e Comunicação,subeixo_tec_Informática,subeixo_tec_Telecomunicações,...,etnia_Parda,etnia_Preta,"renda_familiar_0,5<RFP<=1","renda_familiar_0,5<RFP<=1,0","renda_familiar_0<RFP<=0,5","renda_familiar_1,0<RFP<=1,5","renda_familiar_1,5<RFP<=2,5","renda_familiar_1<RFP<=1,5","renda_familiar_2,5<RFP<=3,5","renda_familiar_RFP>3,5"
449718,0.717857,-0.003348,False,True,False,False,False,False,True,False,...,True,False,False,False,True,False,False,False,False,False
109568,0.294643,-0.003387,False,True,False,False,False,False,True,False,...,True,False,False,False,True,False,False,False,False,False
58341,0.000000,-0.003375,False,False,False,False,True,True,False,False,...,True,False,False,True,False,False,False,False,False,False
278238,0.427500,-0.003348,False,True,False,False,False,False,True,False,...,False,False,False,False,False,False,False,True,False,False
552340,0.567857,-0.003348,False,False,False,False,True,False,True,False,...,False,False,False,False,True,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
707903,0.591071,-0.003348,False,False,False,False,True,False,True,False,...,False,False,False,False,False,False,False,True,False,False
707904,0.591071,-0.003348,False,False,False,False,True,False,True,False,...,False,False,False,False,False,False,False,True,False,False
707905,0.639286,-0.003348,False,False,False,False,True,False,True,False,...,False,False,False,False,False,False,False,True,False,False
707906,0.639286,-0.003348,False,False,False,False,True,False,True,False,...,False,False,False,False,False,False,False,True,False,False


In [89]:
dft['situacao'] = df['situacao']
dft

Unnamed: 0,carga_horaria,fator_esforco_curso,regiao_Região Centro-Oeste,regiao_Região Nordeste,regiao_Região Norte,regiao_Região Sudeste,regiao_Região Sul,subeixo_tec_Informação e Comunicação,subeixo_tec_Informática,subeixo_tec_Telecomunicações,...,etnia_Preta,"renda_familiar_0,5<RFP<=1","renda_familiar_0,5<RFP<=1,0","renda_familiar_0<RFP<=0,5","renda_familiar_1,0<RFP<=1,5","renda_familiar_1,5<RFP<=2,5","renda_familiar_1<RFP<=1,5","renda_familiar_2,5<RFP<=3,5","renda_familiar_RFP>3,5",situacao
449718,0.717857,-0.003348,False,True,False,False,False,False,True,False,...,False,False,False,True,False,False,False,False,False,Em curso
109568,0.294643,-0.003387,False,True,False,False,False,False,True,False,...,False,False,False,True,False,False,False,False,False,Em curso
58341,0.000000,-0.003375,False,False,False,False,True,True,False,False,...,False,False,True,False,False,False,False,False,False,Em curso
278238,0.427500,-0.003348,False,True,False,False,False,False,True,False,...,False,False,False,False,False,False,True,False,False,Em curso
552340,0.567857,-0.003348,False,False,False,False,True,False,True,False,...,False,False,False,True,False,False,False,False,False,Em curso
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
707903,0.591071,-0.003348,False,False,False,False,True,False,True,False,...,False,False,False,False,False,False,True,False,False,Evadidos
707904,0.591071,-0.003348,False,False,False,False,True,False,True,False,...,False,False,False,False,False,False,True,False,False,Evadidos
707905,0.639286,-0.003348,False,False,False,False,True,False,True,False,...,False,False,False,False,False,False,True,False,False,Evadidos
707906,0.639286,-0.003348,False,False,False,False,True,False,True,False,...,False,False,False,False,False,False,True,False,False,Evadidos


In [90]:
dft.to_csv("../datasets/transformed/data.csv", sep=";", encoding="latin-1")