In [12]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer

In [4]:
df = pd.read_csv('/datasets/balanced_dataset.csv')

In [5]:
df.columns

Index(['CODIGO_IES', 'NOME_IES', 'CATEGORIA_ADMINISTRATIVA',
       'ORGANIZACAO_ACADEMICA', 'CODIGO_CURSO', 'NOME_CURSO', 'GRAU',
       'AREA_OCDE', 'MODALIDADE', 'SITUACAO_CURSO', 'QT_VAGAS_AUTORIZADAS',
       'CARGA_HORARIA', 'CODIGO_AREA_OCDE_CINE', 'AREA_OCDE_CINE',
       'CODIGO_MUNICIPIO', 'MUNICIPIO', 'UF', 'REGIAO'],
      dtype='object')

In [6]:
df.drop(columns=['CODIGO_IES', 'NOME_IES', 'CODIGO_CURSO', 'NOME_CURSO', 'AREA_OCDE', 'CODIGO_AREA_OCDE_CINE', 'AREA_OCDE_CINE', 'CODIGO_MUNICIPIO','MUNICIPIO', 'UF'], inplace=True)

In [7]:
df.shape

(30621, 8)

In [8]:
df.head()

Unnamed: 0,CATEGORIA_ADMINISTRATIVA,ORGANIZACAO_ACADEMICA,GRAU,MODALIDADE,SITUACAO_CURSO,QT_VAGAS_AUTORIZADAS,CARGA_HORARIA,REGIAO
0,Privada com fins lucrativos,Universidade,Bacharelado,Educação a Distância,Em atividade,3000,3600,NORDESTE
1,Privada com fins lucrativos,Centro Universitário,Tecnológico,Educação a Distância,Em atividade,6640,1620,SUDESTE
2,Privada com fins lucrativos,Centro Universitário,Bacharelado,Educação a Distância,Em atividade,1920,2554,NORDESTE
3,Privada com fins lucrativos,Centro Universitário,Bacharelado,Educação a Distância,Em atividade,100,4410,SUDESTE
4,Privada com fins lucrativos,Centro Universitário,Tecnológico,Educação a Distância,Em atividade,7610,1980,NORDESTE


In [9]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30621 entries, 0 to 30620
Data columns (total 8 columns):
 #   Column                    Non-Null Count  Dtype 
---  ------                    --------------  ----- 
 0   CATEGORIA_ADMINISTRATIVA  30621 non-null  object
 1   ORGANIZACAO_ACADEMICA     30621 non-null  object
 2   GRAU                      30621 non-null  object
 3   MODALIDADE                30621 non-null  object
 4   SITUACAO_CURSO            30621 non-null  object
 5   QT_VAGAS_AUTORIZADAS      30621 non-null  int64 
 6   CARGA_HORARIA             30621 non-null  int64 
 7   REGIAO                    30621 non-null  object
dtypes: int64(2), object(6)
memory usage: 1.9+ MB


In [10]:
df.dtypes

CATEGORIA_ADMINISTRATIVA    object
ORGANIZACAO_ACADEMICA       object
GRAU                        object
MODALIDADE                  object
SITUACAO_CURSO              object
QT_VAGAS_AUTORIZADAS         int64
CARGA_HORARIA                int64
REGIAO                      object
dtype: object

In [15]:
# Identificar colunas categóricas e numéricas
categorical_features = df.select_dtypes(include=['object']).columns
numeric_features = df.select_dtypes(include=['int64', 'float64']).columns

# Criar o pré-processador
preprocessor = ColumnTransformer(
    transformers=[
        ('num', StandardScaler(), numeric_features),  # Normalizar variáveis numéricas
        ('cat', OneHotEncoder(drop='first'), categorical_features)  # Codificar variáveis categóricas
    ])

# Aplicar transformação e normalização
df_transformed = preprocessor.fit_transform(df)

# Converter a matriz esparsa para um array denso
df_transformed_dense = df_transformed.toarray()

# Verificar o formato do resultado transformado
print("Shape of transformed data:", df_transformed_dense.shape)

# Obter nomes das colunas após a codificação one-hot
one_hot_columns = preprocessor.named_transformers_['cat'].get_feature_names_out(categorical_features)
all_columns = numeric_features.tolist() + one_hot_columns.tolist()

print("Number of columns expected:", len(all_columns))
print("Number of columns in transformed data:", df_transformed_dense.shape[1])

# Converter o resultado para um DataFrame
df_transformed_df = pd.DataFrame(df_transformed_dense, columns=all_columns)

print(df_transformed_df.head())

Shape of transformed data: (30621, 23)
Number of columns expected: 23
Number of columns in transformed data: 23
   QT_VAGAS_AUTORIZADAS  CARGA_HORARIA  \
0              0.727561       1.029736   
1              2.320119      -1.409840   
2              0.255043      -0.259050   
3             -0.541236       2.027744   
4              2.744510      -0.966281   

   CATEGORIA_ADMINISTRATIVA_Privada com fins lucrativos  \
0                                                1.0      
1                                                1.0      
2                                                1.0      
3                                                1.0      
4                                                1.0      

   CATEGORIA_ADMINISTRATIVA_Privada sem fins lucrativos  \
0                                                0.0      
1                                                0.0      
2                                                0.0      
3                                           

In [16]:
df_transformed_df.head()

Unnamed: 0,QT_VAGAS_AUTORIZADAS,CARGA_HORARIA,CATEGORIA_ADMINISTRATIVA_Privada com fins lucrativos,CATEGORIA_ADMINISTRATIVA_Privada sem fins lucrativos,CATEGORIA_ADMINISTRATIVA_Pública Estadual,CATEGORIA_ADMINISTRATIVA_Pública Federal,CATEGORIA_ADMINISTRATIVA_Pública Municipal,ORGANIZACAO_ACADEMICA_Centro Universitário,ORGANIZACAO_ACADEMICA_Faculdade,"ORGANIZACAO_ACADEMICA_Instituto Federal de Educação, Ciência e Tecnologia",...,GRAU_Tecnológico,GRAU_Área Básica de Ingresso (ABI),MODALIDADE_Educação a Distância,SITUACAO_CURSO_Em extinção,SITUACAO_CURSO_Extinto,REGIAO_IGNORADO/EXTERIOR,REGIAO_NORDESTE,REGIAO_NORTE,REGIAO_SUDESTE,REGIAO_SUL
0,0.727561,1.029736,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,1.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0
1,2.320119,-1.40984,1.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,...,1.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0
2,0.255043,-0.25905,1.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,...,0.0,0.0,1.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0
3,-0.541236,2.027744,1.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,...,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0
4,2.74451,-0.966281,1.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,...,1.0,0.0,1.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0


In [18]:
df_transformed_df.columns

Index(['QT_VAGAS_AUTORIZADAS', 'CARGA_HORARIA',
       'CATEGORIA_ADMINISTRATIVA_Privada com fins lucrativos',
       'CATEGORIA_ADMINISTRATIVA_Privada sem fins lucrativos',
       'CATEGORIA_ADMINISTRATIVA_Pública Estadual',
       'CATEGORIA_ADMINISTRATIVA_Pública Federal',
       'CATEGORIA_ADMINISTRATIVA_Pública Municipal',
       'ORGANIZACAO_ACADEMICA_Centro Universitário',
       'ORGANIZACAO_ACADEMICA_Faculdade',
       'ORGANIZACAO_ACADEMICA_Instituto Federal de Educação, Ciência e Tecnologia',
       'ORGANIZACAO_ACADEMICA_Universidade', 'GRAU_Licenciatura',
       'GRAU_Sequencial', 'GRAU_Tecnológico',
       'GRAU_Área Básica de Ingresso (ABI)', 'MODALIDADE_Educação a Distância',
       'SITUACAO_CURSO_Em extinção', 'SITUACAO_CURSO_Extinto',
       'REGIAO_IGNORADO/EXTERIOR', 'REGIAO_NORDESTE', 'REGIAO_NORTE',
       'REGIAO_SUDESTE', 'REGIAO_SUL'],
      dtype='object')

In [20]:
df_transformed_df.to_csv('transformedstandardized_dataset.csv', index=False)