## Importações e leitura dos dados

In [1]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder

# Ajustes para exibição completa dos dados no Jupyter
pd.set_option('display.width', None)

# Leitura do arquivo CSV
df = pd.read_csv("C:/Users/karin/OneDrive/Área de Trabalho/EBAC/clientes-v2-tratados.csv")
df.head()


Unnamed: 0,idade,data,estado,salario,nivel_educacao,numero_filhos,estado_civil,area_atuacao
0,56,1968-01-19,Pará,13550.54,Ensino Médio,0,Casado,Tecnologia
1,49,1975-01-31,Rio Grande do Norte,3124.72,Ensino Médio,3,Casado,Indústria
2,54,1969-08-26,Minas Gerais,7534.6,Ensino Médio,0,Casado,Tecnologia
3,61,1963-03-19,Amapá,4067.73,Ensino Fundamental,1,Solteiro,Comércio
4,30,1993-12-09,Alagoas,6809.94,Ensino Médio,1,Casado,Tecnologia


### Codificação one-hot para a variável estado_civil

In [2]:
df = pd.concat([df, pd.get_dummies(df['estado_civil'], prefix='estado_civil')], axis=1)
print("\nDataFrame após codificação one-hot para 'estado_civil':\n")
df.head()



DataFrame após codificação one-hot para 'estado_civil':



Unnamed: 0,idade,data,estado,salario,nivel_educacao,numero_filhos,estado_civil,area_atuacao,estado_civil_Casado,estado_civil_Divorciado,estado_civil_Solteiro,estado_civil_Viúvo
0,56,1968-01-19,Pará,13550.54,Ensino Médio,0,Casado,Tecnologia,True,False,False,False
1,49,1975-01-31,Rio Grande do Norte,3124.72,Ensino Médio,3,Casado,Indústria,True,False,False,False
2,54,1969-08-26,Minas Gerais,7534.6,Ensino Médio,0,Casado,Tecnologia,True,False,False,False
3,61,1963-03-19,Amapá,4067.73,Ensino Fundamental,1,Solteiro,Comércio,False,False,True,False
4,30,1993-12-09,Alagoas,6809.94,Ensino Médio,1,Casado,Tecnologia,True,False,False,False


###  Codificação ordinal para nivel_educacao

In [3]:
educacao_ordem = {
    'Ensino Fundamental': 1,
    'Ensino Médio': 2,
    'Ensino Superior': 3,
    'Pós-graduação': 4
}

df['nivel_educacao_ordinal'] = df['nivel_educacao'].map(educacao_ordem)
print("\nDataFrame após codificação ordinal para 'nivel_educacao':\n")
df.head()



DataFrame após codificação ordinal para 'nivel_educacao':



Unnamed: 0,idade,data,estado,salario,nivel_educacao,numero_filhos,estado_civil,area_atuacao,estado_civil_Casado,estado_civil_Divorciado,estado_civil_Solteiro,estado_civil_Viúvo,nivel_educacao_ordinal
0,56,1968-01-19,Pará,13550.54,Ensino Médio,0,Casado,Tecnologia,True,False,False,False,2
1,49,1975-01-31,Rio Grande do Norte,3124.72,Ensino Médio,3,Casado,Indústria,True,False,False,False,2
2,54,1969-08-26,Minas Gerais,7534.6,Ensino Médio,0,Casado,Tecnologia,True,False,False,False,2
3,61,1963-03-19,Amapá,4067.73,Ensino Fundamental,1,Solteiro,Comércio,False,False,True,False,1
4,30,1993-12-09,Alagoas,6809.94,Ensino Médio,1,Casado,Tecnologia,True,False,False,False,2


### Transformação de area_atuacao usando .cat.codes

In [4]:
df['area_atuacao_cod'] = df['area_atuacao'].astype('category').cat.codes
print("\nDataFrame após transformar 'area_atuacao' em códigos numéricos:\n")
df.head()



DataFrame após transformar 'area_atuacao' em códigos numéricos:



Unnamed: 0,idade,data,estado,salario,nivel_educacao,numero_filhos,estado_civil,area_atuacao,estado_civil_Casado,estado_civil_Divorciado,estado_civil_Solteiro,estado_civil_Viúvo,nivel_educacao_ordinal,area_atuacao_cod
0,56,1968-01-19,Pará,13550.54,Ensino Médio,0,Casado,Tecnologia,True,False,False,False,2,4
1,49,1975-01-31,Rio Grande do Norte,3124.72,Ensino Médio,3,Casado,Indústria,True,False,False,False,2,2
2,54,1969-08-26,Minas Gerais,7534.6,Ensino Médio,0,Casado,Tecnologia,True,False,False,False,2,4
3,61,1963-03-19,Amapá,4067.73,Ensino Fundamental,1,Solteiro,Comércio,False,False,True,False,1,0
4,30,1993-12-09,Alagoas,6809.94,Ensino Médio,1,Casado,Tecnologia,True,False,False,False,2,4


### Codificação com LabelEncoder para estado

In [5]:
label_encoder = LabelEncoder()
df['estado_cod'] = label_encoder.fit_transform(df['estado'])
print("\nDataFrame após aplicar LabelEncoder em 'estado':\n")
df.head()



DataFrame após aplicar LabelEncoder em 'estado':



Unnamed: 0,idade,data,estado,salario,nivel_educacao,numero_filhos,estado_civil,area_atuacao,estado_civil_Casado,estado_civil_Divorciado,estado_civil_Solteiro,estado_civil_Viúvo,nivel_educacao_ordinal,area_atuacao_cod,estado_cod
0,56,1968-01-19,Pará,13550.54,Ensino Médio,0,Casado,Tecnologia,True,False,False,False,2,4,15
1,49,1975-01-31,Rio Grande do Norte,3124.72,Ensino Médio,3,Casado,Indústria,True,False,False,False,2,2,18
2,54,1969-08-26,Minas Gerais,7534.6,Ensino Médio,0,Casado,Tecnologia,True,False,False,False,2,4,12
3,61,1963-03-19,Amapá,4067.73,Ensino Fundamental,1,Solteiro,Comércio,False,False,True,False,1,0,2
4,30,1993-12-09,Alagoas,6809.94,Ensino Médio,1,Casado,Tecnologia,True,False,False,False,2,4,1


In [6]:
# Salvando o DataFrame com codificações aplicadas
df.to_csv('C:/Users/karin/OneDrive/Área de Trabalho/EBAC/clientes_preparados.csv', index=False)
print("Arquivo salvo como 'clientes_preparados.csv'")


Arquivo salvo como 'clientes_preparados.csv'
