![Verne](https://www.vernegroup.com/wp-content/uploads/2020/07/LOGO-VERNE-TECHNOLOGY-GROUP-3.png)

# Codificación de Variables Categóricas

In [1]:
import pandas as pd
import sqlite3
import numpy as np

In [2]:
conn = sqlite3.connect('Tiendas24H.sqlite')
query = "select c.CodCliente, FechaNacimiento, EstadoCivil, Sexo,IngresosAnuales,HijosACargo, N.NivelAcademico, O.Ocupacion from clientes c inner join NivelAcademico N    on c.NivelAcademico = N.Codigo     inner join Ocupacion O on c.Ocupacion = o.Codigo"

df = pd.read_sql_query(query,conn)

df.head()

Unnamed: 0,CodCliente,FechaNacimiento,EstadoCivil,Sexo,IngresosAnuales,HijosACargo,NivelAcademico,Ocupacion
0,20,1976-04-08,M,M,90000.0,0.0,Licenciatura,Profesional especializado
1,26,1975-05-14,S,M,60000.0,3.0,Licenciatura,Profesional especializado
2,29,1975-08-12,M,M,60000.0,3.0,Licenciatura,Profesional especializado
3,46,1978-02-15,S,F,70000.0,0.0,Licenciatura,Profesional especializado
4,47,1978-08-08,S,F,80000.0,5.0,Licenciatura,Profesional especializado


In [None]:
df.info()

In [69]:
df.Sexo.unique()

array(['M', 'F', None], dtype=object)

In [70]:
df.isna().sum()

CodCliente         0
FechaNacimiento    0
EstadoCivil        1
Sexo               1
IngresosAnuales    1
NivelAcademico     1
Ocupacion          1
dtype: int64

In [71]:
df.dropna(axis=0,inplace=True)

In [72]:
from sklearn.preprocessing import  OneHotEncoder,LabelEncoder

le=LabelEncoder()
df['EstadoCivil'] = le.fit_transform(df['EstadoCivil'])
df['Sexo'] = le.fit_transform(df['Sexo'])


In [73]:
df.head()

Unnamed: 0,CodCliente,FechaNacimiento,EstadoCivil,Sexo,IngresosAnuales,NivelAcademico,Ocupacion
0,20,1976-04-08,0,1,90000.0,Licenciatura,Profesional especializado
1,26,1975-05-14,1,1,60000.0,Licenciatura,Profesional especializado
2,29,1975-08-12,0,1,60000.0,Licenciatura,Profesional especializado
3,46,1978-02-15,1,0,70000.0,Licenciatura,Profesional especializado
4,47,1978-08-08,1,0,80000.0,Licenciatura,Profesional especializado


In [78]:

# Crear la instancia del Codificador OneHot
enc = OneHotEncoder(handle_unknown='ignore')

enc_df = pd.DataFrame(enc.fit_transform(df[['NivelAcademico']] ).toarray())
# Mezclar con el df original
bridge_df = df.join(enc_df)
bridge_df

Unnamed: 0,CodCliente,FechaNacimiento,EstadoCivil,Sexo,IngresosAnuales,NivelAcademico,Ocupacion,0,1,2,3,4
0,000020,1976-04-08,0,1,90000.0,Licenciatura,Profesional especializado,0.0,0.0,0.0,0.0,1.0
1,000026,1975-05-14,1,1,60000.0,Licenciatura,Profesional especializado,0.0,0.0,0.0,0.0,1.0
2,000029,1975-08-12,0,1,60000.0,Licenciatura,Profesional especializado,0.0,0.0,0.0,0.0,1.0
3,000046,1978-02-15,1,0,70000.0,Licenciatura,Profesional especializado,0.0,0.0,0.0,0.0,1.0
4,000047,1978-08-08,1,0,80000.0,Licenciatura,Profesional especializado,0.0,0.0,0.0,0.0,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...
2436,Y1795344R,1944-09-17,0,0,70000.0,Estudios de postgrado,Mando intermedio,0.0,0.0,0.0,1.0,0.0
2437,Y2404085R,1973-01-04,1,0,90000.0,Estudios universitarios (en curso),Profesional especializado,0.0,0.0,0.0,1.0,0.0
2438,Y2544794L,1973-08-26,0,1,90000.0,Estudios universitarios (en curso),Profesional especializado,0.0,0.0,0.0,1.0,0.0
2439,Y2671043K,1973-10-23,1,0,90000.0,Estudios universitarios (en curso),Profesional especializado,0.0,0.0,0.0,0.0,1.0


In [76]:

# One Hot encoding utilizando dummies. Podemos hacerlo para varias variables y agrega sufijos y valores como nombre de columna
dum_df = pd.get_dummies(df, columns=["NivelAcademico","Ocupacion"] )



In [77]:
dum_df

Unnamed: 0,CodCliente,FechaNacimiento,EstadoCivil,Sexo,IngresosAnuales,NivelAcademico_Educación Secundaria,NivelAcademico_Educación Secundaria (en curso),NivelAcademico_Estudios de postgrado,NivelAcademico_Estudios universitarios (en curso),NivelAcademico_Licenciatura,Ocupacion_Empleado por cuenta ajena,Ocupacion_Empleados/as de hogar,Ocupacion_Mando intermedio,Ocupacion_Profesional especializado,Ocupacion_Profesional independiente
0,000020,1976-04-08,0,1,90000.0,0,0,0,0,1,0,0,0,1,0
1,000026,1975-05-14,1,1,60000.0,0,0,0,0,1,0,0,0,1,0
2,000029,1975-08-12,0,1,60000.0,0,0,0,0,1,0,0,0,1,0
3,000046,1978-02-15,1,0,70000.0,0,0,0,0,1,0,0,0,1,0
4,000047,1978-08-08,1,0,80000.0,0,0,0,0,1,0,0,0,1,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2436,Y1795344R,1944-09-17,0,0,70000.0,0,0,1,0,0,0,0,1,0,0
2437,Y2404085R,1973-01-04,1,0,90000.0,0,0,0,1,0,0,0,0,1,0
2438,Y2544794L,1973-08-26,0,1,90000.0,0,0,0,1,0,0,0,0,1,0
2439,Y2671043K,1973-10-23,1,0,90000.0,0,0,0,1,0,0,0,0,1,0
