# **Proyecto**
## Modelo predictivo sobre los ingresos de la población adulta


---


Basado en la metodología **CRISP-DM** para minería de datos

La metodología **CRISP-DM** establece un proyecto de minería de datos como un secuencia de fases:

1.   Comprensión del negocio
2.   Comprensión de los datos
3.   Preparación de los datos
4.   Modelado
5.   Evaluación
6.   Despliegue







# 1. Comprensión del negocio

El dataset para este proyecto se basa en los datos del censo de ingresos suministado por UCI Machine Learning Repositoy, repositorio que forma parte de los datasets de los proyectos del curso actual de Data Science.

##**Objetivos**:

1. Segmentación de clientes
- Personalizar estrategias de marketing y servicios basado en la segmentación demográfica y económicamente de los individuos.
2. Identificación de factores influyentes en los ingresos
- Determinar qué factores son más relevantes para alcanzar un nivel de ingresos más alto y así plantear estrategias para mejorar los ingresos de la población objetivo.
3. Dinámica socioeconómica de la población
- Identificar factores que puedan incidir en la sociedad en términos de aspectos sociales y económicos.

##**Información del dataset**

De acuerdo a la página UC Irvine Machine Learning Repositoy (https://archive.ics.uci.edu/dataset/2/adult) los datos fueron extraidos por Barry Becker en un censo realizado en el año de 1994. Para ello se basaron en registros limpios y usando las siguiente condiciones:

    ((AAGE>16) && (AGI>100) && (AFNLWGT>1)&& (HRSWK>0))

##**Datos**
De acuerdo a la información suministrada en el dataset los atributos son los siguientes:
<br>
<br>

| Variable | Rol |    Tipo     | Demografía | Descripción | Valores perdidos |
|:--------:|:--------:|:---------------:|:--------:|:--------:|:--------:|
|    **age**     |    Feature     | Integer | Edad | N/A | no
|    **workclass**     |    Feature     | Categorical | Ingresos | Private, Self-emp-not-inc, Self-emp-inc, Federal-gov, Local-gov, State-gov, Without-pay, Never-worked | si
|    **fnlwgt**     |    Feature     | Integer | Edad | N/A | no
|    **education**     |    Feature     | Categorical | Nivel de educación | Bachelors, Some-college, 11th, HS-grad, Prof-school, Assoc-acdm, Assoc-voc, <br> 9th, 7th-8th, 12th, Masters, 1st-4th, 10th, Doctorate, 5th-6th, Preschool. | no
|    **education-num**     |    Feature     | Integer | Nivel de educación | N/A | no
|    **marital-status**     |    Feature     | Categorical | Otro | Married-civ-spouse, Divorced, Never-married, Separated, <br> Widowed, Married-spouse-absent, Married-AF-spouse. | no
|    **occupation**     |    Feature     | Categorical | Otro | Tech-support, Craft-repair, Other-service, Sales, Exec-managerial, <br> Prof-specialty, Handlers-cleaners, Machine-op-inspct, Adm-clerical, <br> Farming-fishing, Transport-moving, Priv-house-serv, Protective-serv, Armed-Forces. | si
|    **relationship**     |    Feature     | Categorical | Otro | Wife, Own-child, Husband, Not-in-family, Other-relative, Unmarried. | no
|    **race**     |    Feature     | Categorical | Raza | White, Asian-Pac-Islander, Amer-Indian-Eskimo, Other, Black. | no
|    **sex**     |    Feature     | Binary | Sexo | Female, Male | no
|    **capital-gain**     |    Feature     | Integer |  | N/A | no
|    **capital-loss**     |    Feature     | Integer |  | N/A | no
|    **hours-per-week**     |    Feature     | Integer |  | N/A | no
|    **native-country**     |    Feature     | Categorical |  Otro | United-States, Cambodia, England, Puerto-Rico, Canada, Germany, Outlying-US(Guam-USVI-etc), <br> India, Japan, Greece, South, China, Cuba, Iran, Honduras, Philippines, Italy, <br> Poland, Jamaica, Vietnam, Mexico, Portugal, Ireland, France, Dominican-Republic, Laos, <br> Ecuador, Taiwan, Haiti, Columbia, Hungary, Guatemala, Nicaragua, Scotland, Thailand, <br> Yugoslavia, El-Salvador, Trinadad&Tobago, Peru, Hong, Holand-Netherlands | si
|    **income**     |    Target     | Binary | Ingreso | >50K, <=50K | no


---




# 2. Comprensión de los datos

## Carga de los datos

Se muestra una vista del conjunto de datos

In [None]:
adult_df.head()

Unnamed: 0,age,workclass,fnlwgt,education,education.num,marital.status,occupation,relationship,race,sex,capital.gain,capital.loss,hours.per.week,native.country,income
0,90,?,77053,HS-grad,9,Widowed,?,Not-in-family,White,Female,0,4356,40,United-States,<=50K
1,82,Private,132870,HS-grad,9,Widowed,Exec-managerial,Not-in-family,White,Female,0,4356,18,United-States,<=50K
2,66,?,186061,Some-college,10,Widowed,?,Unmarried,Black,Female,0,4356,40,United-States,<=50K
3,54,Private,140359,7th-8th,4,Divorced,Machine-op-inspct,Unmarried,White,Female,0,3900,40,United-States,<=50K
4,41,Private,264663,Some-college,10,Separated,Prof-specialty,Own-child,White,Female,0,3900,40,United-States,<=50K


In [None]:
# se revisan los valores importados
print("Número de muestras en el dataset: ", adult_df.shape)


Número de muestras en el dataset:  (32561, 15)


In [None]:
# Analizando un resumen del dataset
adult_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32561 entries, 0 to 32560
Data columns (total 15 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   age             32561 non-null  int64 
 1   workclass       32561 non-null  object
 2   fnlwgt          32561 non-null  int64 
 3   education       32561 non-null  object
 4   education.num   32561 non-null  int64 
 5   marital.status  32561 non-null  object
 6   occupation      32561 non-null  object
 7   relationship    32561 non-null  object
 8   race            32561 non-null  object
 9   sex             32561 non-null  object
 10  capital.gain    32561 non-null  int64 
 11  capital.loss    32561 non-null  int64 
 12  hours.per.week  32561 non-null  int64 
 13  native.country  32561 non-null  object
 14  income          32561 non-null  object
dtypes: int64(6), object(9)
memory usage: 3.7+ MB


## **Observaciones según los tipos de datos**
1. Columnas numéricas

  Edad, Peso Final, Nivel de educación, Capital ganado, Capital perdido, Horas por semana.
  
2. Columnas Object

  Clase de trabajo, Educación, Estado Civil, Ocupación, Parentesco, Raza, sexo, País natal, ingresos.

3. Hay valores no nulos en el conjunto de datos.



In [None]:
# Distribución de los datos
adult_df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
age,32561.0,38.581647,13.640433,17.0,28.0,37.0,48.0,90.0
fnlwgt,32561.0,189778.366512,105549.977697,12285.0,117827.0,178356.0,237051.0,1484705.0
education.num,32561.0,10.080679,2.57272,1.0,9.0,10.0,12.0,16.0
capital.gain,32561.0,1077.648844,7385.292085,0.0,0.0,0.0,0.0,99999.0
capital.loss,32561.0,87.30383,402.960219,0.0,0.0,0.0,0.0,4356.0
hours.per.week,32561.0,40.437456,12.347429,1.0,40.0,40.0,45.0,99.0


## **Distribución de datos**

La mayoría de las personas trabajan 40 horas a la semana y tienen edades comprendidas entre 28 y 48 años, con un promedio de 38 años. El promedio de años de educación es 10.08, siendo la mayoría entre 9 y 12 años. La mayoría de los datos tienen un capital ganancia de cero, aunque algunas muestras muestran capitales ganancia significativos, reflejados en una alta desviación estándar.

# 3. Preparación de los datos


##Exploración y visualización de datos


#### **Valores nulos**
Se aplica el tratamiento para los valores nulos encontrados en el conjunto de datos. Entre estos hay valores faltantes para workclass, occupation y native.country. El porcentaje se encuentra entre el 1.7% y el 5.6% para ellos.

#### **Se realiza la separación del conjunto de datos en datos numéricos y categóricos**

In [None]:
# Se separan los datos en valores categóricos y numéricos
cols_cat = ['workclass', 'education', 'marital.status', 'occupation',
            'relationship', 'race', 'sex', 'native.country', 'income']

cols_num = ['age', 'fnlwgt', 'education.num', 'capital.gain',
            'capital.loss', 'hours.per.week']

adult_df[cols_cat] = adult_df[cols_cat].astype('category')
adult_df[cols_num] = adult_df[cols_num].astype('int64')

cat_col = adult_df.dtypes[adult_df.dtypes == 'category']
num_col = adult_df.dtypes[adult_df.dtypes == 'int64']



In [None]:
adult_df.dtypes

age                  int64
workclass         category
fnlwgt               int64
education         category
education.num        int64
marital.status    category
occupation        category
relationship      category
race              category
sex               category
capital.gain         int64
capital.loss         int64
hours.per.week       int64
native.country    category
income            category
dtype: object

In [None]:
print('------------------------------------------------------------------')
print('Características numéricas')
print('------------------------------------------------------------------')
print(cat_col.index)
print('\n')
print('------------------------------------------------------------------')
print('Características categóricas')
print('------------------------------------------------------------------')
print(num_col.index)

------------------------------------------------------------------
Características numéricas
------------------------------------------------------------------
Index(['workclass', 'education', 'marital.status', 'occupation',
       'relationship', 'race', 'sex', 'native.country', 'income'],
      dtype='object')


------------------------------------------------------------------
Características categóricas
------------------------------------------------------------------
Index(['age', 'fnlwgt', 'education.num', 'capital.gain', 'capital.loss',
       'hours.per.week'],
      dtype='object')


### **Análisis de la exploración de datos**

En la categoría Income, el 75% de las muestras corresponden a salarios inferiores o iguales a 50K por año. Las categorías [Workclass, Occupation, Native.Country] contienen valores no definidos, tratados como desconocidos. En Workclass, los empleados independientes y de gobierno están categorizados específicamente. Las categorías Education y Marital.Status tienen valores detallados que pueden agruparse para simplificar el análisis, como niveles educativos secundarios y estados civiles similares.


## Tratamiento de los datos de acuerdo al análisis



1.   Tratamiento para la categoría workclass
  *   Agrupamiento de valores "Self-emp-not-inc" y "Self-emp-inc" para ser tratados como una única categoría de trabajadores independientes.
  *   Agrupamiento de valores "Local-gov", "State-gov" y "Federal-gov" para ser tratados en una única categoría como empleados de gobierno.
2.   Tratamiento para la categoría Education
  *   Agrupamiento de valores 'HS-grad', '9th', '10th', '11th', '12th' para ser tratados como una única categoria de grado High School.
  *   Agrupamiento de valores '1st-4th', '5th-6th','7th-8th' para ser tratados como una única categoria de grado básico.
3.   Tratamiento para la categoría "marital.status"
  *   Agrupamiento de los valores 'Married-spouse-absent', 'Married-civ-spouse', 'Married-AF-spouse' para ser tratados como una única categoría de casados.
  *   Agrupamiento de los valores 'Separated', 'Divorced' para ser tratados como una única categoría de separados.
4.   Tratamiento de la variable objetivo salario
  *  Se agrega una columna al conjunto de datos con un valor de 0 para ingresos <=50K y un valor de 1 para ingresos >50K.



In [None]:
adult_df

Unnamed: 0,age,workclass,fnlwgt,education,education.num,marital.status,occupation,relationship,race,sex,capital.gain,capital.loss,hours.per.week,native.country,income,b_income
0,90,unknown,77053,HS_grad,9,Widowed,unknown,Not-in-family,White,Female,0,4356,40,United-States,<=50K,0
1,82,Private,132870,HS_grad,9,Widowed,Exec-managerial,Not-in-family,White,Female,0,4356,18,United-States,<=50K,0
2,66,unknown,186061,Some-college,10,Widowed,unknown,Unmarried,Black,Female,0,4356,40,United-States,<=50K,0
3,54,Private,140359,basic_grad,4,Separated,Machine-op-inspct,Unmarried,White,Female,0,3900,40,United-States,<=50K,0
4,41,Private,264663,Some-college,10,Separated,Prof-specialty,Own-child,White,Female,0,3900,40,United-States,<=50K,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
32556,22,Private,310152,Some-college,10,Never-married,Protective-serv,Not-in-family,White,Male,0,0,40,United-States,<=50K,0
32557,27,Private,257302,Assoc-acdm,12,Married,Tech-support,Wife,White,Female,0,0,38,United-States,<=50K,0
32558,40,Private,154374,HS_grad,9,Married,Machine-op-inspct,Husband,White,Male,0,0,40,United-States,>50K,1
32559,58,Private,151910,HS_grad,9,Widowed,Adm-clerical,Unmarried,White,Female,0,0,40,United-States,<=50K,0


## **Análisis y visualización de los datos numéricos**

1. Edad
2. Peso de la muestra
3. Grado de educación
4. Capital ganado
5. Capital perdido
6. Horas por semana


#### Análisis de la proporción de ingresos


##### Proporción de ingresos

De la cantidad de registros dados en el dataset aproximadamente un 75% corresponde a ingresos inferiores a 50K por año mientras los restantes 25% corresponde a ingresos superiores a 50K por año

#### Histograma del número de personas

Se realiza una histograma del número de personas por edad, grado de educación, capital ganado, capital perdido y horas por semana llegando a los siguientes resultados.

La mayoría de las personas tienen edades entre 17 y 55 años. En cuanto al nivel de educación, más de 10 mil personas tienen grados entre 9-11 años y más de 8 mil tienen entre 13-15 años. En capital ganado, más de 30 mil personas ganan entre 0 y 10,000, con un pequeño grupo ganando más de 90 mil. La mayoría tiene pérdidas de capital entre 0 y 500. Además, 17,500 personas trabajan entre 30 y 40 horas por semana.

#### Análisis de correlación

In [None]:
num_col = adult_df.dtypes[adult_df.dtypes != 'category']
df = adult_df[num_col.index].corr()
df

Unnamed: 0,age,fnlwgt,education.num,capital.gain,capital.loss,hours.per.week,b_income
age,1.0,-0.076646,0.036527,0.077674,0.057775,0.068756,0.234037
fnlwgt,-0.076646,1.0,-0.043195,0.000432,-0.010252,-0.018768,-0.009463
education.num,0.036527,-0.043195,1.0,0.12263,0.079923,0.148123,0.335154
capital.gain,0.077674,0.000432,0.12263,1.0,-0.031615,0.078409,0.223329
capital.loss,0.057775,-0.010252,0.079923,-0.031615,1.0,0.054256,0.150526
hours.per.week,0.068756,-0.018768,0.148123,0.078409,0.054256,1.0,0.229689
b_income,0.234037,-0.009463,0.335154,0.223329,0.150526,0.229689,1.0


##### Matriz de correlación

Se observa una correlación moderada entre los ingresos y el nivel de educación, así como entre los ingresos y el capital ganado, sugiriendo que mayores niveles educativos y ganancias de capital están asociados con mayores ingresos. La correlación positiva baja entre los ingresos y la edad indica que los ingresos tienden a aumentar ligeramente con la edad. Además, no hay una relación fuerte entre la edad y el nivel de educación, ni entre la edad y las horas trabajadas por semana, aunque hay una ligera tendencia a que las personas mayores trabajen más horas.

#### Análisis de Outliers

##### Se analizan los outliers contra capital ganado

Se muestran gráficos boxplot por:
*   Grupo de edad
*   Grupo de edad
*   Grupo de horas por semana

<br>

Aplicado a la ganancia de capital y obteniendo el siguiente resultado.

Las ganancias incrementan notablemente entre los 18 y 70 años, disminuyen entre 71 y 80, y son casi imperceptibles a partir de los 81 años. Los individuos con educación secundaria (High School) muestran mayores ganancias, seguidos por los de educación media (Middle School). Se observa un incremento de capital al trabajar entre 31 y 60 horas por semana, siendo más notable entre 31 y 40 horas; a partir de 91 horas, la ganancia es mínima. Además, el valor de 99999 es un outlier evidente y puede ser eliminado del conjunto de datos.

Las personas mayores de 81 años tienen una mediana de 21-30 horas de trabajo por semana, con algunas trabajando más de 40 horas. Entre los 30 y 60 años, el promedio es de 40 a 50 horas semanales. Después de los 60 años, hay un descenso notable en las horas trabajadas. Además, pocas personas trabajan más de 90 horas por semana.

#### Análisis de ingreso aplicado a la edad

Por medio de un gráfico de bigotes se analizan los ingresos contra la edad obteniendo los siguientes resultados

Conforme avanza la edad, más personas tienden a ganar más de 50K al año. El 50% de las personas que ganan menos de 50K al año tienen 36 años o menos, mostrando una distribución asimétrica positiva. En contraste, los ingresos superiores a 50K al año presentan una distribución simétrica con una media de 44 años.

## **Análisis y visualización de los datos categóricos**
1. Clase de trabajo
2. Educación
3. Estado civil
4. Ocupación
5. Parentesco
6. Raza
7. Sexo
8. País Natal

#### Análisis de datos categóricos según el porcentaje de personas

In [None]:
cat_col

workclass         category
education         category
marital.status    category
occupation        category
relationship      category
race              category
sex               category
native.country    category
income            category
dtype: object

Mediante un gráfico de histograma donde se analizan el porcentaje de personas con ganancias superiores e inferiores a 50K al año contra las siguientes características:
*   'Clase de trabajo'
*   'Educación'
*   'Estado Civil'
*   'Ocupación',
*   'Parentesco'
*   'Raza'
*   'Sexo'

Muestra los siguientes resultados.

La mayoría de las personas ganan menos de 50K al año, con los trabajadores independientes y de gobierno siendo los más propensos a ganar más de 50K. Las personas con educación superior, como doctorados y profesionales, son las que tienen mayores salarios. Los casados tienen una probabilidad más alta de ganar más de 50K. Ejecutivos y profesionales también están entre los mejor pagados. Las esposas superan ligeramente a los esposos en ingresos superiores a 50K. Las personas de raza blanca y asiática tienen mayores ingresos, y un 30% de los hombres ganan más de 50K en comparación con un 11% de las mujeres. Países como Irán, Francia e India tienen una alta proporción de personas que ganan más de 50K.


#### Análisis de datos categóricas según su cantidad y probabilidad de ingresos > 50K

In [None]:
print(adult_df[ adult_df['b_income']==1 ]['workclass'].value_counts())
print(adult_df['workclass'].value_counts())

workclass
Private          4963
Self_employed    1346
Gov_employees    1341
unknown           191
Never-worked        0
Without-pay         0
Name: count, dtype: int64
workclass
Private          22696
Gov_employees     4351
Self_employed     3657
unknown           1836
Without-pay         14
Never-worked         7
Name: count, dtype: int64


Mediante un gráfico de histograma donde se analiza la probabilidad de que una persona obtenga ganancias superiores e inferiores a 50K al año contra las siguientes características:

*   'Clase de trabajo'
*   'Educación'
*   'Estado Civil'
*   'Ocupación',
*   'Parentesco'
*   'Raza'
*   'Sexo'

Muestra los siguientes resultados.

La mayoría de las personas trabajan en el sector privado, aunque los empleados independientes y de gobierno ganan más de 50K anuales. Las personas con educación superior, especialmente doctorados y títulos profesionales, tienen los salarios más altos. Los casados y separados tienden a ganar más que los no casados. Ejecutivos y profesionales especializados son los mejor remunerados. Aunque los esposos son más numerosos, las esposas ganan salarios más altos. La mayoría de los encuestados son de raza blanca, seguidos por población de raza negra y asiáticos, con los asiáticos obteniendo los mejores salarios. Hay una clara dominancia masculina en ingresos más altos. Entre los países, Irán, Francia, Taiwán, Japón e India destacan por tener mejores salarios.


In [None]:
adult_df[(adult_df['b_income']==1) & (adult_df['education']=='Prof-school')]

Unnamed: 0,age,workclass,fnlwgt,education,education.num,marital.status,occupation,relationship,race,sex,capital.gain,capital.loss,hours.per.week,native.country,income,b_income
11,38,Self_employed,164526,Prof-school,15,Never-married,Prof-specialty,Not-in-family,White,Male,0,2824,45,United-States,>50K,1
15,46,Private,45363,Prof-school,15,Separated,Prof-specialty,Not-in-family,White,Male,0,2824,40,United-States,>50K,1
32,52,Private,198863,Prof-school,15,Separated,Exec-managerial,Not-in-family,White,Male,0,2559,60,United-States,>50K,1
37,51,Private,197163,Prof-school,15,Never-married,Prof-specialty,Not-in-family,White,Female,0,2559,50,United-States,>50K,1
50,40,Self_employed,335549,Prof-school,15,Never-married,Prof-specialty,Not-in-family,White,Male,0,2444,45,United-States,>50K,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
31843,57,Gov_employees,62020,Prof-school,15,Separated,Exec-managerial,Not-in-family,Black,Male,0,0,55,United-States,>50K,1
31892,52,Self_employed,42984,Prof-school,15,Married,Prof-specialty,Husband,White,Male,0,0,70,United-States,>50K,1
31918,33,Private,72338,Prof-school,15,Married,Exec-managerial,Husband,Asian-Pac-Islander,Male,0,0,65,Japan,>50K,1
32290,51,Self_employed,28765,Prof-school,15,Married,Prof-specialty,Husband,White,Male,0,0,60,United-States,>50K,1


Mediante un gráfico de bigotes donde se analiza ingresos contra los siguientes datos categóricos:

*   'Clase de trabajo'
*   'Educación'
*   'Estado Civil'
*   'Ocupación',
*   'Parentesco'
*   'Raza'
*   'Sexo'

Muestra los siguientes resultados.

El estado civil y el parentesco muestran una mayor concentración de datos para los esposos con salarios superiores a 50K, mientras que otras relaciones presentan mayor dispersión. La educación muestra una simetría en ingresos inferiores a 50K, con una concentración en personas con grados avanzados y un incremento en ganancias con niveles educativos superiores. La clase de trabajo y la raza presentan una alta concentración de ingresos para quienes laboran por cuenta propia y personas de raza blanca, respectivamente. Para ingresos inferiores a 50K, las mujeres ganan más que los hombres, mientras que para ingresos superiores a 50K, los hombres muestran menor dispersión y las mujeres mayor variabilidad en los ingresos.

## **Ingeniería de características**

Se detallan algunos pasos a realizar

1. Eliminar la columna Parentesco y basarse en la columna Estado Civil para mayor claridad.

2. Eliminar la columna Nivel de educación y usar en su lugar la columna Educación para mayor claridad.

3. Eliminar registros cuya edad sea igual o superior a los 90 años.

4. Eliminar los registros cuyo capital ganado es superior o igual a 99999.

5. Eliminar la categoría ingreso ('income') y conservar el ingreso numérico denominado 'b_income'

6. Codificar los datos categóricos a formato numérico.

7. Normalizar los datos

In [None]:
# -------------------------------------------------------
# 1. Eliminar la columna parentesco
# -------------------------------------------------------

adult_df.drop('relationship', axis = 1, inplace = True)

# -------------------------------------------------------
# 2. Eliminar la columna nivel de educación
# -------------------------------------------------------

adult_df.drop('education.num', axis = 1, inplace = True)

# -------------------------------------------------------
# 3. Eliminar edad >= 90 años
# -------------------------------------------------------

index = adult_df[ adult_df['age'] >= 90].index
adult_df.drop(labels = index, axis = 0, inplace = True)

# -------------------------------------------------------
# 4. Eliminar capital ganado >= 99999
# -------------------------------------------------------

index = adult_df[ adult_df['age'] >= 90].index
adult_df.drop(labels = index, axis = 0, inplace = True)

# -------------------------------------------------------
# 5. Eliminar ingresos
# -------------------------------------------------------

adult_df.drop('income', axis = 1, inplace = True)


In [None]:
# Se recalculan las columnas categóricas y numéricas

cat_col = adult_df.dtypes[adult_df.dtypes == 'category']
num_col = adult_df.dtypes[adult_df.dtypes == 'int64']


In [None]:
adult_df.dtypes

age                  int64
workclass         category
fnlwgt               int64
education         category
marital.status    category
occupation        category
race              category
sex               category
capital.gain         int64
capital.loss         int64
hours.per.week       int64
native.country    category
b_income             int64
dtype: object

In [None]:
# -------------------------------------------------------
# 6. Codificar los datos categóricos a formato numérico
# -------------------------------------------------------

# Mostrar el diccionario de mapeo
print(mapping_dict)


{'workclass': {0: 'Gov_employees', 1: 'Never-worked', 2: 'Private', 3: 'Self_employed', 4: 'Without-pay', 5: 'unknown'}, 'education': {0: 'Assoc-acdm', 1: 'Assoc-voc', 2: 'Bachelors', 3: 'Doctorate', 4: 'HS_grad', 5: 'Masters', 6: 'Preschool', 7: 'Prof-school', 8: 'Some-college', 9: 'basic_grad'}, 'marital.status': {0: 'Married', 1: 'Never-married', 2: 'Separated', 3: 'Widowed'}, 'occupation': {0: 'Adm-clerical', 1: 'Armed-Forces', 2: 'Craft-repair', 3: 'Exec-managerial', 4: 'Farming-fishing', 5: 'Handlers-cleaners', 6: 'Machine-op-inspct', 7: 'Other-service', 8: 'Priv-house-serv', 9: 'Prof-specialty', 10: 'Protective-serv', 11: 'Sales', 12: 'Tech-support', 13: 'Transport-moving', 14: 'unknown'}, 'race': {0: 'Amer-Indian-Eskimo', 1: 'Asian-Pac-Islander', 2: 'Black', 3: 'Other', 4: 'White'}, 'sex': {0: 'Female', 1: 'Male'}, 'native.country': {0: 'Cambodia', 1: 'Canada', 2: 'China', 3: 'Columbia', 4: 'Cuba', 5: 'Dominican-Republic', 6: 'Ecuador', 7: 'El-Salvador', 8: 'England', 9: 'Franc

In [None]:
adult_df.head()

Unnamed: 0,age,workclass,fnlwgt,education,marital.status,occupation,race,sex,capital.gain,capital.loss,hours.per.week,native.country,b_income
1,82,2,132870,4,3,3,4,0,0,4356,18,38,0
2,66,5,186061,8,3,14,2,0,0,4356,40,38,0
3,54,2,140359,9,2,6,4,0,0,3900,40,38,0
4,41,2,264663,8,2,9,4,0,0,3900,40,38,0
5,34,2,216864,4,2,7,4,0,0,3770,45,38,0


In [None]:
# -------------------------------------------------------
# 7. Normalizar los datos
# -------------------------------------------------------

df = adult_df

# Normalización de datos
scaler = StandardScaler()
normalized_data = pd.DataFrame(scaler.fit_transform(df), columns = df.columns)

normalized_data.head()


Unnamed: 0,age,workclass,fnlwgt,education,marital.status,occupation,race,sex,capital.gain,capital.loss,hours.per.week,native.country,b_income
0,3.216352,-0.013449,-0.539456,-0.238671,2.677094,-0.790404,0.393518,-1.422309,-0.145713,10.60985,-1.818785,0.251351,-0.56331
1,2.032955,2.778118,-0.03557,1.405111,2.677094,1.75102,-1.963749,-1.422309,-0.145713,10.60985,-0.035841,0.251351,-0.56331
2,1.145407,-0.013449,-0.468511,1.816056,1.484479,-0.097288,0.393518,-1.422309,-0.145713,9.476484,-0.035841,0.251351,-0.56331
3,0.183896,-0.013449,0.709038,1.405111,1.484479,0.595828,0.393518,-1.422309,-0.145713,9.476484,-0.035841,0.251351,-0.56331
4,-0.33384,-0.013449,0.256231,-0.238671,1.484479,0.133751,0.393518,-1.422309,-0.145713,9.153376,0.369373,0.251351,-0.56331
