# Proyecto Final Curso Data Science

**En este proyecto se utilizarán técnicas de ciencia de datos y machine learning con el objetivo de resolver un problema práctico utilizando datos reales**

## **1. Presentación del problema** 

**En esta sección se realizará una presentación inicial del problema y además se plantearan preguntas y objetivos del proyecto.**

El ingreso anual de una persona u hogar es quizá una de las variables económicas más importantes que se utilizan hoy en día para definir campañas de marketing, publicidad, público objetivo, entre muchas otras. Adicionalmente, en el sector público también puede ser usado como medida para establecer políticas públicas.

Sin embargo, en muchas ocasiones es dificil conocer el ingreso de una persona, debido a la reticencia que se tiene a compartir estos datos de forma pública. Por lo tanto, se requieren formas alternativas de predecir dicha variable, o por lo menos, de definir un rango inicial.

Utilizando un set de datos demográficos, el departamento de estadística de la compañía (Podría ser también el gobierno) quiere intentar predecir si los ingresos de una persona son mayores o menores al ingreso promedio per capita del país. Para esto se utilizarán procedimientos de análisis utilizando ciencia de datos, machine learning, entre otras técnicas.

Se plantea la solución de este problema usando esta tecnología, ya que existen muchas variables que pueden afectar los ingresos de una persona, lo que hace dificil crear reglas determinísticas y programas que puedan predecir el resultado esperado, además estas pueden variar a lo largo del tiempo, haciendo este proceso tedioso y no escalable. Con ayuda del machine learning podemos encontrar patrones y relaciones entre variables ocultos que nos ayudarán a poder predecir de forma correcta el salario de una persona sin importar los cambios que puedan surgir con el tiempo, ya que la misma técnica puede identificar esos cambios, lo que se traduce en resultados mas precisos y procesos mas ágiles y escalables.

## **2. Preguntas y objetivos de la investigación** 

### Preguntas
1. ¿Es posible predecir el ingreso promedio de una persona con base en variables demográficas?
2. ¿Existen variables demográficas importantes que determinan el ingreso promedio de una persona?
3. ¿Que tipo de modelo de machine learning puede ser más apropiado para la predicción de la variable dependiente?
4. ¿Qué datos nos gustaría tener y no tenemos?
5. ¿Por qué no consideraremos los datos del punto anterior?
6. ¿Cuál será la variable target categórica relevante para el problema y solución planteada?

### Objetivos
1. Utilizar un set de datos demográficos para caracterizar los ingresos promedios.
2. Conocer que variables pueden estar  **correlacionadas con los ingresos de una persona**.
3. Utilizar modelos de machine learning para **predecir** el ingreso de una persona clasificado **categóricamente**.
4. Optimizar y elegir el modelo **más apropiado** para disminuir el error de la predicción del objetivo principal.

## **3. Conformación del equipo de trabajo**

El equipo de trabajo está conformado por:
- Fabio Alvarez (Colombia): Experto científico de datos.
- Alejandro Lagos (Colombia): Analista de datos.

## **4. Indicación de la fuente del dataset y los criterios de selección**

**En esta sección se mostrarán los criterios de selección del data set y se hará una breve descripción de los mismos y su calidad, también se mostrará un diccionario para el correcto entendimiento de los campos.**

### Descripción del data set original

El data set fue obtenido de la página:
https://archive.ics.uci.edu/ml/datasets/Census+Income 
A su vez, la fuente original de los datos fue el Censo de USA de 1994, los datos fueron extraídos y limpiados (parcialmente) por Barry Becker. Los criterios de filtrado iniciales para el data set fueron:
- Edad > 16 años
- Ingresos después de impuestos > 100USD
- FinalWeight > 1 (Esta variable representa el número de personas que dicho registro representa)

En la información original, se entregan dos data set y un archivo con información general llamados:
 - adult.data: Utilizado para el entrenamiento del modelo.
 - adult.test: Utilizado para probar el modelo seleccionado.
 - adult.names: Utilizado para extraer los nombres de las columnas.

### Criterios de selección

Los criterios de utilizados para seleccionar este data set fueron:
- Contiene por lo menos una variable categórica.
- Se observan más de 5 variables que pueden relacionarse con dicha variable.
- Se tienen más de 1000 registros de información.
- Su porcentaje de valores nulos es menor al 5% del total de la información.


### Calidad de los datos

Los data sets se dividieron usando MLC++ GenCVFiles (2/3, 1/3 random).
- 48842 instancias, mezcla de valores contínuos y discretos (entrenamiento=32561, test=16281)
- 45222 si se eliminan valores nulos o desconocidos (entrenamiento=30162, test=15060)
- Instancias duplicadas o conflictivas: 6

### Diccionario de datos (nombre : significado | valores)
- **age**: Edad de las personas | Contínuo
- **workclass**: Tipo de empleo | Private, Self-emp-not-inc, Self-emp-inc, Federal-gov, Local-gov, State-gov, Without-pay, Never-worked.
- **fnlwgt**:    Es un indicativo aproximado del número de personas que cada registro representa  | Contínuo.
- **education**: Nivel de eduación | Bachelors, Some-college, 11th, HS-grad, Prof-school, Assoc-acdm, Assoc-voc, 9th, 7th-8th, 12th, Masters, 1st-4th, 10th, Doctorate, 5th-6th, Preschool.
- **education-num**: Años de educación recibida | Contínuo.
- **marital-status**: Estado civil | Married-civ-spouse, Divorced, Never-married, Separated, Widowed, Married-spouse-absent, Married-AF-spouse.
- **occupation**: Ocupación o a qué se dedica | Tech-support, Craft-repair, Other-service, Sales, Exec-managerial, Prof-specialty, Handlers-cleaners, Machine-op-inspct, Adm-clerical, Farming-fishing, Transport-moving, Priv-house-serv, Protective-serv, Armed-Forces.
- **relationship**: Tipo de relación | Wife, Own-child, Husband, Not-in-family, Other-relative, Unmarried.
- **race**: Raza | White, Asian-Pac-Islander, Amer-Indian-Eskimo, Other, Black.
- **sex**: Sexo | Female, Male.
- **capital-gain**: | Contínuo.
- **capital-loss**: | Contínuo.
- **hours-per-week**: | Contínuo.
- **native-country**: País natal | United-States, Cambodia, England, Puerto-Rico, Canada, Germany, Outlying-US(Guam-USVI-etc), India, Japan, Greece, South, China, Cuba, Iran, Honduras, Philippines, Italy, Poland, Jamaica, Vietnam, Mexico, Portugal, Ireland, France, Dominican-Republic, Laos, Ecuador, Taiwan, Haiti, Columbia, Hungary, Guatemala, Nicaragua, Scotland, Thailand, Yugoslavia, El-Salvador, Trinadad&Tobago, Peru, Hong, Holand-Netherlands.

## **5. Data Wrangling.**

**En esta sección se procede a realizar la importación y preparación de los datos para su manejo.**

### Normalización

- Lo primero que se va a realizar, es cambiar los nombres de las columnas, ya que nuestras bases de datos no las contienen.

- Tenemos que al final del archivo 'adult.names' (Proporcionado dentro de la información original) se encuentran los nombres de las columnas y sus respectivos valores. Para poder extraer estos nombres, se tiene que tener en cuenta que estos son los únicos que empiezan cada línea de texto con una letra, mientras que los demás la empiezan con simbolos '|', '<' o '>'. Esto nos servirá para solo leer las líneas que cumplan esta condición y de esta forma ser mas eficientes en extraer la información que nos interesa. 

- Una vez idenficada cada línea de texto que nos interesa, vamos a buscar el símbolo ':', ya que la palabra antes de este, es el nombre la columna y posteriormente las vamos a guardar en una lista. 

- Se puede verificar que los datos tienen inconsistencias en su calidad, es por esto que se cambiará el símbolo '-' por '_' y se eliminaran los espacios al inicio de cada valor.

- Posteriormente se guardarán los nombres de las columnas en una lista para luego agregarlos al data frame, el cual no cuenta con nombres en sus columnas y además se creará un diccionario con los nombres de las columnas como 'keys' y los valores que deberían contener como 'values'.

- Finalmente se agrega la columna 'salary', pues esta no aparece en el archivo, luego se va a asignar esa lista como el nombre de las columnas de las bases de datos adult.data y adult.test.



In [None]:
# Se habilita para poder trabajar con carpetas de google drive
from google.colab import drive
drive.mount('/content/gdrive')
%cd '/content/gdrive/My Drive/Proyecto_DS'
!ls
#
# %cd '/content/drive/My Drive/Proyecto'

In [1]:
# Importación inicial de librerias y funciones para manipulación de datos
import numpy as np
import pandas as pd
import re

In [3]:
# Se importan las bases de datos
df_data = pd.read_csv("https://raw.githubusercontent.com/alejolagosm/dscoderproject/main/adult.data", header=None)
df_test = pd.read_csv("https://raw.githubusercontent.com/alejolagosm/dscoderproject/main/adult.test").reset_index()



In [None]:
# Se abre el archivo adult.names donde se encuentran los nombres de las columnas y sus posibles valores
adult_names  = open('Data/adult.names')

# Se crea la lista donde se agregarán los nombres de las columnas.
columnas = list()

# Se crea el diccionario donde se agregarán los valores a sus respectivas columnas.
diccionario = dict()

# Creamos un ciclo para poder extraer información de cada línea de este archivo tipo texto.
for line in adult_names:
    line = line.rstrip() # Esta línea es para poder eliminar los saltos de linea tipo '/n'
    if not re.search('^[a-zA-Z]', line): # Esta línea nos permite leer solo la información que nos importa (lineas que empiecen con letras)
        continue
    else:
        line = line.replace('-','_').replace(' ','') # Reemplazar simbolos y espacios.
        nombre_columna = line[:line.find(':')] # Se extrae el nombre de cada columna.
        columnas.append(nombre_columna) # Insertar los nombres de las columnas en una lista
        lista_valores = line[line.find(':')+1:line.find('.')] # Se extraen los valores de cada columna
        diccionario[nombre_columna] = lista_valores.split(',') # Se insertan las columnas y sus respectivos valores en un diccionario

columnas.append('salary') # Se agrega el nombre de la columna 'salary', ya que no aparece en el archivo adult.names
print(columnas)
print(diccionario)

['age', 'workclass', 'fnlwgt', 'education', 'education_num', 'marital_status', 'occupation', 'relationship', 'race', 'sex', 'capital_gain', 'capital_loss', 'hours_per_week', 'native_country', 'salary']
{'age': ['continuous'], 'workclass': ['Private', 'Self_emp_not_inc', 'Self_emp_inc', 'Federal_gov', 'Local_gov', 'State_gov', 'Without_pay', 'Never_worked'], 'fnlwgt': ['continuous'], 'education': ['Bachelors', 'Some_college', '11th', 'HS_grad', 'Prof_school', 'Assoc_acdm', 'Assoc_voc', '9th', '7th_8th', '12th', 'Masters', '1st_4th', '10th', 'Doctorate', '5th_6th', 'Preschool'], 'education_num': ['continuous'], 'marital_status': ['Married_civ_spouse', 'Divorced', 'Never_married', 'Separated', 'Widowed', 'Married_spouse_absent', 'Married_AF_spouse'], 'occupation': ['Tech_support', 'Craft_repair', 'Other_service', 'Sales', 'Exec_managerial', 'Prof_specialty', 'Handlers_cleaners', 'Machine_op_inspct', 'Adm_clerical', 'Farming_fishing', 'Transport_moving', 'Priv_house_serv', 'Protective_serv

In [4]:
#Columnas y diccionario de forma manual (Solo en caso de que se requiera para evitar problemas de carga en el drive)
columnas = ['age', 'workclass', 'fnlwgt', 'education', 'education_num', 'marital_status', 'occupation', 'relationship', 'race', 'sex', 'capital_gain', 'capital_loss', 'hours_per_week', 'native_country', 'salary']
diccionario = {'age': ['continuous'], 'workclass': ['Private', 'Self_emp_not_inc', 'Self_emp_inc', 'Federal_gov', 'Local_gov', 'State_gov', 'Without_pay', 'Never_worked'], 'fnlwgt': ['continuous'], 'education': ['Bachelors', 'Some_college', '11th', 'HS_grad', 'Prof_school', 'Assoc_acdm', 'Assoc_voc', '9th', '7th_8th', '12th', 'Masters', '1st_4th', '10th', 'Doctorate', '5th_6th', 'Preschool'], 'education_num': ['continuous'], 'marital_status': ['Married_civ_spouse', 'Divorced', 'Never_married', 'Separated', 'Widowed', 'Married_spouse_absent', 'Married_AF_spouse'], 'occupation': ['Tech_support', 'Craft_repair', 'Other_service', 'Sales', 'Exec_managerial', 'Prof_specialty', 'Handlers_cleaners', 'Machine_op_inspct', 'Adm_clerical', 'Farming_fishing', 'Transport_moving', 'Priv_house_serv', 'Protective_serv', 'Armed_Forces'], 'relationship': ['Wife', 'Own_child', 'Husband', 'Not_in_family', 'Other_relative', 'Unmarried'], 'race': ['White', 'Asian_Pac_Islander', 'Amer_Indian_Eskimo', 'Other', 'Black'], 'sex': ['Female', 'Male'], 'capital_gain': ['continuous'], 'capital_loss': ['continuous'], 'hours_per_week': ['continuous'], 'native_country': ['United_States', 'Cambodia', 'England', 'Puerto_Rico', 'Canada', 'Germany', 'Outlying_US(Guam_USVI_etc)', 'India', 'Japan', 'Greece', 'South', 'China', 'Cuba', 'Iran', 'Honduras', 'Philippines', 'Italy', 'Poland', 'Jamaica', 'Vietnam', 'Mexico', 'Portugal', 'Ireland', 'France', 'Dominican_Republic', 'Laos', 'Ecuador', 'Taiwan', 'Haiti', 'Columbia', 'Hungary', 'Guatemala', 'Nicaragua', 'Scotland', 'Thailand', 'Yugoslavia', 'El_Salvador', 'Trinadad&Tobago', 'Peru', 'Hong', 'Holand_Netherlands']}

In [5]:
# Se cambian los nombres de las columnas de los data sets.
df_data.set_axis(columnas, axis=1, inplace=True)
df_test.set_axis(columnas, axis=1, inplace=True)

Ya que contamos con dos bases de datos, una para el entrenamiento y otra para test, lo mejor es unirlas para los procesos de limpieza y análisis explotario de datos, pero es importante poder diferenciarlas, es por esto que se creará una columna que se llame test, cuando esta tome un valor de 1 es porque pertenece a la base de datos de test y cuando tome un valor de 0 es porque no. Posteriormente, vamos a unificar las dos tablas, realizando un 'concatenate'.

In [6]:
# Se realiza la creación y asignación de valores correspondientes a la columna test.
df_data['test'] = 0
df_test['test'] = 1

# Se realiza la unión o concatenación de las dos bases de datos
df = pd.concat([df_data, df_test], ignore_index=True)

Podemos revisar que el data set tenga la forma que esperamos después de la lectura inicial.

In [None]:
df.head()

Unnamed: 0,age,workclass,fnlwgt,education,education_num,marital_status,occupation,relationship,race,sex,capital_gain,capital_loss,hours_per_week,native_country,salary,test
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K,0
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K,0
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K,0
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K,0
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K,0


### Generalidades de los datos

Se realizará un análisis inicial de los datos con el fin de determinar su integridad.

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 48842 entries, 0 to 48841
Data columns (total 16 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   age             48842 non-null  int64 
 1   workclass       48842 non-null  object
 2   fnlwgt          48842 non-null  int64 
 3   education       48842 non-null  object
 4   education_num   48842 non-null  int64 
 5   marital_status  48842 non-null  object
 6   occupation      48842 non-null  object
 7   relationship    48842 non-null  object
 8   race            48842 non-null  object
 9   sex             48842 non-null  object
 10  capital_gain    48842 non-null  int64 
 11  capital_loss    48842 non-null  int64 
 12  hours_per_week  48842 non-null  int64 
 13  native_country  48842 non-null  object
 14  salary          48842 non-null  object
 15  test            48842 non-null  int64 
dtypes: int64(7), object(9)
memory usage: 6.0+ MB


- Ninguna columna tiene valor nulo.
- Los tipos de datos para cada campo son los correctos.

In [None]:
df.describe().round(1)

Unnamed: 0,age,fnlwgt,education_num,capital_gain,capital_loss,hours_per_week,test
count,48842.0,48842.0,48842.0,48842.0,48842.0,48842.0,48842.0
mean,38.6,189664.1,10.1,1079.1,87.5,40.4,0.3
std,13.7,105604.0,2.6,7452.0,403.0,12.4,0.5
min,17.0,12285.0,1.0,0.0,0.0,1.0,0.0
25%,28.0,117550.5,9.0,0.0,0.0,40.0,0.0
50%,37.0,178144.5,10.0,0.0,0.0,40.0,0.0
75%,48.0,237642.0,12.0,0.0,0.0,45.0,1.0
max,90.0,1490400.0,16.0,99999.0,4356.0,99.0,1.0


**Análisis inicial de variables**

**edad**:
- Los valores se encuentran en un rango correcto, máximo 90 años y mínimo 17.

**fnlwgt**:
- Es una variable censal que muestra un amplio rango de representación para cada registro. 

**education_num**:
- Los valores se encuentran en un rango correcto (Máximo 16 años de educación recibida y no hay valores negativos o 0)

**capital_gain**:
- La mayoría de registros son 0.0. Se tiene un valor máximo que puede ser un outlier/error.

**capital_loss**:
- La mayoría de registros son 0.0. 

**hours_per_week**:
- Los valores tienen un rango correcto (Máximo 100h/semana puede ser un error pero llega a tener sentido en casos extremos) La media de 40h/semana se encuentra en el rango esperado.

### Limpieza de datos

Como vimos anteriormente, no tenemos valores nulos, pero es posible que tengamos datos incompletos, heterogéneos, desordenados o sucios, es por esto que vamos a crear unos puntos de verificación, para poder evaluar el estado de los datos.

**1. Revisar la homogeneidad de los datos**

In [None]:
tipos = dict()
for i in columnas: # Ciclo
  tipos[i] = (df[i].map(type).value_counts()).to_dict() # Verificar el tipo de dato por cada valor y por cada columna
df_tipos = pd.DataFrame(data=tipos) # Convertir el diccionario a DataFrame para visualizar mejor
df_tipos

Unnamed: 0,age,workclass,fnlwgt,education,education_num,marital_status,occupation,relationship,race,sex,capital_gain,capital_loss,hours_per_week,native_country,salary
<class 'int'>,48842.0,,48842.0,,48842.0,,,,,,48842.0,48842.0,48842.0,,
<class 'str'>,,48842.0,,48842.0,,48842.0,48842.0,48842.0,48842.0,48842.0,,,,48842.0,48842.0


Igualmente, se puede verificar de otra forma que no se tengan valores nulos:

In [None]:
df.isnull().sum()

**2. Corrección de caracteres y valores extraños**




In [None]:
# Tomando el campo de education como ejemplo, se obtienen sus valores únicos, para identificar posibles problemas
df['education'].unique()

array([' Bachelors', ' HS-grad', ' 11th', ' Masters', ' 9th',
       ' Some-college', ' Assoc-acdm', ' Assoc-voc', ' 7th-8th',
       ' Doctorate', ' Prof-school', ' 5th-6th', ' 10th', ' 1st-4th',
       ' Preschool', ' 12th'], dtype=object)

- Parece ser que cada valor tiene un espacio al comienzo
- Para evitar problemas de lectura o inconsistencias, se reemplazará el símbolo "-" por "_" en todos los valores.


In [7]:
# Se cambia el simbolo "-" por "_" y se eliminan los espacios al inicio y al final de los str en todo el dataset.
df.replace(({'-': '_'}), regex = True, inplace = True)
df = df.applymap(lambda x: x.strip() if isinstance(x, str) else x)

# Comprobamos que el cambio haya sido exitoso, tomando un par de columnas como ejemplo
print(df['education'].unique())
print(df['workclass'].unique())

['Bachelors' 'HS_grad' '11th' 'Masters' '9th' 'Some_college' 'Assoc_acdm'
 'Assoc_voc' '7th_8th' 'Doctorate' 'Prof_school' '5th_6th' '10th'
 '1st_4th' 'Preschool' '12th']
['State_gov' 'Self_emp_not_inc' 'Private' 'Federal_gov' 'Local_gov' '?'
 'Self_emp_inc' 'Without_pay' 'Never_worked']


Después de esto, se comprobará que los diferentes valores en cada columna corresponden a los valores esperados, que fueron entregados en el archivo adult.names.

In [None]:
# Vamos a verificar que todos los valores que tenemos en las columnas se encuentren en los valores que nos entrega el archivo adults.name
valores_diferentes = dict()
for i, j in diccionario.items():
  if 'continuous' in j:  # Para no leer los datos tipo int o contínuos
    continue
  else:
    lista_encontrados = df[i].unique() # Para agrupar todos los valores únicos en cada columna
    valores_diferentes[i] = list(set(lista_encontrados) - set(j)) # Para dejar solo la diferencia entre cada set de valores
valores_diferentes

{'education': [],
 'marital_status': [],
 'native_country': ['?'],
 'occupation': ['?'],
 'race': [],
 'relationship': [],
 'sex': [],
 'workclass': ['?']}

Con los datos anteriores, podemos verificar que solo exiten tres columnas que tienen valores diferentes a los esperados, los cuales son:

- native_country.
- occupation.
- workclass.

Se reemplazará el símbolo '?' por 'Unknown' para mayor claridad.

In [8]:
# Se cambia el simbolo "?" por "unknown"
df.replace(({'?': 'unknown'}), inplace = True)

La columna de salario tiene algunos valores diferentes, que vale la pena agrupar para dejar solamente dos categorías

In [98]:
print(df['salary'].unique())

['<=50K' '>50K' '<=50K.' '>50K.']


In [103]:
df.replace(({'<=50K': '<50K','<=50K.': '<50K','<50K.': '<50K','>50K.': '>50K'}), regex = True, inplace = True)

**3. Revisar valores duplicados**

In [None]:
df[df.duplicated()].size

464

Se tienen 464 registros duplicados. Esto no necesariamente significa que se tenga un error en la base de datos, pueden ser dos personas con la misma información demográfica. 

Dado que estos valores representan menos del 1% de los registros totales, la probabilidad de que varias personas tengan exactamente la misma información demográfica, incluyendo el salario, y para evitar que estos duplicados generen algún problema en el entrenamiento o prueba de modelos, se decide eliminarlos para continuar con el análisis.

In [9]:
df_analisis = df[df.duplicated(keep='first') == False]

**4. Eliminar variables no significativas**

Finalmente, obtenemos un dataframe filtrado y con valores corregidos, listo para realizar el análisis exploratorio y análisis entre variables.

## **6. EDA** 


En esta sección se procede a realizar un análisis de componentes principales y a contar la historia de los datos mediante Visualizaciones, estadísticas, correlaciones, etc.

### Análisis de componentes principales

In [10]:
# Se importan las librerías requeridas para realziar visualizaciones
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px

In [96]:
fig = px.histogram(df, x="age", color="sex", barmode='group', marginal="box",nbins=10, text_auto=True, width=1000, height=500, title="Age by sex",
                   color_discrete_map = {"Male":'cornflowerblue', "Female":'forestgreen'})
fig.show()

In [104]:
fig = px.histogram(df, x="age", color="salary", barmode='group', marginal="box",nbins=10, text_auto=True, width=1000, height=500, title="Age by sex",
                   color_discrete_map = {"Male":'cornflowerblue', "Female":'forestgreen'})
fig.show()

In [72]:
fig = px.histogram(df, x="workclass",color="sex", barmode='group', nbins=10, width=1000, height=500, title="Occupation by sex",
                   color_discrete_map = {"Male":"#8A2387", "Female":'#00223E'})
fig.update_layout(xaxis_tickangle=-45)
fig.show()

De la figura anterior podemos observar que se puede simplificar el análisis, agrupando todas las categorías de empleo en "Private", "Public" y "Unpaid". 

In [58]:
fig = px.histogram(df, x="education",color="sex",barmode='group', nbins=10, width=1000, height=500, title="Education level by sex")
fig.update_layout(xaxis={'categoryorder':'array',
                         'categoryarray':[ 'Preschool','1st_4th', '5th_6th', '7th_8th','9th','10th', '11th', '12th','HS_grad','Some_college',
                                          'Assoc_acdm', 'Assoc_voc','Bachelors','Masters', 'Doctorate', 'Prof_school']})
fig.show()

De la figura anterior podemos observar que los niveles educativos menores a HS son poco representativos del dataset, es posible agrupar todas estas categorías dentro de un mismo valor llamado "HS_grad_or_lower" para simplificar los tiempos de modelación, sin perder significancia en el modelo.

In [82]:
fig = px.histogram(df, x="relationship", width=1000, height=500, title="Relationship Count")
fig.update_layout(xaxis_tickangle=-90)
fig.update_traces(marker_color='#302b63', marker_line_color='#24243e', marker_line_width=1.5)
fig.show()

Estas categorías puede que no aporten significativamente al análisis, debido a la diferencia de conceptos entre estas (No tiene mucho sentido dividir "Hijo único" y "Esposo"). Esta columna no aportará un alto nivel de significado a la modelación ni análisis, y por lo tanto, se eliminará.

In [87]:
fig = px.sunburst(df, path=['race'], template = "seaborn")
fig.show()

La distribución racial tiene una categoría importante faltante para un país como USA, la cual es "latino". Será importante tener en cuenta esta inconsistencia de los datos dentro de las conclusiones finales.

In [85]:
fig = px.histogram(df, x="hours_per_week", marginal="box", width=1000, height=500, title="Hours worked per week")
fig.show()

Como es de esperarse, se tienen múltiples valores outliers en esta categoría, con la inmensa mayoría de datos centrados alrededor de 40h/semana, lo cual es lo usual regulado por ley en este país. 

### Análisis univariado

### Análisis bivariado

 ### Análisis multivariado

## **7. Planteamiento de objetivos para los datos**

1. Utilizar modelos de machine learning para **predecir** el ingreso de una persona clasificado **categóricamente**.
2. Optimizar y elegir el modelo **más apropiado** para la predicción, disminuyendo el error total.
3. Encontrar conclusiones con base únicamente en los resultados estadísticos encontrados resultado de los modelos de predicción.