## Árboles de decisión con el dataset de clasificación de adultos

#### Descripción de los datos:

En este notebook vamos a ver otro ejemplo del uso de los árboles de decisión. En este caso, trabajaremos con un dataset que clasifica demográficamente a una serie de individuos en base a lo que ellos ingresan al año, en concreto, si es más de 50,000$/año o no.

El dataset está compuesto por las siguientes variables, donde podemos hacer una división en categóricas y continuas. Veamos los valores y la definición de cada una de ellas:

**Variables categóricas**

 - **workclass**: Categoría del trabajo que desempeña.
 
 Valores: Private, Self-emp-not-inc, Self-emp-inc, Federal-gov, Local-gov, State-gov, Without-pay, Never-worked.


 - **education**: Nivel de estudios
 
 Valores: Bachelors, Some-college, 11th, HS-grad, Prof-school, Assoc-acdm, Assoc-voc, 9th, 7th-8th, 12th, Masters, 1st-4th, 10th, Doctorate, 5th-6th, Preschool.
 
 - **marital-status**: estado civil
 
 Valores: Married-civ-spouse, Divorced, Never-married, Separated, Widowed, Married-spouse-absent, Married-AF-spouse.

 - **occupation**: Puesto de trabajo.
 
 Valores: Tech-support, Craft-repair, Other-service, Sales, Exec-managerial, Prof-specialty, Handlers-cleaners, Machine-op-inspct, Adm-clerical, Farming-fishing, Transport-moving, Priv-house-serv, Protective-serv, Armed-Forces.
 
 - **relationship**: Relación familiar.
 
 Valores: Wife, Own-child, Husband, Not-in-family, Other-relative, Unmarried. Individual's relation in a family

 - **race**: Raza del individuo.
 
 Valores: White, Asian-Pac-Islander, Amer-Indian-Eskimo, Other, Black. Race of Individual

 - **sex**: Género.
 
 Valores: Female, Male.

 - **native-country**: país de nacimiento.
 
 Valores: United-States, Cambodia, England, Puerto-Rico, Canada, Germany, Outlying-US(Guam-USVI-etc), India, Japan, Greece, South, China, Cuba, Iran, Honduras, Philippines, Italy, Poland, Jamaica, Vietnam, Mexico, Portugal, Ireland, France, Dominican-Republic, Laos, Ecuador, Taiwan, Haiti, Columbia, Hungary, Guatemala, Nicaragua, Scotland, Thailand, Yugoslavia, El-Salvador, Trinadad&Tobago, Peru, Hong, Holand-Netherlands.
 

**Variables continuas**

 - Age: Edad del individuo.

 - fnlwgt: Peso final. Los pesos en los archivos CPS se controlan con estimaciones independientes de la población civil no interinstitucional de los Estados Unidos. Estos son preparados mensualmente por la Population Division en la Census Bureau.

 - Capital-gain: Sin descripción.

 - Capital-loss: Sin descripción.

 - Hours-per-week: horas de trabajo a la semana

**Target**

 - Ganancias anuales. Los valores deberían de ser binarios para poder realizar nuestra clasificación en >50K/año y no

#### 1. Leemos los datos de train y test

En este caso, los datos que nos dan ya están divididos en train y test, así que los cargamos como nos han indicado. Ahora, ya no deberemos hacer el train_test_split.

Lee los ficheros "adult_train.csv" y "adult_test.csv", dentro de la carpeta "data":

#### 2. Convierte el Target en numérico

Codifica la salida en unos y ceros, en función de que cobre más de 50K (1) o no (0)


#### 3. Primer análisis

1. Obten los estadísticos principales del dataset que estamos estudiando
2. Calcula la distribución básica de los valores de cada variable categórica (¿cuántos tengo de cada clase?)
3. Representa una serie de histogramas de cada feature del dataset para ver cómo se distribuyen gráficamente

#### 4. Comprueba los tipos
1. Comprueba los tipos de las variables de train y test. ¿Observas alguna diferencia?
2. Si encuentras alguna, soluciónala
3. Convierte a numéricas todas aquellas variables susceptibles de serlo y que no lo son en el dataset

#### 5. Valores nulos
1. Rellena todos los nulos de las variables numéricas con su mediana
2. Rellena todos los nulos de las variables categóricas con su moda

#### 6. Convierte las variables categóricas

Ahora que ya hemos llenado todas las categóricas con valores no nulos, codifica cada una de ellas con OHE para que puedan ser utilizadas por el algoritmo

#### 7. Comprueba cualquier tipo de incosistencia entre train y test

#### 8. Separa las muestras entre los datos de entrada y las etiquetas de predicción para usar un algoritmo

#### 9. Modela

Entrena un Clasificador basado en Árboles de Decisión con una profundidad máxima de 3, y evalúa la precisión del algoritmo con los datos de test. PAra poder reproducir los datos, utiliza un parámetro ``random_state=42``

Haz algunas predicciones sobre los datos de test y comprueba si has acertado o no

Intenta entender el comportamiento del algoritmo dibujando el equema de división de los nodos y splits:

#### 10. Obtén la importancia de las variables

#### 11. Compara con la regresión logística

Calcula el score que has obtenido con el árbol de decisión y compáralo con un modelo de regresión logística. Para ello, crea y entrena un nuevo modelo

#### 10. Prueba a variar diferentes parámetros

A diferencia de una regresión lineal, donde los parámetros están muy acotados, en los árboles de decisión existe una gran variedad de grados de libertad, lo que se refleja en los diferentes parámetros que los definen. Si vamos a su documentación, podremos observar la catidad de ellos que se pueden modificar.

Prueba a jugar con los sigueintes: splitter, max_depth, min_samples_split, min_samples_leaf, max_features... Lee su definición para entender qué van a hacer, aunque la mayoría de veces no vamos a poder preveer cómo vana a actuar, y mucho menos combinados unos con otros. Por eso solemos dejar que el propio ordenador vaya probando diferentes combinaciones con el GridSearchCV, el cual puedes utilizar en este apartado, una vez hayas probado a jugar con los parámetros y cómo afectan a tu modelo