In [1]:
import pandas as pd
import numpy as np
import scipy.stats as stats


import warnings
warnings.filterwarnings('ignore')

df = pd.read_csv('income-db.csv')

### Objetivo
* Implementar los contenidos aprendidos a lo largo de las 8 unidades para resolver dos problemasde carácter obligatorio.
* Se deben desarrollar dos desafíos aplicando lo aprendido en el módulo Fundamentos de DataScience.
* Ambos desafíos presentarán un enunciado a solucionar, así como una descripción de los datosdisponibles a utilizar.
* Cada una de las respuestas deben considerar los requerimientos mínimos y buenas prácticasdetalladas a continuación.

### Consideraciones Generales
La prueba debe desarrollarse en consideración a los siguientes puntos:
* Una sección llamada Preliminares donde se realiza la descripción del problema y objetivos, asícomo explicar cómo implementarán su solución (debe considerar qué criterios de optimización ymétricas de desempeño).
* Una sección llamada Aspectos computacionales donde se describirán las librerías y módulosa implementar, así como las funciones generadas y su objetivo.
* Una sección llamada Descripción donde se generará un análisis descriptivo considerando eltipo de variables (desde el punto de vista estadístico así como computacional). Esta seccióndebe considerar medidas univariadas/ frecuencias, datos perdidos y gráficos distributivos sobrelas variables a analizar. A partir de ésta se debe clarificar la estrategia de preprocesamiento(datos perdidos, recodificaciones).
* Una sección llamada Modelación descriptiva, que buscará definir cuáles son los principalesdeterminantes del objeto de estudio. En base a esta sección se podrá construír o depurar elmodelo predictivo.
* Una sección llamada Modelación predictiva, donde se implementará una solución analítica queaumente las métricas de desempeño. Se solicitan por lo menos 3 modelos predictivos, dondedeberán reportar las principales métricas. Cada modelo predictivo debe tener una reseña sobreel por qué se diseño de esa forma.

### Hito 1: Sesión Presencial 1, Unidad 7
Completar el punto de Preliminares, así como Aspectos computacionales.
* Elementos a considerar en éste hito:
    * Los dos enunciados deben estar clarificados, considerando el tipo de problema a resolver(regresión o clasificación). Para cada uno de los enunciados y su problema identificado, sedebe justificar el uso de métricas para medir el desempeño del problema. (3 puntos)
    * Se debe considerar el uso de las librerías asociadas para la ingesta, preprocesamiento,visualización y modelación, así como métricas de evaluación. (1 punto)
    * Se debe detallar y considerar el proceso de preprocesamiento y recodificación de datos. (1punto)
* Entregable: Dos notebooks (uno por enunciado) con todos los puntos detallados.

### Desafío 1: Determinantes del ingreso
#### Enunciado
Usted trabaja para un  organismo no  gubernamental que está interesado en  las  dinámicas socioeconómicas que determinan la desigualdad de ingreso y la erradicación de la pobreza extrema,enmarcado dentro de los objetivos del desarrollo del nuevo milenio del Programa de las NacionesUnidas para el  Desarrollo. Le  encomiendan el  desarrollo de  un  modelo predictivo  sobre la probabilidad que un individuo presente salarios por sobre o bajo los 50.000 dólares anuales, en basea una serie de atributos sociodemográficos.
#### Aspectos adicionales a considerar
* La base de datos contiene los valores perdidos como '?'. Deberá transformarlos para poder trabajar de forma adecuada.


In [2]:
df.sample()
#las columnas 'native-country', 'workclass' y 'occupation' aparentemente son las unicas que tiene el '?'

Unnamed: 0,age,workclass,fnlwgt,education,educational-num,marital-status,occupation,relationship,race,gender,capital-gain,capital-loss,hours-per-week,native-country,income
4841,37,Private,224512,Assoc-voc,11,Married-civ-spouse,Craft-repair,Husband,White,Male,0,0,45,United-States,<=50K


In [3]:
print(df.shape)
print(df[df['occupation'] == '?' ].shape)
print(df[df['workclass'] == '?' ].shape)

(48842, 15)
(2809, 15)
(2799, 15)


In [4]:
print('el porcentaje de los "?" en ocupation es de: ' ,round(((2809 /48842)*100), 2),'%')
print('el porcentaje de los "?" en workclass es de: ' ,round(((2799 /48842)*100), 2),'%')

el porcentaje de los "?" en ocupation es de:  5.75 %
el porcentaje de los "?" en workclass es de:  5.73 %


* Desde la organización le sugieren que debe recodificar las siguientes variables acorde a las siguientes nomenclaturas:
    * occupation debe recodificarse como collars siguiendo una nomenclatura similar a:
        * white-collar $\leftarrow$ Prof-specialty, Exec-managerial, Adm-clerical, Sales,Tech-support.
        * blue-collar $\leftarrow$ Craft-repair, Machine-op-inspct, Transport-moving,Handlers-cleaners, Farming-fishing, Protective-serv, Priv-house-serv.
        * others $\leftarrow$ Other-service, Armed-Forces.
    * workclass debe recodificarse como workclass_recod siguiendo una nomenclatura similar a:
        * federal-gov $\leftarrow$ Federal-gov.
        * state-level-gov $\leftarrow$ State-gov, Local-gov.
        * self-employed $\leftarrow$ Self-emp-inc, Self-emp-not-inc
        * unemployed $\leftarrow$ Never-worked, Without-pay.
    * education debe recodificarse como educ_recod siguiendo una nomenclatura similar a:
        * preschool$\leftarrow$ Preschool
        * elementary-school$\leftarrow$ 1st-4th, 5th-6th
        * high-school$\leftarrow$ 7th-8th, 9th, 10th,11th, 12th, HS-grad
        * college$\leftarrow$ Assoc-voc, Assoc-acdm, Some-college
        * university$\leftarrow$ Bachelors, Masters, Prof-school, Doctorate
    * marital-status  debe recodificarse como civstatus  siguiendo una  nomenclaturasimilar a:
        * married$\leftarrow$ Married-civ-spouse, Married-spouse-absent, Married-AF-spouse
        * divorced$\leftarrow$ Divorced
        * separated$\leftarrow$ Separated
        * widowed$\leftarrow$ Widowed
    * native-country debe recodificarse como region donde cada país debe asignarse a uno de los 5 continentes
    * income debe recodificarse de forma binaria.

In [5]:
df_desafio = df.copy()

In [6]:
#revisar
def asignador_valores(dataframe, colname, valor_original, valor_actualizado, directorio):
    '''
    lo que hace esta función es reemplazar los valores de la base de datos por '''
    for indice, serie in dataframe.iterrows():
        if serie[var] == media_pasajeros:
            df['underperforming'].set_value(indice, 1)

In [47]:
#reemplazamos los valores usando el metodo replace
#reemplazo de occupation
df['occupation'] = df['occupation'].replace(['Prof-specialty', 'Exec-managerial', 'Adm-clerical','Sales','Tech-support',
                                             #blue-collar
                                             'Craft-repair','Machine-op-inspct','Transport-moving','Handlers-cleaners', 
                                             'Farming-fishing','Protective-serv','Priv-house-serv',
                                            #others
                                            'Other-service', 'Armed-Forces'],
                                    ['white-collar','white-collar','white-collar','white-collar', 'white-collar',
                                    'blue-collar', 'blue-collar', 'blue-collar','blue-collar', 'blue-collar', 'blue-collar'
                                    , 'blue-collar','others', 'others'])
#reemplazo de workclass
df['workclass'] = df['workclass'].replace(['Federal-gov',
                                         'State-gov', 'Local-gov',
                                          'Self-emp-inc', 'Self-emp-not-inc',
                                          'Never-worked', 'Without-pay'],
                                        ['federal-gov','state-level-gov', 'state-level-gov',
                                         'self-employed', 'self-employed', 'unemployed', 'unemployed'])
#reemplazo education
df['education'] = df['education'].replace(['Preschool',
                                          '1st-4th', '5th-6th',
                                          '7th-8th', '9th', '10th','11th', '12th', 'HS-grad',
                                          'Assoc-voc', 'Assoc-acdm', 'Some-college',
                                          'Bachelors', 'Masters', 'Prof-school', 'Doctorate'],
                                         ['preschool', 
                                          'elementary-school', 'elementary-school',
                                         'high-school', 'high-school', 'high-school','high-school', 'high-school', 'high-school',
                                         'college', 'college', 'college',
                                         'university', 'university', 'university', 'university'])
#reemplazo marital-status
df['marital-status'] = df['marital-status'].replace(['Married-civ-spouse', 'Married-spouse-absent', 'Married-AF-spouse',
                                                    'Divorced',
                                                    'Separated',
                                                    'Widowed'],
                                                   ['married','married', 'married',
                                                   'divorced',
                                                   'separated',
                                                   'widowed'])
#reemplazo native-country 
df['native-country'] = df['native-country'].replace (['United-States', 'Peru', 'Guatemala', 'Mexico','Dominican-Republic',
                                                     'El-Salvador', 'Puerto-Rico', 'Columbia', 'Cuba', 'Canada',
                                                     'Nicaragua', 'Honduras','Jamaica','Ecuador', 'Haiti','Trinadad&Tobago',
                                                     'Outlying-US(Guam-USVI-etc)',
                                                     #europa
                                                      'Ireland', 'Germany','Poland', 'England', 'Italy', 'Portugal',
                                                      'Scotland', 'Yugoslavia', 'Hungary', 'Greece', 'France',
                                                      'Holand-Netherlands'
                                                     #asia
                                                      'Philippines', 'Thailand', 'Vietnam',
                                                      'South', 'Japan', 'India', 'Cambodia', 'Laos', 'Taiwan', 'China',
                                                      'Iran', 'Hong', 'Philippines'
                                                      
                                                     ],
                                                     ['america', 'america','america', 'america', 'america',
                                                     'america', 'america', 'america', 'america', 'america',
                                                     'america','america','america','america', 'america', 'america',
                                                      'america',
                                                      #europa
                                                     'europa', 'europa', 'europa', 'europa', 'europa', 'europa',
                                                     'europa', 'europa', 'europa', 'europa', 'europa',
                                                     'europa',
                                                      #asia
                                                      'asia', 'asia', 'asia',
                                                      'asia', 'asia', 'asia', 'asia', 'asia', 'asia', 'asia',
                                                      'asia', 'asia'
                                                     ])
#reemplazo de 'income' para dejar valores binarios
df['income'] = np.where(df['income'] == '>50K', 1, 0)

#recodificación de los nombre de las columnas
df.columns = ['age', 'workclass_recode', 'fnlwgt', 'educ_recode', 'educational-num',
       'civstatus', 'collars', 'relationship', 'race', 'gender',
       'capital-gain', 'capital-loss', 'hours-per-week', 'region',
       'income']

In [51]:
df.sample(3)

Unnamed: 0,age,workclass_recode,fnlwgt,educ_recode,educational-num,civstatus,collars,relationship,race,gender,capital-gain,capital-loss,hours-per-week,region,income
37891,48,Private,233511,high-school,9,married,blue-collar,Husband,White,Male,0,0,50,america,0
45701,35,Private,213208,college,11,married,white-collar,Husband,Black,Male,0,0,38,america,0
7094,18,Private,113814,high-school,9,Never-married,blue-collar,Own-child,White,Male,0,0,40,america,0


### Desafío 2: Rendimiento escolar
#### Enunciado
Lo contactan de una escuela Portuguesa para generar un modelo que identifique aquellos alumnos
que presentan un bajo desempeño académico, medido en el promedio final del año escolar. Para ello
le envían un archivo con registros sociodemográficos y conductuales de los alumnos dos escuelas
para perfilar a los estudiantes.
De manera adicional la psicopedagoga sugiere inspeccionar una batería de preguntas asociadas a
aspectos ambientales del alumno (de famrel a health ) y ver si éstas se pueden abstraer en
categorías latentes.
### Aspectos adicionales a considerar
* La base de datos presenta una serie de anomalías. En la escuela no tienen buenas prácticas sobre cómo ingresar datos, por lo que existen datos perdidos que están registrados bajo tres categorías: nulidade, sem validade, zero. De manera adicional, hay 3 variables numéricas que se registraron como strings, cuya interpretación en pandas devuelve una estructura de datos genérica. Finalmente, la base está con un encoding distinto al normal y los delimitadores son distintos.
<br>
* Para simplficar el análisis y su posterior inclusión en un modelo predictivo, se sugiere recodificar las variables binarias como 0 y 1. Se recomienda seguir en criterio de asignarle 1 a aquellas categorías minoritarias.
<br>
* El procedimiento también debe aplicarse para aquelas variables nominales con más de 2 categorías siguiendo la misma lógica.
<br>
* En la parte de modelación descriptiva, se deben generar modelos saturados por cada una de las notas registradas en G1 , G2 y G3.
<br>
* Para la parte de modelación predictiva, se debe generar un modelo para predecir las notas en G3 .

In [53]:
df_student = pd.read_csv('students.csv')
df_student

Unnamed: 0,|school|sex|age|address|famsize|Pstatus|Medu|Fedu|Mjob|Fjob|reason|guardian|traveltime|studytime|failures|schoolsup|famsup|paid|activities|nursery|higher|internet|romantic|famrel|freetime|goout|Dalc|Walc|health|absences|G1|G2|G3
0,0|GP|F|nulidade|U|GT3|A|4|4|at_home|teacher|co...
1,"1|GP|F|""""""17""""""|U|GT3|T|1|1|at_home|other|cour..."
2,"2|GP|F|""""""15""""""|U|LE3|T|1|1|at_home|other|othe..."
3,"3|GP|F|""""""15""""""|U|GT3|T|4|2|health|services|ho..."
4,4|GP|F|sem validade|U|GT3|T|3|3|other|other|ho...
5,"5|GP|M|""""""16""""""|U|LE3|T|4|3|services|other|rep..."
6,"6|GP|M|""""""16""""""|U|LE3|T|2|2|other|other|home|m..."
7,"7|GP|F|""""""17""""""|U|GT3|A|4|4|other|teacher|home..."
8,"8|GP|M|""""""15""""""|U|LE3|A|3|2|services|other|hom..."
9,"9|GP|M|""""""15""""""|U|GT3|T|3|4|other|other|home|m..."
