# MARATÓN BEHIND THE CODE 2020

# DESAFÍO 8 - Digital House

El reto de Digital House tiene que ver con la misión y visión de la empresa; la cual busca transformar la vida de las personas, desarrollando competencias digitales, para que generen un impacto positivo en la sociedad. En ese sentido, Digital House busca a través de este desafío medir la empleabilidad de los cursos que disponibiliza en su plataforma, es decir que tan factible es que un alumno o egresado de Digital House acceda al mercado laboral o consiga un trabajo en su área luego de finalizar uno o varios de los cursos ofrecidos en la plataforma.

Entender que características o variables hacen que una persona sea más o menos empleable es fundamental para la empresa y para generar ese impacto positivo que busca aportar a la sociedad

<hr>

## Instalación de algunas bibliotecas de Python

In [1]:
!pip install scikit-learn --upgrade
!pip install scipy --upgrade

Collecting scikit-learn
  Downloading scikit_learn-0.23.2-cp38-cp38-win_amd64.whl (6.8 MB)
Installing collected packages: scikit-learn
  Attempting uninstall: scikit-learn
    Found existing installation: scikit-learn 0.23.1
    Uninstalling scikit-learn-0.23.1:
      Successfully uninstalled scikit-learn-0.23.1
Successfully installed scikit-learn-0.23.2
Collecting scipy
  Downloading scipy-1.5.2-cp38-cp38-win_amd64.whl (31.4 MB)
Installing collected packages: scipy
  Attempting uninstall: scipy
    Found existing installation: scipy 1.5.0
    Uninstalling scipy-1.5.0:
      Successfully uninstalled scipy-1.5.0
Successfully installed scipy-1.5.2


<hr>

## Descargue el conjunto de datos del desafío en formato .csv

In [4]:
import pandas as pd

# !wget --no-check-certificate --content-disposition https://raw.githubusercontent.com/vanderlei-test/654986294958/master/train_dataset_digitalhouse.csv
!python -m wget https://raw.githubusercontent.com/vanderlei-test/654986294958/master/train_dataset_digitalhouse.csv
df_training_dataset = pd.read_csv(r'train_dataset_digitalhouse.csv')
df_training_dataset.tail()


Saved under train_dataset_digitalhouse.csv


Unnamed: 0.1,Unnamed: 0,EDAD,GENERO,RESIDENCIA,NV_ESTUDIO,ESTUDIO_PREV,TRACK_DH,AVG_DH,MINUTES_DH,EXPERIENCIA,DIAS_EMP
8990,9995,29.0,MASCULINO,ARGENTINA,TERTIARY,DEVELOPMENT,,4.0,4701.6,9.1,86.0
8991,9996,34.0,,ARGENTINA,UNIVERSITARY,ENGINEERING,PROGRAMACION,3.4,4646.2,16.8,95.0
8992,9997,28.0,FEMENINO,ARGENTINA,POST_GRADUATE,ENGINEERING,EJECUTIVO,,3315.1,5.6,95.0
8993,9998,23.0,MASCULINO,MEXICO,TERTIARY,ENGINEERING,PROGRAMACION,3.3,4437.8,0.9,87.0
8994,9999,36.0,MASCULINO,ARGENTINA,UNIVERSITARY,COMMERCIAL,DATA,3.4,4600.8,19.6,88.0


## En el conjunto de datos proporcionado, tenemos las siguientes columnas:

* Unnamed: 0
* EDAD
* GENERO
* RESIDENCIA
* NV_ESTUDIO
* ESTUDIO_PREV
* TRACK_DH
* AVG_DH
* MINUTES_DH
* EXPERIENCIA
* **DIAS_EMP = El valor "target" que se va a predecir**

Podemos verificar fácilmente que faltan valores usando el siguiente código:

```df_training_dataset.info()```

Debe manejar cuidadosamente estos valores faltantes antes de crear un modelo de regresión.

In [5]:
df_training_dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8995 entries, 0 to 8994
Data columns (total 11 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Unnamed: 0    8995 non-null   int64  
 1   EDAD          7668 non-null   float64
 2   GENERO        7620 non-null   object 
 3   RESIDENCIA    7638 non-null   object 
 4   NV_ESTUDIO    7623 non-null   object 
 5   ESTUDIO_PREV  7665 non-null   object 
 6   TRACK_DH      7714 non-null   object 
 7   AVG_DH        7651 non-null   float64
 8   MINUTES_DH    7619 non-null   float64
 9   EXPERIENCIA   7618 non-null   float64
 10  DIAS_EMP      8995 non-null   float64
dtypes: float64(5), int64(1), object(5)
memory usage: 773.1+ KB


<hr>

## Algunos consejos antes de entrenar a un modelo:

1. Manejar valores perdidos

2. Manejar variables categóricas

<hr>

## A continuación, le brindamos una plantilla simple para que sepa cómo estructurar las entradas y salidas de su modelo

### Removiendo columnas

In [6]:
df_training_dataset_1 = df_training_dataset.drop(columns=['Unnamed: 0', 'RESIDENCIA', 'NV_ESTUDIO', 'ESTUDIO_PREV', 'TRACK_DH'], inplace=False)
df_training_dataset_1.tail()

Unnamed: 0,EDAD,GENERO,AVG_DH,MINUTES_DH,EXPERIENCIA,DIAS_EMP
8990,29.0,MASCULINO,4.0,4701.6,9.1,86.0
8991,34.0,,3.4,4646.2,16.8,95.0
8992,28.0,FEMENINO,,3315.1,5.6,95.0
8993,23.0,MASCULINO,3.3,4437.8,0.9,87.0
8994,36.0,MASCULINO,3.4,4600.8,19.6,88.0


### Removendo valores NaN

In [7]:
df_training_dataset_2 = df_training_dataset_1.dropna()
df_training_dataset_2.tail()

Unnamed: 0,EDAD,GENERO,AVG_DH,MINUTES_DH,EXPERIENCIA,DIAS_EMP
8979,28.0,MASCULINO,3.9,4631.1,6.9,87.0
8980,35.0,FEMENINO,3.3,4528.5,17.7,98.0
8990,29.0,MASCULINO,4.0,4701.6,9.1,86.0
8993,23.0,MASCULINO,3.3,4437.8,0.9,87.0
8994,36.0,MASCULINO,3.4,4600.8,19.6,88.0


### Codificando variables categóricas

In [8]:
# Columnas One-hot-encoding del dataset usando el metodo de Pandas ``get_dummies`` (demontración)
df_training_dataset_3 = pd.get_dummies(df_training_dataset_2, columns=['GENERO'])
df_training_dataset_3.tail()

Unnamed: 0,EDAD,AVG_DH,MINUTES_DH,EXPERIENCIA,DIAS_EMP,GENERO_FEMENINO,GENERO_MASCULINO
8979,28.0,3.9,4631.1,6.9,87.0,0,1
8980,35.0,3.3,4528.5,17.7,98.0,1,0
8990,29.0,4.0,4701.6,9.1,86.0,0,1
8993,23.0,3.3,4437.8,0.9,87.0,0,1
8994,36.0,3.4,4600.8,19.6,88.0,0,1


### Seleccionando las columnas "features" y "target"

In [9]:
df_training_dataset_3.columns

Index(['EDAD', 'AVG_DH', 'MINUTES_DH', 'EXPERIENCIA', 'DIAS_EMP',
       'GENERO_FEMENINO', 'GENERO_MASCULINO'],
      dtype='object')

In [10]:
features = df_training_dataset_3[
    [
        'EDAD', 'AVG_DH', 'MINUTES_DH', 'EXPERIENCIA',
        'GENERO_FEMENINO', 'GENERO_MASCULINO'
    ]
]

target = df_training_dataset_3['DIAS_EMP']  ## NO CAMBIE EL NOMBRE DE LA VARIABLE "target".

### Dividiendo el conjunto de datos para una "prueba ciega"

In [11]:
from sklearn.model_selection import train_test_split


X_train, X_test, y_train, y_test = train_test_split(features, target, test_size=0.2, random_state=133)

### Entrenando un modelo de regresión lineal simple

In [12]:
from sklearn.linear_model import LinearRegression


regression_model = LinearRegression().fit(X_train, y_train)

### Evaluando el modelo de regresión con el método  "score()" de sklearn

In [13]:
regression_model.score(X_test, y_test)

0.8290605766177399

<hr>

## Completar los datos necesarios para entregar la solución

### Como entrega de su solución, esperamos los resultados numéricos predichos por su modelo. Como entrada utilizará el archivo "to_be_scored.csv"

In [14]:
# !wget --no-check-certificate --content-disposition https://raw.githubusercontent.com/vanderlei-test/654986294958/master/to_be_scored_digitalhouse.csv
!python -m wget https://raw.githubusercontent.com/vanderlei-test/654986294958/master/to_be_scored_digitalhouse.csv
df_to_be_scored = pd.read_csv(r'to_be_scored_digitalhouse.csv')
df_to_be_scored.tail()


Saved under to_be_scored_digitalhouse.csv


Unnamed: 0.1,Unnamed: 0,EDAD,GENERO,RESIDENCIA,NV_ESTUDIO,ESTUDIO_PREV,TRACK_DH,AVG_DH,MINUTES_DH,EXPERIENCIA
995,995,28.0,,BRAZIL,UNIVERSITARY,DEVELOPMENT,DATA,4.0,4730.5,
996,996,30.0,MASCULINO,ARGENTINA,UNIVERSITARY,ENGINEERING,DATA,,4698.4,10.0
997,997,33.0,,BRAZIL,POST_GRADUATE,DEVELOPMENT,PROGRAMACION,3.9,4644.7,14.4
998,998,26.0,MASCULINO,,UNIVERSITARY,DEVELOPMENT,PROGRAMACION,3.4,4498.1,6.1
999,999,46.0,FEMENINO,ARGENTINA,POST_GRADUATE,ENGINEERING,,3.9,4682.0,


# ¡Atención!

### El marco de datos ``to_be_scored`` es su "hoja de evaluación". Tenga en cuenta que la columna "target" no existe en esta muestra, por lo que no se puede utilizar para modelos de entrenamiento basados en el aprendizaje supervisado.

# ¡Atención!

### Debes realizar los mismos pasos de procesamiento previo que hiciste en el conjunto de datos de entrenamiento antes de calificar la "hoja de respuestas"

In [None]:
df_to_be_scored_1 = df_to_be_scored.drop(columns=['Unnamed: 0', 'RESIDENCIA', 'NV_ESTUDIO', 'ESTUDIO_PREV', 'TRACK_DH'], inplace=False)

df_to_be_scored_2 = df_to_be_scored_1.dropna()

df_to_be_scored_3 = pd.get_dummies(df_to_be_scored_2, columns=['GENERO'])
df_to_be_scored_3.tail()

In [None]:
df_to_be_scored_3.columns

<hr>

### Hacer las predicciones con el método "predict()" de sklearn y agregar los resultados en el marco de datos de la "hoja de evaluación"

In [None]:
y_pred = regression_model.predict(df_to_be_scored_3)
df_to_be_scored_3['target'] = y_pred
df_to_be_scored_3.tail()

# ¡Atención!

### La columna agregada con los resultados debe llamarse "target", de lo contrario, su envío fallará.

<hr>

### Exportar el marco de datos de resultados como un archivo .csv a su proyecto de Watson Studio.

In [None]:
project.save_data(file_name="results.csv", data=df_to_be_scored_3.to_csv(index=False))