# Division de datos para trabajar con ML

Cuando se entrena un modelo, **se debe** entrenar con datos distintos a los que van a utilizarse para su evaluacion.

Es decir, debemos dividir nuestros datos antes de comenzar con el entrenamiento del modelo.

Generalmente se dividen los datos en dos conjuntos distintos, uno para entrenar denominado **training** y otro para evaluar la performance del modelo denominado **testing**. Para simplificar se los llama **train** y **test**

In [None]:
# dar ejemplo del examen

In [3]:
import numpy as np
import pandas as pd
import seaborn as sns

Supongamos que tenemos los datos que acabamos de ver y queremos entrenar nuevamente el modelo

Antes de hacerlo modelo vamos a dividir los datos en dos datasets, uno llamado **train** y otro llamado **test**

In [4]:
# cargo df
data = pd.read_csv('https://www4.stat.ncsu.edu/~boos/var.select/diabetes.tab.txt',sep='\t')

##### Nomenclatura

A nuestra variable a predecir suele llamarsela **target** asique vamos a cambiarle el nombre a la feature que lo indica

In [11]:
data.rename(columns= {'Y':'target'},inplace=True)

##### Division del dataset

Ahora antes de entrenar el modelo vamos a hacer la division, dicha division generalmente es tomar entre un **20 y 30%** de los datos para evaluar la performance (**test**) y entre un **80 y 70%** respectivamente para entrenar (**train**)

In [None]:
# a esta tarea de dividir podriamos hacerla con pandas, utilizando .loc y agarrando una cierta cantidad de indices
# incluso podemos hacer un sample con pandas para agarrar elementos de manera aleatoria

# pero vamos a usar sklearn

In [8]:
from sklearn.model_selection import train_test_split

In [23]:
X_train, X_test, y_train, y_test = train_test_split(data.drop('target',axis=1),data['target'],
                                                   test_size=0.20, random_state=34) 

In [24]:
#X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)

In [25]:
#X_train
#X_test
#y_train
#y_test

##### Entrenamos el modelo
Con los datos para train !!

In [26]:
from sklearn.linear_model import LinearRegression

In [27]:
lr = LinearRegression()

In [28]:
lr.fit(X_train,y_train)

LinearRegression()

In [29]:
pred_train = lr.predict(X_train)
pred_test = lr.predict(X_test)

In [30]:
# Evaluamos

from sklearn.metrics import mean_squared_error\

train_mse = mean_squared_error(y_train, pred_train)
test_mse = mean_squared_error(y_test, pred_test)

In [31]:
train_rmse = np.sqrt(train_mse)
test_rmse = np.sqrt(test_mse)

print(train_rmse)
print(test_rmse)

52.74925669598163
56.71266768770621


### IMPORTANTE

Hay ocasiones en las que ademas de dividir el dataset en train y test, hacemos una tercer division denominada **validation**, la misma es para utilizar datos totalmente virgenes ante el modelo, y evaluar su performance una vez que hayamos realizado todas las pruebas necesarias y creamos que nuestro modelo ya esta listo para ponerse en produccion.

Esta tecnica suele usarse junto con el metodo de **`k-fold-cross-validation`**

![image.png](attachment:image.png)

La tecnica consiste en:

1. Seleccionar k, que es un numero entero e indica la cantidad de divisiones que le vamos a hacer al dataset, por lo general se usa un valor de 10

2. Dividir el dataset en k porciones iguales, asignar k-1 porciones para train y la particion restante para test

3. Entrenar el modelo con el training set

4. Usar el modelo entrenado para predecir sobre el dataset de test

5. Evaluar las metricas de las predicciones

6. Repetir los pasos 2 al 5 hasta que se usen todas las particiones como dataset de test

7. Calcular la media de las metricas

*****

*****

# Tipos de variables y como tratarlas


##### clasificacion variables categoricas y numericas

![image.png](attachment:image.png)

Hasta el momento trabajamos entrenando el modelo con variables numericas, pero las variables categoricas tambien nos brindan informacion muy util.

El problema es que para ciertos modelos (como regresion lineal) no podemos pasar parametros como strings, sino que todo tiene que ser un numero.

A continuacion veremos como hacer esta conversion.

### Variables categoricas ordinales

Son aquellas que se pueden ordenar, segun algun criterio de interes.

In [14]:
dic = {'posicion':'1ero 2do 3ro 5to 7mo 2do 3ro 3ro 5to 1ero'.split(),
       'nombre': 'joaquin javier jose alfonso julia sofia maria marta eugenia pepe'.split()}

df = pd.DataFrame(dic)

df

Unnamed: 0,posicion,nombre
0,1ero,joaquin
1,2do,javier
2,3ro,jose
3,5to,alfonso
4,7mo,julia
5,2do,sofia
6,3ro,maria
7,3ro,marta
8,5to,eugenia
9,1ero,pepe


In [15]:
# importamos y realizamos la codificacion

In [16]:
from sklearn.preprocessing import LabelEncoder
labelencoder = LabelEncoder()


In [17]:
labelencoder.fit(df['posicion'])
labelencoder.transform(df['posicion'])

array([0, 1, 2, 3, 4, 1, 2, 2, 3, 0])

In [18]:
labelencoder.fit_transform(df['posicion'])

array([0, 1, 2, 3, 4, 1, 2, 2, 3, 0])

In [19]:
df['posicion_codif'] = labelencoder.fit_transform(df['posicion'])
df

Unnamed: 0,posicion,nombre,posicion_codif
0,1ero,joaquin,0
1,2do,javier,1
2,3ro,jose,2
3,5to,alfonso,3
4,7mo,julia,4
5,2do,sofia,1
6,3ro,maria,2
7,3ro,marta,2
8,5to,eugenia,3
9,1ero,pepe,0


In [20]:
# pero el problema es que a los valores los asigna por orden alfabetico
# supongamos el siguiente caso

dic = {'posicion':'oro plata bronce bronce oro oro'.split(),
       'nombre': 'joaquin javier jose alfonso julia sofia'.split()}

df = pd.DataFrame(dic)

df

Unnamed: 0,posicion,nombre
0,oro,joaquin
1,plata,javier
2,bronce,jose
3,bronce,alfonso
4,oro,julia
5,oro,sofia


In [22]:
labelencoder.fit(df['posicion'])
df['posicion_codif'] = labelencoder.transform(df['posicion'])
df

Unnamed: 0,posicion,nombre,posicion_codif
0,oro,joaquin,1
1,plata,javier,2
2,bronce,jose,0
3,bronce,alfonso,0
4,oro,julia,1
5,oro,sofia,1


In [23]:
# podemos cambiar el orden de las clases
labelencoder.fit(df['posicion'])

LabelEncoder()

In [24]:
labelencoder.classes_

array(['bronce', 'oro', 'plata'], dtype=object)

In [25]:
labelencoder.classes_ = ['','oro', 'plata','bronce']

In [26]:
labelencoder.transform(df['posicion'])

array([1, 2, 3, 3, 1, 1])

In [27]:
df['posicion_codif'] = labelencoder.transform(df['posicion'])
df

Unnamed: 0,posicion,nombre,posicion_codif
0,oro,joaquin,1
1,plata,javier,2
2,bronce,jose,3
3,bronce,alfonso,3
4,oro,julia,1
5,oro,sofia,1


Hay otra forma de hacer lo mismo con datos categoricos en Pandas

### Variables categoricas nominales

Cuando las categorias no tienen un orden.

In [29]:
dic = {'pais':'china japon francia francia china japon'.split(),
       'codigo': '2344 304 3434 3443 222 88'.split()}

df = pd.DataFrame(dic)

df

Unnamed: 0,pais,codigo
0,china,2344
1,japon,304
2,francia,3434
3,francia,3443
4,china,222
5,japon,88


In [30]:
from sklearn.preprocessing import LabelEncoder
labelencoder = LabelEncoder()
df['pais'] = labelencoder.fit_transform(df['pais'])
df

Unnamed: 0,pais,codigo
0,0,2344
1,2,304
2,1,3434
3,1,3443
4,0,222
5,2,88


##### y esto que significa?
##### tiene sentido que china sea menor a japon?

In [None]:
# ENTONCES RECURRIMOS A OTRO METODO

# PANDAS get_dummies

In [33]:
dic = {'pais':'china japon francia francia china japon'.split(),
       'codigo': '2344 304 3434 3443 222 88'.split()}
df = pd.DataFrame(dic)
df

Unnamed: 0,pais,codigo
0,china,2344
1,japon,304
2,francia,3434
3,francia,3443
4,china,222
5,japon,88


In [34]:
pd.get_dummies(df['pais'])

Unnamed: 0,china,francia,japon
0,1,0,0
1,0,0,1
2,0,1,0
3,0,1,0
4,1,0,0
5,0,0,1


In [41]:
pd.get_dummies(df['pais'],prefix="pais")

Unnamed: 0,pais_china,pais_francia,pais_japon
0,1,0,0
1,0,0,1
2,0,1,0
3,0,1,0
4,1,0,0
5,0,0,1


In [None]:
# genera multicolinearidad, no me voy a meter en detalle



In [42]:
pd.get_dummies(df['pais'],prefix="pais",drop_first=True)

Unnamed: 0,pais_francia,pais_japon
0,0,0
1,0,1
2,1,0
3,1,0
4,0,0
5,0,1


In [43]:
pd.concat([df,pd.get_dummies(df['pais'],prefix="pais",drop_first=True)],axis=1).drop('pais',axis=1)

Unnamed: 0,codigo,pais_francia,pais_japon
0,2344,0,0
1,304,0,1
2,3434,1,0
3,3443,1,0
4,222,0,0
5,88,0,1


Hay otra forma de hacer lo mismo con la funcion one_hot_encoder de sklearn

### Conclusion

Aplicamos Label Encoding cuando:

    La variable categorica es ordinal (Primario,Secundario,Universidad)
    El numero de categorias es muy grande como para hacer variables dummie, por cuestiones de memoria y costo computacional del modelo


Aplicamos One-Hot Encoding cuando:

    La variable categorica NO es ordinal (Raza,sexo,etc)
    El numero de categorias es chico como para hacer variables dummie

