# División de datos (Splitting Data)

In [2]:
import pandas as pd
import numpy as np
import sklearn

In [3]:
workflow = [
    "1. Obtener y preparar los datos",
    "2. Dividir los datos",
    "3. Elegir el mejor modelo/estimador/algoritmo para nuestro problema y sus hiperparámetros**",
    "4. Ajustar el modelo/algoritmo a los datos de entrenamiento",
    "5. Hacer predicciones",
    "6. Evaluar el modelo",
    "7. Mejorar el modelo",
    "8. Guardar y cargar el modelo"
]

In [4]:
workflow

['1. Obtener y preparar los datos',
 '2. Dividir los datos',
 '3. Elegir el mejor modelo/estimador/algoritmo para nuestro problema y sus hiperparámetros**',
 '4. Ajustar el modelo/algoritmo a los datos de entrenamiento',
 '5. Hacer predicciones',
 '6. Evaluar el modelo',
 '7. Mejorar el modelo',
 '8. Guardar y cargar el modelo']

## Preparar nuestros datos para ser utilizados con machine learning 
Tres cosas principales que tenemos que hacer:
  1. **Dividir** los datos en características y etiquetas (generalmente X e y)
  2. **Rellenar** (también llamado ***imputación***) o **desestimar los valores faltantes**
  3. **Convertir valores no numéricos a valores numéricos** (también llamado ***codificación*** de características)

In [7]:
# Obtener los datos
data = pd.read_csv("../../data/raw/car-sales.csv")
car_sales = pd.DataFrame(data)
car_sales.head()

Unnamed: 0,Make,Colour,Odometer (KM),Doors,Price
0,Toyota,White,150043,4,"$4,000.00"
1,Honda,Red,87899,4,"$5,000.00"
2,Toyota,Blue,32549,3,"$7,000.00"
3,BMW,Black,11179,5,"$22,000.00"
4,Nissan,White,213095,4,"$3,500.00"


In [8]:
data = pd.read_csv("../../data/raw/heart-disease.csv")
heart_disease = pd.DataFrame(data)
heart_disease.head()

Unnamed: 0,age,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal,target
0,63,1,3,145,233,1,0,150,0,2.3,0,0,1,1
1,37,1,2,130,250,0,1,187,0,3.5,0,0,2,1
2,41,0,1,130,204,0,0,172,0,1.4,2,0,2,1
3,56,1,1,120,236,0,1,178,0,0.8,2,0,2,1
4,57,0,0,120,354,0,1,163,1,0.6,2,0,2,1


In [10]:
X = heart_disease.drop("target", axis=1) # Todas las columnas menos la columna 'target'
X.head()

Unnamed: 0,age,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal
0,63,1,3,145,233,1,0,150,0,2.3,0,0,1
1,37,1,2,130,250,0,1,187,0,3.5,0,0,2
2,41,0,1,130,204,0,0,172,0,1.4,2,0,2
3,56,1,1,120,236,0,1,178,0,0.8,2,0,2
4,57,0,0,120,354,0,1,163,1,0.6,2,0,2


In [13]:
y = heart_disease["target"]
y.head()

0    1
1    1
2    1
3    1
4    1
Name: target, dtype: int64

In [16]:
# Dividir los datos en conjunto de entrenamiento y prueba
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

In [18]:
X_train.shape, X_test.shape, y_train.shape, y_test.shape

((242, 13), (61, 13), (242,), (61,))