# Dividir los datos de prueba y entrenamiento
Cuando entrena un modelo de datos, es posible que necesite dividir sus datos en conjuntos de datos de prueba y entrenamiento

Para realizar esta tarea utilizaremos la biblioteca [scikit-learn](https://scikit-learn.org/stable/)

scikit-learn es una biblioteca de código abierto con licencia BSD para ciencia de datos para modelos de preprocesamiento y capacitación.

Antes de poder dividir nuestra prueba de datos y los datos de entrenamiento, tenemos que hacer algo de preparación de datos

In [1]:
import pandas as pd

Carguemos nuestro archivo csv con información sobre vuelos y retrasos de vuelo

Use **shape** para averiguar cuántas filas y columnas hay en el DataFrame original

In [3]:
delays_df = pd.read_csv('Lots_of_flight_data.csv')
delays_df.shape

(300000, 16)

## Dividir datos en características y etiquetas
Cree un DataFrame llamado X que contenga solo las características que queremos usar para entrenar nuestro modelo.

**Nota** Solo puede usar valores numéricos como características, si tiene valores no numéricos, debe aplicar diferentes técnicas como Hot Encoding para convertirlos en valores numéricos antes de usarlos como características para entrenar un modelo. ¡Echa un vistazo a los cursos de Data Science para obtener más información sobre estas técnicas!

In [4]:
X = delays_df.loc[:,['DISTANCE', 'CRS_ELAPSED_TIME']]
X.head()

Unnamed: 0,DISTANCE,CRS_ELAPSED_TIME
0,1670,225
1,1670,225
2,580,105
3,580,105
4,580,100


Cree un DataFrame llamado y que contenga solo el valor que queremos predecir con nuestro modelo. 

En nuestro caso, queremos predecir cuántos minutos tarde llegará un vuelo. Esta información se encuentra en la columna ARR_DELAY. 

In [5]:
y = delays_df.loc[:,['ARR_DELAY']]
y.head()

Unnamed: 0,ARR_DELAY
0,-17.0
1,-25.0
2,-13.0
3,-12.0
4,-7.0


## Dividir en datos de prueba y entrenamiento
Utilice **scikitlearn train_test_split** para mover el 30% de las filas a Test DataFrames

El otro 70% de las filas en DataFrames podemos utilizar para entrenar nuestro modelo

NOTA: al especificar un valor para *random_state* nos aseguramos de que si ejecutamos el código de nuevo las mismas filas se moverán al DataFrame de prueba. Esto hace que nuestros resultados sean repetibles.

In [6]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(
                                                    X, 
                                                    y, 
                                                    test_size=0.3, 
                                                    random_state=42
                                                   )

Ahora tenemos un DataFrame **X_train** que contiene el 70% de las filas

Usaremos este DataFrame para entrenar nuestro modelo

In [7]:
X_train.shape

(210000, 2)

El DataFrame **X_test** contiene el 30% restante de las filas

Vamos a utilizar este DataFrame para probar nuestro modelo entrenado, para que podamos comprobar su precisión

In [8]:
X_test.shape

(90000, 2)

**X_train** y **X_test** contienen nuestras características

Las características son las columnas que creemos que pueden ayudarnos a predecir el retraso de un vuelo: **DISTANCIA** y *TIEMPO TRANSCURRIDO**

In [9]:
X_train.head()

Unnamed: 0,DISTANCE,CRS_ELAPSED_TIME
186295,237,60
127847,411,111
274740,342,85
74908,1005,164
11630,484,100


El DataFrame **y_train*‍  contiene el 70% de las filas

Usaremos este DataFrame para entrenar nuestro modelo

Si no necesita conservar el DataFrame original, puede simplemente eliminar las filas dentro del DataFrame existente en lugar de crear una nueva
**inplace=*True*** indica que desea soltar las filas en el DataFrame especificado

In [10]:
y_train.shape

(210000, 1)

El DataFrame **y_test** contiene el 30% restante de las filas

Vamos a utilizar este DataFrame para probar nuestro modelo entrenado, para que podamos comprobar su precisión

In [11]:
y_test.shape

(90000, 1)

**y_train** y *y_test** contienen nuestra etiqueta

La etiqueta es las columnas que queremos predecir con nuestro modelo entrenado: **ARR_DELAY***

**NOTA:*Un valor negativo para ARR_DELAY indica que un vuelo llegó antes

In [12]:
y_train.head()

Unnamed: 0,ARR_DELAY
186295,-7.0
127847,-16.0
274740,-10.0
74908,-19.0
11630,-13.0
