# Removing and splitting pandas DataFrame columns

Cuando se prepara para entrenar modelos de aprendizaje automático, a menudo necesita eliminar columnas específicas o dividir ciertas columnas de su DataFrame en un nuevo DataFrame.

Necesitamos la biblioteca pandas y un DataFrame para explorar

In [1]:
import pandas as pd

Carguemos un archivo csv más grande con más columnas, *flight_delays.csv** proporciona información sobre vuelos y retrasos de vuelos

In [2]:
delays_df = pd.read_csv('Data/flight_delays.csv')
delays_df.head()

Unnamed: 0,FL_DATE,OP_UNIQUE_CARRIER,TAIL_NUM,OP_CARRIER_FL_NUM,ORIGIN,DEST,CRS_DEP_TIME,DEP_TIME,DEP_DELAY,CRS_ARR_TIME,ARR_TIME,ARR_DELAY,CRS_ELAPSED_TIME,ACTUAL_ELAPSED_TIME,AIR_TIME,DISTANCE
0,2018-10-01,WN,N221WN,802,ABQ,BWI,905,903,-2,1450,1433,-17,225,210,197,1670
1,2018-10-01,WN,N8329B,3744,ABQ,BWI,1500,1458,-2,2045,2020,-25,225,202,191,1670
2,2018-10-01,WN,N920WN,1019,ABQ,DAL,1800,1802,2,2045,2032,-13,105,90,80,580
3,2018-10-01,WN,N480WN,1499,ABQ,DAL,950,947,-3,1235,1223,-12,105,96,81,580
4,2018-10-01,WN,N227WN,3635,ABQ,DAL,1150,1151,1,1430,1423,-7,100,92,80,580


## Eliminar una columna de un DataFrame.

Cuando esté preparando sus datos para el aprendizaje automático, es posible que necesite eliminar columnas específicas del DataFrame antes de entrenar el modelo.

Por ejemplo:
Imagine que está entrenando un modelo para predecir cuántos minutos tarde llegará un vuelo (ARR_DELAY)

Si el modelo conociera la hora de llegada programada (CRS_ARR_TIME) y la hora de llegada real (ARR_TIME), el modelo descubriría rápidamente ARR_DELAY = ARR_TIME - CRS_ARR_TIME

Cuando predecimos los horarios de llegada para futuros vuelos, no tendremos un valor para la hora de llegada (ARR_TIME). Así que debemos eliminar esta columna del DataFrame para que no se utilice como una característica al entrenar el modelo para predecir ARR_DELAY. 

In [3]:
# Remove the column ARR_TIME from the DataFrane delays_df

#delays_df = delays_df.drop(['ARR_TIME'],axis=1)
new_df = delays_df.drop(columns=['ARR_TIME'])
new_df.head()

Unnamed: 0,FL_DATE,OP_UNIQUE_CARRIER,TAIL_NUM,OP_CARRIER_FL_NUM,ORIGIN,DEST,CRS_DEP_TIME,DEP_TIME,DEP_DELAY,CRS_ARR_TIME,ARR_DELAY,CRS_ELAPSED_TIME,ACTUAL_ELAPSED_TIME,AIR_TIME,DISTANCE
0,2018-10-01,WN,N221WN,802,ABQ,BWI,905,903,-2,1450,-17,225,210,197,1670
1,2018-10-01,WN,N8329B,3744,ABQ,BWI,1500,1458,-2,2045,-25,225,202,191,1670
2,2018-10-01,WN,N920WN,1019,ABQ,DAL,1800,1802,2,2045,-13,105,90,80,580
3,2018-10-01,WN,N480WN,1499,ABQ,DAL,950,947,-3,1235,-12,105,96,81,580
4,2018-10-01,WN,N227WN,3635,ABQ,DAL,1150,1151,1,1430,-7,100,92,80,580


Utilice el parámetro **inplace** para especificar si desea soltar la columna del DataFrame original

In [4]:
# Remove the column ARR_TIME from the DataFrame delays_df

#delays_df = delays_df.drop(['ARR_TIME'],axis=1)
delays_df.drop(columns=['ARR_TIME'], inplace=True)
delays_df.head()

Unnamed: 0,FL_DATE,OP_UNIQUE_CARRIER,TAIL_NUM,OP_CARRIER_FL_NUM,ORIGIN,DEST,CRS_DEP_TIME,DEP_TIME,DEP_DELAY,CRS_ARR_TIME,ARR_DELAY,CRS_ELAPSED_TIME,ACTUAL_ELAPSED_TIME,AIR_TIME,DISTANCE
0,2018-10-01,WN,N221WN,802,ABQ,BWI,905,903,-2,1450,-17,225,210,197,1670
1,2018-10-01,WN,N8329B,3744,ABQ,BWI,1500,1458,-2,2045,-25,225,202,191,1670
2,2018-10-01,WN,N920WN,1019,ABQ,DAL,1800,1802,2,2045,-13,105,90,80,580
3,2018-10-01,WN,N480WN,1499,ABQ,DAL,950,947,-3,1235,-12,105,96,81,580
4,2018-10-01,WN,N227WN,3635,ABQ,DAL,1150,1151,1,1430,-7,100,92,80,580


Utilizamos diferentes técnicas para predecir en base a valores cuantitativos que suelen ser valores numéricos (p. ej., distancia, número de minutos, peso) y cualitativos (descriptivos) que pueden no ser numéricos (p. ej., desde qué aeropuerto salió un vuelo, qué aerolínea operó el vuelo)

Los datos cuantitativos se pueden mover a un DataFrame separado antes de entrenar un modelo.

También necesita poner el valor que desea predecir, llamado la etiqueta (ARR_DELAY) en un DataFrame separado de los valores que cree que pueden ayudarlo a hacer la predicción, llamada las características

Necesitamos ser capaces de crear un nuevo dataframe a partir de las columnas en un dataframe existente

In [None]:
# Crear un nuevo DataFrame llamado desc_df
# incluir todas las filas
#incluyen las columnas ORIGIN, DEST, OP_CARRIER_FL_NUM, OP_UNIQUE_CARRIER, TAIL_NUM
desc_df = delays_df.loc[:,['ORIGIN', 'DEST', 'OP_CARRIER_FL_NUM', 'OP_UNIQUE_CARRIER', 'TAIL_NUM']]
desc_df.head()