# Limpieza de datos

In [1]:
import pandas as pd
df = pd.read_csv('DelayedFlights.csv', low_memory=False)

## Redefinición de nombres de columnas
Como la base de datos tiene nombres de columnas con carácteres especiales, se realiza una estandarización de los nombres de columnas, reemplazando espacios, tildes y otros carácteres especiales que se puedan encontrar.
Esto se hace para evitar problemas futuros en el llamado de las columnas y para facilitar el trabajo del dataset.

In [2]:
# column "Unnamed: 0" = "id"
df['id'] = df['Unnamed: 0']
df.drop(['Unnamed: 0'], axis=1, inplace=True)
print(df.columns)

Index(['Year', 'Month', 'DayofMonth', 'DayOfWeek', 'DepTime', 'CRSDepTime',
       'ArrTime', 'CRSArrTime', 'UniqueCarrier', 'FlightNum', 'TailNum',
       'ActualElapsedTime', 'CRSElapsedTime', 'AirTime', 'ArrDelay',
       'DepDelay', 'Origin', 'Dest', 'Distance', 'TaxiIn', 'TaxiOut',
       'Cancelled', 'CancellationCode', 'Diverted', 'CarrierDelay',
       'WeatherDelay', 'NASDelay', 'SecurityDelay', 'LateAircraftDelay', 'id'],
      dtype='object')


## Valores duplicados
Como se pudo observar en la fase de análisis exploratorio, aparentemente en el dataset no existen valores duplicados. Sin embargo, es importante tener en cuenta que no pueden existir 2 vuelos con el mismo número de vuelo, misma fecha de despegue, mismos origen y destino y mismo carrier. Por esta razón, se ve si existen filas que compartan toda esta información en común

In [2]:
flight_def_cols = ["FlightNum", "Year", "Month", "DayofMonth", "CRSDepTime", "Origin", "Dest", "UniqueCarrier"]
numero_inicial_filas = len(df)
print(f"Número de filas del dataset: {numero_inicial_filas}")
print(f"Número de vuelos diferentes: {len(df.drop_duplicates(subset=flight_def_cols, inplace = False))}")

Número de filas del dataset: 1936758
Número de vuelos diferentes: 1936756


Como se puede ver difieren en 2 filas, por lo cual hay 2 vuelos repetidos. Se filtran estos vuelos:

In [4]:
df.drop_duplicates(subset=flight_def_cols, inplace = True)

## Valores nulos
Como primera medida, se considera como regla dejar fuera las columnas que tienen más de un 50% de datos nulos debido a la falta de información suficiente. 

Como las columnas del dataset que tienen valores nulos son menores del 50%, se mantendrán y se procederá a imputarlos



In [5]:
missing_values = df.isnull().sum()
missing_values = missing_values[missing_values > 0].sort_values(ascending=False)
missing_values = missing_values / df.shape[0] * 100
cols_with_more_than50_mv = missing_values[missing_values > 50]
print(missing_values)

LateAircraftDelay    35.588892
WeatherDelay         35.588892
NASDelay             35.588892
SecurityDelay        35.588892
CarrierDelay         35.588892
ActualElapsedTime     0.433044
ArrDelay              0.433044
AirTime               0.433044
ArrTime               0.367109
TaxiIn                0.367109
TaxiOut               0.023493
CRSElapsedTime        0.010223
TailNum               0.000258
dtype: float64


In [40]:
# IMPUTACIÓN DE VALORES FALTANTES

In [41]:
missing_values = df.isnull().sum()
missing_values = missing_values[missing_values > 0].sort_values(ascending=False)
missing_values = missing_values / df.shape[0] * 100
print(missing_values)

Series([], dtype: float64)


# Creación de nuevas variables



__Cabe destacar que más variables serán creadas en el paso de Visualización de datos conforme sea necesario respecto a las agrupaciones y transformaciones.__

# Guardar dataset limpio
A partir de aquí se guardará el dataset limpio y se importará en otros notebooks

In [6]:
df.to_csv('DelayedFlightsClean.csv')