Parte 1: Importar librerías y cargar el dataset

In [None]:
# Importar librerías necesarias
import pandas as pd
import numpy as np

# Cargar el dataset desde la ruta correcta
file_path = 'notebooks/data/Airline/airlines_flights_data.csv'
df = pd.read_csv(file_path)

# Ver las primeras filas del dataset
df.head()


Parte 2: Eliminar columnas innecesarias

In [None]:
# Ver todas las columnas del dataset
print("Columnas antes de eliminar:")
print(df.columns)

# Eliminar las columnas innecesarias
df.drop(['columna1', 'columna2'], axis=1, inplace=True)  # Reemplaza con las columnas que deseas eliminar

# Ver las primeras filas del dataset después de eliminar columnas
df.head()


Parte 3: Contar valores nulos antes y después de limpiar el dataset

# Contar los valores nulos antes de limpiar
print("\nValores nulos antes de limpiar:")
print(df.isnull().sum())

# Limpiar valores nulos
df.dropna(inplace=True)  # Eliminar filas con valores nulos

# Contar los valores nulos después de limpiar
print("\nValores nulos después de limpiar:")
print(df.isnull().sum())


Parte 4: Normalizar los valores en la columna 'stops'

In [None]:
# Normalizar la columna 'stops'
df['stops'] = df['stops'].map({'zero': 0, 'one': 1, 'two': 2, 'three': 3, 'four': 4})

# Ver las primeras filas del dataset después de normalizar la columna 'stops'
df.head()


Parte 5: Crear la nueva columna 'route'

In [None]:
# Crear la nueva columna 'route'
df['route'] = df['source_city'] + ' → ' + df['destination_city']

# Ver las primeras filas del dataset con la nueva columna 'route'
df.head()


Parte 6: Convertir 'departure_time' y 'arrival_time' en categorías

In [None]:
# Función para asignar categorías de tiempo
def time_of_day(hour):
    if 0 <= hour < 6:
        return 'Early_Morning'
    elif 6 <= hour < 12:
        return 'Morning'
    elif 12 <= hour < 18:
        return 'Afternoon'
    elif 18 <= hour < 24:
        return 'Evening'

# Convertir departure_time y arrival_time en horas y luego en categorías
df['departure_time'] = df['departure_time'].apply(lambda x: time_of_day(int(x.split(":")[0])))  # Si departure_time está en formato "HH:MM"
df['arrival_time'] = df['arrival_time'].apply(lambda x: time_of_day(int(x.split(":")[0])))  # Lo mismo para arrival_time

# Asignar números a las categorías
time_dict = {'Early_Morning': 0, 'Morning': 1, 'Afternoon': 2, 'Evening': 3}
df['departure_time'] = df['departure_time'].map(time_dict)
df['arrival_time'] = df['arrival_time'].map(time_dict)

# Ver las primeras filas del dataset con las nuevas categorías
df.head()


Parte 7: Crear la columna 'is_expensive'

In [None]:
# Agregar la columna 'is_expensive'
df['is_expensive'] = df['price'].apply(lambda x: True if x > 6000 else False)

# Ver las primeras filas del dataset con la nueva columna 'is_expensive'
df.head()


Parte 8: Agregaciones

In [None]:
# Promedio de precio por aerolínea
average_price_per_airline = df.groupby('airline')['price'].mean()
print("\nPromedio de precio por aerolínea:")
print(average_price_per_airline)


In [None]:
# Promedio de duración por ruta
average_duration_per_route = df.groupby('route')['duration'].mean()
print("\nPromedio de duración por ruta:")
print(average_duration_per_route)


In [None]:
# Precio mínimo y máximo por aerolínea
min_price_per_airline = df.groupby('airline')['price'].min()
max_price_per_airline = df.groupby('airline')['price'].max()

print("\nPrecio mínimo por aerolínea:")
print(min_price_per_airline)

print("\nPrecio máximo por aerolínea:")
print(max_price_per_airline)


In [None]:
# Contar vuelos por categoría de departure_time
flights_by_departure_time = df['departure_time'].value_counts()
print("\nConteo de vuelos por categoría de departure_time:")
print(flights_by_departure_time)


Conclusión del flujo de trabajo

In [None]:
# Ver las primeras filas del dataframe final
df.head()


Nombre del alumno: José Alfredo Calvillo Gómez 733630.