**Misterios en los Datos: Análisis Exploratorio con Python**

Este proyecto presenta un análisis exploratorio de datos (EDA) realizado en Python, diseñado como recurso de aprendizaje para estudiantes y profesionales que están empezando en análisis y ciencia de datos. A partir de un conjunto de datos real, se recorren las etapas fundamentales del EDA: desde la preparación inicial de los datos (detección de valores faltantes, ajuste de tipos de variables y tratamiento de valores atípicos) hasta el análisis descriptivo y la exploración de relaciones entre variables.

**Objetivo del proyecto**

Ofrecer un flujo de trabajo claro y reproducible que permita aprender haciendo, desarrollando habilidades que puedan aplicarse y adaptarse a distintos conjuntos de datos y contextos reales.  

**Estructura del Proyecto**

El proyecto se organiza siguiendo un flujo de trabajo paso a paso; con el propósito de guiar a los usuarios en el análisis exploratorio de datos:

1. Descripción de la base de datos: información general sobre el dataset, columnas, tipos de datos y contexto del mismo.

2. Carga de datos: cómo importar los datos a Python desde archivos locales.

3. Lectura de datos: cómo leer un archivo CSV y convertirlo en DataFrame para trabajar.

4. Análisis inicial de datos (IDA): exploración inicial con funciones básicas (.head(), .info(), .describe()), identificación de valores faltantes, ajuste de tipos de variables y detección de valores atípicos.

5. Análisis exploratorio de datos (EDA): Visualización y análisis descriptivo de los datos, explorando relaciones entre variables y patrones importantes.  

**Caso Práctico: Datos de vuelos de aerolíneas**

**1. Descripción de la base de datos**

La siguiente descripción corresponde textualmente a la publicada en Kaggle:

El conjunto de datos de reservas de vuelos de varias aerolíneas se extrae por fecha de un sitio web conocido en un formato estructurado. Contiene los registros de detalles de vuelos entre ciudades de la India. Incluye diversas características, como ciudad de origen y destino, hora de llegada y salida, duración y precio del vuelo, etc.

Los datos para el Análisis Exploratorio fueron tomados de:


https://www.kaggle.com/datasets/rohitgrewal/airlines-flights-data/data

**Las variables que conforman el dataset son:**

1) Aerolínea: El nombre de la aerolínea se almacena en la columna "Aerolínea". Es una característica categórica que incluye 6 aerolíneas diferentes.

2) Vuelo: Vuelo almacena información sobre el código de vuelo del avión. Es una característica categórica.

3) Ciudad de origen: Ciudad desde la que despega el vuelo. Es una característica categórica con 6 ciudades únicas.

4) Hora de Salida: Esta es una característica categórica derivada que se obtiene agrupando períodos de tiempo en intervalos. Almacena información sobre la hora de salida y tiene seis etiquetas de tiempo únicas.

5) Paradas: una característica categórica con 3 valores distintos que almacena el número de paradas entre las ciudades de origen y destino.

6) Hora de llegada: Esta es una característica categórica derivada que se crea agrupando intervalos de tiempo en contenedores. Tiene seis etiquetas de tiempo distintas y guarda información sobre la hora de llegada.

7) Ciudad de destino: Ciudad donde aterrizará el vuelo. Es una característica categórica con 6 ciudades únicas.

8) Clase: Característica categórica que contiene información sobre la clase del asiento; tiene dos valores distintos: Business y Economy.

9) Duración: una característica continua que muestra la cantidad total de tiempo que lleva viajar entre ciudades en horas.

10) Días restantes: es una característica derivada que se calcula restando la fecha del viaje a la fecha de reserva.

11) Precio: La variable objetivo almacena información del precio del billete.

**2. Cargar el Dataset**

Previamente, descargamos el dataset desde el enlace compartido en la parte superior. Luego, ejecutamos las siguientes líneas de código, para cargar el dataset.

In [None]:
from google.colab import files

uploaded = files.upload()

Saving airlines_flights_data.csv to airlines_flights_data.csv


**3. Lectura del Dataset**

Una vez cargado el dataset, se procede a la lectura del archivo tomando en cuenta el formato en el que se encuentra almacenado.

In [None]:
#Importar librerías
import pandas as pd # Librería para la manipulación y análisis de datos (tablas, CSV, Excel, SQL, entre otros.)
import numpy as np # Librería para el cálculo numérico eficiente y manejo de arreglos/matrices

# Cargar dataset
#Para archivos almacenados en formato CSV: pd.read_csv
#df objeto del tipo DataFrame
df = pd.read_csv("airlines_flights_data.csv")
df

Unnamed: 0,index,airline,flight,source_city,departure_time,stops,arrival_time,destination_city,class,duration,days_left,price
0,0,SpiceJet,SG-8709,Delhi,Evening,zero,Night,Mumbai,Economy,2.17,1,5953
1,1,SpiceJet,SG-8157,Delhi,Early_Morning,zero,Morning,Mumbai,Economy,2.33,1,5953
2,2,AirAsia,I5-764,Delhi,Early_Morning,zero,Early_Morning,Mumbai,Economy,2.17,1,5956
3,3,Vistara,UK-995,Delhi,Morning,zero,Afternoon,Mumbai,Economy,2.25,1,5955
4,4,Vistara,UK-963,Delhi,Morning,zero,Morning,Mumbai,Economy,2.33,1,5955
...,...,...,...,...,...,...,...,...,...,...,...,...
300148,300148,Vistara,UK-822,Chennai,Morning,one,Evening,Hyderabad,Business,10.08,49,69265
300149,300149,Vistara,UK-826,Chennai,Afternoon,one,Night,Hyderabad,Business,10.42,49,77105
300150,300150,Vistara,UK-832,Chennai,Early_Morning,one,Night,Hyderabad,Business,13.83,49,79099
300151,300151,Vistara,UK-828,Chennai,Early_Morning,one,Evening,Hyderabad,Business,10.00,49,81585
