# 📓 01_Fuentes.ipynb – Adquisición e inspección inicial de datos

---

## 🎯 Objetivo del proyecto

El objetivo de este proyecto es desarrollar un modelo de machine learning para **predecir el precio de billetes de avión** utilizando datos históricos.  
Se trata de un problema de **regresión supervisada**, en el que la variable objetivo es `price`.

---

## 📥 Descripción del dataset

- Fuente: Dataset obtenido de Kaggle – Flight Price Prediction
- Archivo original: `Clean_Dataset.csv`
- Ubicación: `data/raw/Clean_Dataset.csv`

---

## 🧾 Contenido del notebook

En este notebook se realiza:

- Carga del dataset original
- Inspección de las primeras y últimas filas
- Revisión de dimensiones y tipos de datos
- Análisis de valores únicos por columna
- Comprobación de valores nulos
- Guardado de una versión base del dataset en `data/processed/`

# 📦 Contexto del Dataset: Predicción de Precios de Vuelos Nacionales en India

Este proyecto utiliza un dataset de Kaggle que contiene información sobre vuelos nacionales en India.  
Los datos incluyen detalles sobre aerolíneas, ciudades de origen y destino, duración del vuelo, escalas, horarios de salida y llegada, clase del billete y días de antelación en la compra.

## ✈️ Características principales:
- **Vuelos nacionales** entre ciudades como Delhi, Mumbai, Chennai, Hyderabad, Bangalore, entre otras.
- **Aerolíneas** incluidas: SpiceJet, AirAsia, Vistara, IndiGo, Air India, GoAir.
- El precio original está en **rupias indias (INR)**.
- Se ha convertido a **euros (EUR)** utilizando un tipo de cambio fijo para facilitar la interpretación económica.

In [42]:
import pandas as pd
import os

# Cargar dataset original
df = pd.read_csv("C:/Users/Poltatil/Repo_thebridge/2506_dsft_thebridge/proyecto_final_precio_vuelos/data/raw/Clean_Dataset.csv")

In [43]:
# Inspección básica
df.head()

Unnamed: 0.1,Unnamed: 0,airline,flight,source_city,departure_time,stops,arrival_time,destination_city,class,duration,days_left,price
0,0,SpiceJet,SG-8709,Delhi,Evening,zero,Night,Mumbai,Economy,2.17,1,5953
1,1,SpiceJet,SG-8157,Delhi,Early_Morning,zero,Morning,Mumbai,Economy,2.33,1,5953
2,2,AirAsia,I5-764,Delhi,Early_Morning,zero,Early_Morning,Mumbai,Economy,2.17,1,5956
3,3,Vistara,UK-995,Delhi,Morning,zero,Afternoon,Mumbai,Economy,2.25,1,5955
4,4,Vistara,UK-963,Delhi,Morning,zero,Morning,Mumbai,Economy,2.33,1,5955


In [44]:
#Lista completa de columnas

df.columns.tolist()

['Unnamed: 0',
 'airline',
 'flight',
 'source_city',
 'departure_time',
 'stops',
 'arrival_time',
 'destination_city',
 'class',
 'duration',
 'days_left',
 'price']

In [45]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 300153 entries, 0 to 300152
Data columns (total 12 columns):
 #   Column            Non-Null Count   Dtype  
---  ------            --------------   -----  
 0   Unnamed: 0        300153 non-null  int64  
 1   airline           300153 non-null  object 
 2   flight            300153 non-null  object 
 3   source_city       300153 non-null  object 
 4   departure_time    300153 non-null  object 
 5   stops             300153 non-null  object 
 6   arrival_time      300153 non-null  object 
 7   destination_city  300153 non-null  object 
 8   class             300153 non-null  object 
 9   duration          300153 non-null  float64
 10  days_left         300153 non-null  int64  
 11  price             300153 non-null  int64  
dtypes: float64(1), int64(3), object(8)
memory usage: 27.5+ MB


In [46]:
df.describe()

Unnamed: 0.1,Unnamed: 0,duration,days_left,price
count,300153.0,300153.0,300153.0,300153.0
mean,150076.0,12.221021,26.004751,20889.660523
std,86646.852011,7.191997,13.561004,22697.767366
min,0.0,0.83,1.0,1105.0
25%,75038.0,6.83,15.0,4783.0
50%,150076.0,11.25,26.0,7425.0
75%,225114.0,16.17,38.0,42521.0
max,300152.0,49.83,49.0,123071.0


In [47]:
df.dtypes.value_counts()


object     8
int64      3
float64    1
Name: count, dtype: int64

In [48]:
df.nunique()



Unnamed: 0          300153
airline                  6
flight                1561
source_city              6
departure_time           6
stops                    3
arrival_time             6
destination_city         6
class                    2
duration               476
days_left               49
price                12157
dtype: int64

In [49]:
df.isnull().sum()


Unnamed: 0          0
airline             0
flight              0
source_city         0
departure_time      0
stops               0
arrival_time        0
destination_city    0
class               0
duration            0
days_left           0
price               0
dtype: int64