![Nuclio logo](https://nuclio.school/wp-content/uploads/2018/12/nucleoDS-newBlack.png)

# Proyecto final - Data Analytics y Business Intelligence

Recibimos dos datasets:

1. `renfe.csv`: Información de búsquedas de billetes que se ha extrajo de la página de Renfe.
2. `coordenadas_ciudades.csv`: Latitud y longitud de provincias españolas.

Queremos usar estos datasets para un modelo de Machine Learning que utilizaremos para predecir los precios de los billetes. Y, para ello, necesitamos limpiar, explorar y pre-procesar el dataset.

## Reglas de juego

1. El proyecto se debe entregar de manera individual. 
2. Cada respuesta correcta suma un punto.
3. La calificación final consistirá en la suma de todos los puntos obtenidos sobre el total de puntos posibles.


## Diccionario de datos

Esta es la información provista:

### `renfe.csv`
- `FECHA_CONSULTA`: Fecha en la que se consultó la página.
- `FECHA_INICIO`: Fecha de inicio del trayecto.
- `FECHA_FIN`: Fecha de finalización del trayecto.
- `CIUDAD_ORIGEN`: Ciudad de origen del trayecto.
- `CIUDAD_DESTINO`: Ciudad destino del trayecto.
- `TIPO_TREN`: Tipo de tren.
- `TIPO_TARIFA`: Tipo de tarifa del billete.
- `CLASE`: Clase del asiento seleccionado.
- `PRECIO`: Precio del tren seleccionado.

### `coordenadas_ciudades.csv`
- `ciudad`: Nombre de la ciudad.
- `latitud`: Coordenada de latitud de la ciudad.
- `longitud`: Coordenada de longitud de la ciudad.

## Importar librerías

In [1]:
import pandas as pd
import numpy as np

## P0: Lee el dataset `renfe.csv`

In [28]:
df_renfe = pd.read_csv("data/renfe.csv", sep = ';')
df_coordenadas = pd.read_csv("data/coordenadas_ciudades.csv")

## P1: Visualiza las primeras y las últimas filas del dataset

In [29]:
df_primeras = df_renfe.head()
df_primeras

Unnamed: 0,FECHA_CONSULTA,FECHA_INICIO,FECHA_FIN,CIUDAD_ORIGEN,CIUDAD_DESTINO,TIPO_TREN,TIPO_TARIFA,CLASE,PRECIO
0,2019-05-25 01:43:03,2019-06-28 20:36:00,2019-06-28 23:14:00,SEVILLA,MADRID,ALVIA,Flexible,Turista,67.2
1,2019-06-22 13:05:11,2019-07-14 10:00:00,2019-07-14 13:10:00,BARCELONA,MADRID,AVE,Flexible,Turista,107.7
2,2019-04-17 06:24:03,2019-05-23 13:40:00,2019-05-23 16:10:00,SEVILLA,MADRID,AVE,Promo,Turista,47.3
3,2019-05-10 21:21:59,2019-05-29 14:50:00,2019-05-29 22:30:00,VALENCIA,MADRID,REGIONAL,Adulto ida,Turista,28.35
4,2019-05-09 19:43:37,2019-06-26 13:25:00,2019-06-26 16:24:00,MADRID,BARCELONA,AVE-TGV,Promo,Turista,66.75


In [30]:
df_ultimas = df_renfe.tail(5)
df_ultimas

Unnamed: 0,FECHA_CONSULTA,FECHA_INICIO,FECHA_FIN,CIUDAD_ORIGEN,CIUDAD_DESTINO,TIPO_TREN,TIPO_TARIFA,CLASE,PRECIO
383563,2019-05-06 05:11:53,2019-05-10 19:40:00,2019-05-10 21:29:00,MADRID,VALENCIA,AVE,Flexible,Turista,73.1
383564,2019-06-19 21:48:56,2019-08-05 20:00:00,2019-08-05 23:10:00,BARCELONA,MADRID,AVE,Promo,Preferente,54.45
383565,2019-04-24 23:21:44,2019-04-29 16:15:00,2019-04-29 17:55:00,VALENCIA,MADRID,AVE,Promo,Turista,27.8
383566,2019-05-27 21:05:19,2019-07-07 15:00:00,2019-07-07 17:21:00,MADRID,SEVILLA,AVE,Promo,Turista,47.3
383567,2019-05-27 15:04:14,2019-06-16 18:35:00,2019-06-16 20:21:00,VALENCIA,MADRID,AVE,Flexible,Turista,73.1


## P2: ¿Cuantas filas y columnas tiene el dataset?

In [31]:
df_renfe.shape

(383568, 9)

## P3: Cambia los nombres de todas las columnas a minúsculas

In [34]:
df_renfe.columns = df_renfe.columns.str.lower()
df_renfe


Unnamed: 0,fecha_consulta,fecha_inicio,fecha_fin,ciudad_origen,ciudad_destino,tipo_tren,tipo_tarifa,clase,precio
0,2019-05-25 01:43:03,2019-06-28 20:36:00,2019-06-28 23:14:00,SEVILLA,MADRID,ALVIA,Flexible,Turista,67.20
1,2019-06-22 13:05:11,2019-07-14 10:00:00,2019-07-14 13:10:00,BARCELONA,MADRID,AVE,Flexible,Turista,107.70
2,2019-04-17 06:24:03,2019-05-23 13:40:00,2019-05-23 16:10:00,SEVILLA,MADRID,AVE,Promo,Turista,47.30
3,2019-05-10 21:21:59,2019-05-29 14:50:00,2019-05-29 22:30:00,VALENCIA,MADRID,REGIONAL,Adulto ida,Turista,28.35
4,2019-05-09 19:43:37,2019-06-26 13:25:00,2019-06-26 16:24:00,MADRID,BARCELONA,AVE-TGV,Promo,Turista,66.75
...,...,...,...,...,...,...,...,...,...
383563,2019-05-06 05:11:53,2019-05-10 19:40:00,2019-05-10 21:29:00,MADRID,VALENCIA,AVE,Flexible,Turista,73.10
383564,2019-06-19 21:48:56,2019-08-05 20:00:00,2019-08-05 23:10:00,BARCELONA,MADRID,AVE,Promo,Preferente,54.45
383565,2019-04-24 23:21:44,2019-04-29 16:15:00,2019-04-29 17:55:00,VALENCIA,MADRID,AVE,Promo,Turista,27.80
383566,2019-05-27 21:05:19,2019-07-07 15:00:00,2019-07-07 17:21:00,MADRID,SEVILLA,AVE,Promo,Turista,47.30


## P4: Muestra los tipos de datos de cada columna

In [45]:
df_renfe.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 383568 entries, 0 to 383567
Data columns (total 9 columns):
 #   Column          Non-Null Count   Dtype  
---  ------          --------------   -----  
 0   fecha_consulta  383568 non-null  object 
 1   fecha_inicio    383568 non-null  object 
 2   fecha_fin       383568 non-null  object 
 3   ciudad_origen   383568 non-null  object 
 4   ciudad_destino  383568 non-null  object 
 5   tipo_tren       383568 non-null  object 
 6   tipo_tarifa     382225 non-null  object 
 7   clase           382225 non-null  object 
 8   precio          355038 non-null  float64
dtypes: float64(1), object(8)
memory usage: 26.3+ MB


## P5: Cambia los tipos de datos que creas que creas incorrectos, por los tipos adecuados

In [50]:
#df_renfe = df_renfe.infer_objects()
df_renfe.iloc[:, 0:3] = df_renfe.iloc[:, 0:3].apply(pd.to_datetime, errors='coerce')
#df_renfe["fecha_consulta_dc","fecha_inicio_dc","fecha_fin_dc"] = pd.to_datetime(df_renfe["fecha_consulta","fecha_inicio","fecha_fin"])
df_renfe.head
#df_renfe[fecha_consulta, fecha_inicio, fecha_fin]=pd.to_datetime([])

<bound method NDFrame.head of             fecha_consulta        fecha_inicio           fecha_fin  \
0      2019-05-25 01:43:03 2019-06-28 20:36:00 2019-06-28 23:14:00   
1      2019-06-22 13:05:11 2019-07-14 10:00:00 2019-07-14 13:10:00   
2      2019-04-17 06:24:03 2019-05-23 13:40:00 2019-05-23 16:10:00   
3      2019-05-10 21:21:59 2019-05-29 14:50:00 2019-05-29 22:30:00   
4      2019-05-09 19:43:37 2019-06-26 13:25:00 2019-06-26 16:24:00   
...                    ...                 ...                 ...   
383563 2019-05-06 05:11:53 2019-05-10 19:40:00 2019-05-10 21:29:00   
383564 2019-06-19 21:48:56 2019-08-05 20:00:00 2019-08-05 23:10:00   
383565 2019-04-24 23:21:44 2019-04-29 16:15:00 2019-04-29 17:55:00   
383566 2019-05-27 21:05:19 2019-07-07 15:00:00 2019-07-07 17:21:00   
383567 2019-05-27 15:04:14 2019-06-16 18:35:00 2019-06-16 20:21:00   

       ciudad_origen ciudad_destino tipo_tren tipo_tarifa       clase  precio  
0            SEVILLA         MADRID     ALVIA    

## P6: Filas duplicadas

### P6.1: ¿Cuántas filas duplicadas tiene el dataset?

In [51]:
df_renfe.shape, df_renfe.drop_duplicates().shape


((383568, 9), (383535, 9))

### P6.2: Quita las filas duplicadas

In [None]:
df_renfe.drop_duplicates(inplace=True)

## P7: Valores nulos y análisis de `precio`

### P7.1: ¿Que porcentaje de valores nulos hay por cada columna?

### P7.2: ¿Cual es el mínimo, percentiles importantes (25%, 50%, 75%) y el máximo de `precio`?

### P7.3: ¿Hay algo raro en el valor mínimo de `precio`? Quita las filas con ese valor del dataset

### P7.4: Reemplaza los valores nulos en `precio` por la media de esa columna

### P7.5: Quita las filas donde `clase` o `tipo_tarifa` sean nulos

## P8: Tiempo de viaje

### P8.1: Calcula el tiempo de viaje en minutos (fecha_fin - fecha_inicio)

### P8.2: Haz un histograma de la variable que acabas de crear (`tiempo_de_viaje`)

## P9: Extrae el día, el nombre del día, el mes y la hora de `fecha_inicio`

## P10: Quita las columnas `fecha_consulta`, `fecha_inicio` y `fecha_fin` del dataset

## P11: Lee el dataset `coordenadas_ciudades.csv` y únelo con al dataset que has procesado hasta ahora (utiliza `ciudad_destino` para el `join`)

## P12: Gráfica en un mapa el precio medio por ciudad de destino

## P13: Haz una tabla de correlación, ¿hay variables númericas correladas con el precio?

## P14: Relación entre variables del dataset y `precio`

### P14.1: Haz un scatter plot de precio vs. tiempo de viaje

### P14.2: Haz un boxplot de precio vs. dia de la semana

### P14.3: Gráfica el precio medio por día de la semana

## P15: Crea un nuevo dataframe donge apliques *one-hot-encoding* a las variables categoricas