# Importamos csv y visualizamos

In [1]:
import pandas as pd

df = pd.read_csv('rome_u_journeys.csv')
df.head(10)

Unnamed: 0,idS,tsO,tsD,price,tt,dis,vel,lonO,latO,lonD,latD
0,A0H4,03/02/2021 18:10:03,03/02/2021 18:17:44,2.1525,461,1715.336751,13.395254,12.466222,41.867388,12.47066,41.853908
1,A0H4,13/02/2021 18:21:13,13/02/2021 18:25:33,1.65,260,1234.472044,17.09269,12.471143,41.923692,12.467502,41.934306
2,A0H4,14/02/2021 13:39:54,14/02/2021 13:48:03,2.2225,489,2221.481536,16.354465,12.467524,41.934342,12.48633,41.92827
3,A0H4,14/02/2021 14:35:03,14/02/2021 14:35:13,1.025,10,3.71294,1.336658,12.486283,41.928267,12.486276,41.9283
4,A0H4,14/02/2021 14:37:53,14/02/2021 14:57:53,4.0,1200,4562.843566,13.688531,12.486275,41.928301,12.457922,41.904302
5,A0H4,15/02/2021 13:31:24,15/02/2021 13:34:45,1.5025,201,550.154792,9.853519,12.457876,41.904303,12.460773,41.907606
6,A0H4,15/02/2021 14:12:43,15/02/2021 14:21:34,2.3275,531,1067.878564,7.239855,12.46087,41.90759,12.456809,41.901126
7,A0H4,17/02/2021 17:18:33,17/02/2021 17:22:23,1.575,230,998.787405,15.633194,12.515137,41.88194,12.525737,41.884014
8,A0H4,18/02/2021 08:02:04,18/02/2021 08:06:44,1.7,280,1008.075016,12.960964,12.52571,41.883778,12.51921,41.877933
9,A0H4,18/02/2021 21:26:14,18/02/2021 21:48:24,4.325,1330,5388.969536,14.586684,12.519297,41.877927,12.50554,41.913768


Campos:
- idS: identificador del patinete.
- tsO: marca de tiempo del origen.
- tsD: marca de tiempo del destino.
- price: precio del viaje.
- tt: tiempo de recorrido.
- dis: distancia en metros.
- vel: velocidad en km/h.
- lonO: longitud del origen.
- latO: latitud del origen.
- lonD: longitud del destino.
- latD: latitud del destino

# **EDA**

## Comprobamos vacíos o valores nulos

In [2]:
df.isnull().values.any()

False

# Pasamos a datetime ts0 y tsD

In [3]:
df['tsO'] = pd.to_datetime(df['tsO'], format='%d/%m/%Y %H:%M:%S')
df['tsD'] = pd.to_datetime(df['tsD'], format='%d/%m/%Y %H:%M:%S')

In [4]:
df.dtypes

idS              object
tsO      datetime64[ns]
tsD      datetime64[ns]
price           float64
tt                int64
dis             float64
vel             float64
lonO            float64
latO            float64
lonD            float64
latD            float64
dtype: object

In [5]:
df.head()

Unnamed: 0,idS,tsO,tsD,price,tt,dis,vel,lonO,latO,lonD,latD
0,A0H4,2021-02-03 18:10:03,2021-02-03 18:17:44,2.1525,461,1715.336751,13.395254,12.466222,41.867388,12.47066,41.853908
1,A0H4,2021-02-13 18:21:13,2021-02-13 18:25:33,1.65,260,1234.472044,17.09269,12.471143,41.923692,12.467502,41.934306
2,A0H4,2021-02-14 13:39:54,2021-02-14 13:48:03,2.2225,489,2221.481536,16.354465,12.467524,41.934342,12.48633,41.92827
3,A0H4,2021-02-14 14:35:03,2021-02-14 14:35:13,1.025,10,3.71294,1.336658,12.486283,41.928267,12.486276,41.9283
4,A0H4,2021-02-14 14:37:53,2021-02-14 14:57:53,4.0,1200,4562.843566,13.688531,12.486275,41.928301,12.457922,41.904302


# IdS únicos

In [6]:
df['idS'].nunique()

2331

# Comprobar outliers en price y tt

In [7]:
import plotly.express as px

fig = px.scatter(
    df,
    x=df.index,
    y='price',
    title='Valores de price'
)
fig.show()

Observamos que hay varios valores que podrían ser outliers. Vamos a observarlos con más detalle.

In [8]:
df[df["price"] > 100].drop(columns='idS').agg(['mean'])

Unnamed: 0,tsO,tsD,price,tt,dis,vel,lonO,latO,lonD,latD
mean,2021-02-22 23:47:08.703703296,2021-02-24 03:45:50.296296448,252.803981,100721.592593,2034.664084,0.113464,12.477221,41.880258,12.476495,41.87839


Ahora vamos a comparar estos valores, con los del dataset completo.

In [9]:
df.drop(columns='idS').agg(['mean'])

Unnamed: 0,tsO,tsD,price,tt,dis,vel,lonO,latO,lonD,latD
mean,2021-02-16 00:18:19.913563136,2021-02-16 00:31:53.596800,3.034208,813.683237,1939.92089,11.486824,12.486697,41.888974,12.486821,41.888953


Observamos que el precio medio y el tiempo es mucho más elevado que la media total. Sin embargo, la distancia recorrida es similar y, en consecuencia, la velocidad media mucho menor (como si estuvieran parados o al finalizar el viaje se les hubiera olvidado terminar el trayecto). Como estos valores nos pueden suponer alguna complicación en los cálculos posteriores, decidimos eliminarlos.

In [10]:
df = df[df['price'] < 100]
df[df["price"] > 100]

Unnamed: 0,idS,tsO,tsD,price,tt,dis,vel,lonO,latO,lonD,latD


Por confirmar que no hay datos inexactos, comprobamos que la diferencia entre el tiempo de llegada y salida es igual a tt (columna con el tiempo de recorrido). Para ello definimos un margen de error del 5, por si han habido redondeos o cualquier otra forma de aproximar.

In [11]:
df['duration_calc'] = (df['tsD'] - df['tsO']).dt.total_seconds()
margen = 5

Filtramos por los viajes que no cuadran.

In [12]:
df['diff'] = df['duration_calc'] - df['tt']
df_inconsistentes = df[df['diff'].abs() > margen]

Contamos inconsistencias

In [13]:
n_inconsistentes = len(df_inconsistentes)
n_total = len(df)

print("Viajes que NO cuadran:", n_inconsistentes)
print("Total de viajes:", n_total)
print("Porcentaje inconsistente:", round(n_inconsistentes / n_total * 100, 2), "%")

Viajes que NO cuadran: 0
Total de viajes: 25159
Porcentaje inconsistente: 0.0 %


Efectivamente todos cuadran con un margen muy pequeño, por lo que no tenemos fallos de recopilación.

In [14]:
fig = px.scatter(
    df,
    x='tt',
    y='price',
    title='Relación entre tiempo del viaje y precio',
    labels={'tt': 'Tiempo del viaje (segundos)', 'price': 'Precio'},
    opacity=0.7
)

fig.show()

## Comprobar outliers entre dis y vel

In [15]:
fig = px.scatter(
    df,
    x='dis',
    y='vel',
    title='Relación entre distancia del viaje y velocidad',
    labels={'dis': 'Distancia del viaje', 'vel': 'Velocidad'},
    opacity=0.7
)

fig.show()

Observamos que hay varios valores atípicos en esta relación entre velocidad y distancia. Sin embargo, para observar si son outliers, tenemos que valorar el tiempo que tardaron en realizar el viaje. Si los valores de dis/tt y vel difieren significativamente, lo consideraremos outliers. 

In [16]:
fig = px.scatter(
    df,
    x='dis',
    y='vel',
    size='tt',
    title='Relación entre distancia del viaje, velocidad y tiempo',
    labels={'dis': 'Distancia del viaje', 'vel': 'Velocidad', 'tt': 'Tiempo'},
    opacity=0.7
)

fig.show()

Observamos en la parte inferior un alto número de valores cercanos a velocidad 0 con valores altos de tiempo. Por otro lado, los valores con distancias altas, podrían no ser outliers necesariamente. Para comprobarlo, vamos a calcular la velocidad media y vamos a filtrar los valores que difieran mucho de ella.

In [17]:
fig = px.histogram(
    df,
    x='vel',
    title='Comprobación de velocidad correcta',
    labels={'vel': 'Velocidad'},
    opacity=0.7
)

fig.show()

Observamos como se aproxima a una gaussiana, salvo por los valores que se concentran alrededor de 0 y dos valores atípicos con velocidades muy elevadas. Por ello, para evitar complicaciones futuras, eliminamos ambos extremos.

In [18]:
df = df[df['vel'].between(1, 25, inclusive='neither')]

In [19]:
fig = px.histogram(
    df,
    x='vel',
    title='Comprobación de velocidad correcta tras eliminar outliers',
    labels={'vel': 'Velocidad'},
    opacity=0.7
)

fig.show()

Ahora nuestros valores de velocidad, si que se parecen más a una gaussiana.

## Comprobar outliers de ubicación

In [None]:
from pathlib import Path
import folium

# Path("maps").mkdir(parents=True, exist_ok=True)

# m = folium.Map(location=[41.9, 12.5], zoom_start=12)  
# for _, r in df.iterrows():
#     folium.CircleMarker(location=[r['latO'], r['lonO']],
#                         radius=3, color='blue', fill=True).add_to(m)
    
# m.save('maps/origins.html')

In [30]:
import webbrowser, os
webbrowser.open('file://' + os.path.abspath('maps/origins.html'))

True

Tengo que hacer esto para poder mostrar en VSCode el mapa. Observamos que los valores de orígenes están centrados en Roma todos. Vamos a ver los de destino.

In [None]:
# m = folium.Map(location=[41.9, 12.5], zoom_start=12)  
# for _, r in df.iterrows():
#     folium.CircleMarker(location=[r['latD'], r['lonD']],
#                         radius=3, color='blue', fill=True).add_to(m)
    
# m.save('maps/destinations.html')

webbrowser.open('file://' + os.path.abspath('maps/destinations.html'))

True

La distribución de ubicaciones es bastante similar a la de orígenes. El único valor que destaca sobre el resto es un viaje que termino en un parking de Fonte Laurentina (municipio un poco alejado de Roma).