# Carga y Análisis de datos


Para realizar esta práctica necesitaremos cargar varias librerias que nos permitirán realizar los objetivos de la práctica.

In [65]:
import pandas as pd # Librería para manejar datos
import sqlite3 # Librería para manejar bases de datos SQLite
import os   # Librería para manejar el sistema operativo
import matplotlib.pyplot as plt # Librería para graficar

## Descarga de uso de bicis

Usaremos datos del portal abierto de valencia sobre las estaciones de bicicletas:

https://valencia.opendatasoft.com/pages/home/

https://valencia.opendatasoft.com/explore/dataset/valenbisi-disponibilitat-valenbisi-dsiponibilidad/table/?flg=es-es

Estos datos se encuentran dentro de la carpeta *data/raw/usobici_raw.csv*. Lo primero que se nos pide realizar es analizar una muestra de datos en crudo para entender el problema al que nos enfrentamos, explorando y describiendo los datos sin aplicar transformaciones.

In [66]:
## Modificaremos la ruta de trabajo (USAR SOLO UNA VEZ)
# os.chdir('./../') # Cambiar el directorio de trabajo al directorio padre
# print(os.getcwd()) # Imprimir la ruta de trabajo actual

In [67]:
df_base = pd.read_csv('data/raw/usobici_raw.csv', sep=',') # Cargar el archivo CSV en un DataFrame de pandas
print("Archivo cargado")

Archivo cargado


Una vez cargado el archivo, miraremos como se conforma tanto al principio como al final de este usando métodos de pandas.

In [68]:
df_base.head() # Imprimir las primeras filas del DataFrame

Unnamed: 0,updated,address,number,available,lat,lon,total,open,free
0,2025-02-03 00:01:42.000000,Alameda - Pintor Maella,53,23,39.456764,-0.348139,25,T,2
1,2025-02-03 00:09:53.000000,Alameda - Pintor Maella,53,25,39.456764,-0.348139,25,T,0
2,2025-02-03 00:20:14.000000,Alameda - Pintor Maella,53,23,39.456764,-0.348139,25,T,2
3,2025-02-03 00:30:36.000000,Alameda - Pintor Maella,53,23,39.456764,-0.348139,25,T,2
4,2025-02-03 00:39:44.000000,Alameda - Pintor Maella,53,23,39.456764,-0.348139,25,T,2


In [69]:
df_base.tail()

Unnamed: 0,updated,address,number,available,lat,lon,total,open,free
4063,2025-03-03 14:39:32.000000,Alameda - Pintor Maella,53,24,39.456764,-0.348139,25,T,1
4064,2025-03-03 14:49:38.000000,Alameda - Pintor Maella,53,24,39.456764,-0.348139,25,T,1
4065,2025-03-03 15:00:44.000000,Alameda - Pintor Maella,53,24,39.456764,-0.348139,25,T,1
4066,2025-03-03 15:09:50.000000,Alameda - Pintor Maella,53,23,39.456764,-0.348139,25,T,2
4067,2025-03-03 15:19:57.000000,Alameda - Pintor Maella,53,23,39.456764,-0.348139,25,T,2


En este caso vemos que la muestra se basa en la estación de Alameda - Pintor Maella y son datos de este año (2025) en marzo. Para confirmar que solo se está visualizando esa estación, existen varios métodos como unique, pero también podemos usar la ordenación de datos y si al principio y final del dataframe está el mismo, significa que ocupa todo el DataFrame.

In [70]:
df_b_sort = df_base.sort_values(by="address", ascending=True) # Ordenar el DataFrame por la columna "address" en orden ascendente

Visualizaremos el principio y final de este:

In [71]:
df_b_sort.head()

Unnamed: 0,updated,address,number,available,lat,lon,total,open,free
0,2025-02-03 00:01:42.000000,Alameda - Pintor Maella,53,23,39.456764,-0.348139,25,T,2
2704,2025-02-22 03:29:43.000000,Alameda - Pintor Maella,53,20,39.456764,-0.348139,25,T,5
2705,2025-02-22 03:39:50.000000,Alameda - Pintor Maella,53,20,39.456764,-0.348139,25,T,5
2706,2025-02-22 03:49:57.000000,Alameda - Pintor Maella,53,20,39.456764,-0.348139,25,T,5
2707,2025-02-22 04:00:04.000000,Alameda - Pintor Maella,53,21,39.456764,-0.348139,25,T,4


In [72]:
df_b_sort.tail()

Unnamed: 0,updated,address,number,available,lat,lon,total,open,free
1361,2025-02-12 13:30:00.000000,Alameda - Pintor Maella,53,23,39.456764,-0.348139,25,T,2
1362,2025-02-12 13:40:07.000000,Alameda - Pintor Maella,53,24,39.456764,-0.348139,25,T,1
1363,2025-02-12 13:49:12.000000,Alameda - Pintor Maella,53,23,39.456764,-0.348139,25,T,2
1350,2025-02-12 11:39:56.000000,Alameda - Pintor Maella,53,17,39.456764,-0.348139,25,T,8
4067,2025-03-03 15:19:57.000000,Alameda - Pintor Maella,53,23,39.456764,-0.348139,25,T,2


Describiremos los datos usando otro método de pandas que nos permite visualizar el número de valores por columna númerica, su media, desviación estandar, etc.

In [73]:
df_base.describe() # Imprimir estadísticas descriptivas del DataFrame

Unnamed: 0,number,available,lat,lon,total,free
count,4068.0,4068.0,4068.0,4068.0,4068.0,4068.0
mean,53.0,17.11824,39.45676,-0.3481393,25.0,7.855457
std,0.0,7.428375,7.106301e-15,5.551798000000001e-17,0.0,7.442906
min,53.0,0.0,39.45676,-0.3481393,25.0,0.0
25%,53.0,11.0,39.45676,-0.3481393,25.0,2.0
50%,53.0,20.0,39.45676,-0.3481393,25.0,5.0
75%,53.0,23.0,39.45676,-0.3481393,25.0,14.0
max,53.0,25.0,39.45676,-0.3481393,25.0,25.0


Gracias a esto vemos que, al menos, las columnas númericas no tienen datos nulos y que la longitud de estas es la misma (4068). Con el método dtypes podemos visualizar el tipo de dato que hay en cada columna, tal y como pandas los visualiza y procesa.

In [74]:
df_base.dtypes # Imprimir los tipos de datos de cada columna

updated       object
address       object
number         int64
available      int64
lat          float64
lon          float64
total          int64
open          object
free           int64
dtype: object

Vemos que la columna updated, que son fechas, tienen un formato object que es como decir que son una cadena de texto, por lo que en caso de querer operar con estos, deberemos transformarlos a DateTime.

# Datos de estaciones para analizar

Ahora en vez de usar solo una muestra, usaremos los datos completos. Para ello, accederemos a *data/interim/estaciones.csv*, de igual forma que hicimos antes. Además, queremos responder a la pregunta de como afecta la meterología en el uso de las bicicletas, por lo que traeremos datos de la AEMET (Agencia Española de Metereologia), que se encuentran en *data/external/aemet.csv*.

In [75]:
df_estations = pd.read_csv('./data/interim/estaciones.csv', sep=",") # Cargar el archivo CSV de estaciones en un DataFrame de pandas
print("Archivo estaciones cargado")

df_aemet = pd.read_csv('./data/external/aemet.csv', sep=",") # Cargar el archivo CSV de AEMET en un DataFrame de pandas
print("Archivo AEMET cargado")

Archivo estaciones cargado
Archivo AEMET cargado


Visualizaremos información básica sobre los datos de AEMET usando lo anteriormente visto.

In [76]:
df_aemet.head()

Unnamed: 0,ubi,prec,vmax,vv,hr,ta,tpr,tamin,tamax,fecha
0,VALENCIA DT,0.0,4.9,2.0,42.0,13.0,0.4,11.4,13.7,2025-02-02 10:00:00+00:00
1,VALENCIA DT,0.0,6.5,2.2,38.0,14.3,0.2,12.8,14.5,2025-02-02 11:00:00+00:00
2,VALENCIA DT,0.0,4.9,1.4,37.0,14.7,0.2,13.8,15.2,2025-02-02 12:00:00+00:00
3,VALENCIA DT,0.0,4.9,1.1,40.0,14.6,1.1,14.2,15.1,2025-02-02 13:00:00+00:00
4,VALENCIA DT,0.0,4.8,1.9,40.0,13.7,0.4,13.5,14.8,2025-02-02 14:00:00+00:00


In [77]:
df_aemet.describe() # Imprimir estadísticas descriptivas del DataFrame de AEMET

Unnamed: 0,prec,vmax,vv,hr,ta,tpr,tamin,tamax
count,615.0,615.0,615.0,615.0,615.0,615.0,615.0,615.0
mean,0.033496,1.589756,0.510244,62.497561,13.16374,5.693333,12.686667,13.66878
std,0.636243,2.116488,0.738589,14.682955,3.23525,3.416415,3.110487,3.358057
min,0.0,0.0,0.0,26.0,5.4,-1.7,5.3,5.6
25%,0.0,0.0,0.0,52.0,11.1,2.9,10.55,11.6
50%,0.0,0.0,0.0,66.0,13.3,5.9,12.9,13.7
75%,0.0,3.1,1.0,75.0,15.4,8.85,14.9,15.9
max,15.6,19.6,4.5,81.0,22.1,11.3,21.3,22.7


In [78]:
df_aemet.dtypes # Imprimir los tipos de datos de cada columna del DataFrame de AEMET

ubi       object
prec     float64
vmax     float64
vv       float64
hr       float64
ta       float64
tpr      float64
tamin    float64
tamax    float64
fecha     object
dtype: object

Puesto que sabemos que las fechas no están en el formato correcto, le modificaremos el tipo de dato para poder operar con ellas.

In [79]:
df_aemet["fecha"] = pd.to_datetime(df_aemet["fecha"]) # Convertir la columna "fecha" a tipo datetime

# Integración de datos

Cargaremos los datos a usar de AEMET ubicados en */data/interim/usoestameteo.csv*. 

In [80]:
df_aemet_usar = pd.read_csv("./data/interim/usoestameteo.csv") # Cargar el archivo CSV de uso de estaciones meteorológicas en un DataFrame de pandas

In [81]:
df_aemet_usar.shape, df_aemet_usar.columns

((4711, 19),
 Index(['prec', 'vmax', 'vv', 'hr', 'ta', 'tpr', 'tamin', 'tamax', 'fecha',
        'count_out', 'count_in', 'number', 'address', 'lat', 'lon', 'total',
        'nombre', 'coddistrit', 'codbarrio'],
       dtype='object'))

In [82]:
df_aemet_usar["fecha"] = pd.to_datetime(df_aemet_usar["fecha"]) # Convertir la columna "fecha" a tipo datetime
print(df_aemet_usar["fecha"].min()) # Imprimir la fecha mínima del DataFrame de uso de estaciones meteorológicas
print(df_aemet_usar["fecha"].max()) # Imprimir la fecha máxima del DataFrame de uso de estaciones meteorológicas

2025-02-03 00:00:00+00:00
2025-03-03 10:00:00+00:00


Ordenaremos el dataframe por fecha.

In [83]:
df_aemet_usar.sort_values(by="fecha", ascending=True, inplace=True) # Ordenar el DataFrame de uso de estaciones meteorológicas por la columna "fecha" en orden ascendente
df_aemet_usar.tail() # Imprimir las últimas filas del DataFrame de uso de estaciones meteorológicas

Unnamed: 0,prec,vmax,vv,hr,ta,tpr,tamin,tamax,fecha,count_out,count_in,number,address,lat,lon,total,nombre,coddistrit,codbarrio
1345,1.2,9.7,2.9,81.0,14.4,11.2,14.2,14.4,2025-03-03 10:00:00+00:00,-1.0,4.0,33.0,Germanías - Ruzafa,39.464818,-0.37399,20.0,RUSSAFA,2,1
2018,1.2,9.7,2.9,81.0,14.4,11.2,14.2,14.4,2025-03-03 10:00:00+00:00,0.0,0.0,38.0,Peris y Valero - Cabo Jubi,39.459402,-0.370249,15.0,RUSSAFA,2,1
2691,1.2,9.7,2.9,81.0,14.4,11.2,14.2,14.4,2025-03-03 10:00:00+00:00,-1.0,0.0,39.0,Peris y Valero - Cuba,39.457854,-0.373931,19.0,RUSSAFA,2,1
3364,1.2,9.7,2.9,81.0,14.4,11.2,14.2,14.4,2025-03-03 10:00:00+00:00,-3.0,7.0,37.0,Peris y Valero - Luis Santángel,39.460938,-0.366441,20.0,RUSSAFA,2,1
4710,1.2,9.7,2.9,81.0,14.4,11.2,14.2,14.4,2025-03-03 10:00:00+00:00,-1.0,2.0,152.0,Reina Doña María - Cádiz,39.460925,-0.372705,15.0,RUSSAFA,2,1


A continuación miraremos si hay valores nulos en cada columna y sumaremos la cantidad que hay.

In [84]:
# Visualizar datos nulos por columnas
df_aemet_usar.isna().sum()

prec          0
vmax          0
vv            0
hr            0
ta            0
tpr           0
tamin         0
tamax         0
fecha         0
count_out     0
count_in      0
number        0
address       0
lat           0
lon           0
total         0
nombre        0
coddistrit    0
codbarrio     0
dtype: int64

In [85]:
df_aemet_usar.loc[df_aemet_usar['nombre'].isna(), ['fecha', 'count_out', 'nombre']]

Unnamed: 0,fecha,count_out,nombre


No tenemos valores nulos.

# Análisis Exploratorio de Datos (EDA)