# Objetivos de la práctica

En esta actividad propone desarrollar un proyecto de Ciencia de Datos respecto a el uso de bicicletas por parte de una empresa.

In [None]:
import pandas as pd
import sqlite3
import os
print(os.getcwd())
os.chdir('./../')
print(os.getcwd())
import matplotlib.pyplot as plt

# Carga y análisis de datos

Lo primero es comprender el problema desde la fuente de datos original


## Descarga de uso de bicis

https://valencia.opendatasoft.com/pages/home/

https://valencia.opendatasoft.com/explore/dataset/valenbisi-disponibilitat-valenbisi-dsiponibilidad/table/?flg=es-es


In [None]:
dfb = pd.read_csv('./data/raw/usobici_raw.csv')
dfb.tail()

In [None]:
dfb.shape

In [None]:
dfb.describe(include='all')

In [None]:
# Tipos de datos en pandas
dfb.dtypes

In [None]:
# Conversión de la columna fecha
dfb["updated"] = pd.to_datetime(dfb.updated)
# Rango temporal de la muestra
print(dfb["updated"].min(), dfb["updated"].max())

In [None]:
dfb["address"].unique().shape[0]

## Datos de estaciones

In [None]:
dfe = pd.read_csv('./data/interim/estaciones.csv')
dfe.tail()

## Descarga de AEMET

https://opendata.aemet.es/centrodedescargas/inicio

https://opendata.aemet.es/opendata/api/observacion/convencional/todas

aemet_metadata.json


In [None]:
dfm = pd.read_csv('./data/raw/aemet.csv')
dfm.tail()

In [None]:
dfm.shape

In [None]:
dfm.describe(include='all')

In [None]:
dfm.dtypes

In [None]:
# Conversión de la columna updated
dfm["fecha"] = pd.to_datetime(dfm.fecha)
# Rango temporal de la muestra
print(dfm["fecha"].min(), dfm["fecha"].max())

In [None]:
dfm["ubi"].unique().shape[0]

In [None]:
# Búsqueda de datos faltantes
sert = pd.date_range(start=dfm['fecha'].min(), 
                     end=dfm['fecha'].max(), freq='h')
data = {
    'datetime': sert,
    'value': range(len(sert))
}
df = pd.DataFrame(data)
full_range_df = pd.DataFrame(sert, columns=['fecha'])
merged_df = full_range_df.merge(dfm, on='fecha', how='left')
missing_data = merged_df[merged_df['tamin'].isna()]
print("Registros faltantes:")
print(missing_data)

# Integración de datos

Los datos tienen una muestra que es una selección de estaciones del barrio de Ruzafa.

In [None]:
dfb = pd.read_csv('./data/interim/usoestameteo.csv')
dfb.tail()

In [None]:
# Estructura del DF
dfb.shape, dfb.columns

In [None]:
dfb.head()

In [None]:
# Conversión de la columna updated
dfb["fecha"] = pd.to_datetime(dfb.fecha)
# Rango temporal de la muestra
print(dfb["fecha"].min(), dfb["fecha"].max())

In [None]:
dfb.sort_values("fecha", ascending=True, inplace=True)
dfb.tail()

In [None]:
# Visualizar datos nulos por columnas
dfb.isna().sum()

In [None]:
# Identificar las filas que tienen valores nulos 
# y conocer su distribución en la serie revisar variables: 
# count_out, address
dfb.loc[dfb['nombre'].isna(), ['fecha', 'count_out', 'nombre']]

# Eliminar valores nulos

In [None]:
# No lo hacemos persistente el cambio, 
# solo muestra el df total resultado tras eliminar
dfb.dropna(how='any')['nombre'].value_counts().sort_index()

In [None]:
# en caso de haber nulos eliminaría los registros
df2 = dfb.dropna(how='any').copy()
df2.shape

In [None]:
df2.isna().sum()

# Análisis exploratorio

In [None]:
df2 = pd.read_csv('./data/interim/usobarriosmeteo.csv')
df2.tail()

In [None]:
var_analisis = "name"

In [None]:
# Número de estaciones disponibles
# Estaciones únicas
df2[var_analisis].unique()
# Número de estaciones disponibles
# df2[var_analisis].unique().shape[0]

In [None]:
# Recuento de registros por estación
df2[var_analisis].value_counts()
# Vemos si hay variaciones en toda la muestra
df2[var_analisis].value_counts().describe()

In [None]:
# Conversión de la columna updated
df2["fecha"] = pd.to_datetime(df2.fecha)
# Rango temporal de la muestra
print(df2["fecha"].min(), df2["fecha"].max())

In [None]:
# Descripción de todas las variables disponibles
df2.describe(include="all")

In [None]:
# Muestra por barrios el uso de bicicleta medio y desviación
df2.groupby(by=var_analisis).agg(av_mean=pd.NamedAgg(column="uso_bici", aggfunc="mean"),
                            av_std=pd.NamedAgg(column="uso_bici", aggfunc="std"))\
                            .sort_values("av_std", ascending=False)

In [None]:
# Pivot table es útil para hacer agrupaciones con distintas variables categóricas
df2.pivot_table(index='name', columns=df2.fecha.dt.hour, values='uso_bici')

In [None]:
# Estilos para visualización de tablas
headers = {
    'selector': 'th.col_heading',
    'props': 'background-color: #5E17EB; color: white;'
}

index_style = {
    'selector': 'th.index_name',
    'props': 'background-color: #5E17EB; color: white;'
}

In [None]:
df2.pivot_table(index=df2.fecha.dt.hour, columns='name', values='uso_bici').round(2)\
.style.set_table_styles([headers, index_style])\
.background_gradient(cmap='viridis')

In [None]:
# Combinación de tablas con visualizaciones para resaltar tendencias
df2.pivot_table(index=df2.fecha.dt.hour, columns='name', values='uso_bici').round(2).abs()\
    .style.set_table_styles([headers, index_style])\
    .set_properties(**{'background-color': 'green', 'color': 'green'})\
    .bar(color='#BEEAE5')

## Estudio por barrio

In [None]:
# Filtrado de datos usando .loc
df2.loc[df2['name']=='RUSSAFA', :]

In [None]:
df2.loc[df2['name']=='RUSSAFA', :]\
    .pivot_table(index=df2.fecha.dt.hour, columns='name', values='uso_bici').round(2).abs()\
    .style.set_table_styles([headers, index_style])\
    .set_properties(**{'background-color': 'green', 'color': 'green'})\
    .bar(color='#BEEAE5')

In [None]:
# Filtra para comparar algunos de los barrios 
lista_filtro = ["RUSSAFA", "PATRAIX"]
df2.loc[df2['name'].isin(lista_filtro), :]\
    .pivot_table(index=df2.fecha.dt.hour, columns='name', values=['uso_bici', 'tamax'], aggfunc='mean')\
    .round(2).abs()\
    .style.set_table_styles([headers, index_style])\
    .set_properties(**{'background-color': 'green', 'color': 'green'})\
    .bar(color='#BEEAE5')

# Mejorar procesos de análisis

Importante ver la actividad de github:

https://github.com/ydataai/ydata-profiling
```
pip install ydata-profiling
```
[Documentación profiling](https://docs.profiling.ydata.ai/latest/)
```
pip install dtale
```

Alternativas:
- https://github.com/fbdesignpro/sweetviz
- https://github.com/AutoViML/AutoViz

In [None]:
# Se pueden ver los datos desde el cuaderno, como muestras...
df2.sample()

In [None]:
import dtale
from ydata_profiling import ProfileReport

In [None]:
profile = ProfileReport(df2, title="Profiling Report")

profile.to_file("./documentos/informe_bicis.html")

## Dtale

Crear el fichero en csv:
```
df2.to_csv('./data/usobici.csv', index=False)
```
Error en versiones de python 3.12

En terminal:
```
df = pd.read_csv('./data/usobici.csv')
df["fecha"] = pd.to_datetime(df.fecha)
d = dtale.show(df)
d.open_browser()
```

# Conclusiones
- Se ha analizado el dataset