# Preparación del entorno

## Creación de la cuenta en GitHub

Para el desarrollo y publicación de este proyecto se ha creado una cuenta en **GitHub**, que permitirá el control de versiones del código y la publicación del notebook de análisis.

- **Usuario de GitHub:** `dfriasl`

Esta cuenta se utilizará para alojar el repositorio del proyecto, facilitando la colaboración, la reproducibilidad del análisis y la evaluación del trabajo.

## Clonado del repositorio

Una vez creada la cuenta en GitHub, se ha procedido a clonar el repositorio que contiene la base del proyecto utilizando la terminal.

Repositorio clonado:

- **URL:** `https://github.com/20rd1/actividad_github`

El clonado del repositorio se ha realizado mediante el siguiente comando:

```bash
git clone https://github.com/20rd1/actividad_github

## Creación del notebook de trabajo

Dentro del repositorio clonado se ha creado un **notebook** que servirá como documento principal para el desarrollo del análisis de datos.

El nombre del notebook sigue el criterio establecido de utilizar las iniciales del alumno, incluyendo la segunda letra del nombre y los apellidos:

- **Alumno:** Daniel Frías López  
- **Nombre del notebook:** `DAFRLO.ipynb`

Este notebook contendrá todo el proceso de análisis, desde la carga y exploración de los datos hasta las conclusiones finales, y será el archivo principal que se subirá al repositorio de GitHub.


## Selección y carga del dataset

En el notebook `DAFRLO.ipynb` se ha seleccionado el dataset **Seoul Bike Sharing Demand**, disponible en Kaggle, como fuente de datos para el análisis.

- **Dataset:** Seoul Bike Sharing Demand  
- **Fuente:** Kaggle  
- **URL:** https://www.kaggle.com/datasets/joebeachcapital/seoul-bike-sharing/data  

El alumno ha descargado el dataset desde Kaggle y ha procedido a leer sus datos dentro del notebook para su posterior exploración y análisis. Este conjunto de datos contiene información relacionada con el uso del servicio de bicicletas compartidas en Seúl, así como variables meteorológicas y temporales relevantes.

La carga correcta del dataset es un paso fundamental para garantizar la reproducibilidad del análisis y el correcto desarrollo de las actividades posteriores.


## Carga del dataset en formato CSV

Una vez descargado el dataset desde Kaggle, se procede a cargar el archivo CSV proporcionado (`SeoulBikeData.csv`) dentro del notebook para su análisis.

Para ello, se utiliza la librería **pandas**, que permite una lectura y manipulación eficiente de datos en formato tabular.


In [40]:
# Importación de la librería necesaria
import pandas as pd

# Carga del archivo CSV
df = pd.read_csv("SeoulBikeData.csv")

# Visualización de las primeras filas del dataset
df.head()


UnicodeDecodeError: 'utf-8' codec can't decode byte 0xb0 in position 40: invalid start byte

## Resolución de error de codificación al cargar el dataset

Al intentar cargar el archivo `SeoulBikeData.csv` se ha producido un error de tipo `UnicodeDecodeError`.  
Este error se debe a que el archivo CSV no está codificado en UTF-8, que es la codificación que utiliza `pandas` por defecto.

Para solucionar este problema, se especifica explícitamente una codificación compatible (`latin1` o `ISO-8859-1`) en la función `read_csv`.


In [None]:
import pandas as pd

# Carga del dataset especificando la codificación
df = pd.read_csv("SeoulBikeData.csv", encoding="latin1")

# Comprobación de la carga correcta
df.head()


Unnamed: 0,Date,Rented Bike Count,Hour,Temperature(°C),Humidity(%),Wind speed (m/s),Visibility (10m),Dew point temperature(°C),Solar Radiation (MJ/m2),Rainfall(mm),Snowfall (cm),Seasons,Holiday,Functioning Day
0,01/12/2017,254,0,-5.2,37,2.2,2000,-17.6,0.0,0.0,0.0,Winter,No Holiday,Yes
1,01/12/2017,204,1,-5.5,38,0.8,2000,-17.6,0.0,0.0,0.0,Winter,No Holiday,Yes
2,01/12/2017,173,2,-6.0,39,1.0,2000,-17.7,0.0,0.0,0.0,Winter,No Holiday,Yes
3,01/12/2017,107,3,-6.2,40,0.9,2000,-17.6,0.0,0.0,0.0,Winter,No Holiday,Yes
4,01/12/2017,78,4,-6.0,36,2.3,2000,-18.6,0.0,0.0,0.0,Winter,No Holiday,Yes


Tras especificar la codificación correcta, el dataset se ha cargado sin errores en un DataFrame de pandas, quedando listo para su exploración y análisis posterior.


## Análisis del problema

El objetivo de este análisis es estudiar el patrón de uso del sistema de **bicicletas compartidas en la ciudad de Seúl**, a partir de los datos proporcionados en el dataset *Seoul Bike Sharing Demand*.

A través del análisis de variables temporales, meteorológicas y contextuales, se busca comprender cómo influyen estos factores en la **demanda de alquiler de bicicletas**, con el fin de identificar tendencias, comportamientos recurrentes y posibles relaciones entre las variables. Este estudio puede resultar útil para la planificación del servicio, la optimización de recursos y la toma de decisiones basadas en datos.


## Selección de técnica

El enfoque más adecuado para este problema es **Regresión**.

**Justificación:**  
La variable objetivo del dataset, **`Rented Bike Count`** (número de bicicletas alquiladas), es un **valor numérico continuo**. El objetivo principal es **predecir cuántas bicicletas se alquilarán** en función de variables explicativas como la temperatura, humedad, lluvia/nieve, hora del día, día de la semana, estación, etc.

Por tanto, se trata de un **problema de regresión** porque buscamos estimar un **valor cuantitativo** (no una clase discreta).  

> Nota: En fases posteriores se podrían plantear enfoques alternativos, por ejemplo **clasificación** si se transforma la demanda en categorías (alta/media/baja) o **clustering** para agrupar patrones de uso, pero el planteamiento original encaja mejor con regresión.


## Posibles sesgos en las variables y en el origen de los datos

Al trabajar con el dataset **Seoul Bike Sharing Demand**, es importante considerar posibles sesgos que pueden afectar a la interpretación y a la capacidad de generalización de los resultados:

### 1) Sesgo temporal
- El dataset cubre un periodo concreto (un año en muchos casos), por lo que puede no reflejar cambios posteriores en hábitos de movilidad, infraestructura ciclista o políticas públicas.
- Puede haber patrones muy marcados por **estacionalidad**, festivos o eventos puntuales que no se repitan en otros años.

### 2) Sesgo geográfico
- Los datos proceden de **Seúl**, una ciudad con clima, cultura de transporte e infraestructura específicos.
- Un modelo entrenado con estos datos puede no generalizar a otras ciudades con condiciones muy diferentes.

### 3) Sesgo por variables no observadas (confusores)
- Es posible que falten variables que influyen en la demanda: precio del servicio, disponibilidad de bicicletas/estaciones, calidad del aire, huelgas/transporte público, eventos deportivos/culturales, obras, etc.
- La ausencia de estas variables puede hacer que el modelo atribuya efectos a factores meteorológicos o temporales que realmente dependen de otros elementos.

### 4) Sesgo de medición y calidad del dato
- Variables meteorológicas pueden provenir de estaciones específicas y no representar con precisión microclimas dentro de la ciudad.
- Posibles errores o valores atípicos (por ejemplo, registros anómalos de `Rented Bike Count` o condiciones meteorológicas extremas mal registradas).

### 5) Sesgo por disponibilidad del servicio
- Si en ciertos días u horas hubo menos bicicletas disponibles (por mantenimiento, redistribución o fallos), la demanda observada podría estar limitada por la oferta, no por el interés real de los usuarios.

### 6) Sesgo por definición de “functional day”
- La etiqueta de día funcional/no funcional puede simplificar realidades complejas (p. ej., días con restricciones parciales, festivos locales, periodos vacacionales), afectando a la interpretación del comportamiento de la demanda.

Tener en cuenta estos sesgos ayuda a interpretar los resultados con cautela y a proponer mejoras, como incorporar nuevas variables, validar el modelo en otros periodos o realizar análisis de sensibilidad.


## Exploración de datos: clasificación de variables

Como parte de la exploración inicial del dataset, se realiza una clasificación de las variables en función de su naturaleza:

- **Variables cuantitativas:** representan valores numéricos y permiten realizar operaciones matemáticas (medias, sumas, desviaciones, etc.).
- **Variables cualitativas (categóricas):** representan categorías o etiquetas que describen cualidades o estados.

Esta clasificación es fundamental para decidir qué tipo de análisis y transformaciones se aplicarán posteriormente a cada variable.


In [None]:
# Información general del dataset
df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8760 entries, 0 to 8759
Data columns (total 14 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   Date                       8760 non-null   object 
 1   Rented Bike Count          8760 non-null   int64  
 2   Hour                       8760 non-null   int64  
 3   Temperature(°C)            8760 non-null   float64
 4   Humidity(%)                8760 non-null   int64  
 5   Wind speed (m/s)           8760 non-null   float64
 6   Visibility (10m)           8760 non-null   int64  
 7   Dew point temperature(°C)  8760 non-null   float64
 8   Solar Radiation (MJ/m2)    8760 non-null   float64
 9   Rainfall(mm)               8760 non-null   float64
 10  Snowfall (cm)              8760 non-null   float64
 11  Seasons                    8760 non-null   object 
 12  Holiday                    8760 non-null   object 
 13  Functioning Day            8760 non-null   objec

### Resultados A partir del tipo de dato detectado por pandas:

**Variables cuantitativas (numéricas):**
- `Rented Bike Count`
- `Hour`
- `Temperature(°C)`
- `Humidity(%)`
- `Wind speed (m/s)`
- `Visibility (10m)`
- `Dew point temperature(°C)`
- `Solar Radiation (MJ/m2)`
- `Rainfall(mm)`
- `Snowfall (cm)`

**Variables cualitativas (categóricas / no numéricas):**
- `Date`
- `Seasons`
- `Holiday`
- `Functioning Day`

> Nota: Aunque `Hour` es una variable discreta (0–23), en el dataset aparece como numérica y se clasifica como **cuantitativa** a efectos de análisis/modelado.


## Exploración de datos: valores únicos por variable

Para comprender mejor la variabilidad de cada columna del dataset, se analiza la **cantidad de valores únicos** presentes en cada variable.

Este análisis permite:
- Identificar variables categóricas con pocas categorías.
- Detectar variables con alta cardinalidad.
- Anticipar posibles transformaciones o codificaciones necesarias en etapas posteriores.


In [None]:
# Cantidad de valores únicos por columna
valores_unicos = df.nunique()

# Mostrar resultados
valores_unicos


Date                          365
Rented Bike Count            2166
Hour                           24
Temperature(°C)               546
Humidity(%)                    90
Wind speed (m/s)               65
Visibility (10m)             1789
Dew point temperature(°C)     556
Solar Radiation (MJ/m2)       345
Rainfall(mm)                   61
Snowfall (cm)                  51
Seasons                         4
Holiday                         2
Functioning Day                 2
dtype: int64

El recuento de valores únicos muestra diferencias claras entre las variables:

- Variables como `Hour`, `Seasons`, `Holiday` o `Functioning Day` presentan un número reducido de valores únicos, lo que confirma su carácter categórico o discreto.
- Variables meteorológicas como `Temperature(°C)`, `Humidity(%)` o `Wind speed (m/s)` presentan una alta variabilidad.
- La variable objetivo `Rented Bike Count` muestra una amplia diversidad de valores, coherente con su naturaleza cuantitativa continua.

Este análisis facilita la toma de decisiones sobre la codificación de variables y el tipo de técnicas analíticas a aplicar.


## Análisis descriptivo: medidas de tendencia central

Las medidas de tendencia central permiten resumir la información de una variable numérica indicando un valor representativo del conjunto de datos. En este análisis se calculan las siguientes medidas:

- **Media:** valor promedio de los datos.
- **Mediana:** valor central cuando los datos están ordenados.
- **Moda:** valor que aparece con mayor frecuencia.

Estas medidas se calculan sobre las variables cuantitativas del dataset.


In [None]:
# Seleccionar variables cuantitativas
variables_cuantitativas = df.select_dtypes(include=['int64', 'float64'])


In [None]:
# Cálculo de la media
media = variables_cuantitativas.mean()
media


Rented Bike Count             704.602055
Hour                           11.500000
Temperature(°C)                12.882922
Humidity(%)                    58.226256
Wind speed (m/s)                1.724909
Visibility (10m)             1436.825799
Dew point temperature(°C)       4.073813
Solar Radiation (MJ/m2)         0.569111
Rainfall(mm)                    0.148687
Snowfall (cm)                   0.075068
dtype: float64

In [None]:
# Cálculo de la mediana
mediana = variables_cuantitativas.median()
mediana


Rented Bike Count             504.50
Hour                           11.50
Temperature(°C)                13.70
Humidity(%)                    57.00
Wind speed (m/s)                1.50
Visibility (10m)             1698.00
Dew point temperature(°C)       5.10
Solar Radiation (MJ/m2)         0.01
Rainfall(mm)                    0.00
Snowfall (cm)                   0.00
dtype: float64

In [None]:
# Cálculo de la moda
moda = variables_cuantitativas.mode()
moda


Unnamed: 0,Rented Bike Count,Hour,Temperature(°C),Humidity(%),Wind speed (m/s),Visibility (10m),Dew point temperature(°C),Solar Radiation (MJ/m2),Rainfall(mm),Snowfall (cm)
0,0.0,0,19.1,53.0,1.1,2000.0,0.0,0.0,0.0,0.0
1,,1,20.5,97.0,,,,,,
2,,2,,,,,,,,
3,,3,,,,,,,,
4,,4,,,,,,,,
5,,5,,,,,,,,
6,,6,,,,,,,,
7,,7,,,,,,,,
8,,8,,,,,,,,
9,,9,,,,,,,,


## Análisis descriptivo: medidas de dispersión

Las medidas de dispersión permiten conocer cómo se distribuyen los datos alrededor de un valor central. En este apartado se calculan las siguientes medidas:

- **Rango:** diferencia entre el valor máximo y el mínimo.
- **Varianza:** mide la dispersión promedio respecto a la media.
- **Desviación estándar:** raíz cuadrada de la varianza, expresada en las mismas unidades que la variable.
- **Rango intercuartílico (IQR):** diferencia entre el tercer y el primer cuartil (Q3 − Q1).

Estas medidas se aplican a las variables cuantitativas del dataset.


In [None]:
# Seleccionar variables cuantitativas
variables_cuantitativas = df.select_dtypes(include=['int64', 'float64'])


In [None]:
# Cálculo del rango (máximo - mínimo)
rango = variables_cuantitativas.max() - variables_cuantitativas.min()
rango


Rented Bike Count            3556.00
Hour                           23.00
Temperature(°C)                57.20
Humidity(%)                    98.00
Wind speed (m/s)                7.40
Visibility (10m)             1973.00
Dew point temperature(°C)      57.80
Solar Radiation (MJ/m2)         3.52
Rainfall(mm)                   35.00
Snowfall (cm)                   8.80
dtype: float64

In [None]:
# Cálculo de la varianza
varianza = variables_cuantitativas.var()
varianza


Rented Bike Count            416021.733390
Hour                             47.922137
Temperature(°C)                 142.678850
Humidity(%)                     414.627875
Wind speed (m/s)                  1.073918
Visibility (10m)             370027.323001
Dew point temperature(°C)       170.573247
Solar Radiation (MJ/m2)           0.754720
Rainfall(mm)                      1.272819
Snowfall (cm)                     0.190747
dtype: float64

In [None]:
# Cálculo de la desviación estándar
desviacion_estandar = variables_cuantitativas.std()
desviacion_estandar


Rented Bike Count            644.997468
Hour                           6.922582
Temperature(°C)               11.944825
Humidity(%)                   20.362413
Wind speed (m/s)               1.036300
Visibility (10m)             608.298712
Dew point temperature(°C)     13.060369
Solar Radiation (MJ/m2)        0.868746
Rainfall(mm)                   1.128193
Snowfall (cm)                  0.436746
dtype: float64

In [None]:
# Cálculo de los cuartiles
Q1 = variables_cuantitativas.quantile(0.25)
Q3 = variables_cuantitativas.quantile(0.75)

# Cálculo del rango intercuartílico
IQR = Q3 - Q1
IQR


Rented Bike Count             874.25
Hour                           11.50
Temperature(°C)                19.00
Humidity(%)                    32.00
Wind speed (m/s)                1.40
Visibility (10m)             1060.00
Dew point temperature(°C)      19.50
Solar Radiation (MJ/m2)         0.93
Rainfall(mm)                    0.00
Snowfall (cm)                   0.00
dtype: float64

## Análisis descriptivo: medidas de posición (percentiles y cuartiles)

Las medidas de posición permiten conocer la ubicación de los datos dentro de una distribución ordenada. En este apartado se calculan los **percentiles**, incluyendo los **cuartiles**, que dividen el conjunto de datos en partes iguales.

En particular:
- **Percentil 25 (Q1):** el 25% de los datos se sitúan por debajo de este valor.
- **Percentil 50 (Q2 o mediana):** el 50% de los datos se sitúan por debajo de este valor.
- **Percentil 75 (Q3):** el 75% de los datos se sitúan por debajo de este valor.

Estas medidas se calculan para las variables cuantitativas del dataset.


In [None]:
# Seleccionar variables cuantitativas
variables_cuantitativas = df.select_dtypes(include=['int64', 'float64'])


In [None]:
# Cálculo de percentiles
percentiles = variables_cuantitativas.quantile([0.25, 0.50, 0.75])
percentiles


Unnamed: 0,Rented Bike Count,Hour,Temperature(°C),Humidity(%),Wind speed (m/s),Visibility (10m),Dew point temperature(°C),Solar Radiation (MJ/m2),Rainfall(mm),Snowfall (cm)
0.25,191.0,5.75,3.5,42.0,0.9,940.0,-4.7,0.0,0.0,0.0
0.5,504.5,11.5,13.7,57.0,1.5,1698.0,5.1,0.01,0.0,0.0
0.75,1065.25,17.25,22.5,74.0,2.3,2000.0,14.8,0.93,0.0,0.0


## Representación gráfica con Plotly

En este dataset la **variable clave** es `Rented Bike Count` (demanda). Para entender mejor su comportamiento conviene relacionarla con variables explicativas:

- **Hora del día (`Hour`)**: la demanda suele seguir patrones diarios muy marcados (picos por desplazamientos).
- **Temperatura (`Temperature(°C)`)**: el clima suele tener un impacto directo en el uso.
- **Estación (`Seasons`) / Festivo (`Holiday`)

### ¿Qué variables son mejores para cada gráfico?

**1) “Histograma” relacionando demanda con otra variable (mejor visualización):**  
En vez de un histograma clásico (1 variable), es más informativo usar:
- `Rented Bike Count` vs `Hour` como **histograma agregado** (demanda media por hora) o un **heatmap** (densidad).
- `Rented Bike Count` vs `Temperature(°C)` como **histograma 2D / mapa de densidad**, para ver concentración de valores.

**2) Boxplot (outliers):**  
Para detectar valores atípicos tiene sentido aplicarlo a variables numéricas donde pueden aparecer extremos:
- `Rented Bike Count` (picos de demanda).
- `Temperature(°C)` (días extremos).
- `Rainfall(mm)` y `Snowfall (cm)` suelen tener muchos ceros y pocos valores muy altos (posibles outliers reales).
Además, un boxplot por grupos (p. ej. por estación) ayuda a ver cambios en distribución.

**3) Gráfico de barras (categórica):**  
Buenas candidatas:
- `Seasons`, `Holiday`, `Functioning Day`.  
En este caso, es muy útil representar **demanda media por estación** (bar chart), porque conecta directamente con el objetivo.



In [49]:
# Importación de la librería para visualización
import plotly.express as px

## 1) “Histograma” Demanda vs Hora del día (demanda media por hora)

Este gráfico resume la demanda a lo largo del día mostrando la **media** de `Rented Bike Count` para cada valor de `Hour`.


In [50]:
fig = px.histogram(
    df,
    x="Hour",
    y="Rented Bike Count",
    histfunc="avg",
    nbins=24,
    title="Demanda media (Rented Bike Count) vs Hora del día"
)
fig.show()


## 2) “Histograma” Demanda vs Temperatura (mapa de densidad)

Para ver mejor la relación entre demanda y temperatura se utiliza un **histograma 2D** (densidad).  
Así se observa en qué rangos de temperatura y demanda se concentran más observaciones.


In [52]:
fig = px.density_heatmap(
    df,
    x="Temperature(°C)",
    y="Rented Bike Count",
    nbinsx=30,
    nbinsy=30,
    title="Densidad: Demanda (Rented Bike Count) vs Temperatura"
)
fig.show()


## 3) Boxplot para detectar outliers

### Elección recomendada:
- **Boxplot de `Rented Bike Count`**: detecta picos de demanda.
- **Boxplot de `Rented Bike Count` por estación (`Seasons`)**: permite ver si los extremos aparecen más en alguna estación.


In [55]:
# Boxplot general: outliers en la demanda
fig = px.box(
    df,
    y="Rented Bike Count",
    title="Boxplot de Rented Bike Count (detección de outliers)"
)
fig.show()


In [54]:
# Boxplot por estación: distribución y outliers por grupo
fig = px.box(
    df,
    x="Seasons",
    y="Rented Bike Count",
    title="Boxplot: Rented Bike Count por estación (Seasons)"
)
fig.show()


## 4) Gráfico de barras para variable categórica

Se utiliza `Seasons` como variable categórica y se representa la **demanda media** por estación, lo que permite comparar fácilmente el uso del sistema entre estaciones.


In [48]:
df_seasons = df.groupby("Seasons")["Rented Bike Count"].mean().reset_index()

fig = px.bar(
    df_seasons,
    x="Seasons",
    y="Rented Bike Count",
    title="Demanda media (Rented Bike Count) por estación (Seasons)"
)
fig.show()
