# Bike Sharing System 2011-2012

> #### Hipótesis
**La hipótesis principal de este proyecto es que la estación del año tiene un 
impacto en la cantidad de los viajes en bicicleta. Específicamente, 
se espera que el uso de bicicletas varíe de manera estacional, con picos durante las 
estaciones más cálidas y una disminución en las estaciones más frías.**
 

Importamos librerías

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

Cargamos Datos Crudos

In [None]:
df = pd.read_csv('./bike+sharing+dataset/hour.csv')
df.head()

In [None]:
df.shape

In [None]:
df2011 = df.query('yr == 0')
df2011.head()

In [None]:
df2011.shape

In [None]:
df2011.to_csv('Dataset_2011.csv')

In [None]:
df2012 = df.query('yr == 1')
df2012.to_csv('Dataset_2012.csv')

In [50]:
df2011 = pd.read_csv('Dataset_2011.csv', sep=',', index_col='instant')
df2011.head()

Unnamed: 0_level_0,Unnamed: 0,dteday,season,yr,mnth,hr,holiday,weekday,workingday,weathersit,temp,atemp,hum,windspeed,casual,registered,cnt
instant,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1
1,0,2011-01-01,1,0,1,0,0,6,0,1,0.24,0.2879,0.81,0.0,3,13,16
2,1,2011-01-01,1,0,1,1,0,6,0,1,0.22,0.2727,0.8,0.0,8,32,40
3,2,2011-01-01,1,0,1,2,0,6,0,1,0.22,0.2727,0.8,0.0,5,27,32
4,3,2011-01-01,1,0,1,3,0,6,0,1,0.24,0.2879,0.75,0.0,3,10,13
5,4,2011-01-01,1,0,1,4,0,6,0,1,0.24,0.2879,0.75,0.0,0,1,1


In [51]:
df2011.shape

(8645, 17)

- Cargamos el DataFrame, luego de guardarlo en un archivo .CSV. 
- Ahora analizaremos los tipos de datos, si se encuentran valores nulos como duplicados y trataremos con ellos para después de la limpieza comenzar a responder nuestra hipotesis.

In [52]:
df2011 = df2011.drop('Unnamed: 0', axis=1)
df2011.head()

Unnamed: 0_level_0,dteday,season,yr,mnth,hr,holiday,weekday,workingday,weathersit,temp,atemp,hum,windspeed,casual,registered,cnt
instant,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1
1,2011-01-01,1,0,1,0,0,6,0,1,0.24,0.2879,0.81,0.0,3,13,16
2,2011-01-01,1,0,1,1,0,6,0,1,0.22,0.2727,0.8,0.0,8,32,40
3,2011-01-01,1,0,1,2,0,6,0,1,0.22,0.2727,0.8,0.0,5,27,32
4,2011-01-01,1,0,1,3,0,6,0,1,0.24,0.2879,0.75,0.0,3,10,13
5,2011-01-01,1,0,1,4,0,6,0,1,0.24,0.2879,0.75,0.0,0,1,1


La instancia se tomaba como índice que comienza desde el 1, por eso su ubicación. El unhamed, eralo mismo pero desde 0 prefiero trabajar con uno solo de ellos y elegí la instancia

In [53]:
df2011.shape

(8645, 16)

In [55]:
df2011.columns

Index(['dteday', 'season', 'yr', 'mnth', 'hr', 'holiday', 'weekday',
       'workingday', 'weathersit', 'temp', 'atemp', 'hum', 'windspeed',
       'casual', 'registered', 'cnt'],
      dtype='object')

Claro, puedo traducirte los campos y proporcionarte una breve explicación de cada uno en español:

1. **instant**: índice del registro.
   - *Explicación*: Este campo simplemente contiene un número de índice que identifica cada registro en el conjunto de datos.

2. **dteday**: fecha.
   - *Explicación*: Este campo almacena la fecha en la que se registró la información.

3. **season**: estación (1: primavera, 2: verano, 3: otoño, 4: invierno).
   - *Explicación*: Indica la estación del año en la que se registraron los datos, con valores numéricos que corresponden a las estaciones.

4. **yr**: año (0: 2011, 1: 2012).
   - *Explicación*: Representa el año en el que se registraron los datos, donde "0" se refiere a 2011 y "1" a 2012.

5. **mnth**: mes (1 a 12).
   - *Explicación*: Indica el mes en el que se registraron los datos, con valores numéricos del 1 al 12 correspondientes a los meses.

6. **hr**: hora (0 a 23).
   - *Explicación*: Muestra la hora del día en la que se registraron los datos, en formato de 24 horas (0 a 23).

7. **holiday**: día festivo (si el día es festivo o no).
   - *Explicación*: Indica si el día en cuestión es un día festivo ("1" si lo es y "0" si no lo es). La información se extrae de un calendario de festivos.

8. **weekday**: día de la semana.
   - *Explicación*: Representa el día de la semana en el que se registraron los datos.

9. **workingday**: si el día es laborable (1 si el día no es fin de semana ni festivo, de lo contrario 0).
   - *Explicación*: Indica si el día es laborable (día hábil) con un valor de "1" si no es un fin de semana ni un día festivo, y "0" en caso contrario.

10. **weathersit**: situación meteorológica.
    - *Explicación*: Describe la situación meteorológica en el momento de la observación, con valores numéricos que representan diferentes condiciones climáticas.

    1. Despejado, Pocas nubes, Parcialmente nublado, Parcialmente nublado
    **Explicación**: Indica condiciones meteorológicas en las que el cielo está despejado o parcialmente nublado, con pocas nubes visibles.
    2. Niebla + Nublado, Niebla + Nubes rotas, Niebla + Pocas nubes, Niebla
    **Explicación**: Hace referencia a condiciones de niebla o bruma en combinación con nubes o cielo nublado.
    3. Lluvia ligera, Lluvia ligera + Tormenta + Nubes dispersas, Lluvia ligera + Nubes dispersas
    **Explicación**: Representa condiciones de lluvia ligera junto con la presencia de tormentas o nubes dispersas en el cielo.
    4. Lluvia intensa + Granizo + Tormenta + Niebla, Nieve + Niebl
    **Explicación**: Indica condiciones meteorológicas adversas, como lluvia intensa, granizo, tormenta, niebla o nevada con visibilidad reducida debido a la niebla.

11. **temp**: temperatura normalizada en Celsius.
    - *Explicación*: La temperatura se encuentra normalizada y se expresa en grados Celsius. Los valores se han ajustado y se dividen entre 41, donde 41 es la temperatura máxima posible.

12. **atemp**: sensación térmica normalizada en Celsius.
    - *Explicación*: Al igual que la temperatura, la sensación térmica se encuentra normalizada y se expresa en grados Celsius. Los valores se han ajustado y se dividen entre 50, donde 50 es la sensación térmica máxima posible.

13. **hum**: humedad normalizada.
    - *Explicación*: La humedad se encuentra normalizada y los valores se dividen entre 100, donde 100 representa la humedad máxima posible.

14. **windspeed**: velocidad del viento normalizada.
    - *Explicación*: La velocidad del viento se encuentra normalizada y los valores se dividen entre 67, donde 67 es la velocidad máxima posible del viento.

15. **casual**: conteo de usuarios casuales.
    - *Explicación*: Muestra la cantidad de usuarios que alquilaron bicicletas de forma casual.

16. **registered**: conteo de usuarios registrados.
    - *Explicación*: Indica la cantidad de usuarios que están registrados en el sistema y alquilaron bicicletas.

17. **cnt**: conteo total de bicicletas alquiladas, incluyendo usuarios casuales y registrados.
    - *Explicación*: Representa el total de bicicletas alquiladas en un período determinado, incluyendo tanto a usuarios casuales como a usuarios registrados.

Estos campos son parte de un conjunto de datos relacionado con el alquiler de bicicletas y proporcionan información sobre diversos aspectos de las condiciones meteorológicas, la fecha, la estación y el uso de bicicletas.

In [54]:
df2011.describe()

Unnamed: 0,season,yr,mnth,hr,holiday,weekday,workingday,weathersit,temp,atemp,hum,windspeed,casual,registered,cnt
count,8645.0,8645.0,8645.0,8645.0,8645.0,8645.0,8645.0,8645.0,8645.0,8645.0,8645.0,8645.0,8645.0,8645.0,8645.0
mean,2.513592,0.0,6.573973,11.573626,0.027646,3.012724,0.683748,1.437594,0.489069,0.469,0.64343,0.191172,28.600578,115.193869,143.794448
std,1.105477,0.0,3.428147,6.907822,0.163966,2.00637,0.46504,0.653859,0.197943,0.17676,0.196293,0.123191,38.840789,109.461014,133.797854
min,1.0,0.0,1.0,0.0,0.0,0.0,0.0,1.0,0.02,0.0,0.0,0.0,0.0,0.0,1.0
25%,2.0,0.0,4.0,6.0,0.0,1.0,0.0,1.0,0.32,0.3182,0.49,0.1045,3.0,26.0,31.0
50%,3.0,0.0,7.0,12.0,0.0,3.0,1.0,1.0,0.5,0.4848,0.65,0.194,14.0,90.0,109.0
75%,3.0,0.0,10.0,18.0,0.0,5.0,1.0,2.0,0.66,0.6212,0.81,0.2836,38.0,168.0,211.0
max,4.0,0.0,12.0,23.0,1.0,6.0,1.0,4.0,0.96,1.0,1.0,0.8507,272.0,567.0,651.0
