In [1]:
import pandas as pd
import numpy as np
from datetime import date
import warnings
warnings.filterwarnings('ignore') 

# Las Maris 💃💅👸🏇🛌

In [2]:
df= pd.read_csv("bikes.csv", index_col=0)
df.head(2)

Unnamed: 0,instant,dteday,season,yr,mnth,holiday,weekday,workingday,weathersit,temp,atemp,hum,windspeed,casual,registered,cnt
0,1,01-01-2018,spring,0,1,0,6,0,2,14.110847,18.18125,80.5833,10.749882,331,654,985
1,2,02-01-2018,spring,0,1,0,0,0,2,14.902598,17.68695,69.6087,16.652113,131,670,801


## Contexto del proyecto. 🚴
La empresa *GoGreen Bikesharing*, se dedica al alquiler de bicicletas y posee datos tales como la cantidad de bicis alquiladas por usuarios registrados, la cantidad de alquileres realizados por usuarios puntuales, y la cantidad total. A estos datos se les añadió información meteorológica, y el calendario de festivos. 
Ahora buscan analizar cuáles son los aspectos que más influyen en la cantidad de bicis que van a alquilar en un día.

## Hipotesis
 - Hipótesis: La cantidad de bicicletas que necesitamos disponibles al día depende de las condiciones meteorologicas, días festivos y días de la semana.
 - H0: Nuestras variables predictoras no afectan a nuestra variable respuesta.
 - H1: Nuestras variables predictoras si afectan a nuestra variable respuesta.
 - V. respuesta: columna cnt ()

## Empezamos el EDA
Unificamos y cambiamos los nombres de las columnas

In [3]:
columnas={"instant":"index","dteday":"date","season":"season","yr":"year","mnth":"month","holiday":"holiday",\
    "weekday":"weeakday","workingday":"workingday","weathersit":"weathersit","temp":"temperature","atemp":"sensation",\
    "hum":"humidity","windspeed":"windspeed","casual":"casual","registered":"registered","cnt":"count"}
df.rename(columns = columnas, inplace = True)
df.head(2)

Unnamed: 0,index,date,season,year,month,holiday,weeakday,workingday,weathersit,temperature,sensation,humidity,windspeed,casual,registered,count
0,1,01-01-2018,spring,0,1,0,6,0,2,14.110847,18.18125,80.5833,10.749882,331,654,985
1,2,02-01-2018,spring,0,1,0,0,0,2,14.902598,17.68695,69.6087,16.652113,131,670,801


##### La forma de nuestro Dataset es:

In [4]:
print(f'Tenemos {df.shape[0]} filas y {df.shape[1]} columnas')

Tenemos 730 filas y 16 columnas


##### Duplicados

In [5]:
df.duplicated().sum()

0

Genial! no tenemos duplicados y podemos continuar con los siguientes pasos

##### Nulos

In [6]:
df.isnull().sum()

index          0
date           0
season         0
year           0
month          0
holiday        0
weeakday       0
workingday     0
weathersit     0
temperature    0
sensation      0
humidity       0
windspeed      0
casual         0
registered     0
count          0
dtype: int64

Genial! No tenemos nulos

#### Principales estadísticoss

In [7]:
df.describe(include="object").T

Unnamed: 0,count,unique,top,freq
date,730,730,01-01-2018,1
season,730,4,autumn,188


In [8]:
df.describe(include="number").T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
index,730.0,365.5,210.877136,1.0,183.25,365.5,547.75,730.0
year,730.0,0.5,0.500343,0.0,0.0,0.5,1.0,1.0
month,730.0,6.526027,3.450215,1.0,4.0,7.0,10.0,12.0
holiday,730.0,0.028767,0.167266,0.0,0.0,0.0,0.0,1.0
weeakday,730.0,2.99726,2.006161,0.0,1.0,3.0,5.0,6.0
workingday,730.0,0.683562,0.465405,0.0,0.0,1.0,1.0,1.0
weathersit,730.0,1.394521,0.544807,1.0,1.0,1.0,2.0,3.0
temperature,730.0,20.319259,7.506729,2.424346,13.811885,20.465826,26.880615,35.328347
sensation,730.0,23.726322,8.150308,3.95348,16.889713,24.368225,30.445775,42.0448
humidity,730.0,62.765175,14.237589,0.0,52.0,62.625,72.989575,97.25


#### Tipos de datos

In [9]:
df.dtypes 

index            int64
date            object
season          object
year             int64
month            int64
holiday          int64
weeakday         int64
workingday       int64
weathersit       int64
temperature    float64
sensation      float64
humidity       float64
windspeed      float64
casual           int64
registered       int64
count            int64
dtype: object

Como podemos observar tenemos varías categorías que no tienen el tipo de dato de necesitamos así que vamos a proceder con la limpieza de nuestro Dataset.

## Limpieza

Como vemos tenemos columnas con el tipo de dato mal, algunas están como númericas pero realmente son categoricas. Así que vamos a cambiarlas.

In [10]:
df["year"]=df["year"].astype("category", errors="ignore")
df["month"]=df["month"].astype("object", errors="ignore")
df["holiday"]=df["holiday"].astype("object", errors="ignore")
df["workingday"]=df["workingday"].astype("object", errors="ignore")

Convertimos la columna "date" a tipo de dato Date

In [11]:
df["date"]=pd.to_datetime(df['date'], format= "%d-%m-%Y")
df.sort_values(by='date', inplace=True)
#hacemos un reset
df.reset_index(drop=True, inplace=True)

In [12]:
# Verificamos
df.dtypes

index                   int64
date           datetime64[ns]
season                 object
year                 category
month                  object
holiday                object
weeakday                int64
workingday             object
weathersit              int64
temperature           float64
sensation             float64
humidity              float64
windspeed             float64
casual                  int64
registered              int64
count                   int64
dtype: object

La columna de estación está mal, ya que no coinciden nuestras fechas ya que están invertidas vamos a hacer un mapeo para ponerlo en el orden que corresponde.

Vemos que las categorias de season estan mal asignadas --> hacemos un mapeo:

    - spring --> winter
    - summer --> spring
    - autumn --> summer
    - winter --> autumn

In [13]:
mapa = {'spring':'winter','summer':'spring','autumn':'summer','winter':'autumn'}
df['season'] = df['season'].map(mapa)
df.sample(2)

Unnamed: 0,index,date,season,year,month,holiday,weeakday,workingday,weathersit,temperature,sensation,humidity,windspeed,casual,registered,count
107,108,2018-04-18,spring,0,4,0,1,1,1,21.0125,25.1573,54.25,10.958989,669,2760,3429
197,198,2018-07-17,summer,0,7,0,0,0,1,29.485847,33.49165,60.4167,16.417211,2006,3296,5302


Vemos que algunos meses no están bien asignados. Vamos a reemplazarlos por los valores correctos:

In [14]:
def cambiar_month(col):
    return col.month

In [15]:
df['month'] = df['date'].apply(cambiar_month)
df.sample(2)

Unnamed: 0,index,date,season,year,month,holiday,weeakday,workingday,weathersit,temperature,sensation,humidity,windspeed,casual,registered,count
528,529,2019-06-13,spring,1,6,0,3,1,1,26.889153,30.55585,58.2083,22.999693,1173,6248,7421
639,640,2019-10-02,autumn,1,10,0,2,1,3,24.224153,27.11665,87.1667,6.999825,315,4324,4639


### Cambiamos el weekday (está mal)

In [16]:
mapa_dias={6:1,0:2,1:3,2:4,3:5,4:6,5:7}
df['weeakday']=df['weeakday'].map(mapa_dias)

### Cambiamos la columna de holiday que está mal asignada.

Para eso miramos los días festivos del lugar de donde son los datos.

Festivos 2018

- Monday, January 1, 2018: New Year’s Day
- Monday, January 15, 2018: Martin Luther King Jr.’s Birthday
- Monday, February 19, 2018: Washington’s Birthday
- Monday, April 16, 2018: DC Emancipation Day
- Monday, May 28, 2018: Memorial Day
- Wednesday, July 4, 2018: Independence Day
- Monday, September 3, 2018: Labor Day
- Monday, October 8, 2018: Columbus Day
- Monday, November 12, 2018: Veterans Day*
- Thursday, November 22, 2018: Thanksgiving Day
- Tuesday, December 25, 2018: Christmas Day



Festivos 2019

- Tuesday, January 1, 2019: New Year’s Day   
- Monday, January 21, 2019: Martin Luther King, Jr.’s Birthday   
- Monday, February 18, 2019: Washington’s Birthday   
- Tuesday, April 16, 2019: DC Emancipation Day   
- Monday, May 27, 2019: Memorial Day   
- Thursday, July 4, 2019: Independence Day   
- Monday, September 2, 2019: Labor Day   
- Monday, October 14, 2019: Columbus Day   
- Monday, November 11, 2019: Veterans Day   
- Thursday, November 28, 2019: Thanksgiving Day   
- Wednesday, December 25, 2019: Christmas Day

In [17]:
# Cambiamos holiday
def hol(x):
    festivos = pd.DatetimeIndex(['2018-1-1', '2018-1-15', '2018-2-19','2018-4-16','2018-5-28','2018-7-4',
                                 '2018-9-3','2018-10-8','2018-11-12','2018-11-22','2018-12-25','2019-1-1', 
                                 '2019-1-21', '2019-2-18','2019-4-16','2019-5-27','2019-7-4','2019-9-2',
                                 '2019-10-14','2019-11-11','2019-11-28','2019-12-25'])
    if pd.DatetimeIndex([x]).isin(festivos):
        return 1 
    else:
        return 0

In [18]:
df['holiday'] = df['date'].apply(hol)
df['holiday'].sum()

22

Eliminamos las columnas redundantes.

In [19]:
df.drop(["workingday","temperature"], axis=1, inplace=True)
df.head(2)

Unnamed: 0,index,date,season,year,month,holiday,weeakday,weathersit,sensation,humidity,windspeed,casual,registered,count
0,1,2018-01-01,winter,0,1,1,1,2,18.18125,80.5833,10.749882,331,654,985
1,2,2018-01-02,winter,0,1,0,2,2,17.68695,69.6087,16.652113,131,670,801


Decidimos eliminar la columna de workingday ya que consideramos que nos da la misma información que la columna Holiday. Los mismo sucede con la columna de temperatura y sensación térmica, decidimos quedarnos con la columna de sensación termica ya que creemos que esa es la que afecta más a que nuestros usuarios decidan usar o no una de las bicicletas.

Guardamos el dataframe

In [20]:
df.to_csv("bikes_limpio.csv")

Notas:
Debemos mencionar que se ha realizado el proceso para verificar la normalidad de nuestra variable respuesta dando resultados negativos al realizarle los distintos métodos para normalizarla y así poder realizar un modelo de tipo regresión líneal. Pero al no conseguir buenos resultados procedimos a realizar el Decision Tree y Ramdom Forest, los cuales veremos y analizaremos en el siguiente Jupyter.