# Exploración de los datos
Se hace una inspección del tipo de dato de cada columna de las tres tablas para hacerlas homogéneas.
<br> Posteriormente se hace una inspección para entender mejor qué es cada variable.

* Nota: Todos los registros son de febrero. 

In [1]:
import pandas as pd

### Primera tabla: febrero 2020
1. ¿Hay valores nulos? **No**
2. ¿Qué tipos de datos son las columnas, y qué quieren decir?
 * **tripduration**: Entero. Tiempo en segundos que duró el viaje
 * **starttime**: Cadena. Marca de tiempo del inicio del viaje en formato de 24 horas: *aaaa-mm-dd hh:mm:ss.ssss*
 * **stopttime**: Cadena. Marca de tiempo del fin del viaje en formato de 24 horas: *aaaa-mm-dd hh:mm:ss.ssss*
 * **start station id**: Entero. Id de la estación de donde se toma la bicicleta
 * **start station name**: Cadena. Nombre de la estación de donde se toma la bicicleta
 * **start station latitude**: Flotante. Latitud en coordenada geográfica decimal de la estación donde se toma la bicicleta. No se indica, pero debe ser WGS84.
 * **start station longitude**: Flotante. Longitud en coordenada geográfica decimal de la estación donde se toma la bicicleta. No se indica, pero debe ser WGS84.
 * **end station id**: Entero. Id de la estación donde se deja la bicicleta
 * **end station name**: Cadena. Nombre de la estación de donde se toma la bicicleta
 * **end station latitude**: Flotante. Latitud en coordenada geográfica decimal de la estación donde se deja la bicicleta. No se indica, pero debe ser WGS84
 * **end station longitude**: Flotante. Longitud en coordenada geográfica decimal de la estación donde se deja la bicicleta. No se indica, pero debe ser WGS84.
 * **bikeid**: Entero. Id de la bicicleta que se renta.
 * **usertype**: Cadena. Uno de dos tipos de usuario: 'Subscriber' para miembros anuales; y 'Customer' para pases de 24 horas o tres días.
 * **birth year**: Entero. Año de nacimiento del usuario.
 * **gender**: Entero. Género de la persona bajo la clasificación: (0 = Desconocido, 1 = Hombre, 2 = Mujer)

In [2]:
jc_2020 = pd.read_csv('citibike//JC-202002-citibike-tripdata.csv')

In [3]:
jc_2020.isnull().sum()

tripduration               0
starttime                  0
stoptime                   0
start station id           0
start station name         0
start station latitude     0
start station longitude    0
end station id             0
end station name           0
end station latitude       0
end station longitude      0
bikeid                     0
usertype                   0
birth year                 0
gender                     0
dtype: int64

In [4]:
jc_2020.dtypes

tripduration                 int64
starttime                   object
stoptime                    object
start station id             int64
start station name          object
start station latitude     float64
start station longitude    float64
end station id               int64
end station name            object
end station latitude       float64
end station longitude      float64
bikeid                       int64
usertype                    object
birth year                   int64
gender                       int64
dtype: object

In [5]:
jc_2020.shape

(22962, 15)

### Segunda tabla: febrero 2021 
1. ¿Hay valores nulos? **Sí.** Hay cuatro columnas relacionadas con la estación donde se deja la bicicleta. Las 4 tienen el mísmo número de elementos nulos. Se sospecha que sólo fueron 68 registros afectados. No se piensa eliminarlas, sólo es una consideración a tener en cuenta más adelante.
2. ¿Qué tipos de datos son las columnas, y qué quieren decir?
 * **ride_id**: Cadena. Identificador conformado por un código cuya nomenclatura no es clara. No tiene columna equivalente con jc_202002.
 * **rideable_type**: Cadena. Es el tipo de bicicleta. Sólo tiene la etiqueta *docked_bike*. No tiene columna equivalente con jc_202002.
 * **started_at**: Cadena. Marca de tiempo del inicio del viaje en formato de 24 horas: *aaaa-mm-dd hh:mm:ss*. Equivale a la columna **starttime** de la tabla jc_202002.
 * **ended_at**: Cadena. Marca de tiempo del fin del viaje en formato de 24 horas: *aaaa-mm-dd hh:mm:ss*. Equivale a la columna **stoptime** de la tabla jc_202002.
 * **start_station_name**: Cadena. Nombre de la estación de donde se toma la bicicleta. Equivale a la columna **start station name** de la tabla jc_202002.
 * **start_station_id**: Cadena. Id de la estación de donde se toma la bicicleta. Equivale a la columna **start station id** de la tabla jc_202002, con la excepción que este id tiene *JC* como prefijo, por lo que es cadena.
 * **end_station_name**: Cadena. Nombre de la estación de donde se toma la bicicleta. Equivale a la columna **end station name** de la tabla jc_202002.
 * **end_station_id**: Cadena. Id de la estación de donde se toma la bicicleta. Equivale a la columna **end station id** de la tabla jc_202002, con la excepción que este id tiene dos letras *XX* como prefijo, y algunos elementos numéricos (con índices 71, 305, 1852), por lo que es cadena.
 * **start_lat**: Flotante. Latitud en coordenada geográfica decimal de la estación donde se toma la bicicleta. No se indica, pero debe ser WGS84. Equivale a la columna **start station latitude** de la tabla jc_202002.
 * **start_lng**: Flotante. Longitud en coordenada geográfica decimal de la estación donde se toma la bicicleta. No se indica, pero debe ser WGS84. Equivale a la columna **start station longitude** de la tabla jc_202002.
 * **end_lat**: Flotante. Latitud en coordenada geográfica decimal de la estación donde se deja la bicicleta. No se indica, pero debe ser WGS84. Equivale a la columna **end station latitude** de la tabla jc_202002.
 * **end_lng**: Flotante. Longitud en coordenada geográfica decimal de la estación donde se deja la bicicleta. No se indica, pero debe ser WGS84. Equivale a la columna **end station longitude** de la tabla jc_202002.
 * **member_casual**: Cadena. Se sospecha que sea uno de dos tipos de usuario: 'member' para miembros anuales; y 'casual' para pases de 24 horas o tres días. Equivale a la columna **usertype** de la tabla jc_202002.

In [6]:
jc_2021 = pd.read_csv('citibike//JC-202102-citibike-tripdata.csv')

In [7]:
jc_2021.isnull().sum()

ride_id                0
rideable_type          0
started_at             0
ended_at               0
start_station_name     0
start_station_id       0
end_station_name      68
end_station_id        68
start_lat              0
start_lng              0
end_lat               68
end_lng               68
member_casual          0
dtype: int64

In [8]:
jc_2021.dtypes

ride_id                object
rideable_type          object
started_at             object
ended_at               object
start_station_name     object
start_station_id       object
end_station_name       object
end_station_id         object
start_lat             float64
start_lng             float64
end_lat               float64
end_lng               float64
member_casual          object
dtype: object

In [9]:
jc_2021.shape

(4881, 13)

### Tercera tabla: febrero 2022 
1. ¿Hay valores nulos? **Sí.** Hay cuatro columnas relacionadas con la estación donde se deja la bicicleta. **Dos tienen 116 elementos nulos, y las otras dos tienen 75 elementos nulos**. No se piensa eliminarlas, sólo es una consideración a tener en cuenta más adelante.
2. ¿Qué tipos de datos son las columnas, y qué quieren decir?
 * **ride_id**: Cadena. Identificador conformado por un código cuya nomenclatura no es clara. No tiene columna equivalente con jc_202002.
 * **rideable_type**: Cadena. Es el tipo de bicicleta. Tiene las etiqueta *docked_bike* (157) y *classic_bike* (31,754). No tiene columna equivalente con jc_202002.
 * **started_at**: Cadena. Marca de tiempo del inicio del viaje en formato de 24 horas: *aaaa-mm-dd hh:mm:ss*. Equivale a la columna **starttime** de la tabla jc_202002.
 * **ended_at**: Cadena. Marca de tiempo del fin del viaje en formato de 24 horas: *aaaa-mm-dd hh:mm:ss*. Equivale a la columna **stoptime** de la tabla jc_202002.
 * **start_station_name**: Cadena. Nombre de la estación de donde se toma la bicicleta. Equivale a la columna **start station name** de la tabla jc_202002.
 * **start_station_id**: Cadena. Id de la estación de donde se toma la bicicleta. Equivale a la columna **start station id** de la tabla jc_202002, con la excepción que este id tiene *XX* como prefijo.
 * **end_station_name**: Cadena. Nombre de la estación de donde se toma la bicicleta. Equivale a la columna **end station name** de la tabla jc_202002.
 * **end_station_id**: Cadena. Id de la estación de donde se toma la bicicleta. Equivale a la columna **end station id** de la tabla jc_202002, con la excepción que este id tiene dos letras *XX* como prefijo, y algunos elementos numéricos (con índices 580, 581, 859, 1538, 1623, 3361, 3403, 4238, 5021, 5061, 5277, 5329, 7073, 8286, 8755, 8857, 9116, 9569, 10027, 10475, 13124, 14641, 14645, 14859, 15342, 18910, 20614).
 * **start_lat**: Flotante. Latitud en coordenada geográfica decimal de la estación donde se toma la bicicleta. No se indica, pero debe ser WGS84. Equivale a la columna **start station latitude** de la tabla jc_202002.
 * **start_lng**: Flotante. Longitud en coordenada geográfica decimal de la estación donde se toma la bicicleta. No se indica, pero debe ser WGS84. Equivale a la columna **start station longitude** de la tabla jc_202002.
 * **end_lat**: Flotante. Latitud en coordenada geográfica decimal de la estación donde se deja la bicicleta. No se indica, pero debe ser WGS84. Equivale a la columna **end station latitude** de la tabla jc_202002.
 * **end_lng**: Flotante. Longitud en coordenada geográfica decimal de la estación donde se deja la bicicleta. No se indica, pero debe ser WGS84. Equivale a la columna **end station longitude** de la tabla jc_202002.
 * **member_casual**: Cadena. Se sospecha que sea uno de dos tipos de usuario: 'member' para miembros anuales; y 'casual' para pases de 24 horas o tres días. Equivale a la columna **usertype** de la tabla jc_202002.

In [10]:
jc_2022 = pd.read_csv('citibike//JC-202202-citibike-tripdata.csv')

In [11]:
jc_2022.isnull().sum()

ride_id                 0
rideable_type           0
started_at              0
ended_at                0
start_station_name      0
start_station_id        0
end_station_name      116
end_station_id        116
start_lat               0
start_lng               0
end_lat                75
end_lng                75
member_casual           0
dtype: int64

In [12]:
jc_2022.dtypes

ride_id                object
rideable_type          object
started_at             object
ended_at               object
start_station_name     object
start_station_id       object
end_station_name       object
end_station_id         object
start_lat             float64
start_lng             float64
end_lat               float64
end_lng               float64
member_casual          object
dtype: object

In [13]:
jc_2022.shape

(31911, 13)