## 1. Dataset Exploration
  - What information does each column contain?
  - Are there missing or duplicated values?
  - What is the overall time span of the trips?

In [2]:
import pandas as pd

# Load Titanic dataset
# (Make sure titanic.csv is in the same folder as this notebook)
df = pd.read_excel("ny_citibikes_raw.xlsx")

# Show first few rows
df.head()

Unnamed: 0,Start Time,Stop Time,Start Station ID,Start Station Name,End Station ID,End Station Name,Bike ID,User Type,Birth Year,Age,Age Groups,Trip Duration,Trip_Duration_in_min,Month,Season,Temperature,Weekday
0,2017-01-01 00:38:00,2017-01-01 01:03:00,3194,McGinley Square,3271,Danforth Light Rail,24668,Subscriber,1961,60,55-64,1513,25,1,Winter,10,Sunday
1,2017-01-01 01:47:00,2017-01-01 01:58:00,3183,Exchange Place,3203,Hamilton Park,26167,Subscriber,1993,28,25-34,639,11,1,Winter,10,Sunday
2,2017-01-01 01:47:00,2017-01-01 01:58:00,3183,Exchange Place,3203,Hamilton Park,26167,Subscriber,1993,28,25-34,639,11,1,Winter,10,Sunday
3,2017-01-01 01:56:00,2017-01-01 02:00:00,3186,Grove St PATH,3270,Jersey & 6th St,24604,Subscriber,1970,51,45-54,258,4,1,Winter,10,Sunday
4,2017-01-01 02:12:00,2017-01-01 02:23:00,3270,Jersey & 6th St,3206,Hilltop,24641,Subscriber,1978,43,35-44,663,11,1,Winter,10,Sunday


  # - What information does each column contain?

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20400 entries, 0 to 20399
Data columns (total 17 columns):
 #   Column                Non-Null Count  Dtype         
---  ------                --------------  -----         
 0   Start Time            20400 non-null  datetime64[ns]
 1   Stop Time             20400 non-null  datetime64[ns]
 2   Start Station ID      20400 non-null  int64         
 3   Start Station Name    20400 non-null  object        
 4   End Station ID        20400 non-null  int64         
 5   End Station Name      20399 non-null  object        
 6   Bike ID               20400 non-null  int64         
 7   User Type             20400 non-null  object        
 8   Birth Year            20400 non-null  int64         
 9   Age                   20400 non-null  int64         
 10  Age Groups            20400 non-null  object        
 11  Trip Duration         20400 non-null  int64         
 12  Trip_Duration_in_min  20400 non-null  int64         
 13  Month           

Muestra el tipo de dato de cada columna, cantidad de nulos y la memoria utilizada

# - Are there missing or duplicated values?

In [None]:
df.isna().sum()

Con isna() se ve los valores faltantes. Tras aplicar df.isnull().sum(), se observa que solo la columna End Station Name contiene valores faltantes, y únicamente 1 valor

In [24]:
df.duplicated().sum()

np.int64(3555)

In [18]:
df[df.duplicated()]

Unnamed: 0,Start Time,Stop Time,Start Station ID,Start Station Name,End Station ID,End Station Name,Bike ID,User Type,Birth Year,Age,Age Groups,Trip Duration,Trip_Duration_in_min,Month,Season,Temperature,Weekday
2,2017-01-01 01:47:00,2017-01-01 01:58:00,3183,Exchange Place,3203,Hamilton Park,26167,Subscriber,1993,28,25-34,639,11,1,Winter,10,Sunday
9,2017-01-01 03:52:00,2017-01-01 03:55:00,3203,Hamilton Park,3213,Van Vorst Park,24442,Subscriber,1986,35,35-44,204,3,1,Winter,10,Sunday
11,2017-01-01 06:29:00,2017-01-01 06:31:00,3186,Grove St PATH,3211,Newark Ave,24681,Subscriber,1964,57,55-64,107,2,1,Winter,10,Sunday
21,2017-01-01 10:03:00,2017-01-01 10:10:00,3267,Morris Canal,3273,Manila & 1st,26215,Subscriber,1957,64,55-64,424,7,1,Winter,10,Sunday
51,2017-01-01 15:13:00,2017-01-01 15:16:00,3205,JC Medical Center,3275,Columbus Drive,24448,Subscriber,1984,37,35-44,226,4,1,Winter,10,Sunday
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
20377,2017-03-31 18:19:00,2017-03-31 18:34:00,3195,Sip Ave,3191,Union St,26268,Subscriber,1971,50,45-54,946,16,3,Spring,18,Friday
20386,2017-03-31 18:54:00,2017-03-31 19:03:00,3195,Sip Ave,3212,Christ Hospital,26281,Subscriber,1989,32,25-34,519,9,3,Spring,18,Friday
20391,2017-03-31 20:46:00,2017-03-31 20:54:00,3186,Grove St PATH,3203,Hamilton Park,24558,Subscriber,1967,54,45-54,467,8,3,Spring,18,Friday
20395,2017-03-31 21:06:00,2017-03-31 21:10:00,3186,Grove St PATH,3203,Hamilton Park,24608,Subscriber,1968,53,45-54,244,4,3,Spring,18,Friday


Con esto puede verse que tenemos en el dataset 355 filas duplicadas

In [28]:
df = df.drop_duplicates()

In [29]:
df.duplicated().sum()

np.int64(0)

Se eliminaron las 3555 filas duplicadas utilizando df.drop_duplicates(), dejando un dataset más limpio y adecuado para el análisis.

# - What is the overall time span of the trips?

In [45]:
df["Trip_Duration_in_min"].sum() / 60 / 24


np.float64(112.04583333333333)

Se calcula la duracion del viaje en dias ya que si fuea en minutos seria una cantidad poco entendible para usuarios dado que seria una cifra muy grande

## 2. Basic Statistics
  - What is the average trip duration (in minutes)?
  - What is the minimum and maximum duration?
  - What are the most common start and end stations?



## What is the average trip duration (in minutes)?

In [None]:
df_month = df[df["Start Time"].dt.month == 1]
(df_month["Trip_Duration_in_min"].mean())

np.float64(8.857761420220827)

Esto dará el promedio de duración de los viajes en minutos, pero solo dentro del mes de enero.

 # - What is the minimum and maximum duration?


In [61]:
df["Trip_Duration_in_min"].min()


1

Me da el valor del viaje mas corto en minutos que vendría a ser de un minuto.

In [62]:

df["Trip_Duration_in_min"].max()

6515

Devuelve el viaje más largo registrado que vendria a ser de 6525 minutos

  # - What are the most common start and end stations?

In [None]:
df["End Station Name"].value_counts().head()

Me muestra las 5 estaciones de inicio más comunes junto con el numero de viajes que se empezaron en ella.

In [None]:
df["End Station Name"].value_counts().head()

Me muestra las estaciones donde más viajes terminaron, junto con el número de veces que aparecen.


## 3. Users and Demographics
  - How many unique bikes were used?
  - What are the proportions of user types (Subscriber vs Customer)?
  - What is the age distribution of the users? Which age group uses the service the most?



 ## -How many unique bikes were use

In [115]:

mes = 2
df_mes = df[df["Start Time"].dt.month == mes ]
df_mes["Bike ID"].nunique()

393

Me muestra cuántas bicicletas diferentes se utilizaron en el mes de febrero.

 ## - What are the proportions of user types (Subscriber vs Customer)?

In [117]:
df["User Type"].value_counts(normalize=True) * 100

User Type
Subscriber       98.112199
One-time user     1.887801
Name: proportion, dtype: float64

En este caso, me esta mostando el porcentaje de clientes o sucriptores que utilizan las bicis.

## -What is the age distribution of the users? Which age group uses the service the most?


In [122]:
df["Age Groups"].value_counts()

Age Groups
35-44    7698
25-34    4002
45-54    2973
55-64    1448
65-74     615
75+        55
18-24      54
Name: count, dtype: int64

Nos muestra la distribuicion por edades con la cantidad de personas que pertenecen a esas edades.

In [121]:
df["Age Groups"].value_counts().idxmax()

'35-44'

Nos muestra que el grupo de eddades que más usa las bicicletas es el de 35-44.

## 4. Temporal Analysis
  - How does the number of trips vary by weekday?
  - Which month or season has the most rides?
  - What time of day do most trips start?



# - How does the number of trips vary by weekday?

In [None]:
mes = 2  
df_mes = df[df["Month"] == mes]

df_mes["Weekday"].value_counts()

Weekday
Wednesday    932
Tuesday      876
Monday       808
Friday       673
Thursday     626
Saturday     607
Sunday       530
Name: count, dtype: int64

Muestra cuántos viajes hubo en cada día de la semana, pero solo para el mes de febrero.

# - Which month or season has the most rides?

In [134]:
df["Month"].value_counts()

Month
3    7174
2    5052
1    4619
Name: count, dtype: int64

Me esta mostrando cuantos viajes se hacen en los meses que estan registrados en el dataset, y aparentemente en el mes de marzo es cuando se hicieron más viajes.

In [133]:
df["Season"].value_counts()


Season
Winter    9671
Spring    7174
Name: count, dtype: int64

Me esta mostrando cuantos viajes se hacen en las estaciones de verano e invierno que estan registrados en el dataset, y aparentemente en invierno se hacen más.

# - What time of day do most trips start?

In [147]:
df.loc[:, "Start_Hour"] = df["Start Time"].dt.hour
df["Start_Hour"].value_counts().head(1)

Start_Hour
8    2196
Name: count, dtype: int64

Muestra que la hora en la que suelen empezar la mayoria de los viajes es a las 8 y la cantidad total de viajes.

# 5. Geographic Analysis
  - Which station pairs (start → end) appear most often?
  - Are there any stations that appear only as start or only as end stations?

# - Which station pairs (start → end) appear most often?

In [150]:
df.groupby(["Start Station Name", "End Station Name"]).size().sort_values(ascending=False).head(10)


Start Station Name  End Station Name
Hamilton Park       Grove St PATH       401
Morris Canal        Exchange Place      366
Dixon Mills         Grove St PATH       293
Exchange Place      Morris Canal        290
Grove St PATH       Hamilton Park       273
Jersey & 6th St     Grove St PATH       236
Brunswick St        Grove St PATH       235
Monmouth and 6th    Grove St PATH       227
McGinley Square     Sip Ave             227
Van Vorst Park      Grove St PATH       222
dtype: int64

Podemos observar que el recorrido Hamilton Park-Grove St PATH es el más repetido.

# - Are there any stations that appear only as start or only as end stations?

In [151]:
solo_inicio = set(df["Start Station Name"]) - set(df["End Station Name"])
solo_inicio

set()

Devuelve un listado de estaciones que solo sirven para empezar un viaje.

In [152]:
solo_fin = set(df["End Station Name"]) - set(df["Start Station Name"])
solo_fin

{'Broadway & W 36 St',
 'E 15 St & 3 Ave',
 'Indiana',
 'JCBS Depot',
 'W 45 St & 8 Ave',
 'Warren St & Church St',
 nan}

Devuelve un listado de estaciones que solo sirven para terminar un viaje.

# 6. Temperature and Duration
  - Is there any visible relationship between temperature and trip duration?

  - How does average trip duration vary by season?

# - Is there any visible relationship between temperature and trip duration?

In [4]:
df["Temperature"].corr(df["Trip_Duration_in_min"])

np.float64(-0.003545277063892243)

No existe ninguna relación visible entre la temperatura y la duración del viaje.
Los usuarios no hacen viajes más largos ni más cortos según haga más o menos temperatura.

#  - How does average trip duration vary by season?

In [5]:

df.groupby("Season")["Trip_Duration_in_min"].mean()


Season
Spring    9.477532
Winter    9.327965
Name: Trip_Duration_in_min, dtype: float64

La duración media de los viajes es ligeramente mayor en primavera (9.48 min) que en invierno (9.33 min). La diferencia es pequeña, por lo que la temporada no parece influir mucho en la duración de los viajes.


# 7. Summary and Interpretation
  - Write a short summary (5–10 lines) of your findings.
  - Mention patterns, anomalies, or interesting trends you observed.

# - Write a short summary (5–10 lines) of your findings.

El conjunto de datos contiene 20.400 viajes de Citi Bike con información completa en casi todas las columnas, salvo un valor faltante en la estación de fin. Tras eliminar 3.555 duplicados, el dataset queda más limpio y representativo. 

El periodo analizado abarca de enero a marzo de 2017. Las estaciones más frecuentes son Hamilton Park como inicio y Grove St PATH como destino. 

La duración media de los viajes es de unos 9 minutos, con un mínimo de 1 minuto y un máximo de 108. 

La mayoría de usuarios son suscriptores (98%), y el grupo de edad más común es el de 35–44 años. 

Los viajes se concentran especialmente los miércoles y en las horas punta de la mañana, sobre todo a las 8 AM. No se observa relación entre la temperatura y la duración, y las diferencias entre estaciones del año son mínimas.

# - Mention patterns, anomalies, or interesting trends you observed.

Se observa un claro pico de actividad a las 8 AM y los miércoles, lo que indica un uso principalmente laboral. 

Las estaciones más utilizadas son Hamilton Park y Grove St PATH. 
El grupo de edad que más usa el servicio es el de 35–44 años, y la mayoría son suscriptores. 

No existe relación entre temperatura y duración del viaje, y las duraciones apenas cambian entre invierno y primavera. 

También se encontraron muchos duplicados, una anomalía corregida durante la limpieza del dataset.