# Análise de Dados da Capital Bike Share com MySQL e SQLAlchemy

A Capital Bikeshare é um serviço de compartilhamento de bicicletas na área metropolitana de DC. Ela oferece uma maneira fácil, acessível e divertida de explorar a cidade.

A Capital Bikeshare oferece opções de transporte acessíveis e divertidas para todos, independentemente da renda. Eles têm mais de 6.000 bicicletas e mais de 700 estações em 7 jurisdições: Washington, DC; Arlington, VA; Alexandria, VA; Montgomery, MD; Condado de Prince George, MD; Condado de Fairfax, VA; e a cidade de Falls Church, VA.

Existem várias opções de planos e preços disponíveis, incluindo uma única viagem, passe diário e associação anual. A Capital Bikeshare também oferece um programa de equidade expandido que permite que aqueles que se qualificam para certos programas de assistência estaduais ou federais se inscrevam individualmente.
[Capital Bikeshare](https://capitalbikeshare.com/)


![image.png](attachment:image.png)
[Fonte](https://capitalbikeshare.com/explore)


## Fonte de Dados

O projeto em questão utiliza dados da empresa Capital Bike Share e tem como objetivo analisar o padrão de utilização de bicicletas compartilhadas na região. Os dados são coletados e armazenados em um banco de dados MySQL.

O projeto utiliza a biblioteca SQLAlchemy para conectar e interagir com o banco de dados MySQL, e também faz uso das bibliotecas pandas, Plotly Express e Bokeh para análise e visualização dos dados.

Utilizei a base de dados do último trimestre de 2023 (https://s3.amazonaws.com/capitalbikeshare-data/index.html), porém acrescentei uma coluna a mais `duracao_segundos` para facilitar a performance das queries e também substitui os dados ausentes nas variáveis `estacao_inicio` e `estacao_fim` por **'Unknown'**.

In [1]:
from sqlalchemy import create_engine
import mysql.connector

import pandas as pd
import plotly.express as px
import plotly.graph_objs as go
import plotly.offline as pyo
from bokeh.io import output_notebook, show
from bokeh.plotting import figure
from bokeh.models import ColumnDataSource
from bokeh.palettes import Category20

In [2]:
%load_ext sql

In [3]:
%sql mysql+pymysql://***:***@***/*** # %sql mysql+pymysql://username:password@host/database

### 1 - Estações de início mais populares

In [5]:
# Consulta SQL
query="""
SELECT 
    estacao_inicio, 
    COUNT(*) AS total 
FROM 
    c_bike_share.TB_BIKES 
WHERE 
    estacao_inicio <> 'Unknown'
GROUP BY 
    estacao_inicio 
ORDER BY 
    total DESC 
LIMIT 10;
"""

In [6]:
# Executa a consulta SQL
result = %sql $query

# Transforma em DataFrame
df = result.DataFrame()

 * mysql+pymysql://root:***@localhost/c_bike_share
10 rows affected.


In [7]:
# Reverte a ordem dos dados
df = df[::-1]

# Atribui uma cor a cada estação
colors = Category20[10]

# Adiciona uma coluna de cores
df['colors'] = colors

# Cria um objeto ColumnDataSource
source = ColumnDataSource(df)

# Configura a saída
output_notebook()

# Cria a figura
p = figure(y_range=df['estacao_inicio'], plot_height=600, plot_width=800, title="Top 10 Estações de Início",
           toolbar_location=None, tools="")

# Cria as barras horizontais
p.hbar(y='estacao_inicio', right='total', height=0.9, source=source, color='colors')

# Defini rótulos e título
p.ygrid.grid_line_color = None
p.xaxis.axis_label = "Total"
p.yaxis.axis_label = "Estação de Início"
p.outline_line_color = None

# Exibi o gráfico
show(p)

### 2 - Estações de fim mais populares

In [8]:
query = """
SELECT 
    estacao_fim, 
    COUNT(*) AS total 
FROM 
    c_bike_share.TB_BIKES 
WHERE 
    estacao_fim <> 'Unknown'
GROUP BY 
    estacao_fim 
ORDER BY 
    total DESC 
LIMIT 10;
"""

In [9]:
result = %sql $query
df = result.DataFrame()

 * mysql+pymysql://root:***@localhost/c_bike_share
10 rows affected.


In [10]:
df = df[::-1]

colors = Category20[10]

df['colors'] = colors

source = ColumnDataSource(df)

output_notebook()

p = figure(y_range=df['estacao_fim'], plot_height=600, plot_width=800, title="Top 10 Estações de Fim",
           toolbar_location=None, tools="")

p.hbar(y='estacao_fim', right='total', height=0.9, source=source, color='colors')

p.ygrid.grid_line_color = None
p.xaxis.axis_label = "Total"
p.yaxis.axis_label = "Estação de Fim"
p.outline_line_color = None

show(p)

### 3 - Contagem de viagens por tipo de veículo

In [11]:
%%sql
SELECT tipo_veiculo, COUNT(*) AS contagem
FROM c_bike_share.TB_BIKES
GROUP BY tipo_veiculo;

 * mysql+pymysql://root:***@localhost/c_bike_share
2 rows affected.


tipo_veiculo,contagem
electric_bike,497345
classic_bike,629382


### 4- Frequência de uso por membro

In [12]:
%%sql
SELECT tipo_membro, 
AVG(duracao_segundos) AS duracao_media,
AVG(duracao_segundos/60/60)  AS duracao_media_horas
FROM c_bike_share.TB_BIKES
GROUP BY tipo_membro;

 * mysql+pymysql://root:***@localhost/c_bike_share
2 rows affected.


tipo_membro,duracao_media,duracao_media_horas
member,770.977,0.214160269113
casual,1481.574,0.411548331551


### 5 - Frequência de Uso de Bicicletas Elétricas por Membro

In [13]:
%%sql
SELECT COUNT(id_corrida) AS 'Número de Corridas'
FROM c_bike_share.TB_BIKES
WHERE tipo_veiculo = 'electric_bike' AND tipo_membro = 'member';

 * mysql+pymysql://root:***@localhost/c_bike_share
1 rows affected.


Número de Corridas
328244


### 6 -  Padrões Sazonais

In [14]:
query = """
SELECT MONTH(data_inicio) AS mes,
COUNT(*) AS numero_de_viagens,
AVG(duracao_segundos) AS duracao_media
FROM c_bike_share.TB_BIKES
GROUP BY MONTH(data_inicio)
ORDER BY mes;
"""

In [15]:
result = %sql $query
df = result.DataFrame()

 * mysql+pymysql://root:***@localhost/c_bike_share
3 rows affected.


In [16]:
# Cria o gráfico de linha para o número de viagens por mês
trace1 = go.Scatter(
    x=df['mes'],
    y=df['numero_de_viagens'],
    mode='lines+markers',
    name='Número de Viagens',
    line=dict(color='blue', width=2)
)

layout1 = go.Layout(
    title='Número de Viagens por Mês',
    xaxis=dict(title='Mês'),
    yaxis=dict(title='Número de Viagens')
)

fig1 = go.Figure(data=[trace1], layout=layout1)

# Cria o gráfico de linha para a duração média das viagens por mês
trace2 = go.Scatter(
    x=df['mes'],
    y=df['duracao_media'],
    mode='lines+markers',
    name='Duração Média',
    line=dict(color='red', width=2)
)

layout2 = go.Layout(
    title='Duração Média das Viagens por Mês',
    xaxis=dict(title='Mês'),
    yaxis=dict(title='Duração Média (segundos)')
)

fig2 = go.Figure(data=[trace2], layout=layout2)

# Exibe os gráficos
pyo.iplot(fig1)
pyo.iplot(fig2)

### 7 - Contar o número de corridas que começam em cada hora para identificar os horários de pico. 

In [17]:
query = """
SELECT HOUR(data_inicio) AS hora,
COUNT(*) AS numero_de_corridas
FROM c_bike_share.TB_BIKES
GROUP BY hora
ORDER BY hora;
"""

In [18]:
result = %sql $query
df = result.DataFrame()

 * mysql+pymysql://root:***@localhost/c_bike_share
24 rows affected.


In [19]:
# Cria o gráfico de barras
fig = px.bar(df, x='hora', y='numero_de_corridas', title='Número de Corridas por Hora')

# Configura o eixo x para incluir todas as horas do dia
fig.update_xaxes(type='category')

# Exibe o gráfico
fig.show()

### 8 -  Duração total do aluguel das bikes (em horas). 

In [20]:
%%sql
SELECT SUM(duracao_segundos/60/60) AS duracao_total_horas
FROM c_bike_share.TB_BIKES;

 * mysql+pymysql://root:***@localhost/c_bike_share
1 rows affected.


duracao_total_horas
315176.39027152


### 9 -  Média de Tempo de Aluguel por Tipo de Membro e Estação Fim

In [21]:
query = """
SELECT estacao_fim,
       tipo_membro,
       AVG(duracao_segundos) AS media_tempo_aluguel
FROM c_bike_share.TB_BIKES
GROUP BY estacao_fim, tipo_membro
ORDER BY media_tempo_aluguel DESC
LIMIT 10;
"""

In [22]:
result = %sql $query
df = result.DataFrame()
df

 * mysql+pymysql://root:***@localhost/c_bike_share
10 rows affected.


Unnamed: 0,estacao_fim,tipo_membro,media_tempo_aluguel
0,tech trailer V-1,member,54767.0
1,6035 Warehouse,casual,15161.5455
2,New Hampshire & Lockwood,casual,9100.4167
3,Old Meadow Rd & Old Meadow Ln,casual,9040.3333
4,South Capitol & Atlantic St SW,casual,6531.2609
5,Largo Town Center Metro,member,6462.8125
6,14th St & Marion Barry Ave SE,member,5336.2162
7,Vienna Metro South,casual,5088.5385
8,Castle Blvd & Castle Ln,casual,4828.0323
9,Fishers Ln & Rock Creek Mill Rd,member,4514.4211


### 10 - Média de Tempo de Aluguel da Estação de Início 32220 

In [23]:
%%sql
SELECT estacao_inicio,
       AVG(duracao_segundos/60/60) AS media_tempo_aluguel
FROM c_bike_share.TB_BIKES
WHERE numero_estacao_inicio = 32220
GROUP BY estacao_inicio;

 * mysql+pymysql://root:***@localhost/c_bike_share
1 rows affected.


estacao_inicio,media_tempo_aluguel
W&OD Trail/Sunset Hills Rd & Isaac Newton Sq,0.56787448563


### 11 - Média de Tempo (em horas) de aluguel da estação de início 31017, ao longo do tempo

In [24]:
query = """
SELECT estacao_inicio,
       data_inicio,
       AVG(duracao_segundos/60/60) OVER (PARTITION BY estacao_inicio ORDER BY data_inicio) AS media_tempo_aluguel
FROM c_bike_share.TB_BIKES
WHERE numero_estacao_inicio = 31017
ORDER BY data_inicio;
"""

In [25]:
result = %sql $query
df = result.DataFrame()
df

 * mysql+pymysql://root:***@localhost/c_bike_share
1088 rows affected.


Unnamed: 0,estacao_inicio,data_inicio,media_tempo_aluguel
0,Wilson Blvd & N Uhle St,2023-10-01 02:11:30,0.148055560000
1,Wilson Blvd & N Uhle St,2023-10-01 02:11:39,0.145277780000
2,Wilson Blvd & N Uhle St,2023-10-01 08:21:00,0.224814816667
3,Wilson Blvd & N Uhle St,2023-10-01 12:34:28,0.172430557500
4,Wilson Blvd & N Uhle St,2023-10-01 12:36:24,0.183833334000
...,...,...,...
1083,Wilson Blvd & N Uhle St,2023-12-31 13:03:18,0.219001383810
1084,Wilson Blvd & N Uhle St,2023-12-31 13:03:58,0.218998719963
1085,Wilson Blvd & N Uhle St,2023-12-31 13:30:04,0.219531921473
1086,Wilson Blvd & N Uhle St,2023-12-31 17:26:08,0.219757455110


In [26]:
# Cria o gráfico de linha
fig = px.line(df, x='data_inicio', y='media_tempo_aluguel', title='Média Móvel do Tempo de Aluguel da Estação 31017 ao Longo do Tempo',
              labels={'data_inicio': 'Data de Início', 'media_tempo_aluguel': 'Média de Tempo de Aluguel (horas)'})
fig.update_xaxes(
    rangeslider_visible=True,  
    rangeselector=dict(
        buttons=list([
            dict(count=1, label="1d", step="day", stepmode="backward"), 
            dict(count=7, label="1w", step="day", stepmode="backward"),  
            dict(count=1, label="1m", step="month", stepmode="backward"), 
            dict(count=3, label="3m", step="month", stepmode="backward"),
            dict(step="all")
        ])
    )
)
fig.show()


### 12 - Média de tempo (em segundos) de duração do aluguel de bike por tipo de membro e por estação fim (ao longo do tempo)

In [27]:
query = """
SELECT 
    estacao_fim,
    data_inicio,
    tipo_membro,
    AVG(duracao_segundos) OVER (PARTITION BY tipo_membro, estacao_fim ORDER BY data_inicio) AS media_tempo_aluguel
FROM 
    c_bike_share.TB_BIKES
WHERE 
    numero_estacao_fim = 31017;
"""

In [28]:
result = %sql $query
df = result.DataFrame()
df

 * mysql+pymysql://root:***@localhost/c_bike_share
739 rows affected.


Unnamed: 0,estacao_fim,data_inicio,tipo_membro,media_tempo_aluguel
0,Wilson Blvd & N Uhle St,2023-10-01 10:31:00,casual,711.0000
1,Wilson Blvd & N Uhle St,2023-10-01 12:34:28,casual,383.0000
2,Wilson Blvd & N Uhle St,2023-10-02 13:27:22,casual,350.0000
3,Wilson Blvd & N Uhle St,2023-10-02 15:57:41,casual,359.2500
4,Wilson Blvd & N Uhle St,2023-10-03 07:53:03,casual,336.4000
...,...,...,...,...
734,Wilson Blvd & N Uhle St,2023-12-30 19:13:00,member,745.6726
735,Wilson Blvd & N Uhle St,2023-12-31 10:32:37,member,746.9769
736,Wilson Blvd & N Uhle St,2023-12-31 12:53:47,member,746.2784
737,Wilson Blvd & N Uhle St,2023-12-31 12:53:49,member,745.5717


In [29]:
fig = px.line(df, x='data_inicio', y='media_tempo_aluguel', color='tipo_membro', title='Média Móvel do Tempo de Aluguel por Estação ao Longo do Tempo',
              labels={'data_inicio': 'Data de Início', 'media_tempo_aluguel': 'Média Móvel de Tempo de Aluguel (segundos)'})
fig.update_xaxes(
    rangeslider_visible=True,  
    rangeselector=dict(
        buttons=list([
            dict(count=1, label="1d", step="day", stepmode="backward"), 
            dict(count=7, label="1w", step="day", stepmode="backward"),  
            dict(count=1, label="1m", step="month", stepmode="backward"),  
            dict(count=3, label="3m", step="month", stepmode="backward"), 
            dict(step="all") 
        ])
    )
)
fig.show()

### 13 - Divisão de Registros em Grupos Temporais por Estação Fim (no período da manhã)

In [30]:
query="""
SELECT estacao_fim,
       DATE_FORMAT(data_fim, '%d/%M/%Y %H:%i:%S') AS data_fim,
       duracao_segundos,
       NTILE(4) OVER (PARTITION BY estacao_fim ORDER BY CAST(data_fim as date)) AS ranking_aluguel
FROM c_bike_share.TB_BIKES 
WHERE EXTRACT(HOUR FROM data_fim) BETWEEN 08 AND 11
AND MONTH(data_fim) = 11;
"""

In [31]:
result = %sql $query
df = result.DataFrame()
df

 * mysql+pymysql://root:***@localhost/c_bike_share
76836 rows affected.


Unnamed: 0,estacao_fim,data_fim,duracao_segundos,ranking_aluguel
0,10th & E St NW,01/November/2023 08:19:19,817,1
1,10th & E St NW,01/November/2023 08:21:29,607,1
2,10th & E St NW,01/November/2023 08:31:57,1222,1
3,10th & E St NW,01/November/2023 08:01:44,829,1
4,10th & E St NW,01/November/2023 08:43:37,268,1
...,...,...,...,...
76831,Yuma St & Tenley Circle NW,16/November/2023 09:34:33,420,4
76832,Yuma St & Tenley Circle NW,21/November/2023 09:29:33,97,4
76833,Yuma St & Tenley Circle NW,28/November/2023 09:21:04,88,4
76834,Yuma St & Tenley Circle NW,28/November/2023 09:25:26,504,4


### 14 - Diferença da duração do aluguel de bikes ao longo do tempo, de um registro para outro, considerando data de início do aluguel e estação de início

In [32]:
query="""
SELECT estacao_inicio,
       DATE_FORMAT(data_inicio, '%a/%b/%y %H:%i:%S') AS data_inicio,
       duracao_segundos,
       duracao_segundos - LAG(duracao_segundos, 1) OVER (PARTITION BY estacao_inicio ORDER BY CAST(data_inicio AS date)) AS diferenca
FROM c_bike_share.TB_BIKES
WHERE EXTRACT(HOUR FROM data_fim) BETWEEN 01 AND 03
AND MONTH(data_fim) = 11;
"""

In [33]:
result = %sql $query
df = result.DataFrame()
df

 * mysql+pymysql://root:***@localhost/c_bike_share
4724 rows affected.


Unnamed: 0,estacao_inicio,data_inicio,duracao_segundos,diferenca
0,10th & E St NW,Fri/Nov/23 03:18:46,586,
1,10th & E St NW,Sat/Nov/23 03:02:32,507,-79.0
2,10th & E St NW,Sun/Nov/23 03:04:22,532,25.0
3,10th & E St NW,Sun/Nov/23 01:37:12,508,-24.0
4,10th & E St NW,Sat/Nov/23 01:26:12,565,57.0
...,...,...,...,...
4719,Woodley Park Metro / Calvert St & Connecticut ...,Sun/Nov/23 03:14:25,694,-1799.0
4720,Woodley Park Metro / Calvert St & Connecticut ...,Sun/Nov/23 00:46:51,1097,403.0
4721,Woodley Park Metro / Calvert St & Connecticut ...,Fri/Nov/23 01:10:53,831,-266.0
4722,Woodley Park Metro / Calvert St & Connecticut ...,Sat/Nov/23 01:44:26,546,-285.0


### 15 -  Popularidade das bicicletas elétricas no último trimestre de 2023

In [34]:
%%sql
USE c_bike_share;
SELECT DATE_FORMAT(data_inicio, '%Y-%m') AS 'Mês', COUNT(id_corrida) AS 'Número de Corridas'
FROM TB_BIKES
WHERE tipo_veiculo = 'electric_bike' AND tipo_membro = 'member'
GROUP BY DATE_FORMAT(data_inicio, '%Y-%m');

 * mysql+pymysql://root:***@localhost/c_bike_share
0 rows affected.
3 rows affected.


Mês,Número de Corridas
2023-10,125875
2023-11,107434
2023-12,94935


### 16 -  Análise Específica da Estação de Início 31670

In [35]:
query="""
SELECT estacao_inicio,
       CAST(data_inicio as date) AS data_inicio,
       duracao_segundos,
       NTILE(4) OVER (PARTITION BY estacao_inicio ORDER BY CAST(data_inicio as date)) AS numero_grupo_quatro
FROM c_bike_share.TB_BIKES
WHERE data_inicio < '2023-11-01'
AND numero_estacao_inicio = 31670;
"""

In [36]:
result = %sql $query
df = result.DataFrame()
df

 * mysql+pymysql://root:***@localhost/c_bike_share
901 rows affected.


Unnamed: 0,estacao_inicio,data_inicio,duracao_segundos,numero_grupo_quatro
0,12th St & New York Ave NW,2023-10-01,1949,1
1,12th St & New York Ave NW,2023-10-01,262,1
2,12th St & New York Ave NW,2023-10-01,879,1
3,12th St & New York Ave NW,2023-10-01,1645,1
4,12th St & New York Ave NW,2023-10-01,960,1
...,...,...,...,...
896,12th St & New York Ave NW,2023-10-31,943,4
897,12th St & New York Ave NW,2023-10-31,502,4
898,12th St & New York Ave NW,2023-10-31,562,4
899,12th St & New York Ave NW,2023-10-31,233,4


### 17 - Estação, data de início, duração em segundos do aluguel e número de aluguéis ao longo do tempo para a estação de id 31000

In [37]:
query="""
SELECT estacao_inicio,
       data_inicio,
       duracao_segundos,
       ROW_NUMBER() OVER (PARTITION BY estacao_inicio ORDER BY data_inicio) AS numero_alugueis
FROM c_bike_share.TB_BIKES
WHERE data_inicio < '2023-11-01'
AND numero_estacao_inicio = 31000;
"""

In [38]:
result = %sql $query
df = result.DataFrame()
df

 * mysql+pymysql://root:***@localhost/c_bike_share
467 rows affected.


Unnamed: 0,estacao_inicio,data_inicio,duracao_segundos,numero_alugueis
0,Eads St & 15th St S,2023-10-01 08:51:11,998,1
1,Eads St & 15th St S,2023-10-01 09:25:12,821,2
2,Eads St & 15th St S,2023-10-01 11:08:45,1638,3
3,Eads St & 15th St S,2023-10-01 11:08:47,1631,4
4,Eads St & 15th St S,2023-10-01 12:23:26,155,5
...,...,...,...,...
462,Eads St & 15th St S,2023-10-31 17:55:12,789,463
463,Eads St & 15th St S,2023-10-31 17:56:15,284,464
464,Eads St & 15th St S,2023-10-31 18:17:02,2252,465
465,Eads St & 15th St S,2023-10-31 18:18:31,1359,466


### 18 -  Tendência de Aluguéis pela Manhã: Estação Fim, Data Fim e Duração em Segundos, Classificados por Ordem Temporal"

In [39]:
query="""
SELECT estacao_fim,
       DATE_FORMAT(data_fim, '%d/%M/%Y %H:%i:%S') AS data_fim,
       duracao_segundos,
       DENSE_RANK() OVER (PARTITION BY estacao_fim ORDER BY CAST(data_fim as date)) AS ranking_aluguel
FROM c_bike_share.tb_bikes
WHERE EXTRACT(HOUR FROM data_fim) BETWEEN 07 AND 11
AND MONTH(data_fim) = 11;
"""

In [40]:
result = %sql $query
df = result.DataFrame()
df

 * mysql+pymysql://root:***@localhost/c_bike_share
89237 rows affected.


Unnamed: 0,estacao_fim,data_fim,duracao_segundos,ranking_aluguel
0,10th & E St NW,01/November/2023 07:21:27,642,1
1,10th & E St NW,01/November/2023 08:19:19,817,1
2,10th & E St NW,01/November/2023 08:21:29,607,1
3,10th & E St NW,01/November/2023 08:31:57,1222,1
4,10th & E St NW,01/November/2023 08:02:53,412,1
...,...,...,...,...
89232,Yuma St & Tenley Circle NW,16/November/2023 09:34:33,420,11
89233,Yuma St & Tenley Circle NW,21/November/2023 09:29:33,97,12
89234,Yuma St & Tenley Circle NW,28/November/2023 09:21:04,88,13
89235,Yuma St & Tenley Circle NW,28/November/2023 09:25:26,504,13


### 19 - Diferença de Duração de Aluguel de Bicicletas por Estação de Início (Estação 31000) antes de Novembro de 2023

In [41]:
query="""
SELECT *
  FROM (
    SELECT estacao_inicio,
           CAST(data_inicio as date) AS data_inicio,
           duracao_segundos,
           duracao_segundos - LAG(duracao_segundos, 1) OVER (PARTITION BY estacao_inicio ORDER BY CAST(data_inicio as date)) AS diferenca
      FROM c_bike_share.TB_BIKES
     WHERE data_inicio < '2023-11-01'
     AND numero_estacao_inicio = 31000) resultado
 WHERE resultado.diferenca IS NOT NULL;
 """

In [42]:
result = %sql $query
df = result.DataFrame()
df

 * mysql+pymysql://root:***@localhost/c_bike_share
466 rows affected.


Unnamed: 0,estacao_inicio,data_inicio,duracao_segundos,diferenca
0,Eads St & 15th St S,2023-10-01,5344,4607
1,Eads St & 15th St S,2023-10-01,1638,-3706
2,Eads St & 15th St S,2023-10-01,1627,-11
3,Eads St & 15th St S,2023-10-01,1694,67
4,Eads St & 15th St S,2023-10-01,1507,-187
...,...,...,...,...
461,Eads St & 15th St S,2023-10-31,789,200
462,Eads St & 15th St S,2023-10-31,503,-286
463,Eads St & 15th St S,2023-10-31,136,-367
464,Eads St & 15th St S,2023-10-31,532,396
