In [1]:
# Instalar a biblioteca para BigQuery
!pip install pandas-gbq --quiet
# Importar bibliotecas
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from pandas_gbq import read_gbq

In [None]:
# Consulta SQL para trazer 1000 registros da tabela de viagens
project_id = "Insira aqui o ID do seu projeto"
query = """
    SELECT *
    FROM bigquery-public-data.new_york_citibike.citibike_trips
    LIMIT 1000
"""
# Importando os dados
df = read_gbq(query, project_id=project_id, dialect='standard')
# Visualizando os dados
df.head()

In [None]:
#Verificar dados ausentes
df.isnull().sum()
# Verificando informações gerais
df.info()
# Verificando estatisticas descritivas
df.describe()
#Criando colunas derivadas
# Convertendo datas
df['starttime'] = pd.to_datetime(df['starttime'])
df['stoptime'] = pd.to_datetime(df['stoptime'])
# Criando coluna com duração da viagem em minutos
df['trip_duration_min'] = (df['stoptime'] - df['starttime']).dt.total_seconds() / 60
# Extraindo odia da semana e hora da viagem
df['weekday'] = df['starttime'].dt.day_name()
df['hour'] = df['starttime'].dt.hour

In [None]:
# tempo médio das viagens
df['trip_duration_min'].mean()
# Horários com mais viagens
sns.countplot(x='hour', data=df)
plt.title('Número de Viagens por Hora do Dia')
plt.xlabel('Hora')
plt.ylabel('Número de Viagens')
plt.xticks(rotation=45)
plt.show()
# Dia da semana com mais viagens
sns.countplot(x='weekday', data=df, order=['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday', 'Sunday'])
plt.title('Número de Viagens por Dia da Semana')
plt.xlabel('Dia')
plt.ylabel('Número de Viagens')
plt.xticks(rotation=45)
plt.show()
# Uso por gênero
sns.countplot(x='gender', data=df)
plt.title('Distribuição por Gênero')
plt.xlabel('Gênero (0 = Desconhecido, 1 = Masculino, 2 = Feminino)')
plt.ylabel('Número de Viagens')
plt.show()
#Tempo médio por gênero
df.groupby('gender')['trip_duration_min'].mean()