## Preparação: obtendo o dataset

__Observação__: os conjuntos de dados têm um nome diferente porque a Cyclistic é uma empresa fictícia. Para os propósitos deste estudo de caso, os conjuntos de dados são adequados e permitem responder às perguntas de negócios. Os dados foram disponibilizados pela _Motivate International Inc_.

Foram selecionados dados de Janeiro a Dezembro de 2023.

As colunas com as __latitudes__ e __longitudes__ das estações de inicio e fim de cada aluguel foram dispensadas da análise, restando apenas:

- ID da corrida
- Tipo de bike
- Data e hora de início da corrida
- Data e hora de fim da corrida
- ID estação de início da corrida
- Nome da estação de início
- ID estação de fim da corrida
- Nome da estação de fim
- Tipo de cliente que realizou a corrida (membro ou casual)

Dados disponíveis em: https://divvy-tripdata.s3.amazonaws.com/index.html

In [None]:
import pandas as pd
import os

In [None]:
# Obtendo os dados dos últimos 12 meses
lista_dfs = []

DIR = r'/content/drive/MyDrive/Datasets/cyclistic-dataset'

for arquivo in os.listdir(DIR):
  if arquivo.endswith('.csv'):
    nome_arquivo = '/' + arquivo
    nome_df = pd.read_csv(DIR+nome_arquivo, sep=',')
    print('Nome do arquivo: ', arquivo)
    lista_dfs.append(nome_df)

Nome do arquivo:  202301-divvy-tripdata.csv
Nome do arquivo:  202302-divvy-tripdata.csv
Nome do arquivo:  202303-divvy-tripdata.csv
Nome do arquivo:  202304-divvy-tripdata.csv
Nome do arquivo:  202305-divvy-tripdata.csv
Nome do arquivo:  202306-divvy-tripdata.csv
Nome do arquivo:  202307-divvy-tripdata.csv
Nome do arquivo:  202308-divvy-tripdata.csv
Nome do arquivo:  202309-divvy-tripdata.csv
Nome do arquivo:  202310-divvy-tripdata.csv
Nome do arquivo:  202311-divvy-tripdata.csv
Nome do arquivo:  202312-divvy-tripdata.csv


In [None]:
len(lista_dfs)

12

In [None]:
# Concatenando os dataframes em um só
contador = 1
df_final  = lista_dfs[0]
for i in lista_dfs[1:]:
  df_final = pd.concat([df_final, lista_dfs[contador]])
  contador += 1

In [None]:
df_final.sample(10)

Unnamed: 0,ride_id,rideable_type,started_at,ended_at,start_station_name,start_station_id,end_station_name,end_station_id,start_lat,start_lng,end_lat,end_lng,member_casual
216391,310DF2039C1A9B2D,electric_bike,2023-10-02 20:22:53,2023-10-02 20:28:00,Honore St & Division St,TA1305000034,Western Ave & Division St,13241,41.903126,-87.673899,41.902893,-87.687275,casual
204467,91E847A5034DEED7,classic_bike,2023-07-31 18:22:43,2023-07-31 18:24:38,State St & 33rd St,13216,Wentworth Ave & 33rd St,15445,41.834734,-87.625813,41.83453,-87.631823,member
573162,570DFF5AF199F364,classic_bike,2023-08-21 18:09:13,2023-08-21 18:24:25,Sheridan Rd & Montrose Ave,TA1307000107,Broadway & Belmont Ave,13277,41.96167,-87.65464,41.940106,-87.645451,member
169114,1DEC51C6F4860859,electric_bike,2023-02-28 20:37:29,2023-02-28 21:02:24,Clinton St & Madison St,TA1305000032,Broadway & Sheridan Rd,13323,41.882816,-87.641224,41.952833,-87.649993,member
738040,41A23B5C2D4F0D8E,electric_bike,2023-08-01 23:31:40,2023-08-01 23:39:20,Shields Ave & 31st St,KA1503000038,,,41.838444,-87.635372,41.84,-87.62,member
32603,45D63D779F649D0F,electric_bike,2023-02-20 16:21:41,2023-02-20 16:27:21,,,,,41.98,-87.66,41.98,-87.65,member
59909,AAF5934918982F77,electric_bike,2023-02-12 14:20:59,2023-02-12 14:29:46,,,Streeter Dr & Grand Ave,13022,41.89,-87.61,41.892278,-87.612043,casual
60126,8D871DA07A4F1377,electric_bike,2023-03-01 14:32:36,2023-03-01 14:36:49,Morgan St & Polk St,TA1307000130,,,41.871993,-87.651035,41.86,-87.65,member
616977,75AE19A143AA1207,classic_bike,2023-08-23 12:56:54,2023-08-23 13:17:50,Broadway & Barry Ave,13137,Pine Grove Ave & Irving Park Rd,TA1308000022,41.937582,-87.644098,41.954383,-87.648043,member
398179,C216CC21E364AE6D,classic_bike,2023-06-07 11:57:49,2023-06-07 12:10:58,Indiana Ave & Roosevelt Rd,SL-005,Indiana Ave & 26th St,TA1307000005,41.867888,-87.623041,41.845687,-87.622481,member


In [None]:
df_final.shape

(5719877, 13)

In [None]:
df_final.columns

Index(['ride_id', 'rideable_type', 'started_at', 'ended_at',
       'start_station_name', 'start_station_id', 'end_station_name',
       'end_station_id', 'start_lat', 'start_lng', 'end_lat', 'end_lng',
       'member_casual'],
      dtype='object')

Excluindo as colunas de latitude e longitude das estações de inicio e fim do aluguel das bicicletas

In [None]:
colunas = ['ride_id', 'rideable_type', 'started_at', 'ended_at',
       'start_station_name', 'start_station_id', 'end_station_name',
       'end_station_id','member_casual']

df_final = df_final.filter(colunas)

In [None]:
df_final.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 5719877 entries, 0 to 224072
Data columns (total 9 columns):
 #   Column              Dtype 
---  ------              ----- 
 0   ride_id             object
 1   rideable_type       object
 2   started_at          object
 3   ended_at            object
 4   start_station_name  object
 5   start_station_id    object
 6   end_station_name    object
 7   end_station_id      object
 8   member_casual       object
dtypes: object(9)
memory usage: 436.4+ MB


In [None]:
df_final.to_csv('cyclistic_dataset_cleaned.csv')