# Introdução

**Nesse primeiro notebook, nosso propósito é fazer uma análise inicial dos dados do dataset de bicicletas compartilhadas de nova iorque e entender suas peculiaridades nos dados.**

Dados Completos da Fonte: https://s3.amazonaws.com/tripdata/index.html

Acumulamos os dados no arquivo "0. Download Dados"

## Próximos Passos

**Análise de Dados:**
* [x] Análise básica dos dados
* [x] Limpeza dos dados
* [ ] Visualização de Dados Geográficos
    * [ ] Visualização dos pontos de saída e chegada
* [ ] Calcular distância absoluta de cada estação a outra.
* [ ] Analisar as estações mais populares
* [ ] Analisar os horários de pico e distribuição dos horários geral e por estação
* [ ] Analisar distribuição por dia, mês, ano da semana geral e por estação
* [ ] Analise de sazonalidade
* [ ] Relação do tempo da viagem com a idade e gênero da pessoa
* [ ] Distribuição por estação de idade e gênero
* [ ] Análise de corridas em grupo - mesmo inicio e fim? - pensar como avaliar isso

**Modelos:**
* [ ] Predizer para uma estação, em um dia da semana e horário, quantas corridas terá

**Tempo Real:**
* [ ] Obter dados em tempo real pela API
* [ ] Aplicar o modelo de predição nos dados reais, predizer para próximas horas
* [ ] Criar um dashboard em tempo real

# Importações

In [None]:
import pandas as pd
import plotly.express as px

In [None]:
from haversine import haversine

In [None]:
px.set_mapbox_access_token("pk.eyJ1Ijoicm1jbnJpYmVpcm8iLCJhIjoiY2s4MHh5b3ZiMGtsbTNkcGFuazR1dWc4diJ9._aDTNPlmw3Nt6QSMm3YgmQ")

In [None]:
df_trips = pd.read_csv("../Dados/citibike2019_sample.csv")

# Análise Inicial

**Entendendo os tipos de dados e suas distribuições e comportamentos.**

In [None]:
df_trips.info()

**Verificando colunas com valores nulos.**

Precisaremos dropar essas linhas porque os IDs são relevantes na nossa análise.

In [None]:
df_trips.isna().any()

**Mapeamento de Colunas para padronizar os nomes.**

In [None]:
df_trips = df_trips.rename(
    columns={
        'starttime': "Start Time", 
        'stoptime': "Stop Time", 
        'start station id': "Start Station ID", 
        'start station name': "Start Station Name",
        'start station latitude': "Start Station Latitude", 
        'start station longitude': "Start Station Longitude", 
        'end station id': "End Station ID",
        'end station name': "End Station Name", 
        'end station latitude': "End Station Latitude", 
        'end station longitude': "End Station Longitude",
        'bikeid': "Bike ID", 
        'usertype': "User Type", 
        'birth year': "Birth Year", 
        'gender': "Gender",
        'tripduration': "Trip Duration"
    }
)

In [None]:
df_trips.columns

In [None]:
df_trips["Start Time"] = pd.to_datetime(df_trips["Start Time"])
df_trips["Stop Time"] = pd.to_datetime(df_trips["Stop Time"])

In [None]:
# Adicionando Coluna de Tempo Total em Minutos
df_trips["Trip Duration Minutes"] = df_trips["Trip Duration"]/60.0

In [None]:
df_trips.describe()

**Observações de Dados:**

* Máximo de Trip duration muito alta
* Longitude possui valores zerados, indicando trips não finalizadas. Provavelmente vamos dropar.
* Birth Year mínimo de 1857 - precisamos ver a veracidade dessa coluna
* Gender 0, 1, 2 - precisamos verificar os significados
* Trip Duration Minutes com máximo muito alto
* Dados nulos de ID e Name

## Tratando Dados Nulos

In [None]:
df_trips = df_trips.dropna()

In [None]:
df_trips.info()

In [None]:
df_trips.loc[:, "Start Station ID"] = df_trips.loc[:, "Start Station ID"].astype(int).values
df_trips.loc[:, "End Station ID"] = df_trips.loc[:, "End Station ID"].astype(int).values

In [None]:
df_trips.head()

## Análise de Trip Duration - Semelhante a Trip_Duration_in_min

In [None]:
trip_durations = df_trips["Trip Duration Minutes"]

In [None]:
trip_durations[trip_durations < 100].plot.hist(bins=30)

## Análise de Birth Year

In [None]:
birth_years = df_trips["Birth Year"]

In [None]:
birth_years.plot.hist(bins=30)

Criação de Nova Coluna de Idade:

In [None]:
data_captura = 2019
df_trips["Age"] = data_captura - df_trips["Birth Year"]

In [None]:
df_trips["Age"].plot.hist()

In [None]:
df_trips["Age"].plot.box()

## Unicidade de (latitude, longitude) para cada uma das Stops

Será que os dados de latitude e longitude das stops é consistente ou aparecem múltiplos (lat, long) para um mesmo stop?

In [None]:
# Obtendo as colunas relacionadas a start stops
start_stations = df_trips[['Start Station ID', 'Start Station Latitude', 'Start Station Longitude', 'Start Station Name']]
start_stations.columns = ['Station ID', 'Station Latitude', 'Station Longitude', 'Station Name']

In [None]:
# Obtendo as colunas relacionadas a end stops
end_stations = df_trips[['End Station ID', 'End Station Latitude', 'End Station Longitude', 'End Station Name']]
end_stations.columns = ['Station ID', 'Station Latitude', 'Station Longitude', 'Station Name']

In [None]:
# Uniao das stops, ja que ser de inicio ou fim nao importa
stations = pd.concat([start_stations, end_stations], axis=0, ignore_index=True)

In [None]:
stations.head()

In [None]:
# Verificando se todos os grupos de Station ID possuem apenas 1 linha após dropar duplicatas
(stations.drop_duplicates().groupby("Station ID").size() == 1).all()

In [None]:
stations.drop_duplicates().groupby("Station ID").size().sort_values()

### Definindo um Dataframe mapeador das stations

Pode ser útil mais tarde termos um mapeador da station id para a lat, long

In [None]:
df_stations = stations.drop_duplicates().set_index('Station ID')

In [None]:
df_stations.head()

# Limpeza de Dados

**Observações de Dados:**

* Máximo de Trip duration muito alta
* Longitude possui valores zerados, indicando trips não finalizadas. Provavelmente vamos dropar.
* Birth Year mínimo de 1900 - precisamos ver a veracidade dessa coluna
* Gender 0, 1, 2 - precisamos verificar os significados
* Trip_Duration_in_min com máximo muito alto
* Nenhum dado nulo no dataset

In [None]:
df_trips_filtrado = df_trips

## Trip Duration

In [None]:
trip_duration = df_trips_filtrado["Trip Duration"]

In [None]:
Q1 = trip_duration.quantile(0.25)
Q3 = trip_duration.quantile(0.75)
IQR = Q3 - Q1

In [None]:
duration_filter = ~((trip_duration < (Q1 - 1.5 * IQR)) |(trip_duration > (Q3 + 1.5 * IQR)))
df_trips_filtrado = df_trips[duration_filter]

In [None]:
df_trips_filtrado

## Latitude e Longitude Zerados

A filtragem anterior resolveu o problema.

In [None]:
df_trips_filtrado.describe()

# Análise das Distâncias 'Percorridas'

In [None]:
df_trips["Distâncias"] = df_trips.apply(lambda linha:haversine((linha['Start Station Latitude'] , linha['Start Station Longitude']), (linha['End Station Latitude'], linha['End Station Longitude'])),axis=1)

# Análise das Estações Populares

In [None]:
popularidade_start_stations = df_trips_filtrado['Start Station ID'].value_counts().rename("Start Station Count")

In [None]:
popularidade_start_stations.head()

In [None]:
df_stations.head()

In [None]:
df_start_station_count = df_stations.merge(popularidade_start_stations, right_index=True, left_index=True).sort_values("Start Station Count", ascending=False)

In [None]:
df_start_station_count.head()

In [None]:
fig = px.scatter_mapbox(
    df_start_station_count, lat="Station Latitude", lon="Station Longitude", size="Start Station Count",
                  color_continuous_scale=px.colors.cyclical.IceFire, size_max=15, zoom=10)
fig.show()

In [None]:
popularidade_end_stations = df_trips_filtrado['End Station ID'].value_counts().rename("End Station Count")

In [None]:
popularidade_end_stations.head()

In [None]:
df_stations.head()

In [None]:
df_end_station_count = df_stations.merge(popularidade_end_stations, right_index=True, left_index=True).sort_values("End Station Count", ascending=False)

In [None]:
df_end_station_count.head()

In [None]:
fig = px.scatter_mapbox(
    df_end_station_count, lat="Station Latitude", lon="Station Longitude", size="End Station Count",
                  color_continuous_scale=px.colors.cyclical.IceFire, size_max=15, zoom=10)
fig.show()

In [None]:
df = df_trips
df["Day of Week"] = df["Start Time"].dt.dayofweek
df["Hour"] = df["Start Time"].dt.hour
df["Date"] = df["Start Time"].dt.date

In [None]:
df

In [None]:
total_trips_by_day = df.set_index("Start Time").resample('H').size().rename("Total Trips")

In [None]:
total_trips_by_day

In [None]:
px.line(total_trips_by_day)

In [None]:
df_total_trips_by_day = pd.DataFrame(total_trips_by_day).reset_index()
df_total_trips_by_day["Day of Week"] = df_total_trips_by_day["Start Time"].dt.dayofweek
df_total_trips_by_day["Hour"] = df_total_trips_by_day["Start Time"].dt.hour

In [None]:
df_total_trips_by_day

In [None]:
df_total_trips_by_day_train = df_total_trips_by_day.iloc[:int(3/4 * len(df_total_trips_by_day))]
df_total_trips_by_day_test = df_total_trips_by_day.iloc[int(3/4 * len(df_total_trips_by_day)):]

In [None]:
len(df_total_trips_by_day_train)

In [None]:
len(df_total_trips_by_day_test)

In [None]:
modelo = df_total_trips_by_day_train.groupby(["Day of Week", "Hour"]).median().reset_index().rename(columns={"Total Trips": "Predicao"})
modelo

In [None]:
px.line(df_total_trips_by_day_test.merge(modelo, how="left").set_index("Start Time")[["Total Trips", "Predicao"]])