### Deskripsi data
Data yang digunakan disini didapat dari database 'san_francisco_bikeshare' menggunakan bigquery-public-data pada Google Cloud Big Query dengan kriteria sebagai berikut:
1. Hanya terdapat kolom trip_id, start_date, start_station_name, end_station_name, start_station_latitude, start_station_longitude, end_station_latitude, end_station_longitude pada tabel san_francisco_bikeshare.bikeshare_trips, dan region_id pada tabel bigquery-public-data.san_francisco_bikeshare.bikeshare_station_info.
2.  Nilai start_station_name tidak boleh sama dengan end_station_name
3. Kolom start_station_latitude, start_station_longitude, end_station_latitude, dan end_station_longitude tidak boleh ada nilai null
4. Pilih start_date dengan rentang tanggal lahir di tahun 2017 sampai 5 bulan berikutnya, dimana tanggal lahir yang digunakan adalah 27 Desember.

Berikut ini adalah query yang digunakan untuk mengambil data di Google Cloud Platform:

SELECT t.trip_id, 
  t.start_date, 
  t.start_station_name, 
  t.end_station_name, 
  t.start_station_latitude, 
  t.start_station_longitude, 
  t.end_station_latitude, 
  t.end_station_longitude,
  si.region_id
FROM `bigquery-public-data.san_francisco_bikeshare.bikeshare_trips` t
JOIN `bigquery-public-data.san_francisco_bikeshare.bikeshare_station_info` si
  ON t.start_station_name = si.name
WHERE t.start_station_name != t.end_station_name AND 
  t.start_station_latitude IS NOT NULL AND
  t.start_station_longitude IS NOT NULL AND
  t.end_station_latitude IS NOT NULL AND 
  t.end_station_longitude IS NOT NULL AND 
  t.start_date BETWEEN '2017-12-27' AND '2018-05-27';

Data tersebut telah disimpan dalam format csv dengan nama file 'h8dsft_P0GC2_Set_1_ikhbar firman.csv'.

#### Load data dan membuat DataFrame dari file data CSV.

In [1]:
import pandas as pd

In [2]:
data = pd.read_csv('h8dsft_P0GC2_Set_1_ikhbar firman.csv')

#### Apakah data telah sesuai dengan kriteria ?

In [3]:
# Cek apakah terdapat data yang sama pada 'start_station_name' dan 'end_station_name'.
sum(data['start_station_name'] == data['end_station_name'])

0

Terlihat bahwa tidak ada data yang sama pada pada 'start_station_name' dan 'end_station_name'.

Cek apakah terdapat null pada kolom start_station_latitude, start_station_longitude, end_station_latitude, dan end_station_longitude.

In [4]:
data.isnull().any()

trip_id                    False
start_date                 False
start_station_name         False
end_station_name           False
start_station_latitude     False
start_station_longitude    False
end_station_latitude       False
end_station_longitude      False
region_id                  False
dtype: bool

Cek apakah data kolom start_date sesuai dengan rentang tanggal lahir di tahun 2017 sampai 5 bulan berikutnya.

In [5]:
sum((data['start_date'] < '2018-05-27') & (data['start_date'] > '2017-12-27')) ==  len(data)

True

Kita coba tampilkan 5 baris awal dan 5 baris akhir pada data.

In [6]:
# Menampilkan data 5 baris awal
data.head()

Unnamed: 0,trip_id,start_date,start_station_name,end_station_name,start_station_latitude,start_station_longitude,end_station_latitude,end_station_longitude,region_id
0,4682018040417544600,2018-04-04 17:54:46 UTC,Mosswood Park,Snow Park,37.824931,-122.260479,37.807813,-122.264496,12
1,37012018020216111700,2018-02-02 16:11:17 UTC,Mosswood Park,Snow Park,37.824931,-122.260479,37.807813,-122.264496,12
2,7542018030115182200,2018-03-01 15:18:22 UTC,Mosswood Park,Snow Park,37.824931,-122.260479,37.807813,-122.264496,12
3,28402018011713490700,2018-01-17 13:49:07 UTC,Mosswood Park,Snow Park,37.824931,-122.260479,37.807813,-122.264496,12
4,14642017123120575800,2017-12-31 20:57:58 UTC,45th St at Manila,Snow Park,37.833294,-122.256224,37.807813,-122.264496,12


In [7]:
# Menampilkan data 5 baris terakhir
data.tail()

Unnamed: 0,trip_id,start_date,start_station_name,end_station_name,start_station_latitude,start_station_longitude,end_station_latitude,end_station_longitude,region_id
394002,5942018022017111000,2018-02-20 17:11:10 UTC,Yerba Buena Center for the Arts (Howard St at ...,Civic Center/UN Plaza BART Station (Market St ...,37.784872,-122.400876,37.781074,-122.411738,3
394003,8482018022114062900,2018-02-21 14:06:29 UTC,Yerba Buena Center for the Arts (Howard St at ...,Civic Center/UN Plaza BART Station (Market St ...,37.784872,-122.400876,37.781074,-122.411738,3
394004,33282018030208243700,2018-03-02 08:24:37 UTC,Yerba Buena Center for the Arts (Howard St at ...,Civic Center/UN Plaza BART Station (Market St ...,37.784872,-122.400876,37.781074,-122.411738,3
394005,24212018033013042600,2018-03-30 13:04:26 UTC,Yerba Buena Center for the Arts (Howard St at ...,Civic Center/UN Plaza BART Station (Market St ...,37.784872,-122.400876,37.781074,-122.411738,3
394006,28142018030913045200,2018-03-09 13:04:52 UTC,Yerba Buena Center for the Arts (Howard St at ...,Civic Center/UN Plaza BART Station (Market St ...,37.784872,-122.400876,37.781074,-122.411738,3


## Problem 1
Saya adalah seorang data scientist di San Francisco Smart City yang sedang mengerjakan proyek untuk menganalisa dan mengoptimasi sistem pesepedaan. Tugas pertama yang harus dilakukan adalah mencari stasiun awal mana yang paling favorit di antara stasiun-stasiun lainnya dengan menghitung PageRank menggunakan Eigendecomposition.

Adapun langkah-langkah dalam mencapai tujuan tersebut adalah ssebagai berikut:

#### 1. Membuat dua variable baru yang bernama start_stations dan end_stations yang masing-masing berisikan list nama stasiun awal dan stasiun akhir, dimana tidak ada nama stasiun yang duplikat di masing-masing variable.

In [8]:
awal_stasiun = data['start_station_name'].unique()
akhir_stasiun = data['end_station_name'].unique()

#### 2. Deteksi stasiun-stasiun yang hanya terdapat di salah satu variable dan tidak di keduanya (exclusive-or/xor) menggunakan np.setxor1d(array1,array2). 
Outputnya akan berupa numpy array dan masukkan output tersebut ke dalam variable bernama exclusive_stations.

In [9]:
import numpy as np

In [10]:
exclusive_stations = np.setxor1d(awal_stasiun,akhir_stasiun)

#### 3. Buat dataframe yang berisikan cross-tabulation antara start_stations dan end_stations menggunakan pd.crosstab(pd.   Series1,pd.Series2). Hasil dari langkah ini akan menghasilkan dataframe yang menginfokan berapa jumlah/frekuensi perjalanan dari start station tertentu ke end station tertentu. Hasil dari langkah ini dimasukkan ke dalam variable bernama df_matrix.

In [11]:
df_matrix = pd.crosstab(data['start_station_name'],data['end_station_name'])

#### 4. Membuat salinan dari data yang di-load ke dalam variable bernama df_copy.

In [12]:
df_copy  = data.copy()

#### 5.Filter df_copy dimana tidak ada start_station_name dan end_station_name yang termasuk dalam list exclusive_stations.

In [13]:
# Membuat filter dimana tidak ada start_station_name dan end_station_name yang termasuk dalam list exclusive_stations.
filter_1 = ~df_copy['start_station_name'].isin(exclusive_stations)
filter_2 = ~df_copy['end_station_name'].isin(exclusive_stations)
filter_add = filter_1 & filter_2

Menerapkan filter terhadap DataFrame df_copy.

In [14]:
df_copy = df_copy[filter_add]

#### 6. Membuat dataframe yang berisikan cross-tabulation antara start_stations dan end_stations pada df_copy.

In [15]:
df_matrix_square = pd.crosstab(df_copy['start_station_name'],df_copy['end_station_name'])

Cek size 'df_matrix_square'..Apakah sebuah matriks persegi (jumlah baris dan kolom sama)?

In [16]:
df_matrix_square.shape

(259, 259)

#### 7. Jumlahkan nilai kolom masing-masing rows pada df_matrix_square menggunakan method sum(axis=1) dan simpan ke dalam variable bernama total_trips.

In [17]:
total_trips = df_matrix_square.sum(axis=1)

#### 8. Bagi setiap kolom df_matrix_square dengan menggunakan method .div(), dengan inputan parameter total_trips dan axis='rows'. Masukkan hasilnya ke variable weighted_matrix_df.

In [18]:
# Membagi tiap elemen pada baris 'df_matrix_square' dengan total tiap barisnya.
weighted_matrix_df = df_matrix_square.div(total_trips, axis='rows')

#### 9. Konversikan weighted_matrix_df ke numpy array

In [19]:
# Mengubah DataFrame 'weighted_matrix_df' menjadi array/marix dengan nama 'weighted_matrix_arr'
weighted_matrix_arr = weighted_matrix_df.to_numpy()

#### 10. Hitung eigen value dan eigen vector menggunakan library numpy

In [20]:
eig_value,eig_vec =np.linalg.eig(weighted_matrix_arr)

#### 11. Score PageRank terdapat pada eigen vector yang eigen valuenya paling tinggi. Simpan eigen vector tersebut ke dalam variable bernama PR_Scores.

In [21]:
ind = eig_value.argmax() # Mengetahui indeks pada eigenvalue tertinggi
PR_scores = eig_vec[:,ind] # Mengetahui eigenvector dengan eigenvalue tertinggi

#### 12. Buat DataFrame baru bernama PageRank_df dengan kolom 'start_station' yang berisikan value variable start_stations dan kolom score yang berisikan value variable PR_Scores.

In [22]:
# Membuat DataFrame baru 'PageRank_df' dengan dictionary
PageRank_df = pd.DataFrame({'start_station':data['start_station_name'].unique(),'PR_Scores':PR_scores})

#### 13. Tampilkan head dari dataframe PageRank_df

In [23]:
PageRank_df.head()

Unnamed: 0,start_station,PR_Scores
0,Mosswood Park,-0.067116+0.000000j
1,45th St at Manila,-0.067116+0.000000j
2,Jack London Square,-0.067116+0.000000j
3,Bay Pl at Vernon St,-0.067116+0.000000j
4,Broadway at 30th St,-0.067116+0.000000j
