# Meet 3 Managing Big Data with Python (2)
Pada sesi ini dibagi menjadi dua sub bahasan yaitu: \\
- Cara membaca data file csv
- Filtering data
- Sorting data
- Loc[],iloc[], dan []
- Groupby 
- Rename Column

Pandas menyediakan dua struktur data yang sangat berguna untuk memproses data, yaitu **Series** dan **DataFrame**. Bagian ini akan membahas bagaimana mengelola DataFrame dengan pandas.

In [1]:
# import package pandas
import pandas as pd

### **Membaca File Data**
- **read_csv** : membaca data dari file berekstensi csv. \\
- **index_col = None** : tidak ada indeks i.e. kolom pertama (id)
- **head()** : hanya menampilkan 5 data elemen pertama dataframe
- **tail()** : hanya menampilkan 5 data elemen terakhir dataframe


**Menghubungkan dengan Google Drive**

In [2]:
from google.colab import drive

drive.mount('/content/gdrive')

ModuleNotFoundError: No module named 'google'

In [None]:
# Mendefinisikan data path
path_data = '/content/gdrive/My Drive/Intro Python/Data/'

In [None]:
# Membaca directory
import os
os.listdir(path_data)

['release_dates.csv']

**Read Dataset**

In [None]:
data = pd.read_csv(path_data+"release_dates.csv",index_col='date', parse_dates=True) 
#kolom date digunakan sebagai indeks

In [None]:
# menampilkan 5 baris pertama
data.head()

Unnamed: 0_level_0,title,year,country
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2007-06-15,"#73, Shaanthi Nivaasa",2007,India
2015-01-29,#Beings,2015,Romania
2018-01-21,#Declimax,2018,Netherlands
2015-01-21,#Ewankosau saranghaeyo,2015,Philippines
2015-11-20,#Horror,2015,USA


In [None]:
# Menampilkan 5 baris terakhir
data.tail()

Unnamed: 0_level_0,title,year,country
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2008-04-18,Botched,2007,UK
2010-01-21,Botched,2007,Peru
1989-05-26,"Bote, dyaryo, garapa",1989,Philippines
1945-05-17,Both Barrels Blazing,1945,USA
1960-09-23,Botika sa baryo,1960,Philippines


In [None]:
# cek ukuran dataset
data.shape

(50000, 3)

In [None]:
# cek informasi data
data.info()

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 50000 entries, 2007-06-15 to 1960-09-23
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   title    50000 non-null  object
 1   year     50000 non-null  int64 
 2   country  50000 non-null  object
dtypes: int64(1), object(2)
memory usage: 1.5+ MB


In [None]:
# menampilkan kolom - kolom pada DataFrame
data.columns

Index(['title', 'year', 'country'], dtype='object')

### **Filtering Data**

In [None]:
after20 = data[['title','year']][data['year'] > 2010]
after20

Unnamed: 0_level_0,title,year
date,Unnamed: 1_level_1,Unnamed: 2_level_1
2015-01-29,#Beings,2015
2018-01-21,#Declimax,2018
2015-01-21,#Ewankosau saranghaeyo,2015
2015-11-20,#Horror,2015
2016-05-16,#Horror,2015
...,...,...
2013-10-16,Boss,2013
2013-08-09,Boss (II),2013
2011-10-07,Boss Number One,2011
2016-09-13,Bossgiri,2016


### **Sorting Data**

In [None]:
Boss = data[data['title'] == 'Boss'].sort_index()
Boss

Unnamed: 0_level_0,title,year,country
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2006-09-27,Boss,2006,India
2013-10-15,Boss,2013,Kuwait
2013-10-16,Boss,2013,France
2013-10-16,Boss,2013,India
2013-10-16,Boss,2013,Pakistan


### **Pengindeksan dengan `loc[ ]` dan `iloc[ ]`**
Untuk pengindeksan label DataFrame pada baris, pandas memperkenalkan operator pengindeksan khusus loc dan iloc. iloc menggunakan integer, sedangkan loc menggunakan label

**Pengindeksan dengan `iloc[]`** 

**`iloc[]` =** menggunakan integer dari indeks baris dan kolom dalam mengambil data 

In [None]:
# mengambil data dari indeks baris ke-0
data.iloc[0]

title      #73, Shaanthi Nivaasa
year                        2007
country                    India
Name: 2007-06-15 00:00:00, dtype: object

In [None]:
# mengambil data dari indeks baris ke-0 sampai indeks baris ke-1
data.iloc[0:2]

Unnamed: 0_level_0,title,year,country
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2007-06-15,"#73, Shaanthi Nivaasa",2007,India
2015-01-29,#Beings,2015,Romania


In [None]:
# mengambil data dari indeks baris ke-0 sampai indeks baris ke-1 dan indeks kolom ke-2
data.iloc[0:2, 2]

date
2007-06-15      India
2015-01-29    Romania
Name: country, dtype: object

In [None]:
# mengambil data dari indeks baris ke-0 sampai indeks baris ke-1 dan indeks kolom ke-2 sampai indeks kolom ke-3
data.iloc[0:2, 2:4]

Unnamed: 0_level_0,country
date,Unnamed: 1_level_1
2007-06-15,India
2015-01-29,Romania


In [None]:
# mengambil data sampai indeks baris ke-4 dan semua indeks kolom 
data.iloc[:5,:]

Unnamed: 0_level_0,title,year,country
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2007-06-15,"#73, Shaanthi Nivaasa",2007,India
2015-01-29,#Beings,2015,Romania
2018-01-21,#Declimax,2018,Netherlands
2015-01-21,#Ewankosau saranghaeyo,2015,Philippines
2015-11-20,#Horror,2015,USA


In [None]:
# mengambil data dari indeks baris 5 terakhir dan semua indeks kolomdata.iloc[-5:,:]

**Pengindeksan dengan `loc[]`** 

**`loc[]` =** menggunakan nama atau label (biasanya string) dari indeks baris dan kolom dalam mengambil data 

In [None]:
# mengambil data dengan nama indeks baris '2008-10-08'
data.loc['2008-10-08']

Unnamed: 0_level_0,title,year,country
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2008-10-08,Anubis: Het pad der 7 zonden,2008,Netherlands
2008-10-08,Before the Devil Knows You're Dead,2007,Peru
2008-10-08,Binyag,2008,Philippines
2008-10-08,Blindness,2008,Belgium
2008-10-08,Blindness,2008,France


In [None]:
# mengambil data dengan nama indeks baris '2008-10-08' sampai '2008-10-09'
data.loc['2008-10-8':'2008-10-09']

Unnamed: 0_level_0,title,year,country
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2008-10-09,Admiral,2008,Armenia
2008-10-09,Admiral,2008,Belarus
2008-10-09,Admiral,2008,Estonia
2008-10-09,Admiral,2008,Georgia
2008-10-09,Admiral,2008,Kazakhstan
2008-10-09,Admiral,2008,Latvia
2008-10-09,Admiral,2008,Lithuania
2008-10-09,Admiral,2008,Moldova
2008-10-09,Admiral,2008,Russia
2008-10-09,Admiral,2008,Ukraine


In [None]:
# mengambil data dengan nama indeks baris '2008-10-08' dan nama indeks kolom 'title' sampai 'year'
data.loc[:'2008-10-08', 'title':'year']

Unnamed: 0_level_0,title,year
date,Unnamed: 1_level_1,Unnamed: 2_level_1
2007-06-15,"#73, Shaanthi Nivaasa",2007
1972-02-17,$,1971
1972-03-10,$,1971
1972-03-27,$,1971
1972-05-05,$,1971
...,...,...
2008-04-18,Botched,2007
2008-04-18,Botched,2007
1989-05-26,"Bote, dyaryo, garapa",1989
1945-05-17,Both Barrels Blazing,1945


In [None]:
# mengambil data dengan nama indeks baris '2008-10-08' sampai akhir baris dan semua indeks kolom
data.loc['2008-10-08':,:]

Unnamed: 0_level_0,title,year,country
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2015-01-29,#Beings,2015,Romania
2018-01-21,#Declimax,2018,Netherlands
2015-01-21,#Ewankosau saranghaeyo,2015,Philippines
2015-11-20,#Horror,2015,USA
2016-05-16,#Horror,2015,UK
...,...,...,...
2016-09-13,Bossgiri,2016,Bangladesh
2011-07-30,Bosta,2005,Belgium
2015-06-25,Bota,2014,Italy
2009-05-30,Botantei,2009,Japan


### **Groupby**

In [None]:
data.groupby(['year','title']).size().head()

year  title                        
1908  Amleto                           1
1909  Andreas Hofer                    1
1910  Ansigttyven I                    1
1911  A Tale of the Australian Bush    1
      A Ticket in Tatts                1
dtype: int64

### **Rename**

In [None]:
data.rename(columns={
    'title':'Judul', # mengganti title menjadi Judul
    'year' : 'Tahun', # mengganti year menjadi Tahun
    'country':'Negara' # mengganti country menjadi Negara
    
})

Unnamed: 0_level_0,Judul,Tahun,Negara
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2007-06-15,"#73, Shaanthi Nivaasa",2007,India
2015-01-29,#Beings,2015,Romania
2018-01-21,#Declimax,2018,Netherlands
2015-01-21,#Ewankosau saranghaeyo,2015,Philippines
2015-11-20,#Horror,2015,USA
...,...,...,...
2008-04-18,Botched,2007,UK
2010-01-21,Botched,2007,Peru
1989-05-26,"Bote, dyaryo, garapa",1989,Philippines
1945-05-17,Both Barrels Blazing,1945,USA
