## Introduction to Pandas

### Memanggil Library Pandas

Pandas adalah library python open source yang biasanya digunakan untuk kebutuhan data analisis. Pandas membuat Python supaya dapat bekerja dengan data yang berbentuk tabular seperti spreadsheet dengan cara pemuatan data yang cepat, manipulasi data, menggabungkan data, serta ada berbagai fungsi yang lain.

In [1]:
import pandas as pd

Biasanya ketika menggunakan library Pandas, library Numpy juga diimport, sehingga menjadi

In [2]:
import pandas as pd
import numpy as np

### DataFrame & Series

Di Pandas terdapat 2 kelas data baru yang digunakan sebagai struktur dari spreadsheet:

Series: satu kolom bagian dari tabel dataframe yang merupakan 1 dimensional numpy array sebagai basis data nya, terdiri dari 1 tipe data (integer, string, float, dll).

DataFrame: gabungan dari Series, berbentuk rectangular data yang merupakan tabel spreadsheet itu sendiri (karena dibentuk dari banyak Series, tiap Series biasanya punya 1 tipe data, yang artinya 1 dataframe bisa memiliki banyak tipe data).

#### Contoh Series

In [3]:
import pandas as pd

#Series
number_list = pd.Series([1,2,3,4,5,6])
print("Series : ")
print(number_list)

Series : 
0    1
1    2
2    3
3    4
4    5
5    6
dtype: int64


In [4]:
import pandas as pd

#DataFrame
matrix = [ [1, 2, 3],
          ['a', 'b', 'c'],
          [3, 4, 5],
          ['d', 4, 6]]

matrix_list = pd.DataFrame(matrix)
print("DataFrame : ")
print(matrix_list)


DataFrame : 
   0  1  2
0  1  2  3
1  a  b  c
2  3  4  5
3  d  4  6


### Atribut DataFrame & Series - Part 1

Dataframe dan Series memiliki sangat banyak atribut yang digunakan untuk transformasi data, tetapi ada beberapa attribute yang sering dipakai. Di sini series number_list dan data frame matrix_list menggunakan apa yang telah dibuat sebelumnya

#### Attribute .info()

Attribute .info() digunakan untuk mengecek kolom apa yang membentuk dataframe itu, data types, berapa yang non null, dll. Attribute ini tidak dapat digunakan pada series, hanya pada data frame saja.

In [5]:
# Contoh Attribute .info()
print("Contoh Attribute .info() \n")
print(matrix_list.info())

Contoh Attribute .info() 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   0       4 non-null      object
 1   1       4 non-null      object
 2   2       4 non-null      object
dtypes: object(3)
memory usage: 224.0+ bytes
None


#### Attribute .shape

Attribute .shape digunakan untuk mengetahui berapa baris dan kolom, hasilnya dalam format tuple (baris, kolom).

In [6]:
# Contoh Attribute .shape
print("Contoh Attribute .shape \n")
print("     Shape dari number_list: ", number_list.shape)
print("     Shape dari matrix_list: ", matrix_list.shape)

Contoh Attribute .shape 

     Shape dari number_list:  (6,)
     Shape dari matrix_list:  (4, 3)


#### Attribute .dtypes

Attribute .dtypes digunakan untuk mengetahui tipe data di tiap kolom. Tipe data object: kombinasi untuk berbagai tipe data (number & text, etc).

In [7]:
# Contoh Attribute .dtypes
print("Contoh Attribute .dtypes \n")
print("     Tipe Data dari number_list: ", number_list.dtypes)
print("     Tipe Data dari matrix_list: ", matrix_list.dtypes)

Contoh Attribute .dtypes 

     Tipe Data dari number_list:  int64
     Tipe Data dari matrix_list:  0    object
1    object
2    object
dtype: object


#### Attribute .astype(nama_tipe_data)

Attribute .astype(nama_tipe_data) untuk convert tipe data berdasarkan tipe data seperti: float, int, str, numpy.float, numpy.int ataupun numpy.datetime.

In [8]:
# Contoh Attribute .astype
print("Contoh Attribute .astype \n")
print("     Konversi number_list ke str: \n", number_list.astype("str"))
print("     Konversi matrix_list ke str: \n", matrix_list.astype("str"))

Contoh Attribute .astype 

     Konversi number_list ke str: 
 0    1
1    2
2    3
3    4
4    5
5    6
dtype: object
     Konversi matrix_list ke str: 
    0  1  2
0  1  2  3
1  a  b  c
2  3  4  5
3  d  4  6


### Atribut DataFrame & Series - Part 2

Dataframe dan Series memiliki sangat banyak atribut yang digunakan untuk transformasi data, tetapi ada beberapa attribute yang sering dipakai. Di sini series number_list dan data frame matrix_list digunakan kembali.

#### Attribute .copy()

Attribute .copy() digunakan melakukan duplikat, untuk disimpan di variable yang berbeda mungkin supaya tidak loading data lagi.

In [9]:
# Contoh Attribute .copy()
print("Contoh Attribute .copy() \n")
num_list = number_list.copy()
print("     Copy number_list ke num_list : \n", num_list)
mtr_list = matrix_list.copy()
print("     Copy matrix_list ke mtr_list : \n", mtr_list)

Contoh Attribute .copy() 

     Copy number_list ke num_list : 
 0    1
1    2
2    3
3    4
4    5
5    6
dtype: int64
     Copy matrix_list ke mtr_list : 
    0  1  2
0  1  2  3
1  a  b  c
2  3  4  5
3  d  4  6


#### Attribute .to_list()

Attribute .to_list() digunakan untuk mengubah series menjadi list dan tidak dapat digunakan untuk dataframe.

In [10]:
# Contoh Attribute .to_list
print("Contoh Attribute .to_list() \n")
print(number_list.to_list())

Contoh Attribute .to_list() 

[1, 2, 3, 4, 5, 6]


#### Attribute .unique()

Attribute .unique() digunakan menghasilkan nilai unik dari suatu kolom, hasilnya dalam bentuk numpy array. Attribute ini hanya digunakan pada series saja.

In [11]:
# Contoh Attribute .unique()
print("Contoh Attribute .unique() \n")
print(number_list.unique())

Contoh Attribute .unique() 

[1 2 3 4 5 6]


### Atribut DataFrame & Series - Part 3

#### Attribute .index

Attribute .index digunakan untuk mencari index/key dari Series atau Dataframe.

In [12]:
# Contoh Attribute .index
print("Contoh Attribute .index \n")
print("    Index number_list: ", number_list.index)
print("    Index matrix_list: ", matrix_list.index)

Contoh Attribute .index 

    Index number_list:  RangeIndex(start=0, stop=6, step=1)
    Index matrix_list:  RangeIndex(start=0, stop=4, step=1)


#### Attribute .columns

Attribute .columns digunakan untuk mengetahui apa saja kolom yang tersedia di dataframe tersebut (hanya digunakan untuk dataframe saja). 

In [13]:
# Contoh Attribute .columns
print("Contoh Attribute .columns \n")
print("    Column matrix_list:", matrix_list.columns)

Contoh Attribute .columns 

    Column matrix_list: RangeIndex(start=0, stop=3, step=1)


#### Attribute .loc

Attribute .loc digunakan slice dataframe atau series berdasarkan nama kolom dan/atau nama index.

In [14]:
# Contoh Attribute .loc
print("Contoh Attribute .loc \n")
print("    .loc[0:1] pada number_list:\n", number_list.loc[0:1])
print("    .loc[0:1] pada matrix_list:\n", matrix_list.loc[0:1])

Contoh Attribute .loc 

    .loc[0:1] pada number_list:
 0    1
1    2
dtype: int64
    .loc[0:1] pada matrix_list:
    0  1  2
0  1  2  3
1  a  b  c


####  Attribute .iloc

Attribute .iloc digunakan untuk slice dataframe atau series berdasarkan index kolom dan/atau index.

In [15]:
# Contoh Attribute .iloc
print("Contoh Attribute .iloc \n")
print("    iloc[0:1] pada number_list:\n", number_list.iloc[0:1])
print("    iloc[0:1] pada matrix_list:\n", matrix_list.iloc[0:1])

Contoh Attribute .iloc 

    iloc[0:1] pada number_list:
 0    1
dtype: int64
    iloc[0:1] pada matrix_list:
    0  1  2
0  1  2  3


### Little Quiz

In [16]:
matrix_list.iloc[0:2,2].to_list()

[3, 'c']

### Creating Series & Dataframe from List

Untuk membuat Series atau Dataframe bisa dari berbagai macam tipe data container/mapping di python, seperti list dan dictionary, maupun dari numpy array.

Pada sub bagian ini, kamu akan membuat Series dan Dataframe yang bersumber dari list. Sekedar meninjau bahwa, list merupakan sebuah kumpulan data berbagai macam tipe data, yang mutable (dapat diganti)

#### Creating Series from List

In [17]:
import pandas as pd

ex_list = ['a',1,3,5,'c','d']
ex_series = pd.Series(ex_list)

print(ex_series)

0    a
1    1
2    3
3    5
4    c
5    d
dtype: object


#### Creating DataFrame from List of List

In [18]:
import pandas as pd

ex_list_of_list = [[1, 'a', 'b', 'c'],
                  [2.5, 'd', 'e', 'f'],
                  [5, 'g', 'h', 'i'],
                  [7.5, 'j', 10.5, 'l']]

index = ['dq', 'lab', 'kar', 'lan']
cols = ['float', 'char', 'obj', 'char']

ex_df = pd.DataFrame(ex_list_of_list, index=index, columns=cols)

print(ex_df)

     float char   obj char
dq     1.0    a     b    c
lab    2.5    d     e    f
kar    5.0    g     h    i
lan    7.5    j  10.5    l


### Creating Series & Dataframe from Dictionary

Untuk membuat Series atau Dataframe bisa dari berbagai macam tipe data container/mapping di python, seperti list dan dictionary, maupun dari numpy array.

Pada sub bagian ini, akan membuat Series dan Dataframe yang bersumber dari dictionary. Sekedar meninjau bahwa, dictionary merupakan kumpulan data yang strukturnya terdiri dari key dan value.

#### Creating Series from List

In [19]:
import pandas as pd
#Creating series from dictionary
dict_series = {'1':'a',
              '2':'b',
              '3':'c'}

ex_series = pd.Series(dict_series)
print(ex_series)

1    a
2    b
3    c
dtype: object


Contoh membuat dataframe dari dict dengan setiap pasangan key dan value-nya berisi list yang sama panjangnya:

In [20]:
import pandas as pd 
#Creating DataFrame from dictionary
df_series = {'1': ['a','b','c'],
            '2': ['b','c','d'],
            '4': [2,3,'z']}

ex_df = pd.DataFrame(df_series)
print(ex_df)

   1  2  4
0  a  b  2
1  b  c  3
2  c  d  z


### Creating Series & Dataframe from Numpy Array

Untuk membuat Series atau Dataframe bisa dari berbagai macam tipe data container/mapping di python, seperti list dan dictionary, maupun dari numpy array.

Pada sub bagian ini, akan membuat Series dan Dataframe yang bersumber dari numpy array. Sekedar meninjau bahwa, numpy array kumpulan data yang terdiri atas berbagai macam tipe data, mutable, tapi dibungkus dalam array oleh library Numpy.

#### Contoh membuat series dari numpy array 1D:

In [21]:
import pandas as pd
import numpy as np

#Creating series from numpy array (1D)
arr_series = np.array([1,2,3,4,5,6,6,7])
ex_series = pd.Series(arr_series)

print(ex_series)

0    1
1    2
2    3
3    4
4    5
5    6
6    6
7    7
dtype: int32


#### Contoh membuat dataframe dari numpy array 2D:

In [22]:
import pandas as pd
import numpy as np

#Creating series from numpy array (2D)
arr_df = np.array([[1, 2, 3, 5],
                 [5, 6, 7, 8],
                 ['a', 'b', 'c', 10]])

ex_df = pd.DataFrame(arr_df)
print(ex_df)

   0  1  2   3
0  1  2  3   5
1  5  6  7   8
2  a  b  c  10


### Quiz

In [23]:
import numpy as np
import pandas as pd

arr_df = np.array([[1, 2, 3, 5],
                  [5, 6, 7, 8],
                  ['a', 'b', 9, 10]])

df = pd.DataFrame(arr_df)
df

Unnamed: 0,0,1,2,3
0,1,2,3,5
1,5,6,7,8
2,a,b,9,10


In [24]:
df.iloc[2,0:2] = [11,12]

In [25]:
df

Unnamed: 0,0,1,2,3
0,1,2,3,5
1,5,6,7,8
2,11,12,9,10


## Dataset I/O

### Read Dataset - CSV dan TSV

CSV dan TSV pada hakikatnya adalah tipe data text dengan perbedaan terletak pada pemisah antar data dalam satu baris. Pada file CSV, antar data dalam satu baris dipisahkan oleh comma, ",". Namun, pada file TSV antar data dalam satu baris dipisahkan oleh "Tab".

Fungsi .read_csv() digunakan untuk membaca file yang value nya dipisahkan oleh comma (default), terkadang pemisah value nya bisa di set ‘\t’ untuk file tsv (tab separated values).

Notes :

Dataset csv : https://storage.googleapis.com/dqlab-dataset/sample_csv.csv

Dataset tsv : https://storage.googleapis.com/dqlab-dataset/sample_tsv.tsv

#### Membaca File CSV

In [26]:
import pandas as pd

df_csv = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/sample_csv.csv")

print(df_csv.head(3))

   order_id  order_date  customer_id             city     province product_id  \
0   1612339  2019-01-01        18055  Jakarta Selatan  DKI Jakarta      P0648   
1   1612339  2019-01-01        18055  Jakarta Selatan  DKI Jakarta      P3826   
2   1612339  2019-01-01        18055  Jakarta Selatan  DKI Jakarta      P1508   

     brand  quantity  item_price  
0  BRAND_C         4     1934000  
1  BRAND_V         8      604000  
2  BRAND_G        12      747000  


#### Membaca File TSV

In [27]:
import pandas as pd

df_tsv = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/sample_tsv.tsv", sep='\t') 

print(df_tsv.head(3))

   order_id  order_date  customer_id             city     province product_id  \
0   1612339  2019-01-01        18055  Jakarta Selatan  DKI Jakarta      P0648   
1   1612339  2019-01-01        18055  Jakarta Selatan  DKI Jakarta      P3826   
2   1612339  2019-01-01        18055  Jakarta Selatan  DKI Jakarta      P1508   

     brand  quantity  item_price  
0  BRAND_C         4     1934000  
1  BRAND_V         8      604000  
2  BRAND_G        12      747000  


### Read Dataset - Excel

File Excel dengan ekstensi *.xls atau *.xlsx cukup banyak digunakan dalam menyimpan data. Pandas juga memiliki fitur untuk membaca file excel.

Notes :

Dataset : https://storage.googleapis.com/dqlab-dataset/sample_excel.xlsx

Fungsi .read_excel() digunakan untuk membaca file excel menjadi dataframe pandas.

In [28]:
import pandas as pd

df_excel = pd.read_excel("https://storage.googleapis.com/dqlab-dataset/sample_excel.xlsx", sheet_name = "test")

print(df_excel.head(4))

   order_id  order_date  customer_id             city     province product_id  \
0   1612339  2019-01-01        18055  Jakarta Selatan  DKI Jakarta      P0648   
1   1612339  2019-01-01        18055  Jakarta Selatan  DKI Jakarta      P3826   
2   1612339  2019-01-01        18055  Jakarta Selatan  DKI Jakarta      P1508   
3   1612339  2019-01-01        18055  Jakarta Selatan  DKI Jakarta      P0520   

     brand  quantity  item_price  
0  BRAND_C         4     1934000  
1  BRAND_V         8      604000  
2  BRAND_G        12      747000  
3  BRAND_B        12      450000  


### Read Dataset - JSON

Method .read_json() digunakan untuk membaca URL API yang formatnya JSON dan merubahnya menjadi dataframe pandas.

Dataset JSON: https://storage.googleapis.com/dqlab-dataset/covid2019-api-herokuapp-v2.json

In [29]:
import pandas as pd

url = "https://storage.googleapis.com/dqlab-dataset/covid2019-api-herokuapp-v2.json"
df_json = pd.read_json(url)

print(df_json.head(10))

                                                data          dt          ts
0  {'location': 'US', 'confirmed': 3363056, 'deat...  07-14-2020  1594684800
1  {'location': 'Brazil', 'confirmed': 1884967, '...  07-14-2020  1594684800
2  {'location': 'India', 'confirmed': 906752, 'de...  07-14-2020  1594684800
3  {'location': 'Russia', 'confirmed': 732547, 'd...  07-14-2020  1594684800
4  {'location': 'Peru', 'confirmed': 330123, 'dea...  07-14-2020  1594684800
5  {'location': 'Chile', 'confirmed': 317657, 'de...  07-14-2020  1594684800
6  {'location': 'Mexico', 'confirmed': 304435, 'd...  07-14-2020  1594684800
7  {'location': 'United Kingdom', 'confirmed': 29...  07-14-2020  1594684800
8  {'location': 'South Africa', 'confirmed': 2877...  07-14-2020  1594684800
9  {'location': 'Iran', 'confirmed': 259652, 'dea...  07-14-2020  1594684800


### Read Dataset - SQL

Fungsi .read_sql() atau .read_sql_query() digunakan untuk membaca query dari database dan translate menjadi pandas dataframe. 

Contoh case ini database sqlite.

### Read Dataset - Google BigQuery

Untuk data yang besar (big data), umumnya digunakan Google BigQuery. Layanan ini dapat digunakan jika telah memiliki Google BigQuery account.

Fungsi .read_gbq() digunakan untuk membaca Google BigQuery table menjadi dataframe pandas.

In [32]:
import pandas as pd
# Buat query
query = """
SELECT *
FROM `bigquery-public-data.covid19_jhu_csse_eu.summary`
LIMIT 1000;
"""

#Baca data dari Google Big Query 
df_covid19_eu_summary = pd.read_gbq(query, project_id="valued-fortress-276401")

#Tampilkan 5 data teratas
df_covid19_eu_summary.head()

Unnamed: 0,province_state,country_region,date,latitude,longitude,location_geom,confirmed,deaths,recovered,active,fips,admin2,combined_key
0,Andalusia,Spain,2020-09-08,37.5443,-4.7278,POINT(-4.7278 37.5443),37123,1545,10671,24907.0,,,"Andalusia, Spain"
1,Aragon,Spain,2020-09-08,41.5976,-0.9057,POINT(-0.9057 41.5976),28625,1212,3772,23641.0,,,"Aragon, Spain"
2,Asturias,Spain,2020-09-08,43.3614,-5.8593,POINT(-5.8593 43.3614),3714,338,1063,2313.0,,,"Asturias, Spain"
3,Baleares,Spain,2020-09-08,39.710358,2.995148,POINT(2.995148 39.710358),9809,249,1533,8027.0,,,"Baleares, Spain"
4,C. Valenciana,Spain,2020-09-08,39.484,-0.7533,POINT(-0.7533 39.484),28513,1494,9970,17049.0,,,"C. Valenciana, Spain"
