# Pembacaan Data dari File di Pandas

Pandas memiliki kelebihan yaitu dapat menampung data hasil bacaan dari file yang kemudian nilainya akan diproses dalam struktur data series atau dataframe. Ada beberapa jenis file yang didukung oleh pandas dan dua di antaranya yang paling sering digunakan adalah file CSV dan Excel. Berikut adalah pembahasan tentang bagaimana suatu file dibaca oleh pandas.

## File CSV

Salah satu tipe file yang paling populer dalam data science adalah file csv. File csv berstruktur mirip seperti tabel (secara logika) dengan memanfaatkan karakter ``,`` (koma) atau ``;`` (titik koma) sebagai pemisah data antar kolom. Sebagai contoh, silakan perhatikan contoh file CSV berikut:

<b>produk.csv</b>

```csv
kode_produk,nama_produk,jumlah
A,AC,10
B,Becak,3
C,Charger,25
D,Dadu,100
E,Engsel Pintu,5

```

atau bisa juga seperti ini:

<b>product2.csv</b>

```csv
kode_produk;nama_produk;jumlah
A;AC;10
B;Becak;3
C;Charger;25
D;Dadu;100
E;Engsel Pintu;5

```

File csv biasanya diawali dengan baris header untuk menyatakan nama kolom dan diikuti dengan baris data setelahnya. Untuk memisahkan antar baris data, file csv menggunakan 1 karakter enter. Perhatikan juga bahwa pemberian karakter enter diberikan juga pada baris data terakhir. Penggunaan delimiter harus seragam dalam sebuah CSV. Pandas mempunyai fungsi ``read_csv()`` untuk melakukan pembacaan data dari file CSV. Berikut contoh penggunaannya:

><b>Catatan:</b> Buat dahulu file product.csv dan product2.csv (copy-paste saja datanya termasuk enter) menggunakan data yang sudah disebutkan sebelumnya dan simpan di folder yang sama dengan file .ipynb atau .py anda untuk mempermudah pengaksesan.

In [1]:
import pandas as pd

file_path = 'product.csv'
data_produk = pd.read_csv(file_path)

data_produk

Unnamed: 0,kode_produk,nama_produk,jumlah
0,A,AC,10
1,B,Becak,3
2,C,Charger,25
3,D,Dadu,100
4,E,Engsel Pintu,5


Untuk mengakses data pada file CSV yang memiliki delimiter berupa tanda ``;``, maka kita menambahkan parameter ``delimiter`` sebagai berikut:

In [2]:
file_path = 'product2.csv'
data_produk = pd.read_csv(file_path, delimiter = ';')

data_produk

Unnamed: 0,kode_produk,nama_produk,jumlah
0,A,AC,10
1,B,Becak,3
2,C,Charger,25
3,D,Dadu,100
4,E,Engsel Pintu,5


Untuk mengetahui secara lengkap perihal parameter yang ada di read_csv, silakan kunjungi https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html. Selain melakukan pembacaan, pandas menyediakan cara untuk menuliskan dataframe ke dalam file CSV. fungsi yang digunakan adalah ``to_csv()``. Berikut contoh penggunaannya:

In [1]:
import pandas as pd

df = pd.DataFrame({'col1':[1,2,3,4,5,6],'col2':[444,555,666,444,333,555],'col3':['abc','def','ghi','xyz','mno','jkl']})
df

df.to_csv('coba.csv', index = False)

Penjelasan:

1. Parameter pertama pada fungsi ``to_csv()`` adalah nama file yang mau diberikan untuk menyimpan dataframe.
2. Parameter ``index = False`` digunakan untuk menandakan index pada dataframe tidak ikut disimpan ke dalam file CSV.
3. Kode program tadi akan menghasilkan file ``coba.csv`` yang isinya dapat dilihat pada gambar berikut:

![tampilan coba.csv](https://drive.google.com/uc?export=view&id=1AH_E73_pk-ERyMN6YkQe_AyBfv9Jon0b)

## File Excel

Selain file CSV, pandas juga bisa melakukan pengolah data dari dan ke file Excel. Fungsi yang digunakan untuk membaca data dari file excel adalah ``read_excel()``. Yang perlu diingat, fungsi ini hanya membaca data saja dan tidak membaca formula. Berikut contoh penggunaannya:

Unduh file product.xlsx dari https://github.com/adammb86/FGAUNIKOM2021/blob/master/product.xlsx

In [8]:
import pandas as pd

data_produk = pd.read_excel('product.xlsx', sheet_name = 'product')
data_produk

Unnamed: 0,kode_produk,nama_produk,jumlah
0,A,AC,10
1,B,Becak,3
2,C,Charger,25
3,D,Dadu,100
4,E,Engsel Pintu,5


><b>Catatan:</b> Parameter ``sheet_name`` diisi dengan nama sheet yang mau dibaca (dalam 1 file excel bisa terdapat banyak sheet)

Untuk melakukan penulisan dataframe ke dalam file excel, pandas menyediakan fungsi ``to_excel()`` yang penggunaanya sebagai berikut:

In [10]:
import pandas as pd

df = pd.DataFrame({'col1':[1,2,3,4,5,6],'col2':[444,555,666,444,333,555],'col3':['abc','def','ghi','xyz','mno','jkl']})
df

df.to_excel('coba.xlsx', sheet_name = 'coba', index = False)

Kode program tersebut akan menghasilkan sebuah file bernama ``coba.xlsx`` yang berisi seperti gambar berikut:

![tampilan coba.xlsx](https://drive.google.com/uc?export=view&id=17x3T9OsIGBl1iKLQyfweR3ab_eARZgsy)

# Sumber Data

Kita sudah mempelajari bagaimana cara membaca data dari file CSV dan Excel ke dalam dataframe begitu pun menulis dataframe ke kedua format file tersebut. Pertanyaan berikutnya yang muncul adalah bagaimana cara mendapatkan data untuk kita olah. Tentunya kita bisa membuat file secara manual ataupun dengan cara melakukan export data dari DBMS. Akan tetapi ada suatu kemungkinan yaitu kita tidak mempunyai sumber data untuk diolah. 

Di internet tersedia banyak sumber data yang bersifat open dan legal untuk digunakan dalam berlatih pengolahan data di pandas. Berikut adalah beberapa sumber data yang bisa digunakan secara public dan legal:

1. Portal Satu Data Indonesia (https://data.go.id) 
2. Portal Data Jakarta (https://data.jakarta.go.id) 
3. Portal Data Bandung (http://data.bandung.go.id)  
4. Badan Pusat Statistik (https://www.bps.go.id)  
5. Badan Informasi Geospasial (https://tanahair.indonesia.go.id/)  
6. UCI Machine Learning repository (https://archive.ics.uci.edu/ml/index.php) 
7. Kaggle (https://www.kaggle.com/datasets)  
8. World Bank Open Data (https://data.worldbank.org)  
9. UNICEF Data (https://data.unicef.org) 
10. WHO Open Data (https://www.who.int/data)  
11. IBM Data Asset eXchange (https://developer.ibm.com/exchanges/data/) 
12. DBPedia (https://www.dbpedia.org/resources/)  
13. Wikidata (https://www.wikidata.org/)
14. Google Dataset (https://datasetsearch.research.google.com/)

Bentuk datanya bermacam-macam, akan tetapi sangat disarankan untuk menggunakan format data CSV atau excel untuk mempermudah proses pengolahan data.

## Mengambil Data dari Kaggle

Salah satu sumber data yang paling populer adalah Kaggle. Kaggle menyediakan berbagai jenis dataset yang bisa kita olah menggunakan Python. Platform Kaggle biasanya digunakan untuk platform kompetisi data science. Untuk bisa mengakses data dari Kaggle, Python memiliki library dengan nama yang sama yaitu  ``kaggle``. Berikut adalah cara pengambilan data dari Kaggle.

1. Buka https://kaggle.com dan buat akun di website tersebut.
2. Setelah membuat akun, maka kita bisa melihat tampilan sebagai berikut (tampilan bisa berubah):

![tampilan dashboard kaggle](https://drive.google.com/uc?export=view&id=1mUmezwsudmh4plafUt6mhpr5AP6vBg5d)

3. Kita bisa melakukan pencarian langsung melalui halaman tersebut. Berikut contoh pencariannya:

![contoh search kaggle](https://drive.google.com/uc?export=view&id=1ZaJWYtH0s05HQ4PGR6wpqBcDZwr2fxZh)

![unduh data kaggle](https://drive.google.com/uc?export=view&id=1b_TPjG_zRGjdyjqzAGyKGtdhdpTvbZtQ)


Selain dengan menggunakan cara manual, kita bisa memanfaatkan API untuk mengunduh data dari Kaggle. Berikut langkah-langkahnya:

1. Instalasi library kaggle menggunakan pip3 dengan perintah sebagai berikut:<br> ``pip3 install kaggle``

In [11]:
!pip3 show kaggle

Name: kaggle
Version: 1.5.12
Summary: Kaggle API
Home-page: https://github.com/Kaggle/kaggle-api
Author: Kaggle
Author-email: support@kaggle.com
License: Apache 2.0
Location: /usr/local/anaconda3/lib/python3.8/site-packages
Requires: tqdm, python-slugify, python-dateutil, urllib3, requests, six, certifi
Required-by: 


2. Lakukan log in di Kaggle menggunakan akun yang sudah dibuat sebelumnya lalu klik foto profil (sebelah kanan atas), kemudian pilih Account lalu pada section API, pilih ``Create New API Token``. Langkah ini tidak perlu dilakukan apabila sudah pernah dilakukan sebelumnya.

![contoh search kaggle](https://drive.google.com/uc?export=view&id=1j0kzZEeo5XnZId1Owph501zGwcrn6Iro)

3. File kaggle.json akan ada di folder Downloads masing-masing. Setelah itu copy file tersebut ke dalam: ``~/.kaggle/`` (Linux/Mac) atau ``C:\Users\<Windows-username>\.kaggle\`` (Windows). Jika folder tersebut belum ada, buat dulu dengan perintah mkdir di shell/command line. Pindahkan file kaggle.json ke folder tersebut (menggunakan File/Windows Explorer atau melalui perintah mv atau move di shell).

![copy kaggle.json](https://drive.google.com/uc?export=view&id=1-AAlSy0gtfNalk1IN8vNhf6hyiXbRcR3)

4. Sebelum mengunduh, mari kita cari dahulu dataset yang mau kita gunakan dengan menjalankan perintah sebagai berikut (Hilangkan tanda seru kalau mau menjalankan perintah berikut langsung di environment Python. Tanda seru hanya fitur di Jupyter Notebook untuk mengernali perintah CMD atau terminal di Jupyter Notebook):

```python
kaggle datasets list -s <keyword>
```

In [13]:
!kaggle datasets list -s 'Olympic'

ref                                                           title                                                size  lastUpdated          downloadCount  voteCount  usabilityRating  
------------------------------------------------------------  --------------------------------------------------  -----  -------------------  -------------  ---------  ---------------  
heesoo37/120-years-of-olympic-history-athletes-and-results    120 years of Olympic history: athletes and results    5MB  2018-06-15 06:10:41          74244       1489  0.8235294        
jayrav13/olympic-track-field-results                          Olympic Track & Field Results                        80KB  2017-05-26 02:42:35           2794         48  0.7647059        
divyansh22/summer-olympics-medals                             Summer Olympics Medals (1976-2008)                  219KB  2020-02-03 08:42:41           4510         94  0.9411765        
the-guardian/olympic-games                                    Olympic 

5. Setelah itu jalankan perintah untuk mengunduh dataset yang dimaksud. Sebagai contoh kita mau mengunduh dataset ``120 years of Olympic history: athletes and results`` maka jalankan perintah berikut:

><b>Catatan:</b> alamat unduh bisa didapatkan dari operasi sebelumnya.

In [14]:
!kaggle datasets download heesoo37/120-years-of-olympic-history-athletes-and-results

Downloading 120-years-of-olympic-history-athletes-and-results.zip to /Users/adambachtiar/Documents/FGAUNIKOM2021
100%|██████████████████████████████████████| 5.43M/5.43M [00:01<00:00, 3.45MB/s]
100%|██████████████████████████████████████| 5.43M/5.43M [00:01<00:00, 4.18MB/s]


6. Data yang diinginkan akan diunduh ke dalam folder yang sama dengan file .ipynb atau di Direktori aktif apabila perintah untuk mengunduh dijalankan di CMD atau Terminal. Pastikan file yang diunduh berada di folder yang sama dengan file project kita. File yang diunduh akan didapatkan dalam bentuk zip. Silakan unzip terlebih dahulu secara manual menggunakan winzip atau 7zip. Untuk pengguna Linux atau Mac OS bisa menggunakan perintah sebagai berikut:

```python
unzip nama_file.zip
```

In [15]:
!unzip 120-years-of-olympic-history-athletes-and-results.zip

Archive:  120-years-of-olympic-history-athletes-and-results.zip
  inflating: athlete_events.csv      
  inflating: noc_regions.csv         


7. Langkah terakhir, silakan muat data ke dalam dataframe menggunakan perintah ``read_csv()`` seperti yang sudah dibahas sebelumnya.

In [20]:
import os

print(os.listdir(os.getcwd())) # Pastikan anda sedang berada di direktori project

['Topic 2 - Data Types, Variables, Basic Input-Output Operations, Basic Operators.ipynb', 'Topic 9 - Numpy dan Scipy.ipynb', 'product2.csv', 'noc_regions.csv', 'halo.txt', 'product.xlsx', '.DS_Store', 'filebaru.txt', 'Topic 4 - Functions, Tuples, Dictionaries, Set and Data processing.ipynb', 'Topic 7 - Object Oriented Programming.ipynb', 'puisi.txt', 'Topic 8 - Miscellaneous.ipynb', 'Topic 3 - Boolean Values, Conditional Execution, Loops, Lists and List Processing, Logical and Bitwise Operations.ipynb', 'coba.xlsx', 'athlete_events.csv', 'Topic 10 - Pandas.ipynb', 'coba.csv', 'Topic 5 - Modules, Packages, and PIP.ipynb', '.ipynb_checkpoints', 'Topic 11 - Pandas (2) dan Sumber Data.ipynb', '120-years-of-olympic-history-athletes-and-results.zip', '.git', 'Topic 1 - Introdution to Python.ipynb', '.vscode', 'Topic 6 - String, String and List Method, Exceptions.ipynb', 'product.csv', 'binary.bin']


In [21]:
import pandas as pd

path = 'athlete_events.csv'
athlete_events = pd.read_csv(path)

print(athlete_events)

            ID                      Name Sex   Age  Height  Weight  \
0            1                 A Dijiang   M  24.0   180.0    80.0   
1            2                  A Lamusi   M  23.0   170.0    60.0   
2            3       Gunnar Nielsen Aaby   M  24.0     NaN     NaN   
3            4      Edgar Lindenau Aabye   M  34.0     NaN     NaN   
4            5  Christine Jacoba Aaftink   F  21.0   185.0    82.0   
...        ...                       ...  ..   ...     ...     ...   
271111  135569                Andrzej ya   M  29.0   179.0    89.0   
271112  135570                  Piotr ya   M  27.0   176.0    59.0   
271113  135570                  Piotr ya   M  27.0   176.0    59.0   
271114  135571        Tomasz Ireneusz ya   M  30.0   185.0    96.0   
271115  135571        Tomasz Ireneusz ya   M  34.0   185.0    96.0   

                  Team  NOC        Games  Year  Season            City  \
0                China  CHN  1992 Summer  1992  Summer       Barcelona   
1          

Dokumentasi lebih lanjut tentang library ``kaggle`` di Python, dapat dilihat di https://github.com/Kaggle.

## Hands on Lab 1: Mari mengunduh data dari kaggle

Silakan bereksperimen untuk mengunduh data yang Anda inginkan dari kaggle menggunakan API.

1. Cari dataset yang diinginkan

2. Unduh salah satu data

3. Tampilkan dalam bentuk dataframe

# Scrapping Data dari HTML

Terkadang data yang diinginkan tidak tersedia dalam bentuk file, akan tetapi dalam bentuk sebuah halaman website. Kita bisa mengambil data dari halaman HTML menggunakan teknik scrapping. Untuk bisa menjalankan teknik scrapping di Python, kita membutuhkan beberapa library tambahan. Silakan lakukan instalasi library-library tersebut.

```python
conda install lxml
conda install html5lib
conda install BeautifulSoup4
```

Peritnah conda bisa diganti dengan ``pip3``.

In [23]:
!conda install lxml
!conda install html5lib
!conda install BeautifulSoup4

Collecting package metadata (current_repodata.json): done
Solving environment: done

# All requested packages already installed.

Collecting package metadata (current_repodata.json): done
Solving environment: done

# All requested packages already installed.

Collecting package metadata (current_repodata.json): done
Solving environment: done

# All requested packages already installed.



Setelah melakukan instalasi, kita sudah bisa melakukan teknik scrapping. Sebagai contoh, kita mau mengunduh data dari https://www.fdic.gov/resources/resolutions/bank-failures/failed-bank-list/ (Silakan lihat daulu websitenya sebalum menjalankan kode program berikut):

In [26]:
import pandas as pd

df = pd.read_html('https://www.fdic.gov/resources/resolutions/bank-failures/failed-bank-list/')

In [27]:
df

[                         Bank NameBank           CityCity StateSt  CertCert  \
 0                    Almena State Bank             Almena      KS     15426   
 1           First City Bank of Florida  Fort Walton Beach      FL     16748   
 2                 The First State Bank      Barboursville      WV     14361   
 3                   Ericson State Bank            Ericson      NE     18265   
 4     City National Bank of New Jersey             Newark      NJ     21111   
 ..                                 ...                ...     ...       ...   
 558                 Superior Bank, FSB           Hinsdale      IL     32646   
 559                Malta National Bank              Malta      OH      6629   
 560    First Alliance Bank & Trust Co.         Manchester      NH     34264   
 561  National State Bank of Metropolis         Metropolis      IL      3815   
 562                   Bank of Honolulu           Honolulu      HI     21029   
 
                  Acquiring Institutio

# Koneksi Data ke MySQL/MariaDB

Sebagai tambahan materi, mari kita mengambil data yang ada dalam DBMS. Pada contoh kali ini, kita akan berfokus kepada DBMS MySQL/MariaDB. Library yang mendukung hal ini adalah ``SQLAlchemy`` (di modul ini kita hanya berfokus ke pembacaan data saja, jadi modul ini bersifat opsional). Untuk bisa bekerja dengan baik, library ini membutuhkan driver yang sesuai dengan DBMS sumber data. Sebagai contoh, apabila kita menggunakan MySQL maka kita harus menambahkan driver pymysql. Dokumentasi SQLAlchemy dapat dilihat di https://docs.sqlalchemy.org/.

Seperti biasa, lakukan instalasi library bersangkutan dengan conda ataupun pip3:

In [28]:
!pip3 install sqlalchemy



Setelah itu lakukan intalasi Driver pymysql:

In [29]:
!pip3 install pymysql

Collecting package metadata (current_repodata.json): done
Solving environment: done

# All requested packages already installed.



Silakan buat dahulu tabel di MySQL/MariaDB dengan cara meng-import file.sql yang ada di https://github.com/adammb86/webservicebpom/blob/main/webservices.sql. Setelah itu lakukan import library pymysql dan pandas (SQLAlchemy opsional karena hanya pembacaan data ke dataframe):

In [36]:
import pandas as pd
import pymysql

pymysql.install_as_MySQLdb()

Buatlah koneksi ke MySQL sebagai berikut (Pastikan MySQL server sudah aktif apabila koneksi diarahkan ke localhost):

In [55]:
Host = "localhost"  
User = "root"      
Password = ""           
database = "webservices"

conn  = pymysql.connect(host=Host, user=User, password=Password, database= database)

print(conn)

<pymysql.connections.Connection object at 0x7fe0c02e13d0>


Setelah membuat koneksi, maka kita bisa melakukan pengambilan data ke dalam dataframe dengan perintah berikut:

In [56]:
df = pd.read_sql("SELECT jenis_produk, nama_produk, jumlah_stok FROM produk", conn)

df

Unnamed: 0,jenis_produk,nama_produk,jumlah_stok
0,Minuman,Air Mineral,100
1,Makanan,Snack Ringan,50


Selain bisa melakukan pembacaan dari MySQL, kita juga bisa melakukan penulisan dataframe ke table di MySQL. Berikut contoh penggunaannya:

In [57]:
import pandas as pd

df = pd.DataFrame({'col1':[1,2,3,4,5,6],'col2':[444,555,666,444,333,555],'col3':['abc','def','ghi','xyz','mno','jkl']})
df

Unnamed: 0,col1,col2,col3
0,1,444,abc
1,2,555,def
2,3,666,ghi
3,4,444,xyz
4,5,333,mno
5,6,555,jkl


# Pandas Cheat Sheet

Untuk melengkapi pengetahuan sebelum masuk ke latihan pengolahan data menggunakan Pandas, silakan pelajari dahulu pandas cheat sheet berikut:

![Pandas cheat sheet 1](https://drive.google.com/uc?export=view&id=1QoqqQIcuzT3xPtn6b2jUfSIlTYSyPN7b)

![Pandas cheat sheet 2](https://drive.google.com/uc?export=view&id=1PgGQIXW9RC7cIwpWLdiu-6xl9q6-qdLA)