# Intro
File (CSV) I/O pada Python bertujuan untuk melatih dan memberikan wawasan kepada pembelajar agar bisa memahami penggunaan operasi read, find, insert, update dan delete pada file CSV.

File CSV yang digunakan pada latihan ini bersumber dari studi kasus HR pada Oracle yang sudah dikonversi dalam format CSV.

Latihan ini disajikan sebagai pengenalan dasar sebelum pembelajar menggunakan DBMS (Database Management System). Harapannya pembelajar memiliki pengalaman melakukan pemrosesan file secara langsung, sebelum dimudahkan oleh operasi-operasi yang telah disediakan oleh DBMS untuk memproses data tabular.

Pada latihan ini terdapat 10 instruksi yang dapat dikerjakan oleh pembelajar, dan harus menyesuaikan dengan output yang telah disediakan. Pembelajar tidak diperkenankan menggunakan module selain `csv`.

# Import Module
Module CSV digunakan untuk membaca file CSV.

Module Drive digunakan untuk memuat dan meminta izin mengakses direktori dan file pada Google Drive.

In [None]:
import csv
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


# Menentukan Path Direktori
Mempersiapkan path direktori yang berisikan kumpulan file CSV pada variable `csv_path`

In [None]:
# Sesuaikan path direktori masing-masing
csv_path = '/content/drive/MyDrive/CSV/'

# Procedure Read File
Pada procedure `read_file` berfungsi untuk membaca file CSV dan menampilkan seluruh isi dari file CSV yang dipilih.

Procedure ini masih memiliki keterbatasan jumlah kolom yang dapat ditampilkan.

In [None]:
def read_file(csv_file_name):
  with open(csv_path + csv_file_name, mode='r') as csv_file:
      csv_reader = csv.reader(csv_file, delimiter=',')
      line_count = 0
      for row in csv_reader:
          if line_count == 0:
              print(f'Column names:')
          print(f'{row[0]}, {row[1]}, {row[2]}')
          line_count += 1
      print(f'Processed {line_count} lines include header.')
  csv_file.close()

Memanggil procedure `read_file` untuk membaca file `countries.csv` yang terdiri dari 3 kolom.

In [None]:
read_file('countries.csv')

Column names:
country_id, country_name, region_id
AR, Argentina, 2
AU, Australia, 3
BE, Belgium, 1
BR, Brazil, 2
CA, Canada, 2
CH, Switzerland, 1
CN, China, 3
DE, Germany, 1
DK, Denmark, 1
EG, Egypt, 4
FR, France, 1
IL, Israel, 4
IN, India, 3
IT, Italy, 1
JP, Japan, 3
KW, Kuwait, 4
ML, Malaysia, 3
MX, Mexico, 2
NG, Nigeria, 4
NL, Netherlands, 1
SG, Singapore, 3
UK, 'United Kingdom', 1
US, 'United States of America', 2
ZM, Zambia, 4
ZW, Zimbabwe, 4
Processed 26 lines include header.


**Instruksi 1:** Definisikan ulang procedure `read_file` untuk dapat **menampilkan seluruh kolom**.

In [None]:
def read_file(csv_file_name):
    with open(csv_path + csv_file_name, mode='r') as csv_file:
      csv_reader = csv.reader(csv_file, delimiter=',')
      line_count = 0
      for row in csv_reader:
          if line_count == 0:
            print(f'Column names:')
          print(', '.join(row))
          line_count += 1
      print(f'Processed {line_count} lines include header.')
      csv_file.close()
  # tambahkan kode sesuai instruksi di sini

Memanggil procedure `read_file` untuk membaca file `regions.csv` yang terdiri dari 2 kolom.

In [None]:
read_file('regions.csv')

Column names:
region_id, region_name
1, Europe
2, Americas
3, Asia
4, 'Middle East and Africa'
Processed 5 lines include header.


Memanggil procedure `read_file` untuk membaca file `employees.csv` yang terdiri dari 11 kolom.

In [None]:
read_file('employees.csv')

Column names:
employee_id, first_name, last_name, email, phone_number, hire_date, job_id, salary, commission_pct, manager_id, department_id
100, Steven, King, SKING, 515.123.4567, 2003-06-17, AD_PRES, 24000, NULL, NULL, 90
101, Neena, Kochhar, NKOCHHAR, 515.123.4568, 2005-09-21, AD_VP, 17000, NULL, 100, 90
102, Lex, 'De Haan', LDEHAAN, 515.123.4569, 2001-01-13, AD_VP, 17000, NULL, 100, 90
103, Alexander, Hunold, AHUNOLD, 590.423.4567, 2006-01-03, IT_PROG, 9000, NULL, 102, 60
104, Bruce, Ernst, BERNST, 590.423.4568, 2007-05-21, IT_PROG, 6000, NULL, 103, 60
105, David, Austin, DAUSTIN, 590.423.4569, 2005-06-25, IT_PROG, 4800, NULL, 103, 60
106, Valli, Pataballa, VPATABAL, 590.423.4560, 2006-02-05, IT_PROG, 4800, NULL, 103, 60
107, Diana, Lorentz, DLORENTZ, 590.423.5567, 2007-02-07, IT_PROG, 4200, NULL, 103, 60
108, Nancy, Greenberg, NGREENBE, 515.124.4569, 2002-08-17, FI_MGR, 12008, NULL, 101, 100
109, Daniel, Faviet, DFAVIET, 515.124.4169, 2002-08-16, FI_ACCOUNT, 9000, NULL, 108, 100
11

**Instruksi 2:** Definisikan ulang procedure `read_file` untuk dapat **menampilkan kolom tertentu** berdasarkan indeks list (mulai dari 0) dengan menyediakan 3 parameter/argumen:

1.   `csv_file_name`: Nama File CSV
2.   `column_start`: Indeks kolom awal
3.   `column_end`: Indeks kolom akhir



In [None]:
def read_file(csv_file_name, column_start=0, column_end=None):
    with open(csv_path + csv_file_name, mode='r') as csv_file:
        csv_reader = csv.reader(csv_file, delimiter=',')
        line_count = 0
        for row in csv_reader:
            if line_count == 0:
                print(f'Column names:')
            if column_end is None:
                column_end = len(row)
            selected_columns = row[column_start:column_end+1]
            print(", ".join(selected_columns))
            line_count += 1
    csv_file.close()
#   # tambahkan kode sesuai instruksi di sini

Memanggil procedure `read_file` untuk membaca file `employees.csv` dengan pemilihan kolom tertentu.

Proses pemilihan kolom sama seperti melakukan slicing list pada Python.

In [None]:
# Menampilkan dari indeks awal 0 dari 3 indeks
read_file('employees.csv', 0, 3)

Column names:
employee_id, first_name, last_name, email
100, Steven, King, SKING
101, Neena, Kochhar, NKOCHHAR
102, Lex, 'De Haan', LDEHAAN
103, Alexander, Hunold, AHUNOLD
104, Bruce, Ernst, BERNST
105, David, Austin, DAUSTIN
106, Valli, Pataballa, VPATABAL
107, Diana, Lorentz, DLORENTZ
108, Nancy, Greenberg, NGREENBE
109, Daniel, Faviet, DFAVIET
110, John, Chen, JCHEN
111, Ismael, Sciarra, ISCIARRA
112, 'Jose Manuel', Urman, JMURMAN
113, Luis, Popp, LPOPP
114, Den, Raphaely, DRAPHEAL
115, Alexander, Khoo, AKHOO
116, Shelli, Baida, SBAIDA
117, Sigal, Tobias, STOBIAS
118, Guy, Himuro, GHIMURO
119, Karen, Colmenares, KCOLMENA
120, Matthew, Weiss, MWEISS
121, Adam, Fripp, AFRIPP
122, Payam, Kaufling, PKAUFLIN
123, Shanta, Vollman, SVOLLMAN
124, Kevin, Mourgos, KMOURGOS
125, Julia, Nayer, JNAYER
126, Irene, Mikkilineni, IMIKKILI
127, James, Landry, JLANDRY
128, Steven, Markle, SMARKLE
129, Laura, Bissot, LBISSOT
130, Mozhe, Atkinson, MATKINSO
131, James, Marlow, JAMRLOW
132, TJ, Olson, TJO

In [None]:
# Menampilkan dari indeks awal 0 sampai akhir
read_file('employees.csv', 0)

Column names:
employee_id, first_name, last_name, email, phone_number, hire_date, job_id, salary, commission_pct, manager_id, department_id
100, Steven, King, SKING, 515.123.4567, 2003-06-17, AD_PRES, 24000, NULL, NULL, 90
101, Neena, Kochhar, NKOCHHAR, 515.123.4568, 2005-09-21, AD_VP, 17000, NULL, 100, 90
102, Lex, 'De Haan', LDEHAAN, 515.123.4569, 2001-01-13, AD_VP, 17000, NULL, 100, 90
103, Alexander, Hunold, AHUNOLD, 590.423.4567, 2006-01-03, IT_PROG, 9000, NULL, 102, 60
104, Bruce, Ernst, BERNST, 590.423.4568, 2007-05-21, IT_PROG, 6000, NULL, 103, 60
105, David, Austin, DAUSTIN, 590.423.4569, 2005-06-25, IT_PROG, 4800, NULL, 103, 60
106, Valli, Pataballa, VPATABAL, 590.423.4560, 2006-02-05, IT_PROG, 4800, NULL, 103, 60
107, Diana, Lorentz, DLORENTZ, 590.423.5567, 2007-02-07, IT_PROG, 4200, NULL, 103, 60
108, Nancy, Greenberg, NGREENBE, 515.124.4569, 2002-08-17, FI_MGR, 12008, NULL, 101, 100
109, Daniel, Faviet, DFAVIET, 515.124.4169, 2002-08-16, FI_ACCOUNT, 9000, NULL, 108, 100
11

In [None]:
# Menampilkan dari indeks awal 3 dari 5 indeks
read_file('employees.csv', 3, 5)

Column names:
email, phone_number, hire_date
SKING, 515.123.4567, 2003-06-17
NKOCHHAR, 515.123.4568, 2005-09-21
LDEHAAN, 515.123.4569, 2001-01-13
AHUNOLD, 590.423.4567, 2006-01-03
BERNST, 590.423.4568, 2007-05-21
DAUSTIN, 590.423.4569, 2005-06-25
VPATABAL, 590.423.4560, 2006-02-05
DLORENTZ, 590.423.5567, 2007-02-07
NGREENBE, 515.124.4569, 2002-08-17
DFAVIET, 515.124.4169, 2002-08-16
JCHEN, 515.124.4269, 2005-09-28
ISCIARRA, 515.124.4369, 2005-09-30
JMURMAN, 515.124.4469, 2006-03-07
LPOPP, 515.124.4567, 2007-12-07
DRAPHEAL, 515.127.4561, 2002-12-07
AKHOO, 515.127.4562, 2003-05-18
SBAIDA, 515.127.4563, 2005-12-24
STOBIAS, 515.127.4564, 2005-07-24
GHIMURO, 515.127.4565, 2006-11-15
KCOLMENA, 515.127.4566, 2007-08-10
MWEISS, 650.123.1234, 2004-07-18
AFRIPP, 650.123.2234, 2005-04-10
PKAUFLIN, 650.123.3234, 2003-05-01
SVOLLMAN, 650.123.4234, 2005-10-10
KMOURGOS, 650.123.5234, 2007-11-16
JNAYER, 650.124.1214, 2005-07-16
IMIKKILI, 650.124.1224, 2006-09-28
JLANDRY, 650.124.1334, 2007-01-14
SMARK

**Instruksi 3:** Definisikan ulang procedure `read_file` untuk membaca file CSV dengan **jumlah baris yang dapat dibatasi**.

Diperlukan sebanyak 4 parameter/argumen sebagai berikut:
1.   `csv_file_name`: Nama File CSV
2.   `column_start`: Indeks kolom awal
3.   `column_end`: Indeks kolom akhir
4.   `limit`: Nilai batas jumlah baris, dimulai dari baris pertama


In [None]:
def read_file(csv_file_name, column_start=0, column_end=None, limit=None):
  with open(csv_path + csv_file_name, mode='r') as csv_file:
    csv_reader = csv.reader(csv_file, delimiter=',')
    line_count = 0
    for row in csv_reader:
      if line_count == 0:
        print(f'Column names:')
      if line_count == limit+1:
        break
      if column_end is None:
        column_end = len(row)
      selected_columns = row[column_start:column_end+1]
      print(", ".join(selected_columns))
      line_count += 1
  csv_file.close()
# tambahkan kode sesuai instruksi di sini

Memanggil procedure `read_file` untuk membaca file `employees.csv`, mulai dari indeks awal 3 dari 5 indeks, sebanyak 10 baris.

In [None]:
read_file('employees.csv', 3, 5, 10)

Column names:
email, phone_number, hire_date
SKING, 515.123.4567, 2003-06-17
NKOCHHAR, 515.123.4568, 2005-09-21
LDEHAAN, 515.123.4569, 2001-01-13
AHUNOLD, 590.423.4567, 2006-01-03
BERNST, 590.423.4568, 2007-05-21
DAUSTIN, 590.423.4569, 2005-06-25
VPATABAL, 590.423.4560, 2006-02-05
DLORENTZ, 590.423.5567, 2007-02-07
NGREENBE, 515.124.4569, 2002-08-17
DFAVIET, 515.124.4169, 2002-08-16


**Instruksi 4:** Definisikan ulang procedure `read_file` untuk membaca file CSV dengan **sortir pada kolom pertama**.

Diperlukan sebanyak 4 parameter/argumen sebagai berikut:
1.   `csv_file_name`: Nama File CSV
2.   `column_start`: Indeks kolom awal
3.   `column_end`: Indeks kolom akhir
4.   `limit`: Nilai batas jumlah baris, dimulai dari baris pertama
5.   `sort`: Sortir berdasarkan kolom pertama terpilih, dengan urutan Ascending (1), Descending (-1), dan Default (0) atau tanpa parameter.

In [None]:
def read_file(csv_file_name, column_start=0, column_end=None, limit=None, sort=0):
 with open(csv_path + csv_file_name, mode='r') as csv_file:
        csv_reader = csv.reader(csv_file, delimiter=',')
        line_count = 0
        data = []

        for row in csv_reader:
            if line_count == 0:
                print(f'Column names:')
            if line_count == limit + 1:
                break
            if column_end is None:
                column_end = len(row)

            selected_columns = row[column_start:column_end+1]
            data.append(selected_columns)

            line_count += 1

        if sort == 1:
            data.sort(key=lambda x: x[0])
        elif sort == -1:
            data.sort(key=lambda x: x[0], reverse=True)

        for row in data:
            print(", ".join(row))

        print(f'Processed {line_count} lines.')

 csv_file.close()
# tambahkan kode sesuai instruksi di sini

Memanggil procedure `read_file` untuk membaca file `employees.csv` dengan **sortir berdasarkan kolom pertama**.

In [None]:
# Sorted by `email` in descending order
read_file('employees.csv', 3, 5, 10, -1)

Column names:
email, phone_number, hire_date
VPATABAL, 590.423.4560, 2006-02-05
SKING, 515.123.4567, 2003-06-17
NKOCHHAR, 515.123.4568, 2005-09-21
NGREENBE, 515.124.4569, 2002-08-17
LDEHAAN, 515.123.4569, 2001-01-13
DLORENTZ, 590.423.5567, 2007-02-07
DFAVIET, 515.124.4169, 2002-08-16
DAUSTIN, 590.423.4569, 2005-06-25
BERNST, 590.423.4568, 2007-05-21
AHUNOLD, 590.423.4567, 2006-01-03
Processed 11 lines.


In [None]:
# Sorted by `email` in ascending order
read_file('employees.csv', 3, 5, 10, 1)

Column names:
AHUNOLD, 590.423.4567, 2006-01-03
BERNST, 590.423.4568, 2007-05-21
DAUSTIN, 590.423.4569, 2005-06-25
DFAVIET, 515.124.4169, 2002-08-16
DLORENTZ, 590.423.5567, 2007-02-07
LDEHAAN, 515.123.4569, 2001-01-13
NGREENBE, 515.124.4569, 2002-08-17
NKOCHHAR, 515.123.4568, 2005-09-21
SKING, 515.123.4567, 2003-06-17
VPATABAL, 590.423.4560, 2006-02-05
email, phone_number, hire_date
Processed 11 lines.


# Procedure Find File
**Instruksi 5:** Definisikan procedure `find_file` untuk **mencari dan menampilkan data terpilih berdasarkan kata kunci**.

1.   `csv_file_name`: Nama File CSV
2.   `index_column`: Indeks kolom yang dijadikan acuan untuk pencarian
3.   `keyword`: Kata kunci pencarian

In [None]:
def find_file(csv_file_name, index_column, keyword):
  with open(csv_path + csv_file_name, mode='r') as csv_file:
    csv_reader = csv.reader(csv_file, delimiter=',')
    line_count = 0
    found = False

    for row in csv_reader:
      if line_count == 0:
        print(f'Column names:')

      if keyword == row[index_column]:
        print(", ".join(row))
        found = True
        break

      line_count += 1

    if not found:
        print(f'No data found with the given keyword.')

    csv_file.close()
# tambahkan kode sesuai instruksi di sini

**Instruksi 6:** Gunakan procedure `find_file` dengan parameter/argumen sebagai berikut:

1.   `csv_file_name`: `'employees.csv'`
2.   `index_column`: `5`
3.   `keyword`: `'2004'`



In [None]:
find_file('employees.csv', 5, '2004')
# tuliskan kode sesuai instruksi di sini

Column names:
No data found with the given keyword.


**Instruksi 7:** Gunakan procedure `find_file` dengan parameter/argumen sebagai berikut:

1.   `csv_file_name`: `'employees.csv'`
2.   `index_column`: `6`
3.   `keyword`: `'SA_REP'`



In [None]:
find_file('employees.csv', 6, 'SA_REP')
# tuliskan kode sesuai instruksi di sini

Column names:
150, Peter, Tucker, PTUCKER, 011.44.1344.129268, 2005-01-30, SA_REP, 10000, 0.3, 145, 80


# Procedure Insert File
**Instruksi 8:** Definisikan procedure `insert_file` untuk menambahkan data baru pada posisi baris paling akhir.

1.   `csv_file_name`: Nama File CSV
2.   `list_data`: List yang berisikan satu baris data dan memiliki data sesuai dengan jumlah kolom pada File CSV terpilih

In [None]:
def insert_file(csv_file_name, list_data):
    with open(csv_path + csv_file_name, mode='a', newline='') as csv_file:
        csv_writer = csv.writer(csv_file, delimiter=',')
        csv_writer.writerow(list_data)

    csv_file.close()
# tuliskan kode sesuai instruksi di sini

Memanggil procedure `insert_file` untuk menambahkan satu baris data pada file `countries.csv`.

In [None]:
insert_file('countries.csv', ['ID', 'Indonesia', 1])

In [None]:
insert_file('countries.csv', ['ZL', 'New Zealand', 1])

In [None]:
read_file('countries.csv')

Column names:
country_id, country_name, region_id
AR, Argentina, 2
AU, Australia, 3
BE, Belgium, 1
BR, Brazil, 2
CA, Canada, 2
CH, Switzerland, 1
CN, China, 3
DE, Germany, 1
DK, Denmark, 1
EG, Egypt, 4
FR, France, 1
IL, Israel, 4
IN, India, 3
IT, Italy, 1
JP, Japan, 3
KW, Kuwait, 4
ML, Malaysia, 3
MX, Mexico, 2
NG, Nigeria, 4
NL, Netherlands, 1
SG, Singapore, 3
UK, 'United Kingdom', 1
US, 'United States of America', 2
ZM, Zambia, 4
ZW, Zimbabwe, 4
ID, Indonesia, 1
ZL, New Zealand, 1
Processed 28 lines include header.


# Procedure Update File
**Instruksi 9:** Definisikan procedure `update_file` untuk **mengubah satu data yang telah ada, berdasarkan kolom paling pertama**.

1.   `csv_file_name`: Nama File CSV
2.   `keyword`: Kata kunci untuk menemukan baris yang akan diubah, hanya berdasarkan kolom paling pertama
2.   `index_column`: Indeks kolom yang nilainya akan diubah, dimulai dari indeks 0
3.   `new_value`: Nilai baru untuk mengubah nilai sebelumnya

In [None]:
# Procedure update_file saves all row(s) first into list
# It is more practical to manipulate data in list

In [None]:
# Mengubah data dengan kolom pertama bernilai 'ID', indeks kolom ke-2, dengan nilai baru '3'
update_file('countries.csv', 'ID', 2, 3)

In [None]:
# Memeriksa hasil perubahan data
read_file('countries.csv')

In [None]:
# Mengubah data dengan kolom pertama bernilai 'ID', indeks kolom ke-1, dengan nilai baru 'Negara Kesatuan Republik Indonesia'
update_file('countries.csv', 'ID', 1, 'Negara Kesatuan Republik Indonesia')

In [1]:
# Memeriksa hasil perubahan data
read_file('countries.csv')

NameError: ignored

In [None]:
# Mengubah data dengan kolom pertama bernilai 'ZL', indeks kolom ke-0, dengan nilai baru 'NZ'
update_file('countries.csv', 'ZL', 0, 'NZ')

In [None]:
# Memeriksa hasil perubahan data
read_file('countries.csv')

# Procedure Delete File
**Instruksi 10:** Definisikan procedure `delete_file` untuk **menghapus satu data yang telah ada, berdasarkan kolom paling pertama**.

1.   `csv_file_name`: Nama File CSV
2.   `keyword`: Kata kunci untuk menemukan baris yang akan dihapus, hanya berdasarkan kolom paling pertama

In [None]:
# Procedure delete_file saves all row(s) first into list
# It is more practical to manipulate data in list
def delete_file(csv_file_name, keyword):
  # tuliskan kode sesuai instruksi di sini

In [None]:
# Menghapus data dengan kolom pertama bernilai 'NZ'
delete_file('countries.csv', 'NZ')

In [None]:
# Memeriksa hasil penghapusan data
read_file('countries.csv')