# **Modul 1: Impor Data (*Import Data*)**

## Langkah dalam pengecekan instalasi dari anaconda

Langkah pengecekan ini diterapkan untuk pengguna yang menggunakan VS Code dan sudah menginstall anaconda sebelumnya.
1. Menerapkan kernel <code>anaconda3</code>
2. Melalui <code>conda list</code> melalui terminal ataupun jupyter notebook seperti dibawah ini

In [None]:
!conda list

2. Melalui <code>!conda info</code> pada jupyter notebook atau menggunakan terminal menggunakan <code>!conda info </code>

In [None]:
!conda info

3. Mengupdate paket instalasi dari anaconda menggunakan perintah <code>!conda update --all</code> 

    * Menggunakan terminal dengan mengaplikasikannya menggunakan kernel anaconda3 melalui perintah <code>conda update --all</code> 

    * atau menggunakan <code>pip install --upgrade <package_name></code> pada terminal.

## **1. Impor Data dari file <code>Excel</code> ke DataFrame**

Mengecek lokasi dari file menggunakan <code>import os</code>

In [None]:
import os
os.getcwd()

Mengimpor pandas dari library

In [None]:
Import pandas as pd

Import data dari file <code>.xlxs</code> menggunakan <code>pandas data frame</code>. 

><code>df_excel = pd.read_excel('nama file.xlxs', sheet_name='nama_sheet',header=0)</code>

In [None]:
df_excel = pd.read_excel('nama file.xlxs', sheet_name='nama_sheet',header=0)

<code>df_excel</code> merupakan variabel yang dibuat. sedangkan <code>pd.read_excel()</code> merupakan penjelasan dari definisi variabel yang telah dibuat

Parameter header=0 mengartikan bahwa baris pertama (baris ke-0) dari sheet Excel akan digunakan sebagai header atau nama kolom untuk DataFrame yang dihasilkan.

Jika tidak ada header dalam file Excel, Anda bisa menggunakan header=None untuk menghindari penggunaan baris pertama sebagai header.

* <code>header=0</code> : baris pertama digunakan sebagai header.
* <code>header=None</code> : tidak ada baris yang digunakan sebagai header dan kolom akan diberikan nama default (misalnya 0, 1, 2...)

Berikut ini merupakan bentuk code sepenuhnya:

In [None]:
# Mengimpor library pandas
import pandas as pd

# Membaca Excel File
df_excel = pd.read_excel('nama file.xlsx', sheet_name='nama sheet', header=0)

# Menampilkan kolom awal pada DataFrame
print(df_excel.head())

## **2. Import Data dari file <code>CSV</code> ke DataFrame**

Mengimpor data dari file <code>CSV</code> menggunakan: 

><code>df_csv = pd.read_csv('nama file.csv', header=0)</code>

In [None]:
df_csv = pd.read_csv('nama file.csv', header=0)

Berikut ini merupakan bentuk kode sepenuhnya

In [None]:
# Mengimpor library pandas
import pandas as pd

# Membaca file csv
df_csv = pd.read_csv('nama file.csv', header=0)

## **3. Import Data dari file <code>Google Sheets</code> ke DataFrame**

Langkah-langkah persiapan:
1. Login ke Google Cloud Console (https://console.cloud.google.com/)
2. Buat project (jika belum punya sebelumnya)
3. Enable Google Drive API dan Google Sheets API di APIs and Services
4. Buat service account, simpan/salin alamat email service account
5. Buat credential key dan ekspor sebagai <code>JSON</code>
6. Berikan akses edit ke email service account (poin 2) di file Google Sheets yang hendak di-import

>Menginstal <code>gspread</code> pada terminal meenggunakan perintah <code>pip install gspread</code>.
>
>atau melalui perintah dibawah ini pada jupyter notebook
<code>!pip install gspread</code>

In [None]:
pip install gspread

## **4. Impor Data dari SQL Server**

Langkah pertama adalah menginstall <code>pyodbc</code>.
>* Menggunakan terminal <code>pip install pyodbc</code>
>* Menggunakan jupyter notebook <code>!pip install pyodbc</code>

Langkah selanjutnya adalah dengan mengimport <code>pyodbc</code>
dan <code>pandas</code>

In [None]:
import pyodbc
import pandas as pd

Melanjutkan dengan mendefinisikan koneksi string. Mendefinisikan variabel untuk melakukan koneksi dengan menggunakan driver dengan server yang dibutuhkan, database yang tersedia pada server, UID pada sql server dan juga password dalam sql server.

In [None]:
# Menjelaskan koneksi string
conn_str = (
    'DRIVER={ODBC Driver 17 for SQL Server};'
    'SERVER=your_server_name;'
    'DATABASE=your_database_name;'
    'UID=your_username;'
    'PWD=your_password'
)

Melanjutkan dengan menetapkan koneksi

In [None]:
# Menetapkan variabel koneksi
conn = pyodbc.connect(conn_str)

Mendefinisikan SQL kueri sebagai contoh seperti berikut

In [None]:
# Menetapkan variabel kueri SQL sebagai contoh seperti berikut
query = 'SELECT * FROM your_table_name'

Mengeksekusikan kueri dan membaca data kedalam DataFrame. 

Variabel <code>df_sql</code> merupakan variabel yang dibuat. Sedangkan <code>pd.read_sql()</code> merupakan penjelasan dari apa yang dilakukan oleh variabel tersebut

In [None]:
# Mengeksekusikan kueri yang telah dibuat untuk membaca dataframe dengan alias variabel sebagai df_sql
df_sql = pd.read_sql(query, conn)

Menampilkan dataframe dari tahap sebelumnya

In [None]:
# Menampilkan dataframe dari kueri SQL yang diterapkan pada SQL Server
print(df_sql.head())

Berikut ini merupakan bentuk code sepenuhnya

In [None]:
# Mengimpor library
import pyodbc
import pandas as pd

# Membuat variabel koneksi string sebagai conn_str dan mendefinisikan variabel tersebut
conn_str = (
    'DRIVER={ODBC Driver 17 for SQL Server};'
    'SERVER=your_server_name;'
    'DATABASE=your_database_name;'
    'UID=your_username;'
    'PWD=your_password'
)

# Menetapkan variabel koneksi sebagai conn dan menjelaskan variabel menggunakan pyobdc.connection
conn = pyodbc.connect(conn_str)

# Membuat variabel kueri SQL dan mejelaskan apa yang dilakukan oleh variabel tersebut.
query = 'SELECT * FROM your_table_name'

# Mengeksekusikan kueri dan membaca data kedalam variabel dataframe (df_sql)
df_sql = pd.read_sql(query, conn)

# Memunculkan DataFrame dari kueri yang diberikan kepada SQL Server 
print(df_sql.head())