# Membaca dan Menampilkan Data Menggunakan Pandas

Dalam contoh ini, kita menggunakan **library Pandas** untuk membaca file CSV dan menampilkan beberapa baris awal dari dataset.

### Penjelasan Langkah-langkah:
1. **Mengimpor Library**:
   - `pandas` diimpor dengan alias `pd`, yang merupakan konvensi umum dalam komunitas Python untuk menggunakan Pandas.
2. **Membaca File CSV**:
   - Fungsi `pd.read_csv()` digunakan untuk membaca file CSV yang berisi data.
   - File `Salary_Data.csv` diakses dari lokasi direktori lokal: `C:\\data_science_practice\\datasets\\Salary_Data.csv`.
   - Data yang dibaca disimpan dalam sebuah **DataFrame** bernama `df`.
3. **Menampilkan Data Awal**:
   - Fungsi `df.head()` digunakan untuk menampilkan **5 baris pertama** dari DataFrame.
   - Hal ini berguna untuk mendapatkan gambaran awal tentang struktur data, kolom yang ada, dan beberapa contoh nilai.

### Catatan:
- Pastikan file `Salary_Data.csv` berada di lokasi yang tepat sesuai dengan path yang disebutkan atau sesuaikan dengan lokasi file Anda.
- Jika file tidak ditemukan, Anda mungkin akan mendapatkan error seperti `FileNotFoundError`. Dalam kasus ini, periksa kembali lokasi file atau pastikan Anda memiliki izin untuk mengaksesnya.

### Contoh Output (Jika File Tersedia):
Setelah menjalankan kode, Anda akan melihat output yang menampilkan 5 baris pertama dari dataset, dengan kolom seperti *YearsExperience* dan *Salary* (jika dataset tersebut adalah tentang gaji berdasarkan pengalaman kerja).


In [4]:
# Mengimpor library pandas dengan alias 'pd'
import pandas as pd

# Membaca file CSV 'Salary_Data.csv' dari lokasi yang diberikan dan menyimpannya dalam sebuah DataFrame bernama 'df'
df = pd.read_csv('C:\\data_science_practice\\datasets\\Salary_Data.csv')

# Menampilkan 5 baris pertama dari DataFrame 'df' menggunakan fungsi 'head()'
print(df.head())

   YearsExperience   Salary
0              1.1  39343.0
1              1.3  46205.0
2              1.5  37731.0
3              2.0  43525.0
4              2.2  39891.0


# Membuat dan Memodifikasi DataFrame dengan Pandas

Di bawah ini, kita akan membuat sebuah **DataFrame** menggunakan **Pandas** dan menambahkan kolom baru ke dalamnya.

### Penjelasan Langkah-langkah:
1. **Membuat Dictionary**:
   - Kita mulai dengan membuat sebuah **dictionary** dengan tiga kunci: `'Nama'`, `'Umur'`, dan `'Jurusan'`.
   - Setiap kunci berisi daftar nilai yang mewakili data mahasiswa, seperti nama, umur, dan jurusan mereka.
   
2. **Membuat DataFrame**:
   - Dengan menggunakan fungsi `pd.DataFrame()`, dictionary `data` diubah menjadi sebuah **DataFrame** yang bernama `df`. DataFrame ini berfungsi seperti tabel dengan kolom-kolom yang mewakili atribut mahasiswa.

3. **Menambahkan Kolom Baru**:
   - Kolom baru dengan nama `'IPK'` ditambahkan ke DataFrame `df`. Kolom ini berisi nilai IPK untuk setiap mahasiswa yang sudah didefinisikan.
   
4. **Menampilkan DataFrame**:
   - Terakhir, kita menampilkan DataFrame yang sudah dimodifikasi menggunakan `print(df)`. Ini akan menampilkan tabel yang berisi data mahasiswa beserta IPK mereka.

### Output yang Diharapkan:
Setelah menjalankan kode ini, output yang ditampilkan akan menunjukkan sebuah tabel dengan kolom-kolom:
- `Nama`: Nama mahasiswa
- `Umur`: Umur mahasiswa
- `Jurusan`: Jurusan mahasiswa
- `IPK`: Indeks Prestasi Kumulatif mahasiswa

In [5]:
# Mengimpor library pandas dengan alias 'pd'
import pandas as pd

# Membuat dictionary dengan kunci 'Nama', 'Umur', dan 'Jurusan'
data = {
    'Nama' : ['Mukhlis', 'Shanum', 'Berlin'],  # Daftar nama mahasiswa
    'Umur' : [22, 20, 21],                     # Daftar umur mahasiswa
    'Jurusan' : ['Informatika', 'Fisika', 'Matematika']  # Daftar jurusan mahasiswa
}

# Membuat DataFrame dari dictionary 'data'
df = pd.DataFrame(data)

# Menambahkan kolom baru 'IPK' ke DataFrame 'df' dengan nilai-nilai yang sesuai
df['IPK'] = [3.5, 3.2, 3.8]

# Menampilkan DataFrame 'df' yang sudah dimodifikasi
print(df)


      Nama  Umur      Jurusan  IPK
0  Mukhlis    22  Informatika  3.5
1   Shanum    20       Fisika  3.2
2   Berlin    21   Matematika  3.8


# Select Columns from DataFrame

Pada kode ini, kita akan memilih kolom tertentu dari sebuah **DataFrame** yang sudah dimodifikasi.

### Langkah-langkah dalam kode:
1. **Membuat Dictionary**:
   - Kita mulai dengan membuat dictionary yang berisi data mahasiswa, termasuk:
     - `'Nama'`: Daftar nama mahasiswa.
     - `'Umur'`: Daftar umur mahasiswa.
     - `'Jurusan'`: Daftar jurusan yang diambil oleh mahasiswa.
   
2. **Membuat DataFrame**:
   - Menggunakan fungsi `pd.DataFrame()`, dictionary `data` diubah menjadi sebuah **DataFrame** dengan nama `df`.

3. **Menambahkan Kolom Baru**:
   - Kolom baru bernama `'IPK'` ditambahkan ke DataFrame `df`. Kolom ini berisi nilai IPK untuk setiap mahasiswa yang sudah didefinisikan dalam kode.

4. **Menampilkan Seluruh DataFrame**:
   - Fungsi `print(df)` digunakan untuk menampilkan seluruh DataFrame yang sudah dimodifikasi, termasuk kolom `'IPK'` yang baru ditambahkan.

5. **Menampilkan Kolom Tertentu**:
   - Fungsi `print(df[['Nama', 'Jurusan']])` digunakan untuk menampilkan hanya dua kolom dari DataFrame, yaitu `'Nama'` dan `'Jurusan'`.

### Output yang Diharapkan:

Output pertama akan menunjukkan seluruh DataFrame yang berisi:
- `Nama`: Nama mahasiswa
- `Umur`: Umur mahasiswa
- `Jurusan`: Jurusan yang diambil
- `IPK`: Indeks Prestasi Kumulatif mahasiswa

Output kedua akan menampilkan hanya dua kolom dari DataFrame, yaitu `Nama` dan `Jurusan`.

In [6]:
# Mengimpor library pandas dengan alias 'pd'
import pandas as pd

# Membuat dictionary dengan data Nama, Umur, dan Jurusan
data = {
    'Nama' : ['Mukhlis', 'Shanum', 'Berlin'],  # Nama mahasiswa
    'Umur' : [22, 20, 21],                    # Umur masing-masing mahasiswa
    'Jurusan' : ['Informatika', 'Fisika', 'Matematika']  # Jurusan yang diambil
}

# Membuat DataFrame dari dictionary 'data'
df = pd.DataFrame(data)

# Menambahkan kolom baru 'IPK' ke DataFrame 'df' yang berisi nilai IPK untuk setiap mahasiswa
df['IPK'] = [3.5, 3.2, 3.8]

# Menampilkan seluruh DataFrame yang sudah berisi kolom tambahan 'IPK'
print(df)

# Menampilkan hanya kolom 'Nama' dan 'Jurusan' dari DataFrame 'df'
print(df[['Nama', 'Jurusan']])


      Nama  Umur      Jurusan  IPK
0  Mukhlis    22  Informatika  3.5
1   Shanum    20       Fisika  3.2
2   Berlin    21   Matematika  3.8
      Nama      Jurusan
0  Mukhlis  Informatika
1   Shanum       Fisika
2   Berlin   Matematika


# Pandas Sorting: Mengurutkan DataFrame Berdasarkan Kolom

Pada kode ini, kita akan mengurutkan DataFrame berdasarkan kolom tertentu. Dalam hal ini, kolom yang digunakan untuk pengurutan adalah kolom `Umur`.

### Langkah-langkah dalam kode:
1. **Membuat Dictionary**:
   - Dictionary `data` berisi informasi tentang mahasiswa, yaitu:
     - `'Nama'`: Daftar nama mahasiswa.
     - `'Umur'`: Daftar umur mahasiswa.
     - `'Jurusan'`: Daftar jurusan yang diambil oleh mahasiswa.

2. **Membuat DataFrame**:
   - Menggunakan fungsi `pd.DataFrame()`, dictionary `data` diubah menjadi sebuah **DataFrame** dengan nama `df`.

3. **Menambahkan Kolom Baru**:
   - Kolom `'IPK'` ditambahkan dengan nilai IPK untuk masing-masing mahasiswa.

4. **Mengurutkan DataFrame**:
   - DataFrame diurutkan berdasarkan kolom `'Umur'` dengan `df.sort_values()`. Argumen `ascending=False` digunakan untuk mengurutkan secara menurun (dari yang tertua ke yang termuda).

5. **Menampilkan Hasil**:
   - Fungsi `print(df)` digunakan untuk menampilkan DataFrame sebelum pengurutan.
   - Fungsi `print(sorted_df)` digunakan untuk menampilkan DataFrame yang telah diurutkan berdasarkan kolom `'Umur'` secara menurun.

In [7]:
# Mengimpor library pandas dengan alias 'pd'
import pandas as pd

# Membuat dictionary dengan data Nama, Umur, dan Jurusan
data = {
    'Nama' : ['Mukhlis', 'Shanum', 'Berlin'],  # Nama mahasiswa
    'Umur' : [22, 20, 21],                    # Umur masing-masing mahasiswa
    'Jurusan' : ['Informatika', 'Fisika', 'Matematika']  # Jurusan yang diambil
}

# Membuat DataFrame dari dictionary 'data'
df = pd.DataFrame(data)

# Menambahkan kolom baru 'IPK' ke DataFrame 'df' yang berisi nilai IPK untuk setiap mahasiswa
df['IPK'] = [3.5, 3.2, 3.8]

# Mengurutkan DataFrame berdasarkan kolom 'Umur' secara menurun (dari terbesar ke terkecil)
sorted_df = df.sort_values(by='Umur', ascending=False)

# Menampilkan seluruh DataFrame yang sudah berisi kolom tambahan 'IPK'
print(df)

# Menampilkan DataFrame yang sudah diurutkan berdasarkan 'Umur' dari yang tertua ke yang termuda
print(sorted_df)

      Nama  Umur      Jurusan  IPK
0  Mukhlis    22  Informatika  3.5
1   Shanum    20       Fisika  3.2
2   Berlin    21   Matematika  3.8
      Nama  Umur      Jurusan  IPK
0  Mukhlis    22  Informatika  3.5
2   Berlin    21   Matematika  3.8
1   Shanum    20       Fisika  3.2


# Pandas `dropna`: Menghapus Baris dengan Nilai NaN

Pada kode ini, kita akan menggunakan `dropna()` untuk menghapus baris yang memiliki nilai **NaN** (kosong) pada DataFrame.

### Langkah-langkah dalam kode:
1. **Membuat Dictionary**:
   - Dictionary `data` berisi informasi tentang mahasiswa, yaitu:
     - `'Nama'`: Daftar nama mahasiswa.
     - `'Umur'`: Daftar umur mahasiswa.
     - `'Jurusan'`: Daftar jurusan yang diambil oleh mahasiswa.

2. **Membuat DataFrame**:
   - Menggunakan fungsi `pd.DataFrame()`, dictionary `data` diubah menjadi sebuah **DataFrame** dengan nama `df`.

3. **Menambahkan Kolom Baru**:
   - Kolom `'IPK'` ditambahkan dengan nilai IPK untuk masing-masing mahasiswa.

4. **Menghapus Baris dengan NaN**:
   - Menggunakan fungsi `df.dropna()`, baris yang memiliki nilai **NaN** akan dihapus dari DataFrame. Hasilnya disimpan dalam `df_cleaned`.

5. **Menampilkan Hasil**:
   - Fungsi `print(df)` menampilkan DataFrame asli sebelum menggunakan `dropna()`.
   - Fungsi `print(df_cleaned)` menampilkan DataFrame setelah baris dengan **NaN** dihapus.


In [13]:
# Mengimpor library pandas dengan alias 'pd'
import pandas as pd

# Membuat dictionary dengan data Nama, Umur, dan Jurusan
data = {
    'Nama' : ['Mukhlis', 'Shanum', 'Berlin'],  # Nama mahasiswa
    'Umur' : [22, 20, 21],                    # Umur masing-masing mahasiswa
    'Jurusan' : ['Informatika', 'Fisika', 'Matematika']  # Jurusan yang diambil
}

# Membuat DataFrame dari dictionary 'data'
df = pd.DataFrame(data)

# Menambahkan kolom baru 'IPK' ke DataFrame 'df' yang berisi nilai IPK untuk setiap mahasiswa
df['IPK'] = [3.5, 3.2, 3.8]

# Menghapus baris yang memiliki nilai NaN (tidak ada data) dari DataFrame 'df'
df_cleaned = df.dropna()

# Menampilkan seluruh DataFrame yang berisi kolom tambahan 'IPK'
print(df)

# Menampilkan DataFrame 'df_cleaned' yang sudah dihapus baris-baris yang memiliki nilai NaN
print(df_cleaned)


      Nama  Umur      Jurusan  IPK
0  Mukhlis    22  Informatika  3.5
1   Shanum    20       Fisika  3.2
2   Berlin    21   Matematika  3.8
      Nama  Umur      Jurusan  IPK
0  Mukhlis    22  Informatika  3.5
1   Shanum    20       Fisika  3.2
2   Berlin    21   Matematika  3.8


# Pandas Filter Data Berdasarkan Kondisi Kolom

Pada kode ini, kita akan memfilter DataFrame untuk hanya menampilkan baris-baris yang memenuhi suatu kondisi, yaitu mahasiswa dengan **IPK** lebih dari 3.3.

### Langkah-langkah dalam kode:
1. **Membuat Dictionary**:
   - Dictionary `data` berisi informasi tentang mahasiswa, yaitu:
     - `'Nama'`: Daftar nama mahasiswa.
     - `'Umur'`: Daftar umur mahasiswa.
     - `'Jurusan'`: Daftar jurusan yang diambil oleh mahasiswa.

2. **Membuat DataFrame**:
   - Menggunakan fungsi `pd.DataFrame()`, dictionary `data` diubah menjadi sebuah **DataFrame** dengan nama `df`.

3. **Menambahkan Kolom Baru**:
   - Kolom `'IPK'` ditambahkan dengan nilai IPK untuk masing-masing mahasiswa.

4. **Membuat DataFrame dengan Filter**:
   - Dengan menggunakan kondisi `df['IPK'] > 3.3`, kita membuat DataFrame baru yang hanya berisi mahasiswa dengan IPK lebih dari 3.3. Hasilnya disimpan dalam `filtered_df`.

5. **Menampilkan Hasil**:
   - Fungsi `print(df)` menampilkan DataFrame asli setelah kolom `'IPK'` ditambahkan.
   - Fungsi `print(filtered_df)` menampilkan DataFrame yang sudah difilter, hanya menampilkan mahasiswa yang memiliki IPK lebih dari 3.3.


In [14]:
# Mengimpor library pandas dengan alias 'pd'
import pandas as pd

# Membuat dictionary dengan data Nama, Umur, dan Jurusan
data = {
    'Nama' : ['Mukhlis', 'Shanum', 'Berlin'],  # Nama mahasiswa
    'Umur' : [22, 20, 21],                    # Umur masing-masing mahasiswa
    'Jurusan' : ['Informatika', 'Fisika', 'Matematika']  # Jurusan yang diambil
}

# Membuat DataFrame dari dictionary 'data'
df = pd.DataFrame(data)

# Menambahkan kolom baru 'IPK' ke DataFrame 'df' yang berisi nilai IPK untuk setiap mahasiswa
df['IPK'] = [3.5, 3.2, 3.8]

# Membuat DataFrame baru yang hanya berisi data mahasiswa dengan IPK lebih dari 3.3
filtered_df = df[df['IPK'] > 3.3]

# Menampilkan seluruh DataFrame yang berisi kolom tambahan 'IPK'
print(df)

# Menampilkan DataFrame yang sudah difilter, hanya mahasiswa dengan IPK di atas 3.3
print(filtered_df)


      Nama  Umur      Jurusan  IPK
0  Mukhlis    22  Informatika  3.5
1   Shanum    20       Fisika  3.2
2   Berlin    21   Matematika  3.8
      Nama  Umur      Jurusan  IPK
0  Mukhlis    22  Informatika  3.5
2   Berlin    21   Matematika  3.8


# Mengelompokkan DataFrame berdasarkan Kolom dan Menghitung Rata-Rata

Pada kode ini, kita akan mengelompokkan data dalam **DataFrame** berdasarkan kolom **Jurusan** dan menghitung rata-rata **IPK** untuk setiap kelompok.

### Langkah-langkah dalam kode:
1. **Membuat Dictionary**:
   - Dictionary `data` berisi informasi tentang mahasiswa, yaitu:
     - `'Nama'`: Daftar nama mahasiswa.
     - `'Umur'`: Daftar umur mahasiswa.
     - `'Jurusan'`: Daftar jurusan yang diambil oleh mahasiswa.

2. **Membuat DataFrame**:
   - Menggunakan fungsi `pd.DataFrame()`, dictionary `data` diubah menjadi sebuah **DataFrame** dengan nama `df`.

3. **Menambahkan Kolom Baru**:
   - Kolom `'IPK'` ditambahkan dengan nilai IPK untuk masing-masing mahasiswa.

4. **Mengelompokkan Data dan Menghitung Rata-Rata**:
   - Fungsi `groupby('Jurusan')` digunakan untuk mengelompokkan data berdasarkan kolom `'Jurusan'`.
   - Fungsi `mean()` digunakan untuk menghitung rata-rata **IPK** di setiap kelompok yang terbentuk.

5. **Menampilkan Hasil**:
   - Fungsi `print(df)` menampilkan DataFrame asli setelah kolom `'IPK'` ditambahkan.
   - Fungsi `print(grouped_df)` menampilkan rata-rata IPK untuk setiap jurusan.

In [15]:
# Mengimpor library pandas dengan alias 'pd'
import pandas as pd

# Membuat dictionary dengan data Nama, Umur, dan Jurusan
data = {
    'Nama' : ['Mukhlis', 'Shanum', 'Berlin'],  # Nama mahasiswa
    'Umur' : [22, 20, 21],                    # Umur masing-masing mahasiswa
    'Jurusan' : ['Informatika', 'Fisika', 'Matematika']  # Jurusan yang diambil
}

# Membuat DataFrame dari dictionary 'data'
df = pd.DataFrame(data)

# Menambahkan kolom baru 'IPK' ke DataFrame 'df' yang berisi nilai IPK untuk setiap mahasiswa
df['IPK'] = [3.5, 3.2, 3.8]

# Mengelompokkan DataFrame 'df' berdasarkan kolom 'Jurusan' dan menghitung rata-rata 'IPK' untuk setiap kelompok
grouped_df = df.groupby('Jurusan')['IPK'].mean()

# Menampilkan seluruh DataFrame yang berisi kolom tambahan 'IPK'
print(df)

# Menampilkan DataFrame yang berisi rata-rata IPK untuk setiap jurusan
print(grouped_df)


      Nama  Umur      Jurusan  IPK
0  Mukhlis    22  Informatika  3.5
1   Shanum    20       Fisika  3.2
2   Berlin    21   Matematika  3.8
Jurusan
Fisika         3.2
Informatika    3.5
Matematika     3.8
Name: IPK, dtype: float64


# Menampilkan Ringkasan Statistik Deskriptif pada DataFrame

Pada kode ini, kita akan membuat **DataFrame** dan menampilkan ringkasan statistik deskriptif dari DataFrame tersebut menggunakan fungsi `describe()`.

### Langkah-langkah dalam kode:
1. **Membuat Dictionary**:
   - Dictionary `data` berisi informasi tentang mahasiswa, yaitu:
     - `'Nama'`: Daftar nama mahasiswa.
     - `'Umur'`: Daftar umur mahasiswa.
     - `'Jurusan'`: Daftar jurusan yang diambil oleh mahasiswa.

2. **Membuat DataFrame**:
   - Menggunakan fungsi `pd.DataFrame()`, dictionary `data` diubah menjadi sebuah **DataFrame** dengan nama `df`.

3. **Menambahkan Kolom Baru**:
   - Kolom `'IPK'` ditambahkan dengan nilai IPK untuk masing-masing mahasiswa.

4. **Menampilkan DataFrame**:
   - Fungsi `print(df)` digunakan untuk menampilkan DataFrame yang sudah memiliki kolom tambahan `'IPK'`.

5. **Menampilkan Statistik Deskriptif**:
   - Fungsi `describe()` digunakan untuk menampilkan ringkasan statistik deskriptif dari kolom numerik dalam DataFrame, seperti **count**, **mean**, **std** (standar deviasi), **min**, **25%**, **50%**, **75%**, dan **max**.


In [16]:
# Mengimpor library pandas dengan alias 'pd'
import pandas as pd

# Membuat dictionary dengan data Nama, Umur, dan Jurusan
data = {
    'Nama' : ['Mukhlis', 'Shanum', 'Berlin'],  # Nama mahasiswa
    'Umur' : [22, 20, 21],                    # Umur masing-masing mahasiswa
    'Jurusan' : ['Informatika', 'Fisika', 'Matematika']  # Jurusan yang diambil
}

# Membuat DataFrame dari dictionary 'data'
df = pd.DataFrame(data)

# Menambahkan kolom baru 'IPK' ke DataFrame 'df' yang berisi nilai IPK untuk setiap mahasiswa
df['IPK'] = [3.5, 3.2, 3.8]

# Menampilkan seluruh DataFrame yang sudah berisi kolom tambahan 'IPK'
print(df)

# Menampilkan ringkasan statistik deskriptif dari DataFrame 'df'
print(df.describe())


      Nama  Umur      Jurusan  IPK
0  Mukhlis    22  Informatika  3.5
1   Shanum    20       Fisika  3.2
2   Berlin    21   Matematika  3.8
       Umur   IPK
count   3.0  3.00
mean   21.0  3.50
std     1.0  0.30
min    20.0  3.20
25%    20.5  3.35
50%    21.0  3.50
75%    21.5  3.65
max    22.0  3.80


# Menggabungkan DataFrame dengan Metode `merge`

Pada kode ini, kita akan menggabungkan dua **DataFrame** yang berbeda menggunakan metode `merge()`. Kita akan menggunakan metode `left join` untuk menggabungkan DataFrame berdasarkan kolom yang sama.

### Langkah-langkah dalam kode:
1. **Membuat Dictionary `data`**:
   - Dictionary `data` berisi informasi tentang mahasiswa, yaitu:
     - `'Nama'`: Daftar nama mahasiswa.
     - `'Umur'`: Daftar umur mahasiswa.
     - `'Jurusan'`: Daftar jurusan yang diambil oleh mahasiswa.

2. **Membuat Dictionary `data_lain`**:
   - Dictionary `data_lain` berisi informasi tentang mahasiswa yang memiliki hobi, yaitu:
     - `'Nama'`: Daftar nama mahasiswa yang memiliki hobi.
     - `'Hobi'`: Daftar hobi mahasiswa.

3. **Membuat DataFrame**:
   - Menggunakan fungsi `pd.DataFrame()`, kita membuat dua DataFrame:
     - `df` dari dictionary `data` yang berisi informasi tentang mahasiswa.
     - `df_hobi` dari dictionary `data_lain` yang berisi informasi tentang hobi mahasiswa.

4. **Menggabungkan DataFrame dengan `merge()`**:
   - Fungsi `pd.merge()` digunakan untuk menggabungkan kedua DataFrame berdasarkan kolom `'Nama'` dengan metode **left join** (mengambil semua baris dari DataFrame kiri dan mencocokkan dengan DataFrame kanan).
   
   - `on='Nama'`: Menentukan kolom yang digunakan sebagai kunci penggabungan.
   - `how='left'`: Menentukan jenis penggabungan (left join).

5. **Menampilkan DataFrame**:
   - Fungsi `print(df)` digunakan untuk menampilkan DataFrame asli `df` yang berisi informasi mahasiswa.
   - Fungsi `print(merged_df)` digunakan untuk menampilkan DataFrame hasil penggabungan `merged_df` yang berisi informasi mahasiswa dan hobinya.


In [17]:
# Mengimpor library pandas dengan alias 'pd'
import pandas as pd

# Membuat dictionary dengan data Nama, Umur, dan Jurusan
data = {
    'Nama' : ['Mukhlis', 'Shanum', 'Berlin'],  # Nama mahasiswa
    'Umur' : [22, 20, 21],                    # Umur masing-masing mahasiswa
    'Jurusan' : ['Informatika', 'Fisika', 'Matematika']  # Jurusan yang diambil
}

# Membuat dictionary dengan data Hobi
data_lain = {
    'Nama' : ['Mukhlis', 'Shanum'],  # Nama mahasiswa yang memiliki hobi
    'Hobi' : ['Membaca', 'Berenang']  # Hobi masing-masing mahasiswa
}

# Membuat DataFrame dari dictionary 'data'
df = pd.DataFrame(data)

# Membuat DataFrame dari dictionary 'data_lain'
df_hobi = pd.DataFrame(data_lain)

# Menggabungkan DataFrame 'df' dan 'df_hobi' berdasarkan kolom 'Nama' menggunakan metode join 'left'
merged_df = pd.merge(df, df_hobi, on='Nama', how='left')

# Menampilkan DataFrame asli 'df'
print(df)

# Menampilkan DataFrame hasil gabungan 'merged_df'
print(merged_df)


      Nama  Umur      Jurusan
0  Mukhlis    22  Informatika
1   Shanum    20       Fisika
2   Berlin    21   Matematika
      Nama  Umur      Jurusan      Hobi
0  Mukhlis    22  Informatika   Membaca
1   Shanum    20       Fisika  Berenang
2   Berlin    21   Matematika       NaN
