### Data Manipulation and Analysis with Python

**Pengertian NumPy**

NumPy (Numerical Python) adalah library dalam Python yang digunakan untuk komputasi numerik. NumPy menyediakan array multidimensi yang efisien dan berbagai fungsi matematika yang cepat untuk operasi pada array.

In [2]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

**Dasar-Dasar NumPy**

a. Membuat Array NumPy

In [None]:
# Membuat array dari list
arr = np.array([10, 20, 30, 40, 50])

print(arr)

b. Array Multidimensi

In [None]:
# Membuat array 2D
arr_2d = np.array([[2, 4, 6], [8, 10, 12]])

print(arr_2d)

c. Properti Array NumPy

In [None]:
print("Dimensi array:", arr_2d.ndim)
print("Shape array:", arr_2d.shape)
print("Jumlah elemen:", arr_2d.size)
print("Tipe data:", arr_2d.dtype)

**Operasi pada Array**

a. Operasi Aritmatika

In [None]:
arr1 = np.array([5, 10, 15])
arr2 = np.array([2, 4, 6])

print("Penjumlahan:", arr1 + arr2)
print("Pengurangan:", arr1 - arr2)
print("Perkalian:", arr1 * arr2)
print("Pembagian:", arr1 / arr2)

b. Fungsi Universal (UFUNC)

In [None]:
arr = np.array([9, 16, 25, 36])

print("Akar kuadrat:", np.sqrt(arr))
print("Logaritma:", np.log(arr))
print("Logaritma basis 10:", np.log10(arr))
print("Eksponensial:", np.exp(arr))
print("Sinus:", np.sin(arr))
print("Cosinus:", np.cos(arr))
print("Tangen:", np.tan(arr))
print("Pangkat:", np.power(arr, 2)) # dipangkatkan 2

c. Indexing dan Slicing

In [None]:
arr = np.array([15, 30, 45, 60, 75])

print("Elemen pertama:", arr[0])
print("Elemen terakhir:", arr[-1])
print("Slice dari index 1-3:", arr[1:4])

**Operasi Lanjutan**

In [None]:
# Array dengan operasi matematika
nilai = [65, 75, 90]
nilai = np.array(nilai)

print("Array setelah ditambah 5:", nilai + 5)
print("Array setelah dipangkatkan 2:", np.power(nilai, 2))

In [None]:
# Koleksi data
nama_set  = {"Budi", "Andi", "Andi"} # Set (unik)
nama_list = ["Budi", "Andi", "Andi"] # List (boleh duplikat)
nama_tuple = ("Budi", "Andi", "Andi") # Tuple (immutable, boleh duplikat)

print("Set:", nama_set)
print("List:", nama_list)
print("Tuple:", nama_tuple)

In [None]:
# Mengubah nilai dalam list
nama_list[0] = "Rudi"
nama_list.append("Dewi")

print("List setelah perubahan:", nama_list)

In [None]:
# Konversi koleksi data
print("Nilai dari set:", list(nama_set))
print("Set dari tuple:", set(nama_tuple))

In [None]:
# Operasi logis pada array
print("Nilai di atas 70:", nilai > 70)
print("Elemen yang lebih dari 70:", nilai[nilai > 70])

In [None]:
# Statistik array
print("Total nilai:", nilai.sum())
print("Nilai tertinggi:", nilai.max())
print("Nilai terendah:", nilai.min())
print("Nilai rata-rata:", nilai.mean())
print("Standar deviasi:", nilai.std())
print("Nilai tengah:", np.median(nilai))

**Latihan**

LATIHAN 1: Membuat dan Menampilkan Array

- Buatlah array 1D dan array 2D menggunakan NumPy, lalu tampilkan dimensi dan bentuknya.

In [None]:
# Tulis kode di bawah ini

Latihan 2: Operasi Aritmatika

- Buat dua array dengan ukuran yang sama dan lakukan operasi penjumlahan, pengurangan, perkalian, dan pembagian.

In [None]:
# Tulis kode di bawah ini

Latihan 3: Manipulasi Array

- Berikan contoh penggunaan slicing dan indexing pada array NumPy.

In [None]:
# Tulis kode di bawah ini

Latihan 4: Menggunakan Fungsi Universal

- Gunakan fungsi seperti <code>np.sqrt()</code>, <code>np.log()</code>, dan <code>np.exp()</code> pada sebuah array.

In [None]:
# Tulis kode di bawah ini

Latihan 5: Operasi pada List dan Set

- Buatlah list nama dengan beberapa elemen duplikat, ubah salah satu elemennya, tambahkan elemen baru, lalu konversikan ke set.

In [None]:
# Tulis kode di bawah ini

Latihan 6: Analisis Data dengan NumPy

- Buat array berisi nilai ujian beberapa siswa, lalu tampilkan nilai yang lebih besar dari 85, jumlah total, dan rata-ratanya.

In [None]:
# Tulis kode di bawah ini



---



**Pengertian Pandas**

Pandas adalah library Python yang digunakan untuk manipulasi dan analisis data. Library ini menyediakan struktur data yang fleksibel dan efisien, seperti DataFrame dan Series, yang memudahkan pengolahan data dalam berbagai format.

In [None]:
iris = sns.load_dataset('iris') # Menggunakan Seaborn (sns) untuk memuat dataset iris ke dalam variabel iris
iris

**Dasar-Dasar Pandas**

a. Membuat DataFrame dari Dictionary

In [None]:
data = {
    "Nama": ["Andi", "Budi", "Citra"],
    "Usia": [21, 22, 23],
    "Kota": ["Jakarta", "Bandung", "Surabaya"]
}
df = pd.DataFrame(data)
print(data)

b. Membuat DataFrame dari CSV (Comma Separated Value)

In [None]:
data = pd.read_csv("/content/movies.csv")
data # Menampilkan semua baris

In [None]:
# Menampilkan n data pertama
data.head(10)

In [None]:
# Menampilkan n data terakhir
data.tail(10)

c. Membuat DataFrame dari JSON (Javascript Object Noation)

In [None]:
data2 = pd.read_json("/content/US_STATE_recipes.json")
data2

d. Properti DataFrame

In [None]:
# Menampilkan jumlah baris dan kolom
print("Jumlah baris dan kolom:", data.shape)

In [None]:
# Menampilkan nama kolom
print("Nama kolom:", data.columns)

In [None]:
# Menampilkan tipe data kolom
print("Tipe data:", data.dtypes)

In [None]:
# Menampilkan informasi data
print("Infromasi data:")
data.info()

**Operasi pada DataFrame**

a. Mengakses Data dalam DataFrame

In [None]:
data["name"] # Mengakses satu kolom "name"

In [None]:
data.loc[5] # Mengakses satu baris berdasarkan index

In [None]:
data.loc[5, "name"] # Mengakses nilai dalam satu baris dan kolom tertentu

In [None]:
data.iloc[0] # Mengakses satu baris berdasarkan posisi

In [None]:
data.iloc[0, 2] # Mengakses nilai dalam satu baris dan kolom tertentu berdasarkan posisi

b. Menambahkan dan Menghapus Kolom

In [None]:
df["Gaji"] = [5000000, 6000000, 5500000] # Menambah kolom baru
df

In [None]:
df = df.drop(columns=["Gaji"]) # Menghapus kolom
df

c. Operasi Matematika

In [None]:
# Penjumlahan
print("Usia ditambah 5 tahun:")
df["Usia"] = df["Usia"] + 5
df

In [None]:
# Perkalian
print("Usia dikalikan 2:")
df["Usia_double"] = df["Usia"] * 2
df

In [None]:
# Pembagian
print("Usia dibagi 2:")
df["Usia_setengah"] = df["Usia"] / 2
df

In [None]:
# Pangkat
print("Usia dipangkatkan 2:")
df["Usia_pangkat2"] = df["Usia"] ** 2
df

d. Transformasi Data

In [None]:
# Ekstraksi fitur
# Menambahkan kolom baru yang dihitung berdasarkan dua kolom lainnya
data["pendapatan_bersih"] = data["gross"] - data["budget"]

In [None]:
data.loc[:, ["pendapatan_bersih", "gross", "budget"]] # Mengambil semua baris tetapi hanya kolom dengan nama yang ditentukan

In [None]:
# Transformasi fitur
# Menggunakan logaritma pada pendapatan bersih untuk transformasi
data["pendapatan_bersih_log"] = np.log(data["pendapatan_bersih"])

In [None]:
data

**Filter Data**

```
Operator
AND -> &
OR -> |
```



```
SELECT
    name,
    score,
    gross
WHERE
    gross > 1000000
AND
    score > 8.0
```





```
Rumus
dataframe[(nama kolom dan kondisi 1)] &/| [(nama kolom dan kondisi 2)]

```



In [None]:
data["gross"] > 1000000

In [None]:
data[data["gross"] > 1000000]

In [None]:
data[(data["gross"] > 1000000) & (data["score"] > 8.0)]

In [None]:
data.loc[(data["gross"] > 1000000) & (data["score"] > 8.0), ["name", "score", "gross"]]

**Sorting Data**

```
SELECT
  name,
  score,
  gross
FROM
  movies
WHERE
  gross > 1000000
AND
  score > 8.0
ORDER BY
  gross DESC
```





```
Rumus
dataframe.sort_values(by = [kolom1, kolom2, ...], ascending = [True, False, ...])

```



In [None]:
data.sort_values(by = ["gross"], ascending = [False])

**Aggregating**

```
SELECT
  name,
  AVG(score) AS movie_score,
  MAX(score) AS max_score,
  MIN(SCORE) AS min_score
FROM
  movies
GROUP BY
  name
```





```
Rumus
dataframe.groupby({kolom1, kolom2, ...}).agg(
  nama_kolom1 = (kolom1, rumus),
  nama_kolom2 = (kolom2, rumus)
)
```





```
Aggregat
mean = rata-rata
median = nilai tengah
min = nilai minimum atau nilai terkecil
max = nilai maximum atau nilai terbesar
sum = total jumlah
count = hitung jumlah baris
nunique = count distinct (data unik)
```



In [None]:
data["name"].count()

In [None]:
data.groupby(["name"])["score"].mean()

In [None]:
# Rata-rata score dari setiap film dan berapa banyak film yang terdata
average_movie_score = data.groupby("name", as_index = False).agg(
    movie_score = ("score", "mean"),
    n_movie = ("name", "nunique"),
    max_score = ("score", "max"),
    min_score = ("score", "min")
)
average_movie_score

**Join**

```
SELECT
  *
FROM
  movies AS a
INNER JOIN
  average_movie_score AS b
ON
  a.name = b.name
```





```
Rumus
data1.merge(data2,
        left_on = [kolom1, kolom2],
        right_on = [kolom1, kolom2],
        how = {inner, left, rigth, outer})
```



In [None]:
movies_score = data.merge(average_movie_score,
                    left_on = ["name"],
                    right_on = ["name"],
                    how = "inner")
movies_score

Membuat Kolom Baru

*   Rating film diatas 9.0 itu "High Recommend"
*   Rating film diantara 5.0 - 8.9 itu "Good"
*   Rating film diantara dibawah 5.0 itu "Bad Film"
*   Pendapatan film diatas 1.000.000.000 itu "Terlaris"
*   Pendapatan film dibawah 1.000.000.000 itu "Okelah"







```
CASE
  IF movie_score >= 9.0 THEN "High Recommend"
  ELSE IF movie_score BETWEEN 5.0 - 8.9 THEN "Good"
  ELSE movie_score < 5.0 "Bad Film"
END AS movie_quality
```





```
CASE
  IF gross >= 1000000000 THEN "Terlaris"
  ELSE gross "Okelah"
END AS movie_marketing
```





```
1. Buat fungsi terlebih dahulu
def name_function(param):
  logic
  return something
2. dataframe[nama_kolom].apply(name_function)
3. Jika ingin replace bikin nama kolomnya sama, dan jika ingin bikin kolom baru, nama kolomnya berbeda
```



In [17]:
def movie_quality(score):
  if score >= 8.5:
    return "High Recommend"
  elif score >= 5.0 and score <= 8.4:
    return "Good"
  else:
    return "Bad Film"

In [None]:
movie_quality(9.0)

In [19]:
def movie_marketing(gross):
  if gross >= 1000000000:
    return "Terlaris"
  else:
    return "Kurang Laris"

In [None]:
movie_marketing(10000)

In [22]:
movies_score["movie_quality"] = movies_score["score"].apply(movie_quality) # Kolom akan menyimpan nilai "score" dan menerapkan fungsi "movie_quality" ke setiap kolom "score"
movies_score["movie_marketing"] = movies_score["gross"].apply(movie_marketing) # Kolom akan menyimpan nilai "gross" dan menerapkan fungsi "movie_marketing" ke setiap kolom "gross"

In [None]:
movies_score[["name", "movie_quality", "movie_quality"]]

**Case**

*   Apakah film yang rating score nya dibawah 8.5 banyak dinikmati oleh penonton?


In [24]:
result = movies_score.groupby(["movie_quality", "movie_marketing"]).agg(n = ("name", "count"))

In [None]:
result

**Transpose DataFrame**

Transpose digunakan untuk menukar baris menjadi kolom dan sebaliknya.

In [None]:
result.T

**Cross Tabulation**

Cross Tabulation digunakan untuk menghitung frekuensi dari dua atau lebih variabel kategorikal.

In [None]:
pd.crosstab(
    index = movies_score["movie_quality"],
    columns = movies_score["movie_marketing"],
    )

In [None]:
pd.crosstab(
    index = movies_score["movie_quality"],
    columns = movies_score["movie_marketing"],
    values = movies_score["name"],
    aggfunc = "nunique"
    )

Gunakan <code>crosstab()</code> jika hanya ingin menghitung jumlah kategori dalam dua kolom.

**Pivoting Data**

Pivot digunakan untuk mengubah data dari format panjang ke format lebar.

In [None]:
result = movies_score.pivot_table(index = "movie_marketing",
                                  columns = "movie_quality",
                                  )
result[["High Recommend", "Good", "Bad Film"]]

In [None]:
result = movies_score.pivot_table(index = "movie_marketing",
                                  columns = "movie_quality",
                                  values = "name",
                                  aggfunc = "nunique"
                                  )
result[["High Recommend", "Good", "Bad Film"]]

Gunakan <code>pivot_table()</code> jika perlu agregasi lebih kompleks atau menggunakan kolom lain <code>(values)</code>.

In [None]:
result.rename(columns = {"Good": "Excellent"})
result

Menghitung jumlah kemunculan masing-masing nilai unik dalam kolom.

In [None]:
movies_score["movie_quality"].value_counts()

**Menampilkan Grafik**

a. Membuat Histogram

In [None]:
movies_score["runtime"].hist()
plt.xlabel("Runtime (minutes)")
plt.ylabel("Frequency")
plt.title("Distribution of Movie Runtime")
plt.show()

Jika ingin mengatur jumlah bins (kelompok interval), bisa menambahkan:

In [None]:
movies_score["runtime"].hist(bins = 50)
plt.xlabel("Runtime (minutes)")
plt.ylabel("Frequency")
plt.title("Distribution of Movie Runtime")
plt.show()

b. Membuat Diagram Pie

In [None]:
plt.pie(movies_score["movie_quality"].value_counts(),
        labels = movies_score["movie_quality"].value_counts().index,
        autopct = "%1.1f%%"
        )
plt.show()