# Numpy & Pandas Function

## 1. Numpy

NumPy adalah sebuah library untuk bahasa pemrograman Python yang digunakan untuk komputasi numerik, termasuk operasi array, linear algebra, dan transformasi Fourier. NumPy merupakan singkatan dari "Numerical Python" dan merupakan salah satu library terpenting dalam ekosistem Python untuk keperluan ilmiah dan teknik.

Salah satu keunggulan NumPy adalah penggunaan array multidimensional yang cepat dan efisien, yang memungkinkan komputasi yang kompleks dan besar dilakukan dengan lebih mudah dan cepat dibandingkan dengan menggunakan struktur data Python bawaan. Selain itu, NumPy juga menyediakan berbagai fungsi matematika dan operasi array yang teroptimasi, seperti pengindeksan, slicing, dan transposisi.

Beberapa fungsi penting dalam Numpy adalah:

### 1.1 np.array()

Fungsi ini digunakan untuk membuat array, yaitu struktur data yang terdiri dari elemen-elemen yang sama jenisnya. Contoh penggunaannya adalah sebagai berikut:

In [75]:
import numpy as np

arr = np.array([[1, 2, 3, 4, 5],[6,7,8,9]])
print(arr)

[list([1, 2, 3, 4, 5]) list([6, 7, 8, 9])]


  arr = np.array([[1, 2, 3, 4, 5],[6,7,8,9]])


### 1.2. np.zeros()
Fungsi ini digunakan untuk membuat array dengan elemen-elemennya bernilai 0. Contoh penggunaannya adalah sebagai berikut:

In [78]:
import numpy as np

arr = np.zeros((9,10))
print(arr)

[[0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]]


### 1.3. np.ones()
Fungsi ini digunakan untuk membuat array dengan elemen-elemennya bernilai 1. Contoh penggunaannya adalah sebagai berikut:

In [8]:
import numpy as np

arr = np.ones((2,3))
print(arr)

[[1. 1. 1.]
 [1. 1. 1.]]


### 1.4. np.linspace()
Fungsi ini digunakan untuk membuat array dengan jumlah elemen tertentu yang berjarak sama di antara dua nilai. Contoh penggunaannya adalah sebagai berikut:

In [12]:
import numpy as np

arr = np.linspace(0, 1, num=5)
print(arr)

[0.   0.25 0.5  0.75 1.  ]


### 1.5. np.random.rand()
Fungsi ini digunakan untuk membuat array dengan elemen-elemennya terisi nilai acak dari distribusi uniform. Contoh penggunaannya adalah sebagai berikut:

In [13]:
import numpy as np

arr = np.random.rand(2,3)
print(arr)

[[0.49220517 0.90402687 0.2858048 ]
 [0.52212113 0.53584639 0.84192857]]


### 1.6. np.mean()
Fungsi ini digunakan untuk menghitung rata-rata dari array. Contoh penggunaannya adalah sebagai berikut:

In [15]:
import numpy as np

arr = np.array([1, 2, 3, 4, 5])
mean = np.mean(arr)
print(mean)

3.0


## 2. Pandas
Pandas adalah library Python yang digunakan untuk analisis data. Pandas memiliki struktur data yang mudah digunakan seperti DataFrame dan Series, yang memungkinkan kita untuk memanipulasi data dengan mudah dan cepat.

DataFrame adalah struktur data berbentuk tabel yang terdiri dari kolom dan baris. Setiap kolom pada DataFrame dapat memiliki tipe data yang berbeda, seperti integer, float, dan string. Sedangkan Series adalah struktur data satu dimensi yang mirip dengan array atau list.

Pandas menyediakan berbagai fungsi untuk membaca, menulis, dan memanipulasi data, seperti membaca file CSV atau Excel, menggabungkan data dari beberapa sumber, menghapus baris atau kolom yang tidak diperlukan, melakukan agregasi data, dan banyak lagi. Beberapa fungsi penting dalam Pandas adalah:

### 2.1. Pandas DataFrame
Fungsi ini digunakan untuk membuat data frame, yaitu struktur data yang terdiri dari baris dan kolom. Contoh penggunaannya adalah sebagai berikut:

In [17]:
import pandas as pd

data = {'Name': ['John', 'Emma', 'Mia', 'Oliver'],
        'Age': [26, 24, 30, 28],
        'City': ['New York', 'London', 'Paris', 'Sydney']}

df = pd.DataFrame(data)
print(df)

     Name  Age      City
0    John   26  New York
1    Emma   24    London
2     Mia   30     Paris
3  Oliver   28    Sydney


### 2.2. Pandas Series
Fungsi ini digunakan untuk membuat seri, yaitu struktur data satu dimensi yang dapat menyimpan data numerik atau teks. Contoh penggunaannya adalah sebagai berikut:

In [50]:
import pandas as pd

data = [[1, 2, 3, 4, 5],[6,7,8,9,10]]
s = pd.Series(data)
print(s)

0     [1, 2, 3, 4, 5]
1    [6, 7, 8, 9, 10]
dtype: object


### 2.3. Reading file
Fungsi ini digunakan untuk membaca file CSV dan mengubahnya menjadi data frame. Contoh penggunaannya adalah sebagai berikut:

In [28]:
import pandas as pd

df = pd.read_csv('data.csv')
print(df)

       Unnamed: 0  carat        cut color clarity  depth  table  price     x  \
0               1   0.23      Ideal     E     SI2   61.5   55.0    326  3.95   
1               2   0.21    Premium     E     SI1   59.8   61.0    326  3.89   
2               3   0.23       Good     E     VS1   56.9   65.0    327  4.05   
3               4   0.29    Premium     I     VS2   62.4   58.0    334  4.20   
4               5   0.31       Good     J     SI2   63.3   58.0    335  4.34   
...           ...    ...        ...   ...     ...    ...    ...    ...   ...   
53935       53936   0.72      Ideal     D     SI1   60.8   57.0   2757  5.75   
53936       53937   0.72       Good     D     SI1   63.1   55.0   2757  5.69   
53937       53938   0.70  Very Good     D     SI1   62.8   60.0   2757  5.66   
53938       53939   0.86    Premium     H     SI2   61.0   58.0   2757  6.15   
53939       53940   0.75      Ideal     D     SI2   62.2   55.0   2757  5.83   

          y     z  
0      3.98  2.43  

### 2.4. concat
Fungsi ini digunakan untuk menggabungkan dua atau lebih objek Pandas, seperti Series dan DataFrame. Ada beberapa parameter yang dapat diatur untuk menyesuaikan cara penggabungan, seperti axis, join, dan ignore_index. Contoh penggunaannya adalah sebagai berikut:

In [85]:
import pandas as pd

df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                    'B': ['B0', 'B1', 'B2', 'B3'],
                    'C': ['C0', 'C1', 'C2', 'C3'],
                    'D': ['D0', 'D1', 'D2', 'D3']})

df2 = pd.DataFrame({'B': ['A4', 'A5', 'A6', 'A7'],
                    'A': ['B4', 'B5', 'B6', 'B7'],
                    'C': ['C4', 'C5', 'C6', 'C7'],
                    'D': ['D4', 'D5', 'D6', 'D7']})

print(df2)

concatenated = pd.concat([df1, df2], axis=0, ignore_index=True)
print(concatenated)

    B   A   C   D
0  A4  B4  C4  D4
1  A5  B5  C5  D5
2  A6  B6  C6  D6
3  A7  B7  C7  D7
    A   B   C   D
0  A0  B0  C0  D0
1  A1  B1  C1  D1
2  A2  B2  C2  D2
3  A3  B3  C3  D3
4  B4  A4  C4  D4
5  B5  A5  C5  D5
6  B6  A6  C6  D6
7  B7  A7  C7  D7


### 2.5.Merging
Fungsi ini digunakan untuk menggabungkan dua data frame berdasarkan kolom tertentu. Contoh penggunaannya adalah sebagai berikut:

In [67]:
import pandas as pd

data1 = {'Name': ['John', 'Emma', 'Mia', 'Oliver'],
         'Age': [26, 24, 30, 28],
         'City': ['New York', 'London', 'Paris', 'Sydney']}
df1 = pd.DataFrame(data1)

data2 = {'Name': ['Emma', 'Mia', 'Oliver', 'John'],
         'Salary': [50000, 60000, 70000, 80000]}
df2 = pd.DataFrame(data2)

merged_df = pd.merge(df1, df2, on='Name')
print(merged_df)

     Name  Age      City  Salary
0    John   26  New York   80000
1    Emma   24    London   50000
2     Mia   30     Paris   60000
3  Oliver   28    Sydney   70000


### 2.6. statistik descriptive
df.describe() adalah salah satu fungsi pada Pandas yang digunakan untuk memberikan ringkasan statistik deskriptif dari DataFrame.

Fungsi ini akan menghasilkan statistik seperti jumlah data, rata-rata, standar deviasi, nilai minimum dan maksimum, serta kuartil dari setiap kolom pada DataFrame.
Berikut adalah contoh sederhana penggunaan df.describe() pada sebuah DataFrame:

In [32]:
import pandas as pd

# membuat DataFrame
data = pd.DataFrame({
    'A': [1, 2, 3, 4, 5],
    'B': [2.1, 3.2, 4.3, 5.4, 6.5],
    'C': ['a', 'b', 'c', 'd', 'e']
})

# menampilkan ringkasan statistik deskriptif
print(data.describe())

              A         B
count  5.000000  5.000000
mean   3.000000  4.300000
std    1.581139  1.739253
min    1.000000  2.100000
25%    2.000000  3.200000
50%    3.000000  4.300000
75%    4.000000  5.400000
max    5.000000  6.500000


### 2.7. df.head() & df.tail()

pd.head() dan pd.tail() adalah dua fungsi pada Pandas yang digunakan untuk menampilkan sejumlah baris teratas atau terbawah dari sebuah DataFrame. Fungsi ini berguna untuk melihat sekilas isi data pada DataFrame.

pd.head() digunakan untuk menampilkan sejumlah baris teratas dari sebuah DataFrame, sedangkan pd.tail() digunakan untuk menampilkan sejumlah baris terbawah dari sebuah DataFrame.

Berikut adalah contoh sederhana penggunaan pd.head() dan pd.tail() pada sebuah DataFrame:

In [88]:
import pandas as pd

# membuat DataFrame
data = pd.DataFrame({
    'A': [1, 2, 3, 4, 5],
    'B': [2.1, 3.2, 4.3, 5.4, 6.5],
    'C': ['a', 'b', 'c', 'd', 'e']
})

# menampilkan 3 baris teratas dari DataFrame
print(data.head(3))

print("\n")
# menampilkan 2 baris terbawah dari DataFrame
print(data.tail(4))

   A    B  C
0  1  2.1  a
1  2  3.2  b
2  3  4.3  c


   A    B  C
1  2  3.2  b
2  3  4.3  c
3  4  5.4  d
4  5  6.5  e


### 2.8. Pandas Indexing

df.loc adalah salah satu metode yang tersedia pada Pandas untuk memilih baris dan kolom pada sebuah DataFrame dengan menggunakan label atau nama dari indeks baris dan kolom. Metode ini sangat berguna dalam melakukan indexing, slicing, atau memilih sebagian data pada DataFrame.

Format umum penggunaan df.loc adalah df.loc[row_indexer, column_indexer], dimana row_indexer adalah label atau nama indeks baris yang ingin dipilih dan column_indexer adalah label atau nama indeks kolom yang ingin dipilih.

Berikut adalah contoh sederhana penggunaan df.loc pada sebuah DataFrame:

In [91]:
import pandas as pd

# membuat DataFrame
data = pd.DataFrame({
    'A': [1, 2, 3, 4, 5],
    'B': [2.1, 3.2, 4.3, 5.4, 6.5],
    'C': ['a', 'b', 'c', 'd', 'e']
})

# memilih baris ke-2 dan kolom 'B'
print(data.loc[1, :])
print("\n")

# memilih baris ke-3 hingga ke-5 dan semua kolom
print(data.loc[2:4, "B"])
print("\n")

# memilih semua baris dan kolom 'A' dan 'C'
print(data.loc[:, ['A', 'C']])

A      2
B    3.2
C      b
Name: 1, dtype: object


2    4.3
3    5.4
4    6.5
Name: B, dtype: float64


   A  C
0  1  a
1  2  b
2  3  c
3  4  d
4  5  e


### 2.9. Reshaping Data

Reshaping data pada Pandas adalah proses mengubah tampilan data pada DataFrame dari bentuk yang ada menjadi bentuk yang lain. Reshaping data ini berguna untuk mengubah struktur data sehingga lebih mudah dipahami dan dianalisis.

Pada Pandas, terdapat beberapa metode yang dapat digunakan untuk melakukan reshaping data, di antaranya adalah melt(), pivot(), stack(), unstack(), dan transpose().

1. **melt()** digunakan untuk mengubah format data dari wide menjadi long, yaitu mengubah kolom menjadi baris.

2. **pivot()** digunakan untuk mengubah format data dari long menjadi wide, yaitu mengubah baris menjadi kolom.

3. **stack()** digunakan untuk mengubah level kolom menjadi level indeks baris pada DataFrame.

4. **unstack()** digunakan untuk mengubah level indeks baris menjadi level kolom pada DataFrame.

5. **transpose()** digunakan untuk mengubah baris menjadi kolom dan sebaliknya.

Berikut adalah contoh penggunaan beberapa metode reshaping data pada Pandas:

In [73]:
import pandas as pd

# membuat DataFrame
data = pd.DataFrame({
    'id': [1, 2, 3],
    'nama': ['Andi', 'Budi', 'Caca'],
    'matematika': [90, 85, 70],
    'fisika': [80, 75, 60],
    'biologi': [70, 65, 50]
})
print(data, end="\n\n")

# mengubah format data dari wide menjadi long dengan melt()
melted_data = pd.melt(data, id_vars=['id', 'nama'], var_name='mata_pelajaran', value_name='nilai')
print(melted_data)
print("\n")

# mengubah format data dari long menjadi wide dengan pivot()
pivoted_data = melted_data.pivot(index=['id', 'nama'], columns='mata_pelajaran', values='nilai')
print(pivoted_data)
print("\n")

# mengubah level kolom menjadi level indeks baris dengan stack()
stacked_data = pivoted_data.stack()
print(stacked_data)
print("\n")

# mengubah level indeks baris menjadi level kolom dengan unstack()
unstacked_data = stacked_data.unstack()
print(unstacked_data)
print("\n")

# mengubah baris menjadi kolom dan sebaliknya dengan transpose()
transposed_data = data.transpose()
print(transposed_data)

   id  nama  matematika  fisika  biologi
0   1  Andi          90      80       70
1   2  Budi          85      75       65
2   3  Caca          70      60       50

   id  nama mata_pelajaran  nilai
0   1  Andi     matematika     90
1   2  Budi     matematika     85
2   3  Caca     matematika     70
3   1  Andi         fisika     80
4   2  Budi         fisika     75
5   3  Caca         fisika     60
6   1  Andi        biologi     70
7   2  Budi        biologi     65
8   3  Caca        biologi     50


mata_pelajaran  biologi  fisika  matematika
id nama                                    
1  Andi              70      80          90
2  Budi              65      75          85
3  Caca              50      60          70


id  nama  mata_pelajaran
1   Andi  biologi           70
          fisika            80
          matematika        90
2   Budi  biologi           65
          fisika            75
          matematika        85
3   Caca  biologi           50
          fisika            6

### 2.10. Aggregation

Aggregation pada Pandas adalah proses menggabungkan beberapa nilai dalam DataFrame menjadi satu nilai tunggal dengan menggunakan suatu fungsi atau operasi matematika. Aggregation dapat diterapkan pada satu kolom maupun beberapa kolom dalam DataFrame.

Pada Pandas, terdapat beberapa fungsi yang dapat digunakan untuk melakukan aggregation, di antaranya adalah:

1. **sum():** Menghitung total nilai dari kolom atau baris dalam DataFrame.
2. **mean():** Menghitung rata-rata nilai dari kolom atau baris dalam DataFrame.
3. **median():** Menghitung median nilai dari kolom atau baris dalam DataFrame.
4. **min():** Menghitung nilai minimum dari kolom atau baris dalam DataFrame.
5. **max():** Menghitung nilai maksimum dari kolom atau baris dalam DataFrame.
6. **count():** Menghitung jumlah data yang tidak null dalam kolom atau baris dalam DataFrame.
7. **std():** Menghitung standar deviasi dari kolom atau baris dalam DataFrame.
8. **var():** Menghitung variansi dari kolom atau baris dalam DataFrame.

Berikut adalah contoh penggunaan beberapa fungsi aggregation pada Pandas:

In [45]:
import pandas as pd

# membuat DataFrame
data = pd.DataFrame({
    'id': [1, 2, 3, 4, 5],
    'nama': ['Andi', 'Budi', 'Caca', 'Dedi', 'Euis'],
    'matematika': [90, 85, 70, 80, 75],
    'fisika': [80, 75, 60, 70, 65],
    'biologi': [70, 65, 50, 60, 55]
})

# menghitung rata-rata nilai matematika
mean_matematika = data['matematika'].mean()
print(mean_matematika, end="\n\n")

# menghitung nilai maksimum biologi
max_biologi = data['biologi'].max()
print(max_biologi, end="\n\n")

# menghitung jumlah data tidak null pada setiap kolom
count_data = data.count()
print(count_data, end="\n\n")

# menghitung rata-rata nilai setiap kolom
mean_data = data.mean()
print(mean_data, end="\n\n")

# menghitung nilai agregat dengan group by pada kolom nama
aggregated_data = data.groupby('nama').agg({'matematika': 'mean', 'fisika': 'max'})
print(aggregated_data, end="\n\n")

80.0

70

id            5
nama          5
matematika    5
fisika        5
biologi       5
dtype: int64

id             3.0
matematika    80.0
fisika        70.0
biologi       60.0
dtype: float64

      matematika  fisika
nama                    
Andi        90.0      80
Budi        85.0      75
Caca        70.0      60
Dedi        80.0      70
Euis        75.0      65



  mean_data = data.mean()


### 2.11. grouby

Pandas groupby() adalah fungsi yang digunakan untuk mengelompokkan data dalam DataFrame berdasarkan satu atau beberapa kolom, kemudian melakukan operasi agregat pada kolom-kolom tertentu dalam setiap kelompok data tersebut. Fungsi groupby() menghasilkan sebuah objek DataFrameGroupBy, yang nantinya dapat dilakukan berbagai operasi agregasi seperti sum(), mean(), count(), min(), max(), median(), dan sebagainya.

Contoh penggunaan groupby():

In [94]:
import pandas as pd

# membuat DataFrame
data = pd.DataFrame({
    'kelas': ['A', 'A', 'B', 'B', 'B'],
    'nama': ['Andi', 'Budi', 'Caca', 'Deni', 'Eka'],
    'nilai': [80, 85, 90, 95, 85]
})

# mengelompokkan data berdasarkan kelas
data_grouped = data.groupby('kelas')
print(data_grouped)

# menghitung rata-rata nilai masing-masing kelas
data_mean = data_grouped.std()
print(data_mean)

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000027F827B77C0>
          nilai
kelas          
A      3.535534
B      5.000000
