# Pandas
- "_Pandas is derived from the term "panel data", an econometrics term for data sets that include observations over multiple time periods for the same individuals. - Wikipedia_".
- *Pandas* adalah sebuah librari berlisensi BSD dan open source yang menyediakan struktur data dan analisis data yang mudah digunakan dan berkinerja tinggi untuk bahasa pemrograman *Python*
- librari analisis data yang memiliki struktur data yang diperlukan untuk mengkonversi data mentah ke dalam bentuk/format tabel sehingga memudahkan untuk analisis

# DataFrame
- Struktur data dasar pandas dinamakan DataFrame
- koleksi kolom berurutan dengan bentuk sebuah tabel yang tampak seperti database dimana sebuah baris tunggal mewakili sebuah data tunggal dan kolom mewakili atribut tertentu
- Dengan adanya fitur dataframe memudahkan untuk membaca sebuah file dan menjadikannya table

# Apa yang bisa dilakukan Pandas?
- Read from and write to CSV, other file and databases.
- Calculate statistics and answer questions about the data , likeWhat's the average, median, max, or min of each column?
  - Does column A correlate with column B?
  - What does the distribution of data in column C look like?
- Clean the data by doing things like removing missing values and filtering rows or columns by some criteria Visualize the data with help from Matplotlib . lot bars, lines, histograms, bubbles, and more.
- kita juga dapat mengolah data dengan menggunakan operasi seperti join, distinct, group by, agregasi, dan teknik lainnya yang terdapat pada SQL.

# Install dan Import
- Install :
  - conda install pandas
     - atau
  - pip install pandas
- Jika akan menggunkan didalam program, perlu dilakukan import :
  - Import pandas
  - Atau biasanya untuk mrnyingkat penulisan saaat diakses, maka diberi nama alias, misalnya "pd"
  - Import pndas as pd.

# Komponen Utama Pandas
- Series dan Dataframe
  - Series adalah suatu kolom.
  - Dataframe adalah kumpulan series, dapat berupa tebel multidimensi.

In [43]:
data = {
    'apples': [3,2,0,1],
    'oranges' : [0,3,7,2]
}
purchases = pd.DataFrame(data)
print(purchases)

   apples  oranges
0       3        0
1       2        3
2       0        7
3       1        2


# Pembuatan dataframe
- Dataframe dapat terbentuk berasal dari hasil pembacaan data atau bisa juga dibuat sendiri (created from the scratch).
- Banyak cara untuk membuat dataframe, cara paling sederhana adalah dengan menggunakan struktur data dict dalam python.
- Contoh:
  - Misal akan dibuat dataframe penjualan apple dan orange.
  - Kolom berisi jonis buah, sedangkan setiap baris berisi besamya penjualan.

# Pembuatan...

In [44]:
data = {'apples': [3,2,0,1], 'oranges' : [0,3,7,2]}
purchases = pd.DataFrame (data)
print(purchases)

   apples  oranges
0       3        0
1       2        3
2       0        7
3       1        2



- Setiap (key, value) item di data terhubung dengan column dalam hasil akhir DataFrame.
- Index di DataFrame ini otomatis terbentuk berupa angka 0-3,

In [47]:
purchases = pd.DataFrame(data,
index = ['June', 'Robert', 'Lily', 'David'])

In [48]:
print(purchases.loc['Robert'])

apples     2
oranges    3
Name: Robert, dtype: int64


## Fungsi Lain
- df.head () → pengambilan 5 data pertama
- df.head(10) → pengambilan 10 data pertama
- df.tail (8) → pengambilan 8 data terakhir
- df.columns → menampilkan nama kolom
- df [['nama','alamat']] → pilih kolom tertentu
- Mengacu ke data sebelumnya :
  - purchases["oranges"].min() → data terkecil
  - purchases["oranges"].max) → data terbesar
  - purchases["oranges"].mean() → rata-rata
  - purchases["oranges"].sum() → jumlah
  - purchases["oranges"].count() → cacah
  - purchases[purchases['oranges']==3] → filter data

# Pandas Part 1


Pandas merupakan salah satu package yang sangat membantu kita dalam pengolahan data dengan bahasa python. Hal ini karena pada menyediakan fitur dataframe. Dengan dataframe, kita bisa menjadikan file terbaca menjadi sebuah tabel. File yang didukung seperti .txt, .csv, .tsv dan lainnya.

## Mengimpor Pandas

In [2]:
import numpy as np
import pandas as pd

## Import.txt
siapkan dahulu file txt (dengan jarak antar data misal menggunakan tab) di folder yang sama dengan program

In [3]:
data1=pd.read_csv("data.txt")
print(data1)

   A\tB
0  1\t2
1  4\t3
2  4\t2


## Import .csv
siapkan dahulu file csv di folder yang sama dengan program

In [4]:
data3=pd.read_csv("data.txt")
print(data3)

   A\tB
0  1\t2
1  4\t3
2  4\t2


In [5]:
data4=pd.read_csv("data.txt", delimiter="\s+")
print(data4)

   A  B
0  1  2
1  4  3
2  4  2


## Import.xlsx


siapkan dahulu file xlsx di folder yang sama dengan program

In [8]:
data5=pd.read_excel('data.xlsx')
print(data5)

   A  B
0  1  2
1  4  3
2  4  2


## Import.xls
siapkan dahulu file xls di folder yang sama dengan program

In [9]:
data6=pd.read_excel('data.xls')
print(data6)

   A  B
0  1  2
1  4  3
2  4  2


## Membuat Dataframe sendiri

In [12]:
df = pd.DataFrame()
print(df)

Empty DataFrame
Columns: []
Index: []


In [13]:
data = [1,2,3,4,5]
df1 = pd.DataFrame(data)
print(df1)

   0
0  1
1  2
2  3
3  4
4  5


In [14]:
data = [['Purwanto',32],['Purnomo',43],['Purwo',55]]
df2 = pd.DataFrame(data,columns=['Nama','Usia'])
print(df2)

       Nama  Usia
0  Purwanto    32
1   Purnomo    43
2     Purwo    55


# Pandas Part 2


Setelah pada pertemuan sebelumnya kita membahas bagaimana membuat dataframe, kali ini kita akan membahas lebih lanjut terkait apa saja yang dapat kita lakukan dengan dataframe. Tapi sebelumnya kita import pandas dahulu sebagai pd dan numpy sebagai np

In [20]:
import pandas as pd
import numpy as np

## Memanggil data tertentu pada dataframe

Misal kita punya dataframe sebagai berikut:

In [16]:
data = [['Purwanto',32],['Purnomo',43],['Purwo',55]]
df2 = pd.DataFrame(data,columns=['Nama','Usia'])
print(df2)

       Nama  Usia
0  Purwanto    32
1   Purnomo    43
2     Purwo    55


Dan ingin memanggil kolom tertentu

In [17]:
df2["Nama"]

0    Purwanto
1     Purnomo
2       Purwo
Name: Nama, dtype: object

In [18]:
df2["Usia"]

0    32
1    43
2    55
Name: Usia, dtype: int64

In [19]:
df2["Nama"][0]

'Purwanto'

In [21]:
df2.iloc[0][0]

'Purwanto'

In [22]:
df2.loc[0]["Nama"]

'Purwanto'

In [23]:
df2.at[0,"Nama"]

'Purwanto'

In [24]:
df2.iat[0,0]

'Purwanto'

In [25]:
df2.iloc[0]

Nama    Purwanto
Usia          32
Name: 0, dtype: object

In [26]:
df2.loc[:,'Nama']

0    Purwanto
1     Purnomo
2       Purwo
Name: Nama, dtype: object

# Set Index

In [27]:
df3 = pd.DataFrame([['Purwanto',32],['Purnomo',43],['Purwo',55]],columns=['Nama','Usia'])
df3

Unnamed: 0,Nama,Usia
0,Purwanto,32
1,Purnomo,43
2,Purwo,55


In [28]:
df3.set_index("Nama")

Unnamed: 0_level_0,Usia
Nama,Unnamed: 1_level_1
Purwanto,32
Purnomo,43
Purwo,55


# Pemanggilan Baris

In [29]:
df4 = pd.DataFrame(data=np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]]), index= [2, 'A', 4], columns=[48, 49, 50])
df4

Unnamed: 0,48,49,50
2,1,2,3
A,4,5,6
4,7,8,9


In [30]:
df4.loc[2]

48    1
49    2
50    3
Name: 2, dtype: int32

In [31]:
df4.iloc[2]

48    7
49    8
50    9
Name: 4, dtype: int32

# Menambah Kolom

In [32]:
#Menambahkan index di kolom baru
df5 = pd.DataFrame([['Purwanto',32],['Purnomo',43],['Purwo',55]],columns=['Nama','Usia'])
df5["Index"]=df5.index
df5

Unnamed: 0,Nama,Usia,Index
0,Purwanto,32,0
1,Purnomo,43,1
2,Purwo,55,2


In [33]:
#Menambahkan kolom dengan isian baru
df5.loc[:, "Gender"] = pd.Series(['L','L','L'])
df5

Unnamed: 0,Nama,Usia,Index,Gender
0,Purwanto,32,0,L
1,Purnomo,43,1,L
2,Purwo,55,2,L


# Melihat ukuran dataframe

In [34]:
#ukuran baris paling panjang
len(df2)

3

In [35]:
#ukuran baris pada kolom tertentu
len(df2["Nama"])

3

In [36]:
#ukuran baris, ukuran kolom dataframe
print(df2.shape)

(3, 2)


# Menghapus

In [37]:
df6 = pd.DataFrame([['Purwanto',32],['Purnomo',43],['Purwo',55]],columns=['Nama','Usia'])
df6

Unnamed: 0,Nama,Usia
0,Purwanto,32
1,Purnomo,43
2,Purwo,55


In [38]:
#menghapus kolom
del df6['Nama']
df6

Unnamed: 0,Usia
0,32
1,43
2,55


In [39]:
#Menghapus n baris di awal
df6=df6[2:]
df6

Unnamed: 0,Usia
2,55


In [40]:
df6 = pd.DataFrame([['Purwanto',32],['Purnomo',43],['Purwo',55]],columns=['Nama','Usia'])
df6

Unnamed: 0,Nama,Usia
0,Purwanto,32
1,Purnomo,43
2,Purwo,55


In [41]:
#Menghapus baris tertentu
df6=df6.drop(df6.index[[0,2]])
df6

Unnamed: 0,Nama,Usia
1,Purnomo,43


# Pandas Part 3

## Ekspor Dataframe

In [42]:
#import pandas dan numpy
import pandas as pd
import numpy as np
#Misal kita punya suatu dataframe
data = [[1,32],[2,43],[4,55]]
df = pd.DataFrame(data,columns=['Nama','Usia'])
#Convert ke numpy array
databaru = df.to_numpy()
print(databaru)
#Convert ke txt
df.to_csv("dataexport.txt")
#Convert ke csv
df.to_csv("dataexport.csv")
#Convert ke xlsx
writer = pd.ExcelWriter('dataexport.xlsx')
df.to_excel(writer, 'DataFrame')
writer.save()

[[ 1 32]
 [ 2 43]
 [ 4 55]]
