# Pandas DataFrame

Pandas adalah Library analisis data yang memiliki struktur data yang diperlukan untuk membersihkan data mentah ke dalam sebuah bentuk yang cocok untuk analisis (yaitu tabel). Pandas melakukan tugas penting seperti menyelaraskan data untuk perbandingan dan penggabungan set data, penanganan data yang hilang, dll

# Import Modul

In [None]:
import pandas as pd

# Membuat DataFrame

**Membuat Matriks Menggunakan List**

In [None]:
# List
list_buah = ['Jeruk', 'Pepaya', 'Mangga', 'Rambutan', 'Leci', 'Nanas', 'Manggis']
  
# Membuat DataFrame menggunakan list_buah
df = pd.DataFrame(list_buah)
df

**Membuat Data Frame Menggunakan List dan Fungsi Zip**

In [None]:
# List Buah (string)
list_buah = ['Jeruk', 'Pepaya', 'Mangga', 'Rambutan', 'Leci', 'Nanas', 'Manggis']
  
# List Berat Buah (Integer)
list_berat = [50, 800, 150, 10, 2, 300, 70]
  
# Membuat dataframe menggunakan Dua Buah List dengan Fungsi Zip
df = pd.DataFrame(list(zip(list_buah, list_berat)),
               columns =['Nama Buah', 'Berat Buah'])
df

**Membuat DataFrame Menggunakan List Multidimensi**

In [None]:
# List Multidimensi (Nama, Usia) 
lst = [['Bejo', 25], ['Ari', 30],
       ['Asep', 26], ['Richard', 22]]
    
df = pd.DataFrame(lst, columns =['Nama', 'Usia'])
df

**Membuat Dataframe Menggunakan Dictionary**

Cara yang paling mudah dipahami untuk membuat dataframe adalah menggunakan input dictionary. Yang mana key akan menjadi nama kolom dan valuenya akan menjadi data dalam kolom tersebut(biasanya berupa list). Strukturnya adalah sebagai berikut:
```
data = {'Nama Kolom 1': ['Data Baris 1', 'Data Baris 2', ...],
        'Nama Kolom 2': ['Data Baris 1', 'Data Baris 2', ...],
         ...
        }
df = pd.DataFrame (data)
```

In [None]:
mobil = {'Type Mobil': ['Honda Civic','Toyota Corolla','Ford Focus','Audi A4'],
        'Harga(USD)': [22000,25000,27000,35000]
        }

df = pd.DataFrame(mobil)

df

# Mengimport DataFrame

Kamu dapat mengimpor dataframe dari file berupa tabel lainnya seperti .xls, .xlsx, .csv, .txt, dan .json.

# Import DataFrame dari File CSV

In [None]:
df_super_store = pd.read_csv('/content/Super-Store-Dataset.csv')
df_super_store.head()

# Import DataFrame dari File Excel

In [None]:
df_pilkada=pd.read_excel('/content/datasetpilkadadki.xlsx')
df_pilkada.head()

## DataFrame & Series
Di Pandas terdapat 2 kelas data baru yang digunakan sebagai struktur dari spreadsheet:

1. **Series**
2. **DataFrame**

In [None]:
# Series
number_series = pd.Series([1,2,3,4,5,5])
print("Series:")
number_series

In [None]:
# DataFrame
matrix = [[1,2,3],
          ['a','b','c'],
          [3,4,5],
          ['d',4,6]]

matrix_df = pd.DataFrame(matrix)

matrix_df

### Atribut DataFrame & Series
Dataframe dan Series memiliki sangat banyak atribut yang digunakan untuk transformasi data, tetapi ada beberapa attribute yang sering dipakai. 

In [None]:
df_super_store

**1. Atrribute .head()**

Atrribute .head() untuk melihat 5(default dan bisa dirubah) data teratas pada dataframe.

In [None]:
df_super_store.head()

**2. Attribute .tail()**

Attribute .tail() untuk melihat 5(default dan bisa dirubah) data teratas pada dataframe.

In [None]:
df_super_store.tail()

**3. Attribute .info()**

Attribute .info() digunakan untuk mengecek kolom apa yang membentuk dataframe itu, data types, berapa yang non null, dll. Attribute ini tidak dapat digunakan pada series, hanya pada data frame saja

In [None]:
df_super_store.info()

**4. Attribute .shape**

Attribute .shape digunakan untuk mengetahui berapa baris dan kolom, hasilnya dalam format tuple (baris, kolom).

In [None]:
df_super_store.shape

**5. Attribute .dtypes**

Attribute .dtypes digunakan untuk mengetahui tipe data di tiap kolom. Tipe data object: kombinasi untuk berbagai tipe data (number & text, etc).

In [None]:
df_super_store.dtypes

**6. Attribute .astype(nama_tipe_data)**

Attribute .astype(nama_tipe_data) untuk convert tipe data berdasarkan tipe data seperti: **float, int, str, numpy.float, numpy.int** ataupun **numpy.datetime**.

In [None]:
df_str = df_super_store.astype("str")
df_str.head()

In [None]:
df_str.dtypes

**7. Attribute .copy()**

Attribute .copy() digunakan melakukan duplikat, untuk disimpan di variable yang berbeda mungkin supaya tidak loading data lagi.

In [None]:
df_SS=df_super_store.copy()
df_SS

**8. Attribute .to_list()**

Attribute .to_list() digunakan untuk mengubah series menjadi list dan tidak dapat digunakan untuk dataframe.

In [None]:
print(number_series.to_list())

**9. Attribute .unique()**

Attribute .unique() digunakan menghasilkan nilai unik dari suatu kolom, hasilnya dalam bentuk numpy array. Attribute ini hanya digunakan pada series saja.

In [None]:
print(number_series.unique())

**10. Attribute .index**

Attribute .index digunakan untuk mencari index/key dari Series atau Dataframe

In [None]:
df_super_store.index

**11. Attribute .columns**

Attribute .columns digunakan untuk mengetahui apa saja kolom yang tersedia di dataframe tersebut (hanya digunakan untuk dataframe saja).

In [None]:
df_super_store.columns

**12. Attribute .counts()**

Attribute .count() untuk menghitung jumlah data pada masing-masing kolom.

In [None]:
df_super_store.count()

**13. Attribute .value_counts**

Attribute .value_counts digunakan untuk mengetahui jumlah data kategori unik pada setiap kolom

In [None]:
df_pilkada.head()

In [None]:
df_pilkada.Sentiment.value_counts()

**14. Attribute .describe()**

Attribute .describe() digunakan untuk menampilkan ringkasan statistik data numerik pada sebuah dataframe

In [None]:
df_super_store.describe()