In [10]:
#@title Copyright 2020 Google LLC. Double-click here for license information.
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
# https://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.

# Pandas DataFrame UltraQuick Tutorial

DataFrame adalah struktur data utama di dalam pandas API. Notebook ini tidak mengajarkan semua tutorial mengenai DataFrame. Notebook ini hanya pengenalan singkat mengenai bagian DataFrame yang berguna bagi pemula.

DataFrame mirip dengan spreadsheet di dalam memori. Seperti spreadsheet :
- DataFrame menyimpan data di dalam sel
- DataFrame memiliki yang namanya kolom dan baris

## Import modul NumPy dan pandas

In [11]:
import numpy as np
import pandas as pd

## Membuat DataFrame

Kode berikut akan membuat DataFrame sederhana yang memiliki 10 sel yang terdiri dari :
- 5 baris
- 2 kolom, satu namanya `temperature` dan satunya namanya `activity`

Kode berikut akan menginstansiasi kelas `pd.DataFrame` untuk membuat sebuah DataFrame. Kelas ini mengambil 2 argumen :
- argumen pertama membutuhkan array sebagai bahan pembuatan DataFrame
- argumen kedua mengidentifikasikan nama dari kolom

In [12]:
# Create and populate a 5x2 NumPy array
my_data = np.array([[0, 3], [10, 7], [20, 9], [30, 14], [40, 15]])

# Create a Python list that holds the names of the two columns
my_column_names = ['temperature', 'activity']

# Create a DataFrame
my_dataframe = pd.DataFrame(data=my_data, columns=my_column_names)

# Print the entire DataFrame
print(my_dataframe)

   temperature  activity
0            0         3
1           10         7
2           20         9
3           30        14
4           40        15


## Menambah kolom baru ke DataFrame

Kode dibawah membuat kolom baru dengan nama `adjusted` di dalam `my_dataframe`

In [13]:
# Create a new column named adjusted
my_dataframe["adjusted"] = my_dataframe["activity"] + 2

# Print the entire DataFrame
print(my_dataframe)

   temperature  activity  adjusted
0            0         3         5
1           10         7         9
2           20         9        11
3           30        14        16
4           40        15        17


## Memisahkan sub bagian dari DataFrame

pandas menyediakan banyak cara untuk mengisolasi baris, kolom, slices atau sel di dalam sebuah DataFrame

In [14]:
print("Rows #0, #1, dan #2:")
print(my_dataframe.head(3), '\n')

print("Row #2:")
print(my_dataframe.iloc[[2]], '\n')

print("Rows #1, #2, dan #3:")
print(my_dataframe[1:4], '\n')

print("Column 'temperature':")
print(my_dataframe['temperature'])

Rows #0, #1, dan #2:
   temperature  activity  adjusted
0            0         3         5
1           10         7         9
2           20         9        11 

Row #2:
   temperature  activity  adjusted
2           20         9        11 

Rows #1, #2, dan #3:
   temperature  activity  adjusted
1           10         7         9
2           20         9        11
3           30        14        16 

Column 'temperature':
0     0
1    10
2    20
3    30
4    40
Name: temperature, dtype: int64


## Task 1: Create a DataFrame

Do the following:

  1. Create an 3x4 (3 rows x 4 columns) pandas DataFrame in which the columns are named `Eleanor`,  `Chidi`, `Tahani`, and `Jason`.  Populate each of the 12 cells in the DataFrame with a random integer between 0 and 100, inclusive.

  2. Output the following:

     * the entire DataFrame
     * the value in the cell of row #1 of the `Eleanor` column

  3. Create a fifth column named `Janet`, which is populated with the row-by-row sums of `Tahani` and `Jason`.

To complete this task, it helps to know the NumPy basics covered in the NumPy UltraQuick Tutorial. 


In [15]:
my_data = np.random.randint(low=0, high=101, size=(3,4))

column_names = ['Eleanor', 'Chidi', 'Tahani', 'Jason']

df = pd.DataFrame(data=my_data, columns=column_names)

print("Entire dataframe:")
print(df, '\n')

print("row #1 column Eleanor:")
print(df['Eleanor'][1], '\n')

df['Janet'] = df['Tahani'] + df['Jason']

print(df)

Entire dataframe:
   Eleanor  Chidi  Tahani  Jason
0       42     85      69     16
1       21     52       1     83
2       26     52      78     86 

row #1 column Eleanor:
21 

   Eleanor  Chidi  Tahani  Jason  Janet
0       42     85      69     16     85
1       21     52       1     83     84
2       26     52      78     86    164


## Menyalin sebuah DataFrame

Pandas menyediakan 2 cara untuk menduplikat sebuah DataFrame:
- **Referencing** . jika menggunakan metode ini semua perubahan yang dilakukan di DataFrame yang baru akan berdampak juga di DataFrame asal, begitu juga sebaliknya.
- **Copying** . jika menggunakan `pd.DataFrame.copy` itu benar-benar membuat DataFrame yang independ terlepas dari Dataframe asal. Semua perubahan di satu DataFrame tidak akan memengaruhi DataFrame yang lain.

Perbedaanya tidak terlalu keliatan, tapi penting.

In [16]:
# Create a reference by assigning my_dataframe to a new variable.
print("Experiment with a reference:")
reference_to_df = df

# Print the starting value of a particular cell.
print("  Starting value of df: %d" % df['Jason'][1])
print("  Starting value of reference_to_df: %d\n" % reference_to_df['Jason'][1])

# Modify a cell in df.
df.at[1, 'Jason'] = df['Jason'][1] + 5
print("  Updated df: %d" % df['Jason'][1])
print("  Updated reference_to_df: %d\n\n" % reference_to_df['Jason'][1])

# Create a true copy of my_dataframe
print("Experiment with a true copy:")
copy_of_my_dataframe = my_dataframe.copy()

# Print the starting value of a particular cell.
print("  Starting value of my_dataframe: %d" % my_dataframe['activity'][1])
print("  Starting value of copy_of_my_dataframe: %d\n" % copy_of_my_dataframe['activity'][1])

# Modify a cell in df.
my_dataframe.at[1, 'activity'] = my_dataframe['activity'][1] + 3
print("  Updated my_dataframe: %d" % my_dataframe['activity'][1])
print("  copy_of_my_dataframe does not get updated: %d" % copy_of_my_dataframe['activity'][1])

Experiment with a reference:
  Starting value of df: 83
  Starting value of reference_to_df: 83

  Updated df: 88
  Updated reference_to_df: 88


Experiment with a true copy:
  Starting value of my_dataframe: 7
  Starting value of copy_of_my_dataframe: 7

  Updated my_dataframe: 10
  copy_of_my_dataframe does not get updated: 7
