## Define and Set Up

In [None]:
import pandas as pd

In [None]:
people = {
    "first": ["Corey", 'Jane', 'John'], 
    "last": ["Schafer", 'Doe', 'Doe'], 
    "email": ["CoreyMSchafer@gmail.com", 'JaneDoe@email.com', 'JohnDoe@email.com']
}
df = pd.DataFrame(people)

## Asigning and Updating

### Working with Columns
Khi làm việc với columns thì ta thường quan tâm tới việc thay đổi nhãn của các fields. Dưới đây sẽ là một số cách

In [None]:
df.columns = ['first_name', 'last_name', 'email']
df

Với cách trên, ta phải truyền một list toàn bộ tên của tất cả columns, rất bất tiện khi ta chỉ muốn thay đổi tên của một số columns. Ta có thể sử dụng method dưới đây để thay đổi một số columns cần thiết

In [None]:
df.rename(columns={'email': 'private_email'}, inplace = True)
df # cần thêm tham số inplace để nó thay đổi trên DF gốc

### Working with Rows
Khi làm việc với rows thì người ta thường hay nhắc tới việc thay đổi giá trị của các records, nhưng các bạn có thể tham khảo thêm về việc set index cho rows hay rename nó

#### Thay đổi toàn bộ record

In [None]:
df['email'] = df['email'].str.upper() # email của tất cả records
df

#### Thay đổi value của một record

In [None]:
df.loc[2] = ['Nguyen', 'Hoang Long', 'nghoanglong.17dec@gmail.com']
df

#### Thay đổi một số field nhất định

In [None]:
df.loc[2, 'email'] = 'NGHOANGLONG.17DEC@GMAIL.COM'
df

#### Sử dụng method at
Thay vì sử dụng **loc** ta có thể sử dụng **at** cho single record. Nhưng mà thông thường mình hay xài **loc** vì đỡ phải nhớ thêm 1 cái nữa

In [None]:
df.at[2, 'first'] = 'nguyen'
df

#### Lỗi khi assign value

In [None]:
df[df['email'] == 'NGHOANGLONG.17DEC@GMAIL.COM']['first'] = 'Nguyen'

Đây là lỗi gặp phải khi bạn filter ra một single record rồi gán value cho một giá trị mới. Trên thực tế, khi filter ra nó đang tạo ra copy object trong panda chứ ko thực sự thao tác trên cái chính. Vì thế nên nó ra lỗi, cách fix ta sẽ sử dụng **loc** như sau

In [None]:
df.loc[df['email'] == 'NGHOANGLONG.17DEC@GMAIL.COM', ['first']] = 'Nguyen'
df

### Các method hay sử dụng
Mình sẽ trình bày 4 thứ hay được sử dụng để assign hay change value đó là
+ apply
+ applymap
+ map
+ replace

#### Apply
Apply có thể work cả ở DataFrame và Series, method apply sẽ hoạt động theo cơ chế nhận vào một function, rồi áp dụng function đó trên từng record

In [None]:
# apply cho Series
df['email'] = df['email'].apply(lambda x: x.lower())
df

In [None]:
# apply cho DataFrame
df.apply(len)

Như ta thấy, khi áp dụng apply cho toàn bộ DataFrame, thì function len áp dụng cho từng columns, nó sẽ trả về số lượng record của từng columns đang nắm giữ.

In [None]:
# apply cho DataFrame, mỗi x là một Series(column)
df.apply(lambda x: x.min())

#### Applymap
Applymap nó cũng gần giống Apply, điểm khác biệt là applymap nó áp dụng trên từng giá trị của mỗi records. Applymap chỉ có cơ chế cho DataFrame, không có cho Series, xem ví dụ bên dưới để hiểu thêm

In [None]:
df.applymap(len)

In [None]:
df = df.applymap(lambda x: x.lower())
df

#### Map
Map áp dụng cho Series, không dành cho DataFrame. Nó gán giá trị cho những giá trị được định nghĩa, còn lại nó gán Nan. Xem ví dụ bên dưới

In [None]:
df['first'].map({'corey': 'tran', 'jane': 'le'})

#### Replace
Replace cũng giống như Map, nhưng những giá trị nó không được định nghĩa sẽ không gán bằng Nan nữa mà nó giữ nguyên giá trị ban đầu. Xem ví dụ bên dưới để hiểu thêm

In [None]:
df['first'] = df['first'].replace({'Corey': 'Tran', 'Jane': 'le'})
df

Replace còn sử dụng được cho cả DataFrame khi ta muốn thay đổi dữ liệu, ví dụ như sau

In [None]:
# tham số đầu tiên là giá trị muốn thay đổi
df.replace('Corey', 'Nguyen', inplace = True)
df