## Tạo dữ liệu
Có 2 đối tượng chính trong pandas: **DataFrame** và **Series**.
### DataFrame
Một DataFrame là một bảng. Nó chứa một mảng các mục riêng lẻ, mỗi mục có một giá trị nhất định. Mỗi mục tương ứng với một hàng (hoặc bản ghi) và một cột.

Ví dụ, hãy xem xét DataFrame đơn giản sau đây

In [None]:
import pandas as pd
pd.DataFrame({'Yes': [50, 21], 'No': [131, 2]})

Trong ví dụ này, mục "0, No" có giá trị 131. Mục "0, Yes" có giá trị là 50.

Các giá trị của DataFrame có thể là kiểu chuỗi.

In [None]:
pd.DataFrame({'Bob': ['I liked it.', 'It was awful.'], 'Sue': ['Pretty good.', 'Bland.']})

Chúng ta sử dụng pd.DataFrame () để tạo các đối tượng DataFrame này. Cú pháp khai báo là một từ điển có các khóa là tên cột (`Bob` và `Sue` trong ví dụ này) và có mục là một danh sách các giá trị. Đây là cách thông dụng nhất để tạo một DataFrame mới.

Cách này gán các nhãn cột, nhưng chỉ sử dụng số tăng dần từ 0 (0, 1, 2, 3, ...) cho các hàng. Nhưng đôi khi chúng ta sẽ muốn tự gán các nhãn này.

Danh sách các nhãn hàng được sử dụng trong DataFrame được gọi là **Index**. Chúng ta có thể gán giá trị cho nó bằng cách sử dụng tham số `index` trong hàm tạo của chúng tôi:

In [None]:
pd.DataFrame({'Bob': ['I liked it.', 'It was awful.'], 
              'Sue': ['Pretty good.', 'Bland.']},
             index=['Product A', 'Product B'])

### Series
Nếu DataFrame là một bảng thì một Series có thể được tạo từ một list. Bản chất, Series là một cột trong DataFrame. Tuy nhein6, Series không có tên cột, chỉ có duy nhất thuộc tính `name`:

In [None]:
pd.Series([1, 2, 3, 4, 5])
# A2 = pd.Series([5,4,3,2,1])
# pd.DataFrame({A1,A2})

In [None]:
pd.Series([30, 35, 40], index=['2015 Sales', '2016 Sales', '2017 Sales'], name='Product A')

## Đọc dữ liệu
Hàm `pd.read_csv()` có đến hơn 30 tham số tùy chọn. Ví dụ, trong dataset này có sẵn index mà pandas sẽ không tự động phát hiện được. Để bắt pandas dùng cột này làm index (thay vì tạo index mới) chúng ta có thể dùng `index_col`.

In [None]:
wine_reviews = pd.read_csv("../input/wine_reviews/winemag-data-130k-v2.csv", index_col=0)
wine_reviews.head()

Một vài đối số cần lưu ý:
* `sep`: dấu ngăn cách cột, mặc định là `,` nhưng cũng có thể là tab)
* `names`: dùng để đặt tên cho các cột
* `skiprows`: bỏ qua x dòng đầu
* `skipfooter`: bỏ qua y dòng cuối
Một mánh khác là ta có thể dùng hàm `read_clipboard(index_col='xxx')` sau khi đã copy (Ctrl-C) một bảng từ Excel hay GoogleSheet chẳng hạn.

## Tóm tắt dữ liệu
### Dùng `head`, `tail`, và `sample`.
### Có bao nhiêu cách để biết dữ liệu có bao nhiêu dòng?

## Bài tập
### 1
* Tạo một DataFrame `fruits` trông như sau:
![](https://i.imgur.com/Ax3pp2A.png)

* Tạo một Series `ingredients` trông như sau:
```
Flour     4 cups
Milk       1 cup
Eggs     2 large
Spam       1 can
Name: Dinner, dtype: object
```

### 2
Bây giờ tạo một dataframe `fruit_sales` trông như sau:
![](https://i.imgur.com/CHPn7ZF.png)

### 3
Đọc file [`winemag-data-130k-v2.csv`](https://drive.google.com/open?id=1hmwQ4DPv7w0U8AjkoAEzbMc3FR6jGGKp) vào biến `reviews` và hiển thị vài dòng đầu tiên. Xuất `fruit_sales` ra file fruit_sales.csv

## Indexing, Selecting & Assigning
### Truy cập cơ bản (Chọn 1 cột vs chọn nhiều cột)
Tương tự như trong Python, chúng ta có thể truy cập cột của DataFrame giống như truy cập thuộc tính của object. Hoặc dùng toán tử index `[]` để truy cập giá trị của một từ điển.
`wine_reviews.country` hoặc `wine_reviews['country']` (nếu tên cột có chứa ký tự đặc biệt thì chỉ có thể truy cập với `[]` )

* `wine_reviews['description'].head(5)`
* `wine_reviews[['country', 'price']].sample(5)`

**Đặc biệt lưu ý:** dùng 2 ngoặc vuông liên tiếp khi muốn chọn từ 2 cột trở lên. Rất nhiều lần tôi bị nhầm lẫn chỗ này. 2 ngoặc vuông liên tiếp sẽ trả ra một DataFrame, kể cả khi ta dùng cho 1 cột (vd `wine_reviews[['description']]`). Nếu bạn chỉ dùng 1 ngoặc vuông, nội dung bên trong dấu ngoặc [] được xem như là 1 cột, và đương nhiên sẽ báo lỗi khi không có cột như vậy trong DataFrame của bạn.


### Indexing in pandas
Ta có thể truy cập theo kiểu numpy (`wine_reviews[5:10]['description']`), tuy nhiên, chúng ta nên dùng toán tử riêng của Pandas: `loc` và `iloc` để truy cập từng hàng của DataFrame.

1. **Chọn theo index (Index-based)**
    * `wine_reviews.iloc[0]`
    * `wine_reviews.iloc[:,0]`
    * Hiển thị 5 phần tử cuối của dataset: `wine_reviews.iloc[-5:]`
2. **Chọn theo nhãn (Label-based)**
    * `wine_reviews.loc[0, 'country']`
    * `wine_reviews.loc[:, ['taster_name', 'taster_twitter_handle', 'points']]`
3. **Khác biệt giữa `loc` và `iloc`:**
`iloc` tương tự như index trong Python stdlib, bỏ phần tử cuối cùng, trong khi `loc` bao gồm tất cả phần tử. **Tại sao?**: Vì `loc` có thể index cả strings, nên `df.loc['Apples':'Potatoes']` thì rõ ràng là thuận tiện hơn `df.loc['Apples':'Potatoet']`
Tuy nhiên, ta phải cẩn thận trong trường hợp DataFrame index là số tự nhiên. Ví dụ: `df.iloc[0:1000]` sẽ trả về 1000 giá trị trong khí đó `df.loc[0:1000]` sẽ cho đến 1001.

### Chọn theo điều kiện
Giả sử chúng ta quan tâm đến các loại vang ngon hơn trung bình được sản xuất ở Ý. Có thể bắt đầu bằng cách lọc trong danh sách những loại nào của Ý trước:

In [5]:
wine_reviews.country == 'Italy'

0          True
1         False
2         False
3         False
4         False
          ...  
129966    False
129967    False
129968    False
129969    False
129970    False
Name: country, Length: 129971, dtype: bool

In [None]:
wine_reviews.loc[wine_reviews.country == 'Italy']
wine_reviews.describe()

Kết quả có ~20,000 dòng, trong khi dữ liệu gốc có ~130K bản ghi. Nghĩa là khoảng 15% số vang có nguồn gốc từ Ý. Vang cũng được đánh giá theo thang điểm từ 80-100, nên muốn tìm loại vang trên trung bình thì phải có ít nhất 90 điểm. Ta có thể dùng toán tử `&` để ghép 2 điều kiện lại.

In [None]:
wine_reviews.loc[(wine_reviews.country == 'Italy') & (wine_reviews.points >= 90)]

Một vài toán tử khác bao gồm `|` (OR) `isin` (tìm trong danh sách) `reviews.loc[reviews.country.isin(['Italy', 'France'])]`; `isnull` và `notnull` (dùng để lọc các trường trống (`NaN`) vd `reviews.loc[reviews.price.notnull()]`

In [None]:
wine_reviews.loc[wine_reviews.country.isin(['Italy', 'France'])]

## Bài tập
### 1
Dùng biến ngắn hơn: `reviews = wine_reviews`
1. Chọn cột `description` từ `reviews` và gán vào biến `desc`. 
2. Sau đó chọn giá trị đầu tiên từ cột description này gán vào biến `first_description` và chọn 10 giá trị đầu tiên trong `description` gán vào biến `first_descriptions`

In [None]:
reviews = wine_reviews
desc = reviews.description

first_descriptions = desc[:10]
first_descriptions

### 2
4. Chọn các bản ghi với index 1, 2, 3, 5, 8 gán kết quả vào biến `sample_reviews`.
5. Tạo biến `df` chứa các cột `country`,`province`, `region_1`, và `region_2` của các dòng có index 0, 1, 10, 100. Nói cách khác, tạo ra DataFrame như sau:
![](https://i.imgur.com/FUCGiKP.png)

In [None]:
import numpy as np
a = np.array(range(1,15,3))
# a = a[1:15:3]
# a
reviews.iloc[a,:]

### 3
6. Tạo biến `df` chứa các cột `country` và `variety` của 100 dòng đầu tiên
7. Tạo DataFrame `top_oceania_wines` chứa tất cả reviews đạt ít nhất 95 điểm cho các dòng vang từ Australia hay New Zealand

## Các hàm tóm tắt, tổng hợp dữ liệu
* `reviews.points.describe()` cho ra bảng tổng hợp cho dữ liệu dạng số. Còn với dữ liệu dạng chuỗi vd `reviews.taster_name.describe()` thì hiển thị dạng khác

In [None]:
reviews.points.describe()

In [None]:
reviews.taster_name.describe()

* `value_count()` cho ta thấy danh sách các giá trị không trùng và đếm số lần xuất hiện trong dataset.

In [None]:
reviews.taster_name.value_counts()

## Maps
Trong khoa học dữ liệu, thường chúng ta cần phải tạo ra góc nhìn mới từ dữ liệu hiện tại, hoặc chuyển format thành dạng chúng ta cần. Các phép biến đổi này cực kỳ quan trọng.
### map()
Giả sử chúng ta muốn chuyển giá trị trung bình của điểm rượu vang thành 0. `map()` nhận một hàm có **1** đối số và thao tác trên đối số đó. `map()` sau đó trả ra một Series các giá trị mới

In [None]:
review_points_mean = reviews.points.mean()
def minus_mean(v):
    return v - review_points_mean

A = reviews.points.map(lambda p: p - review_points_mean)
pd.concat([A.rename('new_points'), reviews.points], axis=1)

### apply()
Tương tự map() nhưng được dùng khi ra muốn thao tác trển cả DataFrame bằng cách gọi hàm áp vào mỗi dòng thay vì mỗi giá trị.
**Lambda Functions**
Đây là hàm ngắn gọn, chỉ dùng 1 lần. Nếu đã quen với nó thì khá tiện. Vd: Ta có thể lấy tách tên và họ của người đánh giá dựa vào khoảng trống và sau đó hiển thị họ thôi

In [None]:
reviews['taster_name'].head(10).apply(lambda x: x.split(' ')[-1])

In [None]:
def remean_points(row):
    row.points = row.points - review_points_mean
    return row

reviews.head(100).apply(lambda r: r.points - review_points_mean, axis='columns') # axis = "index"

\*Lưu ý `map()` và `apply()` trả về Series và DataFrames mới với dữ liệu đã được thay đổi. 

Ngoài ra, Pandas cũng cung cấp sẵn nhiều toán tử thực hiện các phép mapping thường dùng. 

In [None]:
review_points_mean = reviews.points.mean()
reviews.points - review_points_mean

Trong code trên, chúng ta thực hiện phép trừ giữa một bên tay trái là 1 dãy giá trị và một giá trị đơn bên tay phải. Giống như numpy, Pandas tự hiểu là làm phép trừ GTTB khỏi mỗi giá trị trong chuỗi. Tương tự khi làm với Series, thậm chí còn nhanh hơn cả map() và apply().

In [None]:
reviews.country + " - " + reviews.region_1
# reviews[['country', 'region_1']]

## Bài tập thực hành
1. Giá trị chính giữa (median) của cột `points` là gì?
2. Những nước nào có mặt trong dataset?
3. Mỗi nước xuất hiện bao nhiêu lần trong tập này? 
4. Tạo biến `centered_price` chứa một tập điểm từ `points` có mean = 0 (đây là một bước tiền xử lý dữ liệu thường gặp trước khi áp dụng dữ liệu vào các thuật toán máy học khác nhau)
5. Tôi muốn biết loại tên rượu vang có tỉ lệ điểm so với giá cao nhất.
6. Một chai vang thì có thể được gán tính từ *nhiệt đới* hay là có *vị trái cây*. Tạo một Series `desc_counts` đếm số lần mỗi từ `tropical` hay `fruity` xuất hiện trong cột mô tả 
7. Cách chấm điểm 80-100 này có vẻ quá khó hiểu, chúng ta muốn chuyển thành cách thức chấm điểm đơn giản 1-3 sao. Điểm 95 trở lên được tính là 3 sao, điểm ít nhất 85 nhưng bé hơn 95 là được 2 sao. Ít hơn nữa thì là 1 sao. Ngoài ra cứ vang Canada thì tự động được 3 sao vì họ đăng rất nhiều quảng cáo trên site review. Tạo Series `star_ratings` với số sao tương ứng với điểm review trong tập dữ liệu.

In [None]:
reviews.points.median() #1

In [None]:
reviews.country.unique() #2

In [None]:
reviews.country.value_counts() #3

In [None]:
#4
centered_price = reviews.price - reviews.price.mean()
centered_price.describe()

In [None]:
#5
idx = (reviews.points / reviews.price).idxmax()
vang_tot_nhat = reviews.loc[idx, 'title']
vang_tot_nhat

In [None]:
#6
n_tropical = reviews.description.map(lambda d: "tropical" in d).sum()
n_fruity = reviews.description.map(lambda d: "fruity" in d).sum()

counter = pd.Series([n_fruity, n_tropical], index=['fruity', 'tropical'])
counter

In [None]:
#7
def get_star_rate(row):
    if row.country == 'Canada':
        return 3
    if row.points >= 95:
        return 3
    elif row.points >= 85:
        return 2
    else:
        return 1
    
star_rate = reviews.head(1125).apply(get_star_rate, axis=1)
star_rate.value_counts()