![alt tag](https://codelearn.io/Upload/Blog/xu-ly-du-lieu-voi-pandas-trong-python-63725977973.8696.jpg)

# **What is Pandas**
Thư viện **Pandas** cung cấp các cấu trúc dữ liệu hiệu suất cao, dễ sử dụng và các công cụ phân tích dữ liệu. Cấu trúc dữ liệu chính là DataFrame, có thể coi đây là một bảng 2D trong bộ nhớ (giống như một bảng tính, với tên cột và nhãn). Nhiều tính năng có sẵn trong Excel có sẵn theo chương trình, chẳng hạn như tạo bảng tổng hợp, tính toán cột dựa trên các cột khác, vẽ biểu đồ, v.v. Có thể nhóm các hàng theo giá trị cột hoặc nối các bảng giống như trong SQL. **Pandas** cũng rất giỏi trong việc xử lý chuỗi thời gian. 🐼

# **Reference**
https://github.com/ageron/handson-ml2/blob/ce94de16f017f78b0991a3d3ae18b3de70b15118/tools_numpy.ipynb

# **Pandas: Import**

Import thư viện **pandas**. Hầu hết mọi người sử dụng nó dưới dạng **pd**

In [1]:
import pandas as pd

# **Combining DataFrames**
> 

### **SQL-like joins**
> Một tính năng mạnh mẽ của **pandas** là khả năng thực hiện các phép nối giống SQL trên **DataFrames**

In [2]:
city1 = pd.DataFrame([["CA", "San Francisco"],
                      ["NY", "New York", 40.705649, -74.008344],
                      ["FL", "Miami", 25.791100, -80.320733],
                      ["OH", "Cleveland", 41.473508, -81.739791],
                      ["UT", "Salt Lake City", 40.755851, -111.896657]],
                      columns=["state", "city", "lat", "lng"])
city1

Unnamed: 0,state,city,lat,lng
0,CA,San Francisco,,
1,NY,New York,40.705649,-74.008344
2,FL,Miami,25.7911,-80.320733
3,OH,Cleveland,41.473508,-81.739791
4,UT,Salt Lake City,40.755851,-111.896657


In [3]:
city2 = pd.DataFrame([[808976, "San Francisco", "California"],
                      [8363710, "New York", "New-York"],
                      [413201, "Miami", "Florida"],
                      [2242193, "Houston", "Texas"]],
                      index=[3,4,5,6],
                      columns=["population", "city", "state"])
city2

Unnamed: 0,population,city,state
3,808976,San Francisco,California
4,8363710,New York,New-York
5,413201,Miami,Florida
6,2242193,Houston,Texas


**inner join** (chỉ join các đối tượng xuất hiện ở cả 2 bảng) các **DataFrames** bằng cách sử dụng hàm **merge()**

In [4]:
pd.merge(left=city1, right=city2, on="city")

Unnamed: 0,state_x,city,lat,lng,population,state_y
0,CA,San Francisco,,,808976,California
1,NY,New York,40.705649,-74.008344,8363710,New-York
2,FL,Miami,25.7911,-80.320733,413201,Florida


**outer join** (join tất cả đối tượng thuộc 2 bảng) các **DataFrames** bằng cách sử dụng hàm **merge()** và thêm thuộc tính **how="outer"**

In [5]:
pd.merge(left=city1, right=city2, on="city",how="outer")

Unnamed: 0,state_x,city,lat,lng,population,state_y
0,CA,San Francisco,,,808976.0,California
1,NY,New York,40.705649,-74.008344,8363710.0,New-York
2,FL,Miami,25.7911,-80.320733,413201.0,Florida
3,OH,Cleveland,41.473508,-81.739791,,
4,UT,Salt Lake City,40.755851,-111.896657,,
5,,Houston,,,2242193.0,Texas


**lefft/right join** (Chỉ các đối tượng xuất hiện trong bảng left/right mới xuất hiện trong kết quả) các **DataFrames** bằng cách sử dụng hàm **merge()** và thêm thuộc tính **how="left/right"**

In [6]:
pd.merge(left=city1, right=city2, on="city",how="left")

Unnamed: 0,state_x,city,lat,lng,population,state_y
0,CA,San Francisco,,,808976.0,California
1,NY,New York,40.705649,-74.008344,8363710.0,New-York
2,FL,Miami,25.7911,-80.320733,413201.0,Florida
3,OH,Cleveland,41.473508,-81.739791,,
4,UT,Salt Lake City,40.755851,-111.896657,,


In [7]:
pd.merge(left=city1, right=city2, on="city",how="right")

Unnamed: 0,state_x,city,lat,lng,population,state_y
0,CA,San Francisco,,,808976,California
1,NY,New York,40.705649,-74.008344,8363710,New-York
2,FL,Miami,25.7911,-80.320733,413201,Florida
3,,Houston,,,2242193,Texas


### **Concatenation**
> Thay vì **join** các **DataFrames**, chúng ta chỉ cần nối chúng lại với nhau

In [8]:
pd.concat([city1, city2])

Unnamed: 0,state,city,lat,lng,population
0,CA,San Francisco,,,
1,NY,New York,40.705649,-74.008344,
2,FL,Miami,25.7911,-80.320733,
3,OH,Cleveland,41.473508,-81.739791,
4,UT,Salt Lake City,40.755851,-111.896657,
3,California,San Francisco,,,808976.0
4,New-York,New York,,,8363710.0
5,Florida,Miami,,,413201.0
6,Texas,Houston,,,2242193.0


Thao tác này không căn chỉnh theo chiều ngang, vì vậy các **index** có thể lặp lại

In [9]:
pd.concat([city1, city2], ignore_index=True) # Sắp xếp lại index

Unnamed: 0,state,city,lat,lng,population
0,CA,San Francisco,,,
1,NY,New York,40.705649,-74.008344,
2,FL,Miami,25.7911,-80.320733,
3,OH,Cleveland,41.473508,-81.739791,
4,UT,Salt Lake City,40.755851,-111.896657,
5,California,San Francisco,,,808976.0
6,New-York,New York,,,8363710.0
7,Florida,Miami,,,413201.0
8,Texas,Houston,,,2242193.0


Nếu đặt **join="inner"**, thì chỉ các cột tồn tại trong cả hai **DataFrames** được trả về:

In [10]:
pd.concat([city1, city2], join="inner")

Unnamed: 0,state,city
0,CA,San Francisco
1,NY,New York
2,FL,Miami
3,OH,Cleveland
4,UT,Salt Lake City
3,California,San Francisco
4,New-York,New York
5,Florida,Miami
6,Texas,Houston
