# Github, Numpy, Pandas cheatsheets
## MaSSP 2018, Computer Science

__Chuẩn bị: Xếp Châu__

Github: Dựa theo https://services.github.com/on-demand/downloads/github-git-cheat-sheet.pdf.

Sau đây là một số hàm cần thiết trong chương trình MaSSP Tin học.
* [Các lệnh cơ bản trong Github](#Các-lệnh-cơ-bản-trong-Github)
* [Các thao tác tính toán trong Numpy](#Các-thao-tác-tính-toán-trong-Numpy)
* [Các thao tác trong Pandas](#Các-thao-tác-trong-Pandas)

# Các lệnh cơ bản trong Github

| Lệnh                             | Ý nghĩa                                |
|:---------------------------------|:---------------------------------------|
| __Configure__| Config username, email cho máy, tránh phải nhập mỗi lần commit |
| git config --global user.name "[name]" | Đặt tên người dùng mỗi lần commit |
| git config --global user.email "[email address]" | Đặt email gán với mỗi lần commit |
| __Tạo repo__ | |
| git init [project-name] | Tạo repo dự án mới |
| git clone [url] | Tải một repo xuống, url có dạng github.com/[author]/[project-name.git], ví dụ https://github.com/masspvn/pre-program-package.git. Ngoài ra cũng có thể tải repo xuống dưới dạng zip. |
| __Thay đổi repo__ | |
| git status | List ra toàn bộ các file mới hoặc bị thay đổi |
| git add file1 file2 | file1 và file2 là 2 files mới hoặc mới bị thay đổi, dùng lệnh này để git biết sẽ "version control" những file này |
| git add /path/to/\* | version control tất cả các file trong thư mục /path/to/ |
| git commit -m "Some meaningful message about this commit" | Lưu lại các file được version control. Chú ý commit message cần ngắn gọn, dễ hiểu, tóm tắt lại những thay đổi của version này so với version trước |
| __Sync__ | |
| git pull | Tải về những thay đổi mới những người khác đã commit vào repo |
| git push origin master| Đưa thay đổi của những local commit lên repo trên Github - khi người khác dùng lệnh git pull ở trên, họ sẽ thấy những thay đổi này. "master" là tên nhánh chính của repo. Trong chương trình MaSSP các bạn chỉ cần dùng nhánh chính này. Nếu có thắc mắc về cách dùng nhánh phụ, hãy hỏi các mentor!|

# Các thao tác tính toán trong Numpy
| Numpy                        | Ý nghĩa                                                |
|:----------------------------|:-------------------------------------------------------|
| __Khởi tạo ma trận__ ||
| np.ones((2, 3))              | tạo ma trận 2x3, mỗi phần tử có giá trị 1. (float)     |
| np.zeros((2, 3))             | tạo ma trận 2x3, mỗi phần tử có giá trị 0. (float)     |
| __Các thao tác tính toán với một biến__||
| np.square(x) | Bình phương x element-wise |
| np.sqrt(x) | Căn bậc 2 của x element-wise |
| np.abs(x) | Trị tuyệt đối của x element-wise |
| np.round(x) | Làm tròn đến giá trị nguyên gần nhất element-wise (1.5 sẽ làm tròn lên thành 2) |
| np.power(x, y) | Lũy thừa x^y element-wise |
| np.exp(x) | Lũy thừa e^x element-wise |
| np.log(x) | Log của x element-wise, tf.log(0) trả -inf |
| np.mean(x, axis=k) | Trả trung bình cộng theo chiều kth của x. Nếu không cho k, trả về một số thực là trung bình cộng của tất cả phần tử trong x |
| np.transpose(x, axes=new_axes) | Transpose ma trận x theo hoán vị các chiều mới new_axes, ví dụ (2, 1, 0) cho ma trận 3 chiều x |
| __Các thao tác tính toán với hai biến__||
| np.add(x, y) hay (x + y) | Cộng 2 ma trận. Nếu một trong 2 biến là số thực, cộng từng phần tử của ma trận với số thực đó |
| np.subtract(x, y) hay (x - y) | Trừ 2 ma trận |
| np.multiply(x, y) hay (x * y) | Nhân 2 ma trận element-wise |
| np.divide(x, y) hay (x / y) | Chia 2 ma trận element-wise |
| np.matmul(x, y) | Nhân 2 ma trận, số cột của x phải bằng số hàng của y |
| np.maximum(x, y) | x, y là 2 ma trận cùng kích thước. Trả về 1 ma trận, mỗi phần tử là giá trị lớn hơn khi so sánh x, y |
| np.minimum(x, y) | x, y là 2 ma trận cùng kích thước. Trả về 1 ma trận, mỗi phần tử là giá trị nhỏ hơn khi so sánh x, y |
| np.equal(x, y) hay (x == y) | Trả True hoặc False cho x == y element-wise |
| np.not_equal(x, y) hay (x != y) | Trả True hoặc False cho x != y element-wise |

# Các thao tác trong Pandas

(Phỏng theo cheatsheet tại https://www.datacamp.com/community/blog/python-pandas-cheat-sheet)

In [3]:
import pandas as pd
data = {'Country': ['Belgium', 'India', 'Brazil'],
        'Capital': ['Brussels', 'New Delhi', 'Brasília'],
        'Population': [11190846, 1303171035, 207847528]}
df = pd.DataFrame(data, columns=['Country', 'Capital', 'Population'])
df

Unnamed: 0,Country,Capital,Population
0,Belgium,Brussels,11190846
1,India,New Delhi,1303171035
2,Brazil,Brasília,207847528



| <h3>Pandas</h3>                    | <h3>Ý nghĩa</h3>      |
|:----------------------------|:------------------------------------------------------|
| __I/O__ | |
| df = pd.read_csv('file.csv', header=None, nrows=5)| load dữ liệu từ file.csv |
| df = pd.read_excel( pd.ExcelFile('file.xls'), 'Sheet1')| load dữ liệu từ Sheet1 của file.xls |
| df.to_csv('myDataFrame.csv')| chép dữ liệu vào file có tên myDataFrame.csv|
| __Lấy thông tin__ | |
| df.shape | trả (số hàng, số cột) |
| df.columns | trả tên các cột |
| df.info() | thông tin của dataframe |
| df.describe() | số liệu thống kê của các cột có dữ liệu số |
| df.head() | Trả một DataFrame chứa một số hàng đầu |
| df.tail() | Trả một DataFrame chứa một số hàng cuối|
| df.count() | số phần tử không phải NA |
| df.sum() | tính tổng các phần tử |
| df.min(), df.max() | giá trị nhỏ nhất, lớn nhất |
| df.mean(), df.median() | giá trị trung bình, median |
| __Cách chọn hàng, cột__ | |
| df['Country'] | lấy cột 'Country' (['Belgium', 'India', 'Brazil'])   |
| df[1:] | lấy hàng 1 trở đi (bỏ hàng 0) |
| df.iloc[[0],[0]]  | lấy phần tử hàng đầu tiên, cột đầu tiên (Belgium) |
| df.loc[[0], ['Country']] | lấy phần tử hàng đầu tiên, cột 'Country' (Belgium)|
| df[df['Population']>1200000000]  | chọn hàng có giá trị 'Population' lớn hơn 1,2 tỷ |
| df.drop('Country', axis=1) | bỏ cột 'Country' |
| df.sort_values(by='Country') | sắp xếp theo tên nước |
| __Chỉnh sửa dữ liệu__ | |
| df.fillna({ 'col_1': 0, 'col_2': 'no data' }) | Biến những dữ liệu trống (NaN) trong cột 'col_1' thành giá trị số 0, trong cột 'col_2' thành string 'no data' |
| df.replace(['old_1', 'old_2'], 'new') | Thay thế những giá trị 'old_1', 'old_2' thành 'new' |
