# So sánh R với Python cơ bản

Để có thể hỗ trợ dễ dàng hơn nhóm phân tích dịch chuyển từ R, chương này tập trung so sánh R & Python trên 3 nhóm tác vụ

- Các câu lệnh cơ bản
- Biến đổi và xử lý dữ liệu
- Trực quan hóa dữ liệu

Với R, các câu lệnh sẽ được sử dụng với hệ sinh thái của `tidyverse`. Với `python`, các câu lệnh sẽ được sử dụng chủ yếu với `pandas`, `numpy`, `os` và `plotnine`

## Các câu lệnh cơ bản

| **STT** | **Các hàm** | **Python** | **R** |
|---|---|---|---|
| 1 | Cài đặt thư viện | pip install x | install.packages("x") |
| 2 | Load package | import `library_x` as `x`  | library(`x`) |
| 3 | Load một hàm/object cụ thể | from library.module import y as `function_y` from plotnine.data import mtcars as mtcars | library::`function_y` tidyr::seperate |
| 4 | Load một module | from library_x import module as y from plotnine import data as data | Không có khái niệm module như python |
| 5 | Load toàn bộ object/hàm trong một module | from x import * | library(x) |
| 6 | Kiểm tra thư mục làm việc | import os as os  os.getcwd() | getwd() |
| 7 | Đổi thư mục làm việc | os.chdir() | setwd() |
| 8 | Liệt kê các file trong thư mục | os.listdr() | dir() |
| 9 | Liệt kê các life trong environment | globals() | ls() |
| 10 | Xóa object | del(object) | rm(object) |

##  Làm việc với data frame

### Nhóm câu lệnh cơ bản

| STT | Hàm | Python | R |
|---|---|---|---|
| 1 | Tạo dataframe | pd.DataFrame({'a': ['a1', 'a2'   ]}, <br>     'b' : ['b1', 'b2'],<br>     x = [1, 2]}) | data.frame(a = c("a1",   "a2"),<br>     b = c("b1", "b2"),<br>     x = 1:2) |
| 2 | Tên hàng | df.index | rownames(df) |
| 3 | Tên cột | df.columns | colnames(df |
| 4 | Head | df.head(3) | head(df, 3) |
| 5 | Tail | df.tail(3) | tail(df, 3) |
| 6 | Dim | df.shape | dim(df) |
| 7 | Cấu trúc dữ liệu | df.info() | str(df) |

### Nhóm biến đổi dữ liệu

| **STT** | **Hàm** | **Python** | **R** |
|---|---|---|---|
| 1 | Đổi tên | df.columns = ["P", "Q"] | names(df) = c("P",   "Q") |
|  |  | df.rename(columns = {old_var : new_var}) | df %&gt;% rename(new_var = old_var) |
| 2 | Lấy biến a &amp; b | df.filter(['a', 'b'])<br>     df[['a', 'b']] | df %&gt;% select(a, b) |
| 3 | Lọc theo dòng từ 1-4 | df.iloc[0:4] | df %&gt;% slice(1:4) |
| 4 | Lọc theo điều kiện | df[(df.a&gt;20) &amp; (df.b ==10)] | df %&gt;% filter (a &gt; 20 &amp; b == 1) |
|  |  | df.query('a &gt; 20 and b == 1') |  |
| 5 | Sắp xếp lại dữ liệu | df.sort_values('a') | df %&gt;% arrange(a) |
| 6 | Loại bỏ 1 biến | df.drop('a', axis = 'columns') | df %&gt;% select(-a) |
| 7 | Tạo biến mới theo nhóm | df['new_var'] =   df.groupby('a')['x'].transform('mean') | df %&gt;% <br>     group_by(a) %&gt;% <br>     mutate(new_var = mean(x)) |
| 8 | Left join | pd.merge(df1, df2, by = "left', left_on = 'id1', right_on = 'id2') | df1 %&gt;% left_join(df2, by = c('id1' = 'id2')) |
| 9 | Ghép dòng | pd.concat(df1, df2) | bind_rows(df1, df2) |
| 10 | Ghép cột | pd.concat(df1, df2, axis = 1) | bind_cols(df1, df2) |
| 11 | Lấy các biến là số | df.select_dtypes('float64') | df %&gt;% select_if(is.numeric) |
| 12 | Phân rã dữ liệu | pd.melt(df, 'id') | df %&gt;% <br>     pivot_longer(!id) |
| 13 | Xoay chiều dữ liệu | df2.pivot_table(index = 'id',   columns = 'variable',<br>                     values = 'value',   aggfunc = 'first').\<br>         reset_index() | df2 %&gt;% <br>     pivot_wider(id_cods = id, names_from = variable) |

### Nhóm tổng hợp dữ liệu

| STT | Hàm | Python | R |
|---|---|---|---|
| 1 | Summary | df.describe() | summary(df) |
| 2 | Tổng hợp dữ liệu | Dùng list: df['x'].agg(['mean', 'max']) | df %&gt;% summarise(mean_x =   mean(x),<br>     max_x = max(x)) |
|  |  | Dùng dictionary: df.agg(['x': ['mean', 'max']]) |  |
|  |  | Dùng   tupple: df.agg(mean_x = ('x', 'mean'), max_x = ('x', 'max')) |  |

## Nhóm trực quan hóa dữ liệu

Khi sử dụng `plotnine`, các câu lệnh gần như tương thích 100% với `ggplot2`. Khác biệt chủ yếu ở 2 điểm

- `python` dùng `_`, R dùng `.`
- `python` để tên biến dạng string - ví dụ: "mpg", trong khi R sử dụng dạng symbols (mpg - không có nháy kép)