# Giới thiệu về Python

## Giới thiệu

Python là ngôn ngữ phổ biến nhất cho Machine Learning nói chung và Data Science nói riêng bởi tính đơn giản gọn nhẹ. Python cũng đồng thời được coi là ngôn ngữ tốt thứ 2 trong rất nhiều lĩnh vực. 

Do độ phổ cập rộng rãi của Python cũng như tính hữu dụng khi làm việc, tương tác với mô trường điện toán đám mấy (cloud) và thiết kế API/deployment cho lĩnh vực AI, bên cạnh các ngôn ngữ phân tích thống kê, khám phá như R, Stata,..., ta cần làm quen và sử dụng Python để có thể mở rộng phạm vi làm việc cũng như tương tác cho các lĩnh vực khác nhau.

Tài liệu này được viết riêng dành cho nhóm phân tích dữ liệu từ R dịch chuyển sang Python để có thể dễ dàng tiếp cận, đơn giản hóa quá trình học và sử dụng một ngôn ngữ phân tích mới.

:::warning
**Lưu ý**: Đối với các bạn sử dụng Python từ các ngôn ngữ lập trình thống kê khác như R hoặc Stata, sẽ có 1 chút khó khăn trong giai đoạn mới sử dụng ở 2 điểm

- Python cài đặt và sử dụng thư viện chủ yếu trên `terminal` hoặc `cmd`, khiến cho việc cài đặt và quản lý package có chút khó khăn
- Các đối tượng trong Python có `methods` đi kèm - đây là điều hơi khó hiểu với những người sử dụng các ngôn ngữ phân tích khác - đặc biệt từ R, do chủ yếu chỉ có hàm (`function`) mà không có `method`

Nội dung giải thích về `method` sẽ được nói kỹ hơn trong các phần tiếp theo

## Anaconda & Pip

Có nhiều cách để cài đặt và sử dụng Python.

**Cách 1**: Đi tới trực tiếp trang [https://www.python.org/downloads/]() để download cho Windows (hoặc Mac). Sau khi download xong, ta có thể dùng trực tiếp python cũng như cài đặt các thư viện đi kèm qua cmd

**Cách 2**: Sử dụng **Anaconda**, đây là 1 Platform khá nổi tiếng trong Data Science, khi cài **Anaconda** ta sẽ có:

- Python core
- Các libraries phổ biến nhất (VD: pandas, numpy, matplotlib...) mà không cần phải cài mới mỗi khi cần sử dụng
- Các IDE phổ biến nhất để sử dụng Python (Jupyter Notebook, Spyder) và R (Rstudio)

Để cài đặt Anacoda, đi đến trang https://www.anaconda.com/distribution/, chọn phiên bản Windows, download và install

<img src="Image/anaconda.png" alt="Alt text that describes the graphic" title="" />

## Thư viện trong Python

Tương tự như `R`, các library trong Python rất đa dạng và hỗ trợ giải quyết nhiều vấn đề khác nhau.

Các thư viện thường dùng trong Python khi phân tích dữ liệu:

- `numpy`: Tính toán đại số
- `scipy`: Tính toán các chỉ số khoa học
- `matplotlib`, `seaborn`, `plotnine`: Vẽ biểu đồ
- `pandas`: Biến đổi, tính toán và tổng hợp số liệu
- `scikit Learn`: Machine learning

### Cài đặt library trong Python

Phần lớn các library đều đã được cài đặt cùng với Anaconda, các library khác khi cần chúng ta có thể cài bằng `pip`.

VD, sử dụng Jupyter Notebook console

`!pip install seaborn`

Hoặc sử dụng terminal

```python
#cài bằng pip
`pip install seaborn`
# cài bằng anaconda
`conda install seaborn`
```

---

**Phân biệt function/modules/packages/library:** Khi làm việc với các thư viện trong python, ta sẽ thấy có 4 nhóm thuật ngữ sau mà có thể gây nhầm lẫn là hàm, module, package & library. Phân biệt 4 nhóm như sau

- `Function`: Hàm - một câu lệnh để giải quyết một hoặc 1 số vấn đề
- `Module`: đơn giản là 1 file `.py` chứa 1 hoặc nhiều `function/class` nhằm mục đích tái sử dụng sau này, một module có thể chứa nhiều hàm
- `Package`: Là một thư mục chứa:
    - Nhiều Python module. 
    - 1 file đặc biệt là `__init.py__`
      
VD: Python package trong windows thường được chứa tại `C:\Users\user\AppData\Local\Continuum\anaconda3\Lib\site-packages`
- `library`: Tương tự như package. Tuy nhiên, khi nói về library, ta nói về package đã được download và cài đặt xong

**Import Modules/packages**

In [10]:
# Import cả package, khi cần sử dụng function, gọi tên package trước
import numpy as np
np.sqrt(9)

3.0

In [11]:
# Chỉ import function trong packages
from numpy import sqrt
sqrt(9)

3.0

### Cài đặt packages offline

**Cài đặt với conda**

- Download package từ trang web: https://anaconda.org
- Cài đặt với câu lệnh sau

`conda install --offline jupyter_contrib_core-0.3.3-py36_1.tar.bz2`

**Cài đặt với pip**

- Clone folder từ github
- Mở terminal/cmd trong thư mục chưa project
- Thực hiện câu lệnh sau:

`pip install -e nbextensions`

### Kiểm tra thư viện Python

In [12]:
import site
site.getsitepackages()

['c:\\Users\\Hoang Duc Anh\\AppData\\Local\\Programs\\Python\\Python311',
 'c:\\Users\\Hoang Duc Anh\\AppData\\Local\\Programs\\Python\\Python311\\Lib\\site-packages']

- Ta có thể copy thư viện Python như làm việc với R

## Một số câu lệnh cơ bản

### Thư mục đang làm việc

- Kiểm tra thư mục đang làm việc

In [13]:
cwd = %pwd
print(cwd)

d:\01-github\ds-book-python\_source


In [14]:
# hoặc
import os
cwd = os.getcwd()
print(cwd)

d:\01-github\ds-book-python\_source


In [15]:
# List các file trong thư mục hiện hành trong jupyter notebook %ls
os.listdir()[0:10]

['.ipynb_checkpoints',
 '99_dataset',
 'boxplot.png',
 'chart.png',
 'conf.py',
 'debug.log',
 'final_model.sav',
 'flask-api.py',
 'Image',
 'index.rst']

### Cách xuống dòng

Ta có thể xuống dòng với dấu `\` và **không có dấu cách** đằng sau

In [16]:
7 + \
    8

15

- Comment với dâu `#`

In [17]:
8 * 9 #comment here

72

### Help trong python

Tương tự như R, ta có thể truy cập và tìm kiếm các tài liệu sẵn có trong một hàm. Các tài liệu đó được viết dưới dạng đặc biệt được gọi là `docs string`, viết trong `"""..."""`

Ta có thể đọc tài liệu với cấu trúc câu lệnh `function??`

In [18]:
import numpy as np
np.square??

[1;31mCall signature:[0m  [0mnp[0m[1;33m.[0m[0msquare[0m[1;33m([0m[1;33m*[0m[0margs[0m[1;33m,[0m [1;33m**[0m[0mkwargs[0m[1;33m)[0m[1;33m[0m[1;33m[0m[0m
[1;31mType:[0m            ufunc
[1;31mString form:[0m     <ufunc 'square'>
[1;31mFile:[0m            c:\users\hoang duc anh\appdata\local\programs\python\python311\lib\site-packages\numpy\__init__.py
[1;31mDocstring:[0m      
square(x, /, out=None, *, where=True, casting='same_kind', order='K', dtype=None, subok=True[, signature, extobj])

Return the element-wise square of the input.

Parameters
----------
x : array_like
    Input data.
out : ndarray, None, or tuple of ndarray and None, optional
    A location into which the result is stored. If provided, it must have
    a shape that the inputs broadcast to. If not provided or None,
    a freshly-allocated array is returned. A tuple (possible only as a
    keyword argument) must have length equal to the number of outputs.
where : array_like, optional


- Sử dụng tab để tự động điền các hàm hoặc khi import thư viện

Ví dụ: `np.TAB`

`from sklearn import da<TAB>`

### Chạy external code trên notebook


- Chạy file .py
  
```python
%run script.py
```

- Chạy file .ipynb

```python
%run file.ipynb
```

### Hiển thị code đã chạy

Jupyter notebook cho phép hiển thị các đoạn cell đã chạy trong cùng notebook

In [1]:
print(In[8])

IndexError: list index out of range

### Làm việc với shell

Python cho phép làm việc với shell trong Python

```
ls
```

Để gán kết quả từ shell, sử dụng toán tử `!`

```
my_content = !ls
len(my_content)
```

### Kiểm tra thời gian chạy code

In [20]:
%time sum(range(100))

CPU times: total: 0 ns
Wall time: 0 ns


4950

## Tài liệu tham khảo

- https://www.dataquest.io/blog/jupyter-notebook-tips-tricks-shortcuts/
- https://jupyterlab.readthedocs.io/en/stable/getting_started/installation.html
- https://nbsphinx.readthedocs.io/en/0.4.2/installation.html
- https://sphinx-rtd-theme.readthedocs.io/en/stable/installing.html
