# 数据挖掘的实验环境

## 传统印象里的实验室

大部分人的印象里，实验室的师兄师姐应该是穿着大白褂，然后实验装置应该是下边这个样子的：<br>
<img src=figtabs/ch1/experimental_apparatus.png align=center width=50% height=50% />

## 信息黄埔的实验室

当你走进导师的实验室时，你发现实验室是这样子的：<br>
<img src=figtabs/ch1/experimental_apparatus2.jpeg align=center width=50% height=50% />

实际上，在以“信息黄埔”著称的北邮，我们的实验专职，基本上都是信息技术装置。走进老师办公室，看到笔记本、台式机，或者稍微高级一点的工作站、服务器，应该也就不足为奇了。

## 开展数据挖掘实验的实验装置

当我们做数据挖掘时，实验设备≈办公设备：<br>
<img src=figtabs/ch1/experimental_apparatus_python.jpg align=center width=50%  height=50% />

学习本数据挖掘实验课程，所谓实验环境的配置，就是笔记本电脑（硬件）+ Anaconda（软件）。笔记本电脑当然是同学们自行解决，下边说一下软件环境：本课程将以Python为工具，更准确的说，是以Anaconda这个数据科学的全家桶为工具。

# 什么是Python

## Python概述

本课程将采用Python作为主要的实验工具。  
Python具有清晰的语法结构，大家也把它称作<u>*可执行伪代码（executable pseudo-code）*</u>。使用Python有以下优点：
* Python是一门胶水语言，可以把不同语言整合起来，比如上层代码使用Python编写，底层代码用C，C++等语言实现。
* 解决了两种语言的问题。以前做研究用一门语言写原型（比如R），效果好了才会用其他语言去重新实现一遍（比如Java），部署到实际任务中。而Python的优势在于既适合做研究，又适合直接部署。

Guido van Rossum
> high-level programming language, and its core design philosophy is all about code readability and a syntax which allows programmers to express concepts in a few lines of code.

A Byte of Python:
> Python is a simple and minimalistic language. Reading a good Python program feels almost like reading English, although very strict English! This pseudo-code nature of Python is one of its greatest strengths. <font color='red'>**It allows you to concentrate on the solution to the problem rather than the language itself**</font>.

下面通过一个小例子来看看Python如何表达思想：

In [1]:
x = [True, True, False]
if any(x):      
    print("At least one True")
if all(x):
    print("Not one False")
if any(x) and not all(x):
    print("At least one True and one False")

At least one True
At least one True and one False


## Python之禅

In [2]:
import this

The Zen of Python, by Tim Peters

Beautiful is better than ugly.
Explicit is better than implicit.
Simple is better than complex.
Complex is better than complicated.
Flat is better than nested.
Sparse is better than dense.
Readability counts.
Special cases aren't special enough to break the rules.
Although practicality beats purity.
Errors should never pass silently.
Unless explicitly silenced.
In the face of ambiguity, refuse the temptation to guess.
There should be one-- and preferably only one --obvious way to do it.
Although that way may not be obvious at first unless you're Dutch.
Now is better than never.
Although never is often better than *right* now.
If the implementation is hard to explain, it's a bad idea.
If the implementation is easy to explain, it may be a good idea.
Namespaces are one honking great idea -- let's do more of those!


译文如下(来自[网络](https://blog.csdn.net/liang19890820/article/details/51734118))：
> Python 之禅， by Tim Peters

>优美胜于丑陋（Python 以编写优美的代码为目标）  
>明了胜于晦涩（优美的代码应当是明了的，命名规范，风格相似）  
>简洁胜于复杂（优美的代码应当是简洁的，不要有复杂的内部实现）  
>复杂胜于凌乱（如果复杂不可避免，那代码间也不能有难懂的关系，要保持接口简洁）  
>扁平胜于嵌套（优美的代码应当是扁平的，不能有太多的嵌套）  
>间隔胜于紧凑（优美的代码有适当的间隔，不要奢望一行代码解决问题）  
>可读性很重要（优美的代码是可读的）  
>即便假借特例的实用性之名，也不可违背这些规则（这些规则至高无上）  
>不要包容所有错误，除非你确定需要这样做（精准地捕获异常，不写except:pass风格的代码）  
>当存在多种可能，不要尝试去猜测  
>而是尽量找一种，最好是唯一一种明显的解决方案（如果不确定，就用穷举法）  
>虽然这并不容易，因为你不是 Python 之父（这里的 Dutch 是指 Guido）  
>做也许好过不做，但不假思索就动手还不如不做（动手之前要细思量）  
>如果你无法向人描述你的方案，那肯定不是一个好方案；反之亦然（方案测评标准）  
>命名空间是一种绝妙的理念，我们应当多加利用（倡导与号召）

# R与Python

## 数据科学领域的双子星。   
<img src=figtabs/ch1/r_python.png align=center width=50% height=50% />

## R与Python对比

以下摘录其他文献里边的一些对比：  
* Python is used in a wide variety of use cases unlike R that is mostly a language for statistics.
* R has very good packages in data visualization and data mining and so does Python. R however has a large number of packages that can do the same thing, while Python generally focuses on adding functions to same package. This is both a benefit in terms of options available and a disadvantage in terms of confusing the beginner. Python has comparatively fewer packages (like statsmodels and scikit‐learn for data mining).

R的优势：<br>
* tidyverse编码风格；ggplot2所代表的绘图理念，一整套绘图语法的优雅实现  
* 以data.frame为核心开展探索性分析、数据建模，简洁明了  
* 内在的六种数据对象，向量/因子、矩阵/数组、列表/数据框几乎包打天下，数据对象相对紧凑(Python里边，除了内置的列表、元素、字典、集合等，还需用到第三方库中的诸多数据对象如numpy中的数组、pandas中的DataFrame等)  
* 对于IDE，几乎无需比较，可以直接选择RStudio  

---

Python的优势：<br>
* 纯粹的面向对象，简洁的语法——从Python之禅可窥一斑
* 机器学习库相对集中
* 深度学习领域：Python有优势。尽管[R也可以开展深度学习](https://keras.rstudio.com/)  
* 解决了两种语言的问题  

我们很难找到一个算法、或者说某项功能，一个语言能实现，而另外一个语言完全实现不了。无非是实现方式、难易程度，以及当前的完善程度有所不同。比如关联规则、决策树等，毫无疑问在R里边可以拿来就用，所得到的精美的图形可以直接用到分析报告之中，在Python里边可能相对要费点劲；比如模型的部署deployment，R虽然也有多种方法，比如通过PMML导出、通过shiny来发布等，但是真正能直接切换到应用场景，毫无疑问和Python没法比。我们列举这些，并不是为了得到一个结论说哪一门语言更好。虽然他们对于机器学习、数据挖掘任务而言，都够用，但是确实有区别，二者都掌握，就再好不过了。毕竟对于数据分析的科学家、工程师而言，他们都只是工具，我们不会因为使用工具不同而将其归为不同阵营，关键是我们通过算法从数据里边得到了什么，我们注重的是所发现的规律、模型。工具，当然是掌握得越多越好。

## 优势互补

两门语言也在相互借鉴：  
> Python's plotnine data visualization package was inspired by R's ggplot2 package, and R's rvest web scraping package was inspired by Python's BeautifulSoup package.   

两门语言也可以相互调用：  
> you can run R code from Python using the [rpy2](https://rpy2.github.io/) package, and you can run Python code from R using [reticulate](https://rstudio.github.io/reticulate/).

## 如何抉择

除了看别人嘴里R和Python的区别之外，最好还是小马过河，自己蹚一蹚水的深浅才好。在学习Python的同时，有时间和精力的话，也接触一下R，“R will continue to have the maximum number of packages in statistics data
science and visualization”。还有一种说法是：  
> The closer you are to statistics, research and data science, the more you might prefer R   

关于R和Python，二者都非常好，一个基本的态度是：不是R or Python，而是R and Python。  
前些年，可能大家还会争论：[Data Science Wars: R vs Python](https://www.datacamp.com/community/tutorials/r-or-python-for-data-analysis)，不过现在大家基本达成共识，就是鱼和熊掌要兼得。二者在数据分析领域的生态，都非常庞大，只要是深度用户，都会体会到其中的美好之处。  

在传统的观念里，统计学家偏爱R、计算机科学家偏爱Python。statisticians have preferred the approach that R takes, whereas programmers have made Python their language of choice.   
所谓数据科学家，就是一个比统计学家懂更多计算机、比计算机科学家懂更多统计的人。Data Scientist (n.): Person who is better at statistics than any software engineer and better at software engineering than any statistician.  
从这个角度讲，数据科学领域，R和Python都需要掌握。

简言之，关于R和Python，不是or而是and🙃

# 数据科学全家桶Anaconda

本实验课采用的工具是Python。对于有Python编程基础的同学来讲，可以自己手动配置数据挖掘环境。具体过程可参照类似[How to Setup a Python Environment for Machine Learning](https://www.kdnuggets.com/2019/02/setup-python-environment-machine-learning.html)这样的资料。  
咱们配置实验环境，采用的是Anaconda这个全家桶，基本上一站式配齐，简单方便，立等可取。

## Anaconda概述

从字面上看，Anaconda和Python一样，都是指蟒蛇：<br>
<img src=figtabs/ch1/mang_she.png align=left width=50% height=50% />

Python是一门胶水语言，用途广泛，不像R那样仅专注于数据分析。要使用Python进行数据分析与挖掘，当然可以自行搜罗一个个的包。但是Anaconda给我们提供了更好的解决方案，他是一个数据科学包的套装（官方说法是用于科学计算的Python发行版），可以一站式配齐我们的数据挖掘实验环境。  
Anoconda包含了一个包管理工具和一个Python管理环境，同时附带了一大批常用数据科学包，也是数据分析的标配。  
<img src=figtabs/ch1/anaconda.png align=left width=85% height=85% />

以下是官网的一些介绍：
>The open-source Anaconda Distribution is the easiest way to perform Python/R data science and machine learning on Linux, Windows, and Mac OS X. With over 11 million users worldwide, it is the industry standard for developing, testing, and training on a single machine, enabling individual data scientists to:
>> * Quickly download 1,500+ Python/R data science packages
>> * Manage libraries, dependencies, and environments with Conda
>> * Develop and train machine learning and deep learning models with scikit-learn, TensorFlow, and Theano
>> * Analyze data with scalability and performance with Dask, NumPy, pandas, and Numba
>> * Visualize results with Matplotlib, Bokeh, Datashader, and Holoviews

在某种程度上讲，Anaconda+Jupyter已成为Python数据分析的事实上的标准环境（当然，工业级应用中，PyCharm也值得大力推荐。PyCharm大而全，不过略显笨重）。  

In [3]:
from IPython.display import IFrame
IFrame('https://www.anaconda.com/distribution/', width=900, height=500)

## Anaconda的安装

上Anaconda的主页<https://www.anaconda.com/>下载安装即可，注意选择相应的版本号，比如在64位的windows环境下：<br> 
<img src=figtabs/ch1/download_anaconda_win64.png align=center width=65% height=65% />

下载完之后是一个可执行文件，至于后续的步骤，相信会安装office的童孩，也都会安装这个anaconda。具体过程不详述。若有问题，也可参阅以下资料：<https://docs.anaconda.com/anaconda/install/windows/><br>
以下是一个在Windows 10上安装Anaconda的过程截图，双击之后，基本上就是1Agree+5Next+1Finish了，小伙伴们可参考：<br>
<img src=figtabs/ch1/anoconda_step01.png align=center width=50% height=50% />
<img src=figtabs/ch1/anoconda_step02.png align=center width=50% height=50% />
<img src=figtabs/ch1/anoconda_step03.png align=center width=50% height=50% />
<img src=figtabs/ch1/anoconda_step04.png align=center width=50% height=50% />
<img src=figtabs/ch1/anoconda_step05.png align=center width=50% height=50% />
<img src=figtabs/ch1/anoconda_step06.png align=center width=50% height=50% />
<img src=figtabs/ch1/anoconda_step07.png align=center width=50% height=50% />
<img src=figtabs/ch1/anoconda_step08.png align=center width=50% height=50% />
<img src=figtabs/ch1/anoconda_step09.png align=center width=50% height=50% />
<img src=figtabs/ch1/anoconda_step10.png align=center width=50% height=50% />

和配置R环境不同（先安装好R Console，在安装RStudio），Anaconda下载安装后，我们的实验环境基本也就配置好了，通常的机器学习和数据挖掘任务都能完成（如果是要开展深度学习相关的研发，还需要下载专门的包）。

## 创建虚拟环境

在使用Python进行数据分析挖掘时，最好能为不能的项目创建单独的虚拟环境。一个虚拟环境，会有单独的核、单独的包。  
用Python写项目的时候，最好就是为每个项目提供单独的虚拟环境。比如有:PrjA和PrjB，它们都依赖于相同的库MyLib。当我们开始需要不同版本的MyLib时，问题就变得很明显了，PrjA需要v1.0.0，而PrjB需要更新的v2.0.0。如果有了虚拟环境，不同版本的Python、不同版本的库，都可以在同一台电脑中相安无事并行作业。

可以克隆一个和base环境一样的虚拟环境。比如为课程Data Mining Experiments创建一个虚拟环境dme: 
```
conda create -n dme --clone root
```

通过`activate venv`来激活虚拟环境

再接下来，当然就是安装自己需要的包，开始倒腾数据了

## 下载和更新Python模块

库的下载：<br>
* conda install package_name  
但有时候一些库不在Anaconda的服务器上，上面的命令会失败。这个时候我们可以使用pip（pip是一个python的包管理工具）：
* pip install package_name  

当然，也可以设置国内镜像，加快速度：<br>
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pkg_name

---

库的更新：  
* conda update package_name
* pip install --upgrade package_name  

>虽说conda和pip都可以，但是建议优先采用conda，否则pip更新过后，可能Anoconda还未检测到最新版本，容易引起混乱。  
Windows环境下，以上命令直接在cmd中执行即可；当然，有了后边的在Jupyter中，也可以直接在Notebook中安装：  
!pip install pkg_name

简单的说：<br>
* conda可以理解为一个工具，也是一个可执行命令，核心功能是包管理与环境管理。包管理与pip的使用类似，环境管理则允许用户方便地安装不同版本的python并可以快速切换
* Anaconda是一个套装，预装好了conda、python、众多packages、科学计算工具等，所以也称为Python的一种发行版

从本地安装：<br>
conda install --use-local pkg_name.tar.bz2

如果嫌速度慢的话，可以更改一下镜像：<br>
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/<br>
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/<br>
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/<br>
conda config --set show_channel_urls yes <br>
conda config --add channels conda-forge<br>
conda config --add channels defaults<br>
conda config --add channels r<br>
conda config --add channels bioconda

在Windows命令行中输入一下代码，验证conda版本：<br>
conda --version

升级conda<br>
conda update conda

后续课程中也会用到R：<br>
conda install R <br>

# 交互式计算环境Jupyter

**Jupyter** (\['dʒuːpɪtə\]) Notebook is a web-based environment that enables interactive computing in notebook documents. It allows you to create documents that contain live code, equations, and visualizations. 

和大多数开发环境不同，Jupyter记事本是一个基于Web的前端（相对于IPython的内核而言），被分成单个的代码块或单元。Jupyter Notebook 不仅可以执行 Python/IPython 语句，还允许用户添加格式化文本、静态和动态的可视化图像、数学公式、JavaScript 插件，等等。根据需要，单元可以单独运行，也可以一次全部运行。这使得开发人员能够运行某个场景，看到输出结果，然后回到代码，做出调整，再看看所产生的变化——所有这些都无需离开记事本。不仅如此，这些 Notebook 文档还能以共享方式存储，以便其他人可以打开这些 Notebook，并且在他们自己的系统中执行这些 Notebook 代码。

## 为什么称之为Jupyter？ 

<img src=figtabs/ch1/jupiter.png align=center width=30% height=30% />


[dataquest](https://www.dataquest.io/blog/jupyter-notebook-tips-tricks-shortcuts/):  
> Project Jupyter was born out of the IPython project as the project evolved to become a notebook that could support multiple languages - hence its historical name as the IPython notebook. The name Jupyter is an indirect acronyum of the three core languages it was designed for:<font color = 'red'> **JU**</font>lia, <font color = 'red'> **PYT**</font>hon, and <font color = 'red'> **R**</font> and is inspired by the planet <font color = 'blue'>*Jupiter*</font>.  

## 配置Jupyter的运行方式

安装好anaconda之后，jupyter也就同时安装好了。换句话说，在开展咱们这门课的实验时，仅需下载Anaconda就足够了。剩下的工作，就是做好个性化配置，让自己用起来顺手。  

如果用的是Windows，那直接在开始菜单中便可激活：<br>
<img src=figtabs/ch1/startup_jupyter.png align=left width=30% height=30% />

当然，我们也可以从cmd中打开：<br>
<img src=figtabs/ch1/cmd_jupyter.png align=center width=80% height=80% />

每次打开cmd，然后再敲击命令，当然不方便。可以建立一个快捷方式。具体步骤如下图：<br> 
第1步：在桌面空白处点击创建快捷方式，对象位置：C:\Windows\System32\cmd.exe /k activate dme & jupyter lab<br>
* cmd /c dir：是执行完dir命令后关闭命令窗口
* cmd /k dir：是执行完dir命令后不关闭命令窗口  <br>

<img src=figtabs/ch1/cmd_jupyter_shortcut_step01.png align=center width=40% height=40% />

第2步：为这个快捷方式取一个名字，比如Jupyter Notebook<br>
<img src=figtabs/ch1/cmd_jupyter_shortcut_step02.png align=center width=40% height=40% />

第3步：更改快捷方式的图表，否则黑乎乎，观之不雅<br>
<img src=figtabs/ch1/cmd_jupyter_shortcut_step03.png align=center width=40% height=40% />  
<img src=figtabs/ch1/cmd_jupyter_shortcut_step04.png align=center width=40% height=40% />  
Jupyter图标所在位置：
> %SystemDrive%\Anaconda3\envs\dme\Menu\jupyter.ico  

第4步：在快捷方式上点击右键，将其固定到任务栏<br>
<img src=figtabs/ch1/cmd_jupyter_shortcut_step05.png align=center width=40% height=40% />

## 设定Jupyter起始位置

在cmd中执行如下命令，生成jupyter配置文件：<br>  
\> jupyter notebook --generate-config<br>
Writing default config to: C:\Users\axb\.jupyter\jupyter_notebook_config.py  

表示在C:\Users\axb\.jupyter\文件夹下生成了jupyter_notebook_config.py配置文件（若之前已经有配置，会提示是否覆盖）。 <br> 
打开该文件，并找到c.NotebookApp.notebook_dir <br> 
<img src=figtabs/ch1/jupyter_startpoint_step01.png align=center width=75% height=75% />

将c.NotebookApp.notebook_dir设为你自己的工作路径（建议放在D:盘）<br>
<img src=figtabs/ch1/jupyter_startpoint_step02.png align=center width=75% height=75% />


再次启动jupyter，主页面文件将是我们自己的工作路径。

另外有一些设置，可供参考（注意此处在Markdown中嵌入Python代码的写法）：  
```python
c.NotebookApp.open_browser = True #表示启动Jupyter之后自动打开浏览器  
c.NotebookApp.password = '' #不用密码登录  
c.NotebookApp.password_required = False
```

无论是从cmd还是从开始菜单启动Jupyter Notebook之后，一般都会弹出：<br> 
<http://localhost:8888/tree>  <br>
浏览器可以关闭，在浏览其中重新输入上述网址，又会回到相应的界面，只要Jupyter Notebook不关闭。<br>
当然，如果不喜欢端口8888，想改用其他端口监听，也不是不可以：<br>
jupyter notebook --port 9000

当然，也可以在配置文件中修改：  
```python
c.NotebookApp.port = 9000
```

## 隐藏Jupyter控制台

对于Windows用户来讲，前述配置完Jupyter之后，倒是可以直接从任务栏上启动Jupyter，但总是有一个窗口在桌面上碍眼，可能还会一不小心将其关闭。<br>
<img src=figtabs/ch1/Jupyter_on_desktop.png align=center width=50% height=50% />

可不可以隐藏掉呢？<br>
其实只要将其位置设定一下就可以。在窗口的标题栏上点击右键，选择其中的属性，设置如下：<br>
<img src=figtabs/ch1/Hide_Jupyter_step01.png align=center width=50% height=50% />

设置完窗口位置之后，这个控制台自然就不在屏幕范围之内了。屏幕会变得很清爽。不过问题也来了，我想用它的时候，怎么找回呢？不在屏幕范围之内，岂不是失去了控制？在任务栏操作就好。  

<img src=figtabs/ch1/Hide_Jupyter_step02.png align=center width=75% height=75% />

## Jupyter基本组成

<img src=figtabs/ch1/jupyter_basic_concepts.png align=center width=75% height=75% />

* A kernel is a ***computational engine*** that executes the code contained in a notebook document. 
* A cell is a container for text to be displayed in the notebook or code to be executed by the notebook’s kernel. 

## Markdown基本语法

Jupyter中包含两种类型的cell，一种是code，一种是markdown。如何Coding，暂且不表，因为这是接下来一个学期的事情；先简单演示一下Markdown，语法并不复杂，掌握常用的语法可能也就是几分钟的事情。Jupyter中的Markdown主要涉及以下几个方面：
* 标题
* 段落
* 区块引用
* 代码区块
* 强调
* 列表
* 分割线
* 链接
* 图片
* 反斜杠
* 符号
* 表格
* 流程图

<img src=figtabs/ch1/markdown.png align=left width=50% height=50% />

下边做一些简单的演示，如：

编号列表：
1. 第一点
2. 第二点

非编号列表
- 这一点
- 有一点


**加粗**、*斜体*、~~删除线~~

    通过制表符或是四个空格实现缩进

> 区块引用
> > 嵌套引用
> > >三嵌套引用
> > > > 四嵌套引用  

[看不见网址的超链接](https://github.com/byaxb)  

看得见的超链接：<https://github.com/byaxb>  


<font color ="red" size = 5 face = '微软雅黑'>更改字体颜色和大小</font>

如何增加图片，刚才已经演示过了。

以下是分割线
***
注意上述文档中的回车换行

最后看一下**数学公式**。数学公式用两个美元符号括起来，比如可以直接在MathType中编辑好之后粘贴如下（需要在MathType预置中进行设置）<br>
<img src=figtabs/ch1/mathtype.png align=center width=50%/>  

$y = \sqrt {{b^2} - 4ac} $  

$y = \left( {\sqrt {\frac{{a + b}}{c}} } \right)$

关于公式的进一步介绍，可参阅：<https://matplotlib.org/users/mathtext.html>

## 设置自己的快捷键

ESC: Command Mode  
* Y: 把cell切换至code模式  
* M：把cell切换至markdown模式  
* Ctrl+Enter：执行本cell，一般用右边的Ctrl配合Enter就好，单手操作  
* Shift+Enter：执行本Cell，并跳到下一个Cell。类似于连续的单步操作  
* A：在上方增加一个cell  
* B：在下方增加一个cell  
* d d：删除本cell  
* 1\~N：1~N级标题  
---
Enter：Edit mode  
* PgDn：光标跳至本Cell结尾处，在定义多级标题是尤其有用

增加一些自己的快捷键，用你最舒服的方式——比如玩游戏时用的快捷键：<br>
<img src=figtabs/ch1/my_shortcuts.png align=center width=50% height=50% />

上述快捷键Alt-1、Alt-2仅供参考，比如用RStudio和Jupyter都采用同样的快捷键来执行。和其他一些IDE定义快捷键不同，Jupyter里边定义快捷键，需要逐个字幕输入，A-l-t - 1,而不是直接按住Alt键的同时按住1。

## 安装插件

### 激活插件栏

像VS Code一样，Jupyter Lab有丰富的插件，只有用好了相关插件，使用Jupyter使才能倍感舒适。  
首先需要激活插件栏，默认插件栏不显示。具体激活过程如下：  
![img](figtabs/ch1/激活插件栏Step01.png)  
---
![img](figtabs/ch1/激活插件栏Step02.png)  
---
![img](figtabs/ch1/激活插件栏Step03.png)  

### 插件推荐

插件当然有很多，以下几款值得推荐：  
* [toc](https://github.com/jupyterlab/jupyterlab-toc)：Table of Contents，用以生成Notebook的目录结构  
* [github](https://github.com/jupyterlab/jupyterlab-github)：一键直达Github，可以在本地运行Github上的Notebook  
* [variableinspector](https://github.com/lckr/jupyterlab-variableInspector)：顾名思义，查看变量的值  
* [lsp](https://github.com/krassowski/jupyterlab-lsp)代码补全、文档查询等  

更多的插件，可参见：[awesome-jupyterlab](https://github.com/mauhai/awesome-jupyterlab)  
> 实际上，在Github上，敢以awesome-XXXX命名的，大多都是精品，小伙伴们可以去收藏一下

### toc

安装toc之后，自动显示目录结构：  
![img](figtabs/ch1/toc.png) 

### Github

一键直达Github  
![img](figtabs/ch1/Github.png)

除了以上插件，其他一些插件，也可以自己去探索，比如通过drawio，来绘制逻辑图：\
![img](figtabs/ch1/dio1.png)\
![img](figtabs/ch1/dio2.png)

## 打造自己的IDE

### 代码自动补全
按住tab键，进行自动补齐（速度不是很快）：  
![img](figtabs/ch1/自动补齐.png)

### 模糊查询

In [4]:
import pandas as pd
pd.*read*?

pd.read_clipboard
pd.read_csv
pd.read_excel
pd.read_feather
pd.read_fwf
pd.read_gbq
pd.read_hdf
pd.read_html
pd.read_json
pd.read_orc
pd.read_parquet
pd.read_pickle
pd.read_sas
pd.read_spss
pd.read_sql
pd.read_sql_query
pd.read_sql_table
pd.read_stata
pd.read_table

### 帮助文档   
点击右键打开帮助文档   
![img](figtabs/ch1/帮助文档_打开.png)  
鼠标移植至模块/函数/方法，将自动显示相应的帮助文档：  
![img](figtabs/ch1/帮助文档_查看.png) 

其余的一些插件功能，如变量查看，也是通过右键打开  
![img](figtabs/ch1/变量查看.png) 

## 查看版本信息

确认一下版本信息，咱们最好用的是同一个版本^-^   
```python
#scipy
import scipy
print('scipy: %s' % scipy.__version__)
# numpy
import numpy
print('numpy: %s' % numpy.__version__)
# matplotlib
import matplotlib
print('matplotlib: %s' % matplotlib.__version__)
# pandas
import pandas
print('pandas: %s' % pandas.__version__)
# statsmodels
import statsmodels
print('statsmodels: %s' % statsmodels.__version__)
# scikit-learn
import sklearn
print('sklearn: %s' % sklearn.__version__)
```

结果如下：
```
scipy: 1.4.1   
numpy: 1.18.1  
matplotlib: 3.1.3  
pandas: 1.0.1  
statsmodels: 0.11.0  
sklearn: 0.22.1
```

## 实验环境配置完毕

如果一切顺利的话，打开Jupyter，将看到类似下边的界面：

![常用的Markdown](figtabs/ch1/new_python.png)

以下是打开目录之后的界面：

![img](figtabs/ch1/Jupyter_completed.png)

关于Jupyter的一些基本操作，除了[官方文档](http://jupyter.org/)之外，建议参阅以下资料： 
* [Jupyter Notebook for Beginners: A Tutorial](https://www.dataquest.io/blog/jupyter-notebook-tutorial/)  
* [28 Jupyter Notebook tips, tricks, and shortcuts](https://www.dataquest.io/blog/jupyter-notebook-tips-tricks-shortcuts/)

# Hello, world
配置好实验环境后，“hello world”该出场了：

In [5]:
#以下代码将输出“hello world”
print('hello world')

hello world


In [6]:
print('我爱北京天安门') 

我爱北京天安门


下面尝试使用一个变量

In [7]:
msg = 'hello world'
print(msg)

hello world


在程序中可随时修改变量的值，而 Python 将始终记录变量的最新值。  

Python有多种内置的对象（变量）:  
![img](figtabs/ch1/data_types.png)

在Python中，不需要事先声明变量的类型，直接赋值即可：

In [8]:
x = '我爱北京天安门'
x

'我爱北京天安门'

In [9]:
y = 3.14159
print(y)

3.14159


In [10]:
x, y = y, x
print('x:', x)
print('y:', y)

x: 3.14159
y: 我爱北京天安门


虽然不需要声明，但Python仍然是强类型语言，比如下面的语句会出错：  
![img](figtabs/ch1/error.png)

In [11]:
x = 2 #创建变量
print(x ** 8) #访问变量

256


In [12]:
x += 6 #修改变量
print(x)

8


在Python中，允许多个变量指向同一个值：

In [13]:
x = 3
y = x

In [14]:
id(x)

140717195502032

In [15]:
id(y)

140717195502032

正因为指向同一个值，才会出现下边的结果：

In [16]:
x = [1, 2, 3]
y = x
y[1] = -1
print(x)

[1, -1, 3]


在使用变量时，需要遵守一些规则：
> * 变量名只能包含字母、数字和下划线。变量名可以字母或下划线打头，但不能以数字打头，例如，可将变量命名为 message_1 ，但不能将其命名为 1_message 。
> * 变量名不能包含空格，但可使用下划线来分隔其中的单词。例如，变量名 greeting_message 可行，但变量名 greeting message 会引发错误。
> * 不要将 Python 关键字和函数名用作变量名，即不要使用 Python 保留用于特殊用途的单词，如 print （请参见附录 A.4 ）。
> * 变量名应既简短又具有描述性。例如， name 比 n 好， student_name 比 s_n 好， name_length 比 length_of_persons_name 好。
> * 慎用小写字母 l 和大写字母 O ，因为它们可能被人错看成数字 1 和 0 。

当然，以上只是简单列举了一些变量的使用。在下一个章节中，将会展开阐述。

# The hard way is easier

本实验包含以下部分：<br>
* [实验环境配置](ch01_实验环境配置.ipynb)  
* [Python基础知识](ch02_python基础知识.ipynb)  
* [数据挖掘常用模块](ch03_数据挖掘常用模块.ipynb)  
* [MovieLens电影推荐](ch04_MovieLens电影推荐.ipynb)  
* [学生文理分科](ch05_学生文理分科.ipynb)  
* [藻类数量预测](ch06_藻类数量预测.ipynb)  
* [地理坐标异常检测](ch07_地理坐标异常检测.ipynb)  
* [参考文献](ch08_参考文献.ipynb) 

---

假如只是简单的把每一个章节简单运行一遍的话，走完整个流程，是分分钟的事情；不过遗憾的是，忘记他们，也是分分钟的事情。眼过十遍，不如手过一遍，大家在学习的过程中，还是需要采用<font color="red">**笨办法**</font>：对于其中的代码，一定要手敲一遍（千万不要作为旁观者简单的运行一遍代码——“纸上得来终觉浅、绝知此事要躬行”）。在此过程中，按照自己的想法，大胆尝试修改，不断积累Python编程的快感以及数据挖掘带来的成就感。</br>
>The hard way is easier!

闲话少叙，撸起袖子开干吧！！

<!--NAVIGATION-->
[Contents](Index.ipynb) | [Python基础知识](ch02_python基础知识.ipynb)>