# Python数值分析练习笔记

本练习是学习《利用Python进行数据分析》时的读书笔记，旨在培养自身使用Python进行数值分析的基础能力。<br>
该笔记的时间是从2016年7月29日开始。


## 练习目标

1. Jupyter Notebook的使用入门
2. Python相关数值分析库的练习，包括：<br>
    2.1. 库的导入<br>
    2.2. 数据文件的导入<br>
    2.3. NumPy库中常用函数的使用<br>
    2.4. Pandas库中常用函数的使用<br>
    2.5. Matplotlib的使用<br>
    2.6. 其他机器学习库的使用

## Jupyter Notebook使用笔记汇总


在cell中使用ctrl+enter可以快速运算该cell

### 格式化技巧
1. Markdown是一种更容易阅读的书写习惯,不同于HTML, markdown文本将输入自动转换为HTML.具体关于Jupyter notebook中Markdown文本的书写格式可以参阅[这里](http://jupyter-notebook.readthedocs.io/en/latest/examples/Notebook/Working%20With%20Markdown%20Cells.html)
2. 使用Markdown作为笔记格式，其中使用它“#”来进行标题分级。
# 一级标题
## 二级标题
### 三级标题
#### 四级标题
2. “---”（3个-）可以生成分割线
---
3. 可以贴入代码块.例如:
>```py
import numpy as np 
import pandas as pd
import matplotlib.pyplot as plt
import json
```
其中py代表python代码,js代表javascript代码
4. 删除线的使用：~~这是需要删除的内容~~
5. 行内公式，例如 $\omega(n) = (n-1)!\quad\forall n\in\mathbb N$
6. 或者快级公式，例如$$x=\dfrac{-b \pm \sqrt{b^2-4ac}}{2a} $$
7. 表格的生成
|Item|value|Qty|
|:---|---:|:---:|
|Computer|1600USD|5|
|Phone|12USD|12|
8. 如何调整notebook中的字体

## Python数值分析练习

### 导入练习所需的库

库描述：
1. numpy，Numberical Python的简称，是Python科学计算的基础包，主要提供如下功能：<br>
    1.1. 多维数组对象 ndarray<br>
    1.2. 对数组执行元素级计算以及直接对数组执行数学计算的函数<br>
    1.3. 读写硬盘上基于数组的数据集的工具<br>
    1.4. 线性代数、傅里叶变换以及随机数生成<br>
    1.5. 用于将C\C++\Fortran代码集成到Python中的工具
2. pandas，提供快速便捷处理结构化数据和大量数据结构的函数，兼具NumPy高性能的数组计算功能以及电子表格和关系数据库的灵活数据处理能力。其核心基于NumPy，所以完全可以直接使用Pandas。
3. matplotlib，最流行的用于绘制数据图表的Python库
4. Seaborn，绘图库，使用matplotlib作为核心。可以直接理解Pandas的数据结构，所以可以与pandas更好的配合，推荐直接使用Seaborn而不是matplotlib。
4. SciPy，专门解决科学计算中各种标准问题域的包集合

In [1]:
#该语句表示需要Jupyter获取matplotlib生成的所有图形，否则将无法在notbook中显示
%matplotlib inline 

#导入相应的库
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import json

### 练习数据
本练习数据采用了Gourplens最新的（2016 Jan）发布的基于240,000名观众针对33,000部电影所做出的22,000,000次评分数据进行，数据文件大小为114MB。该可以通过访问如下链接进行获取：
http://grouplens.org/datasets/movielens/

In [2]:
path_Movie = 'C:/Users/wellszha/Downloads/Python Practice/ml-latest/movies.csv'
path_Links = 'C:/Users/wellszha/Downloads/Python Practice/ml-latest/links.csv'
path_Tags = 'C:/Users/wellszha/Downloads/Python Practice/ml-latest/tags.csv'
path_Rating ='C:/Users/wellszha/Downloads/Python Practice/ml-latest/ratings.csv'

### 导入练习用的数据文件

#### 读取数据文件的一般技巧
注意：路径名称中要将“\”换为"/"才行。

1. 如果是读取txt文件，可以使用python本身读取txt文件的方式，如下：
```py
path = 'C:/Users/wellszha/Downloads/Python Practice/ml-latest/movies.txt'
records = open(path).readlines()
records[0]
```

2. 如果读取csv文件，可以直接使用numpy将内容读入队列。如下面的代码：
```py
from numpy import genfromtxt
my_data = genfromtxt('my_file.csv', delimiter=',',dtype=None)
```
<p color='red'>在使用这段代码的时候遇到一个问题，数据表中有的字段包含了用于分隔符的“，”，导致识别出比列头数量更多的列数，从而报错。</p>
<br>

3. 或者使用pandas的代码，如：
```py
import pandas as pd
df=pd.read_csv('myfile.csv', sep=',',header=None)
df.values
array([[ 1. ,  2. ,  3. ],
       [ 4. ,  5.5,  6. ]])
```
#### 在这里更推荐使用pandas的方法，因为可以直接将其load进DataFrame，而基于DataFrame可以更加灵活的进行数据操作。

In [3]:
import pandas as pd
from pandas import DataFrame, Series

records=pd.read_csv(path_Movie,sep=',')
dfMovie = DataFrame(records)
dfLinks = DataFrame(pd.read_csv(path_Links,sep=','))
dfTags=DataFrame(pd.read_csv(path_Tags,sep=','))
dfRating=DataFrame(pd.read_csv(path_Rating,sep=','))

dfMovie.insert(2,'year',dfMovie['title'])
dfMovie[1:5]



Unnamed: 0,movieId,title,year,genres
1,2,Jumanji (1995),Jumanji (1995),Adventure|Children|Fantasy
2,3,Grumpier Old Men (1995),Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Waiting to Exhale (1995),Comedy|Drama|Romance
4,5,Father of the Bride Part II (1995),Father of the Bride Part II (1995),Comedy


### Pandas学习笔记

Pandas的核心价值在于其数据结构将原本需要通过NumPy来重复构建的运算简化，其数据处理所围绕的核心即是Series和DataFrame<br>

Series，可以认为其代表的是一列<br>
DataFrame，可以认为是一个<b>表格</b>型的数据结构<br>

In [4]:
#处理dfMovie将Title中的年份单独新增为一列
for i in range(0,dfMovie['title'].count()):
    dfMovie.loc[i,'title']= dfMovie['title'][i].split('(')[0]
    c=dfMovie['year'][i].split('(')
    dfMovie.loc[i,'year']=c[len(c)-1].strip(")")

dfMovie[1:5]

Unnamed: 0,movieId,title,year,genres
1,2,Jumanji,1995,Adventure|Children|Fantasy
2,3,Grumpier Old Men,1995,Comedy|Romance
3,4,Waiting to Exhale,1995,Comedy|Drama|Romance
4,5,Father of the Bride Part II,1995,Comedy


In [5]:
#merge
df=pd.merge(dfMovie,dfRating,on='movieId')
df[1:5]

Unnamed: 0,movieId,title,year,genres,userId,rating,timestamp
1,1,Toy Story,1995,Adventure|Animation|Children|Comedy|Fantasy,17,5.0,944991567
2,1,Toy Story,1995,Adventure|Animation|Children|Comedy|Fantasy,23,5.0,1378675311
3,1,Toy Story,1995,Adventure|Animation|Children|Comedy|Fantasy,28,4.0,1098785105
4,1,Toy Story,1995,Adventure|Animation|Children|Comedy|Fantasy,34,3.0,1086265275
5,1,Toy Story,1995,Adventure|Animation|Children|Comedy|Fantasy,37,4.5,1227401937
6,1,Toy Story,1995,Adventure|Animation|Children|Comedy|Fantasy,40,4.0,869044457
7,1,Toy Story,1995,Adventure|Animation|Children|Comedy|Fantasy,47,4.0,1150032907
8,1,Toy Story,1995,Adventure|Animation|Children|Comedy|Fantasy,50,4.0,951519605
9,1,Toy Story,1995,Adventure|Animation|Children|Comedy|Fantasy,56,3.0,861786289
10,1,Toy Story,1995,Adventure|Animation|Children|Comedy|Fantasy,57,2.0,1433167964


In [19]:
#Import the data into MongoDB
import pymongo
from pymongo import MongoClient

connection = MongoClient("mongodb://localhost")
db = connection.MovieRating
collection = db.Movies

for i in df:
    title = i['title']
    year = i['year']
    genres = i['genres'].split('|')
    for gen in genres:
        

ValueError: No axis named year for object type <class 'pandas.core.frame.DataFrame'>

In [7]:
import seaborn as sns
tips=sns.load_dataset(df)
sns.jointplot("year","rating")

UnicodeEncodeError: 'ascii' codec can't encode character '\xe4' in position 2621: ordinal not in range(128)