# Python数据分析（一）：快速入门

## 准备工作
### 版本说明

- Python版本：Python的大部分科学计算和数据分析相关库都是2和3兼容，返回结果大部分是一致的（极少数可能是Python2与3的数据类型的差别），建议选择2.7.9及以上的2.x版本或者3.5.x及以上的3.x版本。

- 相关库版本：相关库更新频率很快，尽量选择最新版本；文档参考最新官方文档和change log。

- Windows下载：相关库大多基于Cython，如果无法正常使用pip或者easy_install下载，请参考 https://zhuanlan.zhihu.com/p/21380755?refer=xmucpp 。

In [2]:
import sys
sys.version

'2.7.13 (default, Dec 18 2016, 07:03:39) \n[GCC 4.2.1 Compatible Apple LLVM 8.0.0 (clang-800.0.42.1)]'

### 相关库

- numpy: Python科学计算库的底层，提供narray数组及整套相关操作；

- pandas: Python的数据操作和数据分析的基本库，提供DataFrame及整套相关操作；

- matplotlib.pyplot: Python可视化的底层库。

In [3]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

## 数据结构简介

### numpy.array

numpy.array是numpy的基本结构，也是整个Python数据分析和科学计算相关库的底层结构。它是一个类似于MATLAB的n维数组，提供灵活的数组操作，其他大部分主流相关库（比如scipy，pandas等）都基于此结构构建。

In [6]:
array.shape

(3, 3)

### pandas.DataFrame

pandas.DataFrame是模仿R的dataframe构建的，提供了数据操作需要的基本结构和各种基本属性和方法。它类似于一张SQL的表，是一个二维数组结构，基于numpy.array构建。

## 数据清洗

In [15]:
data = [[1,2],[3,4]]
df = pd.DataFrame(data, columns=['a','b'])
df

Unnamed: 0,a,b
0,1,2
1,3,4


### 数据加载

In [21]:
# 从文件加载数据
df = pd.read_csv('sample.csv')
df

Unnamed: 0,a,b,c
0,1,4,5
1,2,5,6
2,3,6,7
3,4,7,8


In [26]:
# 写入文件
df.to_csv('sample.csv',index=False)

### 数据结构化

In [24]:
f = open('zhihu.txt')
zhihu_data = f.read().decode('utf-8')

In [33]:
from collections import Counter
import jieba

series = pd.Series(Counter(jieba.cut(zhihu_data)),name='fudelei').sort_values(ascending=False)
series.head(10)

\n    53
，     51
的     24
。     13
了      9
       8
/      8
工作     8
：      8
）      8
Name: fudelei, dtype: int64

### 数据规整

In [34]:
df1 = pd.read_csv('sample.csv')
df1

Unnamed: 0,a,b,c
0,1,4,5
1,2,5,6
2,3,6,7
3,4,7,8


In [35]:
df2 = pd.read_csv('sample2.csv')
df2

Unnamed: 0,a,d
0,3,4
1,4,5
2,5,5


In [37]:
df3 = pd.read_csv('sample3.csv')
df3

Unnamed: 0,a,b,c
0,6,4,5
1,7,5,6
2,8,6,7
3,9,7,8


In [36]:
# merge
pd.merge(df1,df2)

Unnamed: 0,a,b,c,d
0,3,6,7,4
1,4,7,8,5


In [39]:
# concat
pd.concat([df1,df3])

Unnamed: 0,a,b,c
0,1,4,5
1,2,5,6
2,3,6,7
3,4,7,8
0,6,4,5
1,7,5,6
2,8,6,7
3,9,7,8


In [40]:
# reshape
df1.stack()

0  a    1
   b    4
   c    5
1  a    2
   b    5
   c    6
2  a    3
   b    6
   c    7
3  a    4
   b    7
   c    8
dtype: int64

In [41]:
df1.unstack()

a  0    1
   1    2
   2    3
   3    4
b  0    4
   1    5
   2    6
   3    7
c  0    5
   1    6
   2    7
   3    8
dtype: int64

### 数据筛选

In [45]:
df1[df1['a']==1]

Unnamed: 0,a,b,c
0,1,4,5


### 数据转换

In [None]:
# 重复值

In [None]:
# 异常值

In [None]:
# 缺失值

In [None]:
# 元素级转换

In [None]:
# 离散化

In [None]:
# 计算指标变量

In [None]:
# 时间序列

## 数据分析

### 描述统计

### 分组加总

### 模型估计