# Python数据分析（一）：快速入门

## 准备工作
### 版本说明

- Python版本：Python的大部分科学计算和数据分析相关库都是2和3兼容，返回结果大部分是一致的（极少数可能是Python2与3的数据类型的差别），建议选择2.7.9及以上的2.x版本或者3.5.x及以上的3.x版本。

- 相关库版本：相关库更新频率很快，尽量选择最新版本；文档参考最新官方文档和change log。

- Windows下载：相关库大多基于Cython，如果无法正常使用pip或者easy_install下载，请参考 https://zhuanlan.zhihu.com/p/21380755?refer=xmucpp 。

In [None]:
import sys
sys.version

### 相关库

- numpy: Python科学计算库的底层，提供narray数组及整套相关操作；

- pandas: Python的数据操作和数据分析的基本库，提供DataFrame及整套相关操作；

- matplotlib.pyplot: Python可视化的底层库。

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

from scipy import stats
import statsmodels.api as sm

## 数据结构简介

### numpy.array

numpy.array是numpy的基本结构，也是整个Python数据分析和科学计算相关库的底层结构。它是一个类似于MATLAB的n维数组，提供灵活的数组操作，其他大部分主流相关库（比如scipy，pandas等）都基于此结构构建。

In [None]:
array = np.array([[1,2,3],[4,5,6],[6,7,7]])

In [None]:
array.ndim

In [None]:
array.shape

### pandas.DataFrame

pandas.DataFrame是模仿R的dataframe构建的，提供了数据操作需要的基本结构和各种基本属性和方法。它类似于一张SQL的表，是一个二维数组结构，基于numpy.array构建。

In [None]:
data = [[1,2],[3,4]]
df = pd.DataFrame(data, columns=['a','b'])
df

## 数据清洗

### 数据加载

In [None]:
# 从文件加载数据
df = pd.read_csv('data/sample1.csv')
df.head()

In [None]:
# 写入文件
df.to_csv('data/sample1.csv',index=False)

### 数据结构化

In [None]:
f = open('zhihu.txt')
zhihu_data = f.read().decode('utf-8')

In [None]:
from collections import Counter
import jieba

series = pd.Series(Counter(jieba.cut(zhihu_data)),name='fudelei').sort_values(ascending=False)
series.head(10)

### 数据规整

In [None]:
df4 = pd.read_csv('data/sample4.csv')
df5 = pd.read_csv('data/sample5.csv')

In [None]:
df4.head()

In [None]:
df5.head()

In [None]:
# merge
pd.merge(df4,df5).head()

In [None]:
df3 = pd.read_csv('data/sample3.csv')
df4 = df3.drop('goodsName',axis=1)
df4.to_csv('data/sample4.csv',index=False)
df5 = df3[['goodsID','goodsName']]
df5.to_csv('data/sample5.csv',index=False)
df6 = pd.concat([df3, df3])
df6.to_csv('data/sample6.csv',index=False)

In [None]:
df1 = pd.read_csv('data/sample1.csv')
df1.head()

In [None]:
df2 = pd.read_csv('data/sample2.csv')
df2.head()

In [None]:
# concat
pd.concat([df1,df2]).head()

### 数据筛选

In [None]:
df1[df1['price']>20]

### 数据转换

In [None]:
# 重复值
df6 = pd.read_csv('data/sample6.csv')
df6.count()

In [None]:
df66 = df6.drop_duplicates()
df66.count()

In [None]:
# 异常值
df1['price'].describe()

In [None]:
df11=df1[df1['price']<30]
df11.count()

In [None]:
# 缺失值
df3[df3['comments'].isnull()]

In [None]:
df3.fillna(0).tail()

In [None]:
df33 = df3.dropna()
df33.count()

In [None]:
# 元素级转换
df1['price_ave'].map(lambda x:float(x.split('元')[0])).head()

In [None]:
# 离散化

In [None]:
# 计算指标变量

In [None]:
# 时间变量

In [None]:
# 字符串

## 数据分析

### 描述统计

In [None]:
df1.count()

In [None]:
df1.describe()

In [None]:
df1.mean()

In [None]:
df1.median()

In [None]:
df1.min()

In [None]:
df1.max()

In [None]:
df1.sum()

In [None]:
df1.prod()

In [None]:
df1.cumsum().head()

In [None]:
df1['price'].cumprod().head()

### 分组加总

In [None]:
grouped = df1.groupby(df1['price']>10)

In [None]:
grouped.describe()

In [None]:
grouped.agg('mean')

In [None]:
grouped['price'].apply(np.mean)

In [None]:
for name,group in grouped:
    print(name)
    print(group)

### 模型估计

In [None]:
# scipy.stats
stats.ttest_1samp(df1['price'],10)

In [None]:
# statsmodels
y = df1['monthly_sales']
x = sm.add_constant(df1['price'])
model = sm.OLS(y,x)
result = model.fit()
result.summary()

In [None]:
# sklearn.svm
from sklearn import linear_model
reg = linear_model.LinearRegression()
reg.fit(df11['price'].values.reshape(len(df11['price']),1), df11['monthly_sales'])
reg.coef_

In [None]:
reg.intercept_