# python数据分析（b站）

## python基础

### python教程
* 明确目的思路
* 数据收集
    * 数据采集与操作
* 数据处理
    * pandas
* 数据分析
    * 数据分析工具pandas
    * 时间序列数据分析
    * 文本数据分析
    * 图像数据处理及分析
* 数据展现
    * 数据可视化
    * 模型
    * 机器学习基础及机器学习库scikit-learn
    * 通过移动设备行为数据预测使用者的性别和年龄


### python环境
* anaconda
    * 集成了大量常用扩展包
* python虚拟环境
* pycharm
* eclipse+pydev
* spyder
    * 适合熟悉MATLAB的用户

### python3新特性
* print()，是一个函数，不是一个语句
* python3对文本和二进制数据做了更为清晰的区分
    * 文本由Unicode表示，为str类型；
    * 二进制数据由bytes（字节包）表示，为bytes类型
* 新增数据类型bytes（字节包）
    * 代表二进制数据以及被编码的文本，字符串前有个前缀‘b’
* python3中bytes和str转换
    * str可以编码成bytes，bytes可以编码成str
* 字符串格式化输出
    * 新增format() 方式
* dict类型变化
    * 删除之前的iterkeys(),itervalues(),iteritems()
    * 改为keys(),values(),items()

### 使用numpy和scipy进行科学计算
* numpy，numerical python
    * 高性能科学计算和数据分析的基础包
    * ndarray，多维数组（矩阵），具有矢量运算能力，快速，节省空间
    * 矩阵运算，无需循环，可完成类似MATLAB中的矢量运算
    * 线性代数，随机数生成
    * import numpy as np
* scipy
    * 在numpy库的基础上增加了众多的数学、科学及工程常用的库函数
    * 线性代数、常微分方程求解、信号处理、图像处理、稀疏矩阵等
    * import scipy as sp

### numpy
* ndarray，n维数组对象（矩阵）
    * 所有元素必须是相同类型
    * ndim属性，维度个数
    * shape属性，各维度大小
    * dtype属性，数据类型
* 创建ndarray
    * np.array(collection),collection维序列型对象(list),嵌套序列(list of list)
    * np.zeros,np.ones,np.empty指定大小的全0或全1数组
        * 注意：第一个参数是元组，用来指定大小，如（3,4）
        * empty不是总是返回全0，有时返回的是未初始的随机值

In [7]:
import numpy as np
# 生成指定维度的随机多维数据
data=np.random.rand(2,3)
print(data)
print(type(data))

[[0.25272466 0.68103774 0.74912939]
 [0.27072085 0.96357163 0.01716916]]
<class 'numpy.ndarray'>


In [6]:
print('维度个数',data.ndim)
print('各维度大小',data.shape)
print('数据类型：',data.dtype)

维度个数 2
各维度大小 (2, 3)
数据类型： float64


In [10]:
# list转换成ndarray
li=range(10)
data=np.array(li)
print(data)
print(data.shape)
print(data.ndim)

[0 1 2 3 4 5 6 7 8 9]
(10,)
1


In [12]:
# 嵌套序列转换成ndarray
li2=[range(10),range(10)]
data=np.array(li2)
print(data)
print(data.shape)

[[0 1 2 3 4 5 6 7 8 9]
 [0 1 2 3 4 5 6 7 8 9]]
(2, 10)


In [14]:
# np.zeros,np.ones,np.empty
# np.zeros
zeros_arr=np.zeros((3,4))
# np.ones
ones_arr=np.ones((2,3))
# np.empty
empty_arr=np.empty((3,3))
# np.empty 指定数据类型
empty_int_arr=np.empty((3,3),int)
print(zeros_arr)
print('-'*20)
print(ones_arr)
print('-'*20)
print(empty_arr)
print('-'*20)
print(empty_int_arr)

[[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]
--------------------
[[1. 1. 1.]
 [1. 1. 1.]]
--------------------
[[0.00000000e+000 0.00000000e+000 0.00000000e+000]
 [0.00000000e+000 0.00000000e+000 5.77068674e-321]
 [2.22523004e-307 2.44029516e-312 1.61324900e-307]]
--------------------
[[0 0 0]
 [0 0 0]
 [0 0 0]]


### 创建ndarray（续）
* np.arange()类似range()注意是arange,不是英文arrange
* ndarray数据类型
    * dtype，类型名+位数，如float64，int32
    * 转换数组类型
        * astype

In [16]:
# np.arange()
# ndarray数据类型
print(np.arange(10))

[0 1 2 3 4 5 6 7 8 9]


In [22]:
zeros_float_arr=np.zeros((3,4),dtype=np.float64)
print(zeros_float_arr)
print(zeros_float_arr.dtype)
# astype 转换数据类型
zeros_int_arr=zeros_float_arr.astype(np.int32)
print(zeros_int_arr)
print(zeros_int_arr.dtype)

[[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]
float64
[[0 0 0 0]
 [0 0 0 0]
 [0 0 0 0]]
int32


### 矢量化
* 矢量运算，相同大小的数组键间的运算应用在元素上
* 矢量和标量运算，‘广播’-将标量‘广播’到各个元素
### 索引与切片
* 一维数组的索引与python的列表索引功能相似
* 多维数组的索引

In [26]:
# 矢量与矢量运算
arr=np.array([[1,2,3],[4,5,6]])
print('元素相乘：')
print(arr*arr)

print('矩阵相加：')
print(arr+arr)

元素相乘：
[[ 1  4  9]
 [16 25 36]]
矩阵相加：
[[ 2  4  6]
 [ 8 10 12]]


In [28]:
# 矢量和标量运算,广播
print(1./arr)
print(2.*arr)

[[1.         0.5        0.33333333]
 [0.25       0.2        0.16666667]]
[[ 2.  4.  6.]
 [ 8. 10. 12.]]


### 索引与切片（续）
* 多维数组的索引
    * arr[r1:r2,c1:c2]
    * arr[1,1]等价于a[1][1]
    * [:]代表某个维度的数据
* 条件索引
    * 布尔值多维数组
        * arr[condition] condition可以是多个条件组合
        * 注意，多个条件组合要使用&|,而不是and  or

In [29]:
# 一维数组
arr1=np.arange(10)
print(arr1)
print(arr1[2:5])

[0 1 2 3 4 5 6 7 8 9]
[2 3 4]


In [30]:
# 多维数组
arr2= np.arange(12).reshape(3,4)
print(arr2)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


In [31]:
print(arr2[1])
print(arr2[0:2,2:])
print(arr2[:,1:3])

[4 5 6 7]
[[2 3]
 [6 7]]
[[ 1  2]
 [ 5  6]
 [ 9 10]]


In [38]:
# 条件索引
# 找出data_arr中2015年后的数据
data_arr=np.random.rand(3,3)
print(data_arr)

year_arr=np.array([[2000,2001,2000],[2005,2002,2009],[2001,2003,2010]])
# is_year_after_2005=year_arr>=2005
# print is_year_after_2005,is_year_after_2005

# filtered_arr=data_arr[is_year_after_2005]

filtered_arr= data_arr[year_arr>=2005]
print(filtered_arr)

[[0.91834182 0.58599157 0.64872581]
 [0.39338668 0.67635525 0.34502548]
 [0.46877754 0.16446961 0.23856948]]
[0.39338668 0.34502548 0.23856948]


In [None]:
# 多个条件
filtered_arr=