## 常见的数据分析库
### 1.NumPy（维度运算，矩阵运算）
### 2.Pandas库（基于NumPy的数据分析库）
### 3.Matplotlib库（绘制数组的2D图形库）
### 4.Seaborn库（基于Matplotlib的数据可视化）
### 5.NLTK库

# NumPy库

## 1.ndarray

Numpy中最重要的就是n为数组对象，即ndarray

## 2.ndarray的常用属性
    ndarray.ndim     维度个数，也就是数组轴的个数，比如说一维、二维、三维等
    ndarray.shap     数组的维度，这是一个整数的元组，表示每个维度上数组的大小。例如，一个n行m列的数组，它的shape属性为(n,m)
    ndarray.size     数组元素的总个数，等于shape属性中元组元素的乘积
    nd.dtype        描述数组中元素类型的对象，既可以使用标准的Python创建或指定，也可以使用NumPy特有的数据类型来指定，比如numpy.int32、float64等
    nd.itemsize      数组中每个元素的字节大小。例如，元素类型为float64的数组有8（64/8）个字节，这相当于ndarray.dtype.ietem

 ## 3.多维数组的转置
 ### .transpose()方法
     以shape为(2, 2, 4)三位数组为例，它的对应的轴坐标为0,1,2
     此时可以调用.transpose()方法来对数组进行转置

In [2]:
import numpy as np
ndarr = np.arange(6).reshape(1,2,3)
ndarr.shape

(1, 2, 3)

In [4]:
ndarr.transpose(1,2,0).shape

(2, 3, 1)

In [5]:
ndarr.transpose().shape

(3, 2, 1)

## .swapaxes()方法
    多维数组中有时候只需转换其中两个轴

In [6]:
ndarr.swapaxes(1,2).shape

(1, 3, 2)

## 4.将条件逻辑转换为数组运算
### 使用numpy中的where()函数

In [8]:
# where方法 第一个参数为判断条件，第二、第三个参数为两个ndarray数组
arr_x = np.array([1,3,5])
arr_y = np.array([2,4,6])
arr_con = np.array([True,False,False])
# 若为真值，则从第一个数组取一个元素；反之，则从第二个数组取元素，返回一个形状相同的数组。
result = np.where(arr_con,arr_x,arr_y)
result

array([1, 4, 6])

## 5.检索数组元素
### 使用np.all()和np.any()
    all在所有数组元素全为真时才会返回True；any是存在一个数组元素为真就返回True

In [9]:
arr1 = np.arange(-1,12)
arr1

array([-1,  0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [10]:
np.all(arr1 > 0)

False

In [11]:
np.any(arr1 > 0)

True

## 6.唯一化及其他集合逻辑
### 使用numpy下的unique()来找出数组中的唯一值
    unique()方法可以找出数组中的唯一值并返回一个有序的数组

In [18]:
arr2 = np.array([1,1,2,5,4,3,1])
arr2

array([1, 1, 2, 5, 4, 3, 1])

In [19]:
np.unique(arr2)

array([1, 2, 3, 4, 5])

### 使用in1d()判断数组中元素是否在另一个数组中出现过
    后者数组中的元素依次与前者数组中各元素比较中出现

In [21]:
np.in1d(arr1, arr2)

array([False, False,  True,  True,  True,  True,  True, False, False,
       False, False, False, False])

## 7.随机数模块


In [22]:
# 随机生成一个二维数组
np.random.rand(3,3)

array([[0.63152177, 0.18563426, 0.14126112],
       [0.24417837, 0.14379048, 0.42321032],
       [0.65568784, 0.6628038 , 0.43081501]])

In [23]:
# 随机生成一个三维数组
np.random.rand(3,3,3)

array([[[2.14810527e-01, 9.51180530e-01, 1.00180773e-01],
        [4.21357499e-01, 1.64847558e-01, 4.60005838e-01],
        [2.69019484e-01, 6.82815023e-01, 2.66711005e-01]],

       [[6.48762164e-01, 6.19498678e-01, 2.81422364e-01],
        [8.89403197e-01, 4.76234198e-01, 5.91095942e-01],
        [2.23204661e-01, 5.96239252e-01, 3.91701722e-04]],

       [[7.39272879e-01, 4.71976069e-01, 5.39825552e-01],
        [7.16330784e-01, 9.82773876e-02, 3.07395533e-01],
        [6.68122712e-01, 5.44252551e-01, 5.99935007e-01]]])

## 案例：酒鬼漫步
### 基本思想：将酒鬼的前进和后退抽象成一个“抛硬币”（通过numpy的random模块实现），然后通过求和、求极值，来得到结果

In [41]:
import numpy as np
# 设置总步数
steps = 2000
# 生成随机整数 0 或者 1,draws为长度为两千的行向量
draws = np.random.randint(0,2,size=steps)
# 使用where来控制酒鬼前进还是后退
# 若随机值为1，则前进 1；反之，则-1.
# draws_steps为生成的新两千size数组
draws_steps = np.where(draws > 0, 1, -1)
# ndarray数组求和
dictance = draws_steps.cumsum()
# 计算向前走的最大距离
dictance.max()

32

In [42]:
# 向后走的最大距离
dictance.min()

-31

In [43]:
# 12米换算步数
steps = 12 / 0.5
np.abs((dictance) >= steps).argmax()

311

# Pandas库
## 1.series
    series为一维的数据结构，类似一个一维数组的对象，他能够保存任意数据类型的数据；由一维数组和与之相关的索引两部分构成。
### series的构造
    series可通过   Class panda.Series(data=None, index=None, dtype=None, name=None, copy=False, fastpath=False)
        上述构造方法中常用参数的含义如下：
            （1）data：传入数据的类型，如ndarray，list等。
            （2）index：索引，必须是唯一的，且与数据的长度相同。如果没有传入此参数，则默认生成0~N的索引
            （3）dtype：数据的类型
            （4）copy：是否复制数据，默认为False

In [2]:
# 通过传入一个列表创建一个series
import pandas as pd
ser_obj = pd.Series([1, 2, 3, 4, 5])
ser_obj

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [4]:
# 创建时为series指定索引
ser_obj2 = pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e'])
ser_obj2

a    1
b    2
c    3
d    4
e    5
dtype: int64

In [5]:
# 使用字典的方式构造series
year_data = {2015:12.3, 2016:16.3, 2017:45.3, 2018:78.3, 2019:89.3}
ser_obj3 = pd.Series(year_data)
ser_obj3

2015    12.3
2016    16.3
2017    45.3
2018    78.3
2019    89.3
dtype: float64

In [7]:
# 使用index和values属性获取series的索引和属性值
ser_obj.index

RangeIndex(start=0, stop=5, step=1)

In [8]:
ser_obj.values

array([1, 2, 3, 4, 5], dtype=int64)

In [9]:
# 可以通过对series对象进行乘法，改变values的值
ser_obj*2

0     2
1     4
2     6
3     8
4    10
dtype: int64

## 2.DataFrame
    DataFrame是一个类似于二维数组或表格的对象，它每列的数据可以是不同的数据类型。DataFrame也是由索引和数据构成的，DataFrame拥有行索引和列索引
### DataFrame的构造方法
    DataFrame类对象可以使用以下构造方法创建
    pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)
    上述构造方法中常用参数所表示的含义如下：
        （1）index：行标签。
        （2）columns：列标签。

In [10]:
import numpy as np
import pandas as pd
# 创建数组
nd = np.array([['a', 'b', 'c'], ['d', 'e', 'f']])
# 通过数组创建DataFrame
df_obj = pd.DataFrame(nd)
df_obj

Unnamed: 0,0,1,2
0,a,b,c
1,d,e,f


In [26]:
# 初始化列向量，构造DataFrame
df_obj2 = pd.DataFrame(nd, columns=['No1', 'No2', 'No3'])
df_obj2

Unnamed: 0,No1,No2,No3
0,a,b,c
1,d,e,f


In [27]:
# 获取列向量,返回的是一个series对象
element = df_obj2["No2"]
element

0    b
1    e
Name: No2, dtype: object

In [28]:
# 14通过索引和通过属性得到的列向量等价
df_obj2.No2

0    b
1    e
Name: No2, dtype: object

In [29]:
type(element)

pandas.core.series.Series

In [32]:
# DataFrame的增添数据
df_obj2["No4"] = ['h','g']
df_obj2

Unnamed: 0,No1,No2,No4
0,a,b,h
1,d,e,g


In [31]:
# 删除数据
del df_obj2["No3"]
df_obj2

Unnamed: 0,No1,No2,No4
0,a,b,h
1,d,e,h


## 3.Pandas索引操作以及高级操作
### Pandas的Index不可变，而且在Pandas中提供了很多Index的子类
    Int64Index：针对整数的特殊Index对象
    MulitIndex：层次化索引，表示单个轴上的多层索引
    DatetimeIndex：存储纳秒级时间戳

### 重置索引
    DataFrame中的一个重要的方法reindex(),该方法的作用是对原索引和新索引进行匹配，也就是说，新索引含有原索引的数据，而原索引按照新索引排序。
    reindex()方法的语法格式如下:
        DataFrame.reindex(labels=None, index=None, columns=None, axis=None, method=None, copy=None, level=None, fill_value=nan,                         limit=None, tolerance=None )
        上述参数的部分参数含义如下：
        （1）index：用作索引的新序列。
        （2）method：插值填充方式。
        （3）fill_value：引入缺失值时使用的替代值
        （4）limit：前者或者后向填充时的最大填充量。

In [40]:
# 实例演示重置索引
import pandas as pd
ser1 = pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e'])
ser1

a    1
b    2
c    3
d    4
e    5
dtype: int64

In [39]:
# 缺失值用nan自动填充
ser1 = ser1.reindex(['a', 'b', 'c', 'd', 'e', 'f'])
ser1

a    1.0
b    2.0
c    3.0
d    4.0
e    5.0
f    NaN
dtype: float64

In [41]:
# 使用fill_value()属性指定填充值
ser1 = ser1.reindex(['a', 'b', 'c', 'd', 'e', 'f'], fill_value=6)
ser1

a    1
b    2
c    3
d    4
e    5
f    6
dtype: int64

In [42]:
# 使用metod指定填充方式，ffill或pad为向前填充；bfill或backfill为向后填充；nearest为从最近的索引值填充
ser2 = pd.Series([1, 3, 5, 7], index=[0, 2, 4, 6])
ser2

0    1
2    3
4    5
6    7
dtype: int64

In [43]:
# ffill
ser2_ = ser2.reindex(range(6), method='ffill')
ser2_

0    1
1    1
2    3
3    3
4    5
5    5
dtype: int64

In [44]:
# bfill
ser2_obj = ser2.reindex(range(6), method='bfill')
ser2_obj

0    1
1    3
2    3
3    5
4    5
5    7
dtype: int64

### 使用Pandas提供的方法操作索引
    Pandas提供了两个更加灵活的方法进行索引操作
        loc：基于标签索引，用于按标签选取数据。当执行切片操作时，既包含起始索引，也包含结束索引。
        loc：基于位置索引，用于按位置选取数据，当执行切片操作时，只包含起始索引，不包含结束索引。
        iloc；主要是使用整数来索引数据，而不能使用字符标签来索引数据。而loc方法只能使用字符标签来索引数据，而不能使用整数来索引数据
        

In [45]:
# 测试
arr = np.arange(16).reshape(4, 4)
df1_obj = pd.DataFrame(arr, columns=(['a', 'b', 'c', 'd']))
df1_obj

Unnamed: 0,a,b,c,d
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11
3,12,13,14,15


In [47]:
df1_obj.loc[1:2, ['b', 'c']]

Unnamed: 0,b,c
1,5,6
2,9,10


In [52]:
df1_obj.iloc[1:3, [1, 2]]

Unnamed: 0,b,c
1,5,6
2,9,10


## 数据排序
### 按索引排序 sort_index()方法
    具体的语法格式如下：
    sort_index(axis=0, level=None, ascending=True, inplace=False, 
            kind = 'quicksort', na_postition, sort_remaining=True)
        axis:轴索引（排序的方向），0表示index（按行），1表示columns（按列）
        level:若不为None，则对指定索引级别的值进行排序
        ascending:是否升序排列，默认为Ture，表示升序。
        inplace：默认为False，表示对数据表进行排序，不创建新的实例
        kind：选择排序算法

In [3]:
# 创建series和DataFrame
import pandas as pd
ser_obj = pd.Series(range(10, 15),index=[2, 3, 1, 4, 5])
ser_obj

2    10
3    11
1    12
4    13
5    14
dtype: int64

In [5]:
# 按索引进行升序排列,返回一个新的series对象
ser_obj.sort_index()

1    12
2    10
3    11
4    13
5    14
dtype: int64

In [6]:
# 降序排序
ser_obj.sort_index(ascending=False)

5    14
4    13
3    11
2    10
1    12
dtype: int64