# 统计函数
NumPy 能方便地求出统计学常见的描述性统计量。

In [1]:
import numpy as np

### 求平均值 mean()

In [2]:
m1 = np.arange(20).reshape((4,5))
print(m1)
# 默认求出数组所有元素的平均值
m1.mean()

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]]


9.5

#### 若想求某一维度的平均值，设置 axis 参数，多维数组的元素指定

<img src="https://gitee.com/wu-chao-588/picgo/raw/master/images/image-20220306224655273.png" />

- axis = 0,将从上往下计算
- axis = 1,将从左往右计算

In [3]:
m1 = np.arange(20).reshape((4,5))
print(m1)
# axis=0将从上往下计算平均值
m1.mean(axis=0)

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]]


array([ 7.5,  8.5,  9.5, 10.5, 11.5])

In [4]:
# axis=1 将从左往右计算平均值
m1.mean(axis=1)

array([ 2.,  7., 12., 17.])

### 中位数 np.median
又称中点数，中值

是按顺序排列的一组数据中居于中间位置的数，代表一个样本、种群或概率分布中的一个数值

- 平均数：是一个"虚拟"的数，是通过计算得到的，它不是数据中的原始数据。. 中位数：是一个不完全"虚拟"的数。
- 平均数：反映了一组数据的平均大小，常用来一代表数据的总体 "平均水平"。. 中位数：像一条分界线，将数据分成前半部分和后半部分，因此用来代表一组数据的"中等水平"

In [5]:
ar1 = np.array([1,3,5,6,8])
np.median(ar1)

5.0

In [6]:
ar1 = np.array([1,3,5,6,8,9])
np.median(ar1)

5.5

### 求标准差 ndarray.std
在概率统计中最常使用作为统计分布程度上的测量,是反映一组数据离散程度最常用的一种量化形式，是表示精确度的重要指标
- 标准差定义是总体各单位标准值与其平均数离差平方的算术平均数的平方根。

简单来说，标准差是一组数据平均值分散程度的一种度量。
- 一个较大的标准差，代表大部分数值和其平均值之间差异较大；
- 一个较小的标准差，代表这些数值较接近平均值。

In [15]:
'''
例如，A、B两组各有6位学生参加同一次语文测验，
A组的分数为95、85、75、65、55、45，
B组的分数为73、72、71、69、68、67。
分析那组学生之间的差距大?
'''
a = np.array([95,85,75,65,55,45])
b = np.array([73,72,71,69,68,67])
print(np.std(a))
print(np.std(b))

17.07825127659933
2.160246899469287


In [14]:
import math
# 按步骤计算下标准差
(a - np.mean(a))**2)
math.sqrt(np.sum(((a - np.mean(a))**2)/a.size))


17.07825127659933

>标准差应用于投资上，可作为量度回报稳定性的指标。标准差数值越大，代表回报远离过去平均数值，回报较不稳定故风险越高。相反，标准差数值越小，代表回报较为稳定，风险亦较小。

###  方差ndarray.var()

衡量随机变量或一组数据时离散程度的度量

In [16]:
a = np.array([95,85,75,65,55,45])
b = np.array([73,72,71,69,68,67])
print('A组的方差为:',a.var())
print('B组的方准差为:',b.var())

A组的方差为: 291.6666666666667
B组的方准差为: 4.666666666666667


> 标准差有计量单位，而方差无计量单位，但两者的作用一样，虽然能很好的描述数据与均值的偏离程度，但是处理结果是不符合我们的直观思维的。 

### 求最大值 ndarray.max()

In [17]:
print(m1)
print(m1.max())
print('axis=0,从上往下查找:',m1.max(axis=0))
print('axis=1,从左往右查找',m1.max(axis=1))

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]]
19
axis=0,从上往下查找: [15 16 17 18 19]
axis=1,从左往右查找 [ 4  9 14 19]


### 求最小值 ndarray.min()

In [None]:
print(m1)
print(m1.min())
print('axis=0,从上往下查找:',m1.min(axis=0))
print('axis=1,从左往右查找',m1.min(axis=1))

### 求和 ndarray.sum()

In [None]:
print(m1)
print(m1.sum())
print('axis=0,从上往下查找:',m1.sum(axis=0))
print('axis=1,从左往右查找',m1.sum(axis=1))


### 加权平均值 numpy.average()
即将各数值乘以相应的权数，然后加总求和得到总体值，再除以总的单位数

<b>numpy.average(a, axis=None, weights=None, returned=False)</b>

- weights： 数组，可选

    `与 a 中的值关联的权重数组。 a 中的每个值都根据其关联的权重对平均值做出贡献。权重数组可以是一维的(在这种情况下，它的长度必须是沿给定轴的 a 的大小)或与 a 具有相同的形状。如果 weights=None，则假定 a 中的所有数据的权重等于 1。一维计算是：

    avg = sum(a * weights) / sum(weights)

    对权重的唯一限制是 sum(weights) 不能为 0。`


In [18]:
average_a1 = [20,30,50]

print(np.average(average_a1))
print(np.mean(average_a1))


33.333333333333336
33.333333333333336


# 实例


使用“示例—权重已知”中的数据，我们对比两位学生的考试成绩

| 姓名| 平时测验|期中考试| 期末考试|
|--| -- |:--| :--|
|小明| 80 |90| 95|  
|小刚| 95 |90| 80| 

学校规定的学科综合成绩的计算方式是：

| 平时测验占比|期中考试占比| 期末考试占比|
| -- |:--| :--|
| 20% |30%| 50%|   

要求 :比较谁的综合成绩更好


In [21]:
xiaoming = np.array([80,90,95])
xiaogang = np.array([95,90,80])
# 权重:

weights = np.array([0.2,0.3,0.5])
# 分别计算小明和小刚的平均值
print(np.mean(xiaoming))
print(np.mean(xiaogang))

# 分别计算小明和小刚的加权平均值
print(np.average(xiaoming,weights=weights))
print(np.average(xiaogang,weights=weights))
# 对比得到结果


88.33333333333333
88.33333333333333
90.5
86.0


股票价格的波动是股票市场风险的表现，因此股票市场风险分析就是对股票市场价格波动进行分析。波动性代表了未来价格取值的不确定性，这种不确定性一般用`方差`或`标准差`来刻画（Markowitz,1952）。

下表是中国和美国部分时段的股票统计指标，其中中国证券市场的数据由“钱龙”软件下载，美国证券市场的数据取自ECI的“WorldStockExchangeDataDisk”。表2股票统计指标



| 年份 | 业绩表现                                          | 业绩表现                                                  | 波动率                                            | 波动率                                                    |
| ---- | ------------------------------------------------- | --------------------------------------------------------- | ------------------------------------------------- | :-------------------------------------------------------- |
| 年代 | [上证综指] | [标准普尔指数] | [上证综指] | [标准普尔指数] |
| 1996 | 110.93                                            | 16.46                                                     | 0.2376                                            | 0.0573                                                    |
| 1997 | -0.13                                             | 31.01                                                     | 0.1188                                            | 0.0836                                                    |
| 1998 | 8.94                                              | 26.67                                                     | 0.0565                                            | 0.0676                                                    |
| 1999 | 17.24                                             | 19.53                                                     | 0.1512                                            | 0.0433                                                    |
| 2000 | 43.86                                             | -10.14                                                    | 0.097                                             | 0.0421                                                    |
| 2001 | -15.34                                            | -13.04                                                    | 0.0902                                            | 0.0732                                                    |
| 2002 | -20.82                                            | -23.37                                                    | 0.0582                                            | 0.1091                                                    |


变异系数（Coefficient of Variation）：当需要比较两组数据离散程度大小的时候，如果两组数据的测量尺度相差太大，或者数据量纲的不同，直接使用标准差来进行比较不合适，此时就应当消除测量尺度和量纲的影响，而变异系数可以做到这一点，它是原始数据标准差与原始数据平均数的比

In [26]:
# 股票信息
stat_info = np.array([
                [110.93, 16.46, 0.2376, 0.0573],
                [-0.13, 31.01, 0.1188, 0.0836],
                [8.94, 26.67, 0.0565, 0.0676],
                [17.24, 19.53, 0.1512, 0.0433],
                [43.86, -10.14, 0.097, 0.0421],
                [-15.34, 13.04, 0.0902, 0.0732],
                [-20.82, 23.37, 0.0582, 0.1091]
])
    
# 先计算7年的期望值(平均值)
stat_mean = np.mean(stat_info,axis=0)
print(stat_mean)

# 计算7年的标准差
stat_std = np.std(stat_info,axis=0)
print(stat_std) 
# 因为标准差是绝对值，不能通过标准差对中美直接进行对比，而变异系数可以直接比较
# 变异系数 = 原始数据标准差 / 原始数据平均数
stat_std/stat_mean

[20.66857143 17.13428571  0.11564286  0.06802857]
[4.18923479e+01 1.24739349e+01 5.84811046e-02 2.18930983e-02]


array([2.02686228, 0.72801021, 0.50570442, 0.32182211])

# 数据类型

| 名称 	| 描述 | 名称 	| 描述 |
| ------  	|:------ |------  	|:------ |
| bool_	| 布尔型数据类型（True 或者 False） |float_	| float64 类型的简写 |
|int_	 | 默认的整数类型（类似于 C 语言中的 long，int32 或 int64） |float16/32/64	| 半精度浮点数:1 个符号位，5 个指数位，10个尾数位<br/>单精度浮点数:1 个符号位，8 个指数位，23个尾数位<br/>双精度浮点数,包括：1 个符号位，11 个指数位，52个尾数位|
| intc 	 | 和 C 语言的 int 类型一样，一般是 int32 或 int 64 |complex_	| 复数类型，与 complex128 类型相同 |
| intp 	 | 用于索引的整数类型（类似于 C 的 ssize_t，通常为 int32 或 int64） |complex64/128	| 复数，表示双 32 位浮点数（实数部分和虚数部分）<br/>复数，表示双 64 位浮点数（实数部分和虚数部分） |
| int8/16/32/64  | 	代表与1字节相同的8位整数<br/>代表与2字节相同的16位整数<br/>代表与4字节相同的32位整数<br/>代表与8字节相同的64位整数 |str_	| 表示字符串类型 |
| uint8/16/32/64  | 代表1字节（8位）无符号整数<br/>代表与2字节相同的16位整数<br/>代表与4字节相同的32位整数<br/>代表与8字节相同的64位整数 |string_	| 表示字节串类型,也就是bytes类型 |

In [None]:
# 将数组中的类型存储为浮点型
a = np.array([1,2,3,4],dtype=np.float64)
a

In [None]:
# 将数组中的类型存储为布尔类型
a = np.array([0,1,2,3,4],dtype=np.bool_)
print(a)
a = np.array([0,1,2,3,4],dtype=np.float_)
print(a)

In [27]:
# str_和string_区别
str1 = np.array([1,2,3,4,5,6],dtype=np.str_)
string1 = np.array([1,2,3,4,5,6],dtype=np.string_)

str2 = np.array(['我们',2,3,4,5,6],dtype=np.str_)

print(str1,str1.dtype)
print(string1,string1.dtype)
print(str2,str2.dtype)

['1' '2' '3' '4' '5' '6'] <U1
[b'1' b'2' b'3' b'4' b'5' b'6'] |S1
['我们' '2' '3' '4' '5' '6'] <U2


在内存里统一使用unicode， 记录到硬盘或者编辑文本的时候都转换成了utf8 UTF-8 将Unicode编码后的字符串保存到硬盘的一种压缩编码方式

### 定义结构化数据

使用数据类型标识码

| 字符 	| 对应类型 | 字符 	| 对应类型 | 字符 	| 对应类型 | 字符 	| 对应类型 |
| ------  	|:------ |------  	|:------ | ------  	|:------ |------  	|:------ |
| b 	| 代表布尔型| i 	| 带符号整型| u 	| 无符号整型| f 	| 浮点型|  
| c 	| 复数浮点型| m 	| 时间间隔（timedelta）| M 	| datatime（日期时间）| O 	| Python对象|  
| S,a 	| 字节串（S）与字符串（a）| U 	| Unicode| V 	| 原始数据（void）|  	| |   
 

还可以将两个字符作为参数传给数据类型的构造函数。此时，第一个字符表示数据类型，
第二个字符表示该类型在内存中占用的字节数（2、4、8分别代表精度为16、32、64位的
浮点数）：

In [82]:
# 首先创建结构化数据类型
dt = np.dtype([('age','U1')]) 
print(dt)
# 将数据类型应用于 ndarray 对象
students = np.array([("我们"),(128)],dtype=dt)
print(students,students.dtype,students.ndim)
print(students['age'])

[('age', '<U1')]
[('我',) ('1',)] [('age', '<U1')] 1
['我' '1']


以下示例描述一位老师的姓名、年龄、工资的特征，该结构化数据其包含以下字段：

    str 字段：name
    int 字段：age
    float 字段：salary

In [38]:
import numpy as np
teacher = np.dtype([('name',np.str_,2), ('age', 'i1'), ('salary', 'f4')])
#输出结构化数据teacher
#print(teacher)
#将其应用于ndarray对象
b = np.array([('wl', 32, 8357.50),
              ('lh', 28, 7856.80)
             ], dtype = teacher) 
print(b)
b['name']
b['age']

[('wl', 32, 8357.5) ('lh', 28, 7856.8)]


array([32, 28], dtype=int8)

### 结构化数据操作

In [None]:
# 使用数组名[结构化名]
print(b)
# 取出数组中的所有名称
print(b['name'])
# 取出数据中的所有年龄
print(b['age'])

# 操作文件  loadtxt
loadtxt读取txt文本、、csv文件

`loadtxt(fname, dtype=<type 'float'>, comments='#', delimiter=None, converters=None, skiprows=0, usecols=None, unpack=False, ndmin=0,encoding='bytes')`

参数：

- fname：指定文件名称或字符串。支持压缩文件，包括gz、bz格式。

- dtype：数据类型。 默认float。

- comments：字符串或字符串组成的列表。表示注释字符集开始的标志，默认为#。

- delimiter：字符串。分隔符。

- converters：字典。将特定列的数据转换为字典中对应的函数的浮点型数据。例如将空值转换为0，默认为空。

- skiprows：跳过特定行数据。例如跳过前1行（可能是标题或注释）。默认为0。

- usecols：元组。用来指定要读取数据的列，第一列为0。例如（1， 3， 5），默认为空。

- unpack：布尔型。指定是否转置数组，如果为真则转置，默认为False。

- ndmin：整数型。指定返回的数组至少包含特定维度的数组。值域为0、1、2，默认为0。
- encoding:编码,  确认文件是gbk还是utf-8 格式

返回：从文件中读取的数组。

### 读取普通文件
b如data1.txt存在数据:

0 1 2 3 4 5 6 7 8 9

...

20 21 22 23 24 25 26 27 28 29


In [69]:
# 读取普通文件文件 ,可以不用设置分隔符(空格 制表符)
data = np.loadtxt(r'D:\桌面\数据分析-班级\1-2班\data1.txt',dtype=np.int32)
print(data,data.shape)

[[ 0  1  3  3  4  5  6  7  8  9]
 [20 21 22 23 24 25 26 27 28 29]] (2, 10)


In [46]:
# 读取csv文件 ,取药设置分隔符,csv默认为,号
data = np.loadtxt('csv_test.csv',dtype=np.int32,delimiter=',')
print(data,data.shape)

[[ 0  1  2  3  4  5  6  7  8  9]
 [10 11 12 13 14 15 16 17 18 19]
 [20 21 22 23 24 25 26 27 28 29]] (3, 10)


### 不同列标识不同信息 数据读取
数据如下:

姓名 年龄 性别 身高

小王 21 男 170

.....

老王 50 男 180

`文件:has_title.txt`

In [60]:
# 1. 以上数据由于不同列数据标识的含义和类型不同,因此需要自定义数据类型
user_info = np.dtype([('name','U10'),('age','i1'),('gender','U1'),('height','i2')])
#print(user_info)
# 2. 使用自定义的数据类型 读取数据,
data = np.loadtxt('has_title.txt',dtype=user_info,skiprows=1, encoding='utf-8')
#data = np.loadtxt('has_title.txt',dtype=int,skiprows=1,usecols=(1,3), encoding='utf-8')
# 注意以上参数中:a.设置类型;  b.跳过第一行; c.跳过第一行;  d.编码
print(data['age'])
#data

[21 25 19 40 24 21 19 26 21 21 19 20]


In [61]:
'''
计算平均年龄
'''
# 获取年龄的数组
ages = data['age']
ages.mean()
# 计算年龄的中位数


23.0

In [None]:
# 计算平均身高


# 计算身高中位数


In [65]:
# 计算女生的平均身高
isgirl = data['gender'] == '女'

print(isgirl)
print(data['height'])
data['height'][isgirl]
girl_mean = np.mean(data['height'][isgirl])
'{:.2f}'.format(girl_mean)

[False  True  True False False  True  True False False  True  True  True]
[170 165 167 180 168 167 159 170 168 175 160 167]


'165.71'

### 读取指定的列

In [None]:
# 读取指定的列 usecols=(1,3) 标识只读取第2列和第4列
user_info = np.dtype([('age','i1'),('height','i2')])
print(user_info)
# 使用自定义的数据类型 读取数据,
data = np.loadtxt('has_title.csv',dtype=user_info,delimiter=',',skiprows=1,usecols=(1,3))
# 注意以上参数中:a.设置类型;  b.跳过第一行; c.分隔符 ;  
print(data)



### 数据中存在空值进行处理
需要借助用于 converters参数,传递一个字典,key为列索引,value为对列中值得处理

比如:

csv中学生信息中存在空的年龄信息:

姓名	年龄	性别	身高

小王	21	男	170

...

小谭     男	169

...

小陈	27	男	177

`文件:has_empty_data.csv`

In [26]:
# 读取指定的列 usecols=(1,3) 标识只读取第2列和第4列
user_info = np.dtype([('age','i1'),('height','i2')])
has_empty_data = np.loadtxt('has_empty_data.csv',dtype=user_info,delimiter=',',skiprows=1, usecols=(1,3))
has_empty_data

ValueError: could not convert string to float: 

In [28]:
# 处理空数据,需要创建一个函数,接收列的参数,并加以处理.
def parse_age(age):
    try:
        return int(age)
    except:
        return 0

In [41]:
# 和之前一样的步骤
print(user_info)
# 使用自定义的数据类型 读取数据,
data = np.loadtxt('has_empty_data.csv',dtype=user_info,delimiter=',',skiprows=1,usecols=(1,3),converters={1:parse_age,3:parse_age})
print(data)

[('age', 'i1'), ('height', '<i2')]


ValueError: could not convert string to float: 

In [33]:
age_arr = data['age']
age_arr

array([21, 25, 19,  0, 21, 19, 27], dtype=int8)

In [37]:
age_arr[age_arr == 0] = np.median(age_arr[age_arr != 0])

In [39]:
age_arr.mean()

21.857142857142858

####  计算班级年龄的平均值.由于存在0的数据,因此一般做法是将中位数填充

In [None]:
# 填充中位数:
ages = data['age']
ages[ages==0] = np.median(ages)
print(ages)

# 计算平均值
np.round(np.mean(ages),2)

## 作业?

#### 考虑下列与学生（虚构）人口有关的数据文本文件
<img src="https://gitee.com/wu-chao-588/picgo/raw/master/images/image-20220308155311955.png" alt="image-20220308155311955" style="zoom:50%;" />

文件为:student-data.txt

In [25]:
'''1 .找出男女学生的平均身高?'''

# 1. 定义数据类型

# 2.确定文件内容特点:  a.需要跳过9行; b.只需要第二列和第4列
data = np.loadtxt('student-data.txt',dtype=object,usecols=(1,3),skiprows=9)
data

# 3. 取得身高信息


# 4.计算平均值 mean


array([['M', '1.82'],
       ['M', '1.77'],
       ['F', '1.68'],
       ['6/7/95', '75.5'],
       ['F', '1.78'],
       ['F', '1.60'],
       ['M', '1.72'],
       ['M', '1.83'],
       ['F', '1.56'],
       ['F', '1.64'],
       ['M', '1.63'],
       ['M', '1.67'],
       ['M', '1.66'],
       ['F', '1.59'],
       ['F', '1.70'],
       ['M', '1.97'],
       ['F', '1.66'],
       ['F', '1.63'],
       ['M', '1.69']], dtype=object)

In [None]:
'''2. 找到男学生的平均身高?'''

# 1.首先判断那些数据性别为男性 ,或者取得性别为男的行索引

# 提取出和性别对应为True的身高信息


# 计算平均值


In [None]:
# 3.计算女生身高中位数? 步骤同上.


In [2]:
a = np.array([1,1.2,"abc"])

In [3]:
a 

array(['1', '1.2', 'abc'], dtype='<U32')

In [4]:
a = np.array([1,11,12])

In [5]:
a

array([ 1, 11, 12])

In [6]:
a.dtype

dtype('int32')

In [7]:
# int8 ---- -128~ 127  1 1 1 1 1 1 1 1
i1 = np.array([1,2,3,43],dtype=np.int8)

In [8]:
i1[0]

1

In [9]:
i1[0]=127
i1

array([127,   2,   3,  43], dtype=int8)

In [10]:
i1[0]=128
i1

array([-128,    2,    3,   43], dtype=int8)

In [13]:
a = np.array(['a',"abc","d"], dtype=object)

In [14]:
a

array(['a', 'abc', 'd'], dtype=object)

In [15]:
a[0] = "1234567"

In [16]:
a

array(['1234567', 'abc', 'd'], dtype=object)