# 操作文件  loadtxt
loadtxt读取txt文本、、csv文件

`loadtxt(fname, dtype=<type 'float'>, comments='#', delimiter=None, converters=None, skiprows=0, usecols=None, unpack=False, ndmin=0,encoding='bytes')`

参数：

- fname：指定文件名称或字符串。支持压缩文件，包括gz、bz格式。

- dtype：数据类型。 默认float。

- comments：字符串或字符串组成的列表。表示注释字符集开始的标志，默认为#。

- delimiter：字符串。分隔符。

- converters：字典。将特定列的数据转换为字典中对应的函数的浮点型数据。例如将空值转换为0，默认为空。

- skiprows：跳过特定行数据。例如跳过前1行（可能是标题或注释。当标题前有注释的时候一定要注意）。默认为0。

- usecols：元组。用来指定要读取数据的列，第一列为0。例如（1， 3， 5），默认为空。

- unpack：布尔型。指定是否转置数组，如果为真则转置，默认为False。

- ndmin：整数型。指定返回的数组至少包含特定维度的数组。值域为0、1、2，默认为0。
- encoding:编码,  确认文件是gbk还是utf-8 格式

返回：从文件中读取的数组。

## 读取普通文件

In [25]:
import numpy as np

创建data1.txt并且写入

In [17]:
with open('../File/data1.txt','w') as fp:
    for i in range(10):
        fp.write(f"{i} ")
    fp.write('\n')
    for i in range(10,20):
        fp.write(f"{i} ")
print("写入完成")

写入完成


In [23]:
# 默认分隔符为空格或者tab 
# 默认数据位float类型
data=np.loadtxt('../File/data1.txt')
print(data)
print(type(data))
print(data.shape)


[[ 0.  1.  2.  3.  4.  5.  6.  7.  8.  9.]
 [10. 11. 12. 13. 14. 15. 16. 17. 18. 19.]]
<class 'numpy.ndarray'>
(2, 10)


In [31]:
# 读取csv,设定delimiter参数，设置分隔符为逗号
data=np.loadtxt('../File/csv_test.csv',dtype=np.int32,delimiter=',')
print(data)
print(data.shape)

[[ 0  1  2  3  4  5  6  7  8  9]
 [10 11 12 13 14 15 16 17 18 19]
 [20 21 22 23 24 25 26 27 28 29]]
(3, 10)


### 读取不同数据类型

采用结构数据类型来进行读取

In [43]:
user_info=np.dtype([("姓名",np.str_,6),("年龄",np.int),("性别",np.str_),("身高",np.float)])
# 有中文，检查中文的格式
# 设置类型为结构数据类型，便于读取不同数据类型
# 跳过第一行标题行
data=np.loadtxt('../File/has_title.txt',encoding="utf-8",dtype=user_info,skiprows=1)

print(data)
print(data.size)
print(data.shape)
print(data["姓名"])

[('小王', 21, '', 170.) ('小张', 25, '', 165.) ('小花', 19, '', 167.)
 ('老王', 40, '', 180.) ('小韩', 24, '', 168.) ('小白', 21, '', 167.)
 ('小花1', 19, '', 159.) ('小刘', 26, '', 170.) ('小秦', 21, '', 168.)
 ('小胖', 21, '', 175.) ('娜娜', 19, '', 160.) ('朵朵', 20, '', 167.)]
12
(12,)
['小王' '小张' '小花' '老王' '小韩' '小白' '小花1' '小刘' '小秦' '小胖' '娜娜' '朵朵']


In [53]:
# 读取csv文件不需要指定编码格式，但是需要指定分隔符
user_info=np.dtype([("姓名",object),("年龄",np.int),("性别",object),("身高",np.float)])

data=np.loadtxt('../File/has_title.csv',dtype=user_info,skiprows=1,delimiter=',')

print(data)
print(data.size)
print(data.shape)
print(data["姓名"])


[('小王', 22, '男', 170.) ('小张', 25, '女', 165.) ('小花', 19, '女', 167.)
 ('小谭', 20, '男', 169.) ('小胡', 21, '女', 161.) ('小余', 19, '女', 159.)
 ('小陈', 27, '男', 177.)]
7
(7,)
['小王' '小张' '小花' '小谭' '小胡' '小余' '小陈']


#### 计算平均年龄

In [55]:
data=np.loadtxt('../File/has_title.csv',dtype=user_info,skiprows=1,delimiter=',')
# 统计年龄的中位数
age_data=data["年龄"]
print(np.median(age_data))

# 第二中方法：指定要读取的列,用元组表示，只读取第二列

data1=np.loadtxt('../File/has_title.csv',dtype=np.int,skiprows=1,delimiter=',',usecols=(1,))
print(data1)
print(np.median(data1))

21.0
[22 25 19 20 21 19 27]
21.0


#### 计算女生的平均身高

In [64]:
user_info=np.dtype([("姓名",object),("年龄",np.int),("性别",object),("身高",np.float)])

data=np.loadtxt('../File/has_title.csv',dtype=user_info,skiprows=1,delimiter=',')

# 判断是否是女生 得到的isgirl是值为Bool的一维数组
isgirl=data['性别']=='女'
print(isgirl)

# 利用布尔索引来筛选出女生
girls_info=data['身高'][isgirl]
print(girls_info)

print(np.median(girls_info))
# 字符格式化，显示两位小数
print('{:.2f}'.format(np.median(girls_info)))

[False  True  True False  True  True False]
[165. 167. 161. 159.]
163.0
163.00


#### 读取指定的列

In [66]:
# 只单独定义要读取的数据类型,对应要读取的列
data_type=np.dtype([('age',np.int),('height',np.float)])

data=np.loadtxt("../File/has_title.txt",encoding='utf-8',skiprows=1,usecols=(1,3))
print(data)


[[ 21. 170.]
 [ 25. 165.]
 [ 19. 167.]
 [ 40. 180.]
 [ 24. 168.]
 [ 21. 167.]
 [ 19. 159.]
 [ 26. 170.]
 [ 21. 168.]
 [ 21. 175.]
 [ 19. 160.]
 [ 20. 167.]]


#### 数据中有空值进行处理
使用converters参数来进行处理<br>
converters={列索引:处理的函数} 也就是正常的参数和异常的参数都通过这个函数来处理

In [71]:
def parse_age(age):# 将正常的数据转化为int类型,异常数据变为0
    try:
        return int(age)
    except:
        return 0

In [68]:
# 异常复习，出现异常，try except捕获之后，后面的语句可以正常执行
try:
    a=1/0
    print(a)
except:
    print(111)
print(222)

111
222


In [75]:
data= np.loadtxt('../File/has_empty_data.csv',delimiter=',',skiprows=1,usecols=1,converters={1:parse_age},dtype=np.int)
print(data)

[21 25 19  0 21 19 27]
