使用pandas操作数据

作者：谢文伟

邮件：xiewenwei@sina.com

主页：https://github.com/jimxie2012/ai-cv

# Series

In [57]:
import pandas as pd

In [58]:
s1=pd.Series(data=[80,85,90])
s2=pd.Series(data=85,index=['语文','数学','英语'])
s3=pd.Series(data=[80,85,90],index=['语文','数学','英语'])
s4=pd.Series(data={'语文':80,'数学':85,'英语':90})
print("根据列表创建，自动索引:")
print(s1)
print("根据标量创建，指定索引:")
print(s2)
print("根据列表创建，指定索引:")
print(s3)
print("根据字典创建:")
print(s4)

根据列表创建，自动索引:
0    80
1    85
2    90
dtype: int64
根据标量创建，指定索引:
语文    85
数学    85
英语    85
dtype: int64
根据列表创建，指定索引:
语文    80
数学    85
英语    90
dtype: int64
根据字典创建:
语文    80
数学    85
英语    90
dtype: int64


In [59]:
print("******显式切片******")
print(s3.loc['语文':'数学'])
print("******隐式切片******")
print(s3.iloc[0:2])
print("******取首部2个数据******")
print(s3.head(2))
print("******取尾部2个数据******")
print(s3.tail(2))

******显式切片******
语文    80
数学    85
dtype: int64
******隐式切片******
语文    80
数学    85
dtype: int64
******取首部2个数据******
语文    80
数学    85
dtype: int64
******取尾部2个数据******
数学    85
英语    90
dtype: int64


In [60]:
print("Series长度:",s3.size)
print("Series索引列表:",s3.index.tolist())
print("Series数据列表:",s3.tolist())
for item in s3:
    print("data:",item)

Series长度: 3
Series索引列表: ['语文', '数学', '英语']
Series数据列表: [80, 85, 90]
data: 80
data: 85
data: 90


In [61]:
print("根据指定索引相加:",s3['语文']+s3['数学'])
print("根据行号索引相乘:",s3[0]*s3[2])
s3['语文']=55
s3[1] = 65
s3.drop(["语文","英语"],inplace=True)
print("修改后的Series:")
print(s3)

根据指定索引相加: 165
根据行号索引相乘: 7200
修改后的Series:
数学    65
dtype: int64


# DataFrame

In [68]:
df1=pd.DataFrame({'年龄':[20,30,40,50],'收入':[24,30,40,30]})
s1 = pd.Series([20,30,40,50])
s2 = pd.Series([24,30,40,30])             
df2=pd.DataFrame({'年龄':s1,'收入':s2})
print("---根据字典创建---")
print(df1)
print("---根据序列创建---")
print(df2)

---根据字典创建---
   年龄  收入
0  20  24
1  30  30
2  40  40
3  50  30
---根据序列创建---
   年龄  收入
0  20  24
1  30  30
2  40  40
3  50  30


In [69]:
print("所有的列:",df2.columns.tolist())
print("所有的索引:",df2.index.tolist())
print("所有的收入数据:",df2['收入'].values)
print("索引为0的收入数据:",df2['收入'][0])
print("所有的值:",df2.values.tolist())

所有的列: ['年龄', '收入']
所有的索引: [0, 1, 2, 3]
所有的收入数据: [24 30 40 30]
索引为0的收入数据: 24
所有的值: [[20, 24], [30, 30], [40, 40], [50, 30]]


In [65]:
print("---横向切片，取前两条数据---")
df3 = df2[:2]
print("前两条收入的数据:",df3['收入'].tolist())
print(df3)
print("---纵向切片，取序列数据---")
s1 = df2['年龄']
print("年龄序列:",s1.tolist())
s2 = df2['收入']
print("收入序列:",s2.tolist())
print("---遍历所有数据---")
for key,value in df2.items():
    print(key,value.tolist())

---横向切片，取前两条数据---
前两条收入的数据: [24, 30]
   年龄  收入
0  20  24
1  30  30
---纵向切片，取序列数据---
年龄序列: [20, 30, 40, 50]
收入序列: [24, 30, 40, 30]
---遍历所有数据---
年龄 [20, 30, 40, 50]
收入 [24, 30, 40, 30]


In [50]:
df2.T

Unnamed: 0,0,1,2,3
年龄,20,30,40,50
收入,24,30,40,30


In [51]:
df2.describe()

Unnamed: 0,年龄,收入
count,4.0,4.0
mean,35.0,31.0
std,12.909944,6.63325
min,20.0,24.0
25%,27.5,28.5
50%,35.0,30.0
75%,42.5,32.5
max,50.0,40.0


In [70]:
df2.to_csv("./output/test.csv",index=False,encoding='utf-8')
df2 = pd.read_csv("./output/test.csv",encoding='utf-8')
df2.to_html("./output/test.html",index=False,encoding='utf-8')
df2 = pd.read_html('./output/test.html',encoding='utf-8')[0]
df2

Unnamed: 0,年龄,收入
0,20,24
1,30,30
2,40,40
3,50,30
