### 1.概要
内容主要涉及读取数据和保存数据、数据详情信息、数据处理、数据切片、筛选、排序、分组、统计、表格样式等几部分内容

In [2]:
import numpy as np
import pandas as pd

### 2.读取数据&保存数据

#### 读取csv，编码‘utf-8’

In [10]:
pd.read_csv('test1.csv', encoding='utf-8')

Unnamed: 0,姓名,年龄,身高
0,张三,24,167
1,李四,25,180
2,王五,28,176
3,赵六,24,167
4,周武,66,180
5,张叶,28,176
6,张器,24,167
7,李咯,25,180
8,王根,28,176
9,张灯,24,167


#### 读取前几行

In [14]:
csv_data = pd.read_csv('test1.csv')
pd.read_csv('test1.csv', encoding='utf-8', nrows = 3)

Unnamed: 0,姓名,年龄,身高
0,张三,24,167
1,李四,25,180
2,王五,28,176


#### 第一列作为行索引,忽略列索引

In [22]:
# 让第一列作索引 让第一行作数据不作标题
pd.read_csv('test1.csv', encoding = 'utf-8', index_col = 0, header = None)

Unnamed: 0_level_0,1,2
0,Unnamed: 1_level_1,Unnamed: 2_level_1
姓名,年龄,身高
张三,24,167
李四,25,180
王五,28,176
赵六,24,167
周武,66,180
张叶,28,176
张器,24,167
李咯,25,180
王根,28,176


#### 读取时忽略指定行

In [25]:
# 忽略一二两行和最后两行
pd.read_csv('test1.csv', skiprows = [1, 2], skipfooter = 2, engine = 'python')

Unnamed: 0,姓名,年龄,身高
0,王五,28,176
1,赵六,24,167
2,周武,66,180
3,张叶,28,176
4,张器,24,167
5,李咯,25,180
6,王根,28,176
7,张灯,24,167


#### 从限定分隔符逗号的文件或文本中读取数据

In [27]:
df = pd.read_table('test1.csv', sep = ',')

#### 保存数据

In [35]:
#df.to_excel('test1.xlsx')#默认会带索引列
df.to_excel('test1.xlsx', index = False)

In [36]:
df.to_json('test1.json')

### 3.查看数据信息

#### 查看前n行

In [37]:
df.head(3)

Unnamed: 0,姓名,年龄,身高
0,张三,24,167
1,李四,25,180
2,王五,28,176


#### 查看后n行

In [38]:
df.tail(3)

Unnamed: 0,姓名,年龄,身高
9,张灯,24,167
10,李放,25,180
11,王润,35,176


#### 查看行数和列数

In [39]:
df.shape#包含标题行

(12, 3)

#### 查看索引、数据类型和内存信息

In [40]:
df.columns #列索引

Index(['姓名', ' 年龄', ' 身高'], dtype='object')

In [41]:
df.index #行索引

RangeIndex(start=0, stop=12, step=1)

In [42]:
df.info() #查看索引、数据类型和内存信息

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12 entries, 0 to 11
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   姓名      12 non-null     object
 1    年龄     12 non-null     int64 
 2    身高     12 non-null     int64 
dtypes: int64(2), object(1)
memory usage: 416.0+ bytes


#### 查看数值型列的汇总统计

In [43]:
df.describe()

Unnamed: 0,年龄,身高
count,12.0,12.0
mean,29.666667,174.333333
std,11.873066,5.678241
min,24.0,167.0
25%,24.0,167.0
50%,25.0,176.0
75%,28.0,180.0
max,66.0,180.0


#### 查看每一列的唯一值和计数

In [48]:
pd.read_json('test1.json').apply(pd.Series.value_counts)
# 第一列为唯一值是什么 后面有数字代表有几个

Unnamed: 0,姓名,年龄,身高
周武,1.0,,
张三,1.0,,
张叶,1.0,,
张器,1.0,,
张灯,1.0,,
李咯,1.0,,
李四,1.0,,
李放,1.0,,
王五,1.0,,
王根,1.0,,


#### apply
参考 &gt; https://zhuanlan.zhihu.com/p/344835017

遍历DataFrame的元素（一行数据或者一列数据）

dataframe.apply(function,axis)对一行或一列做出一些操作（axis=1遍历行，axis=0遍历列）

### 4.数据处理

#### 重命名列名

In [67]:
df.columns = ['name', 'age', 'height']

Unnamed: 0,name,age,height
0,张三,24,167
1,李四,25,180
2,王五,28,176
3,赵六,24,167
4,周武,66,180
5,张叶,28,176
6,张器,24,167
7,李咯,25,180
8,王根,28,176
9,张灯,24,167


#### 选择性更改列名

In [71]:
df.rename(columns = {'name' : '姓名', 'age' : '年龄'}, inplace = True)
df

Unnamed: 0,姓名,年龄,height
0,张三,24,167
1,李四,25,180
2,王五,28,176
3,赵六,24,167
4,周武,66,180
5,张叶,28,176
6,张器,24,167
7,李咯,25,180
8,王根,28,176
9,张灯,24,167


#### 批量更新索引

DataFrame.rename（mapper = None，index = None，columns = None，axis = None，copy = True，inplace = False，level = None ）

参数介绍：
mapper，index，columns：可以任选其一使用，可以是将index和columns结合使用。index和column直接传入mapper或者字典的形式。
axis：int或str，与mapper配合使用。可以是轴名称（‘index’，‘columns’）或数字（0,1）。默认为’index’。
copy：boolean，默认为True，是否复制基础数据。
inplace：布尔值，默认为False，是否返回新的DataFrame。如果为True，则忽略复制值。

In [85]:
df1 = df.rename(lambda x : x + 10)
df1

Unnamed: 0,姓名,年龄,height
10,张三,24,167
11,李四,25,180
12,王五,28,176
13,赵六,24,167
14,周武,66,180
15,张叶,28,176
16,张器,24,167
17,李咯,25,180
18,王根,28,176
19,张灯,24,167


#### 批量更新列名

In [84]:
df2 = df.rename(columns = lambda x : 'T-' + x)
df2

Unnamed: 0,T-姓名,T-年龄,T-height
0,张三,24,167
1,李四,25,180
2,王五,28,176
3,赵六,24,167
4,周武,66,180
5,张叶,28,176
6,张器,24,167
7,李咯,25,180
8,王根,28,176
9,张灯,24,167


#### 设置姓名列为行索引

In [88]:
df21 = df2.set_index('T-姓名')
df21

Unnamed: 0_level_0,T-年龄,T-height
T-姓名,Unnamed: 1_level_1,Unnamed: 2_level_1
张三,24,167
李四,25,180
王五,28,176
赵六,24,167
周武,66,180
张叶,28,176
张器,24,167
李咯,25,180
王根,28,176
张灯,24,167


#### 检查哪些列包含缺失值

In [90]:
df2.isnull().any()

T-姓名        False
T-年龄        False
T-height    False
dtype: bool

#### 统计各列空值数

In [91]:
df.isnull().sum()

姓名        0
年龄        0
height    0
dtype: int64

df_data = pd.DataFramer([])