## Pandas 基础命令速查表
- 参考 :
    1. [速查表](https://www.heywhale.com/mw/project/59e389b54663f7655c48f518)
- 缩写解释 & 库的导入
    1. df --- 任意的pandas DataFrame(数据框)对象
    2. s --- 任意的pandas Series(数组)对象
    3. pandas和numpy是用Python做数据分析最基础且最核心的库


In [7]:
import pandas as pd
import numpy as np

### 1. 数据的导入

- 数据的导入方式有以下几种 :

- pd.read_csv(filename) 导入csv格式文件中的数据
- pd.read_table(filename) 导入有分隔符的文本 (如TSV) 中的数据
- pd.read_excel(filename) 导入Excel格式文件中的数据
- pd.read_sql(query, connection_object) 导入SQL数据表/数据库中的数据
- pd.read_json(json_string) 导入JSON格式的字符，URL地址或者文件中的数据
- pd.read_html(url) 导入经过解析的URL地址中包含的数据框 (DataFrame) 数据
- pd.read_clipboard() 导入系统粘贴板里面的数据
- pd.DataFrame(dict)  导入Python字典 (dict) 里面的数据，其中key是数据框的表头，value是数据框的内容。

#### 1.1 pd.read_csv()

- 作用 : 读取CSV格式的数据
- 参数 :
    1. filepath_or_buffer : 文件路径, 支持 ftp 文件
    2. sep : 分隔符, 默认为 ,
    3. header : 文件中, 要作为字段的行的行号, 默认 header=0, 如果数据中没有行, 设置 header = None
    4. names: 字段名, 值为 ['字段1', '字段2', '字段3']
    5. index_col : 要作为行标签的列, 等价于 header

In [8]:
CSV_PATH = '../data/可视化数据集/iris.csv'
iris = pd.read_csv(CSV_PATH, sep=',')
iris[:5]

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


### 2. 数据的导出

- [read_csv和to_csv参数详解](https://blog.csdn.net/u010801439/article/details/80033341/)

- df.to_csv(filename) 将数据框 (DataFrame)中的数据导入csv格式的文件中
- df.to_excel(filename) 将数据框 (DataFrame)中的数据导入Excel格式的文件中
- df.to_sql(table_name,connection_object) 将数据框 (DataFrame)中的数据导入SQL数据表/数据库中
- df.to_json(filename) 将数据框 (DataFrame)中的数据导入JSON格式的文件中

#### 2.1 df.to_csv()

- 作用 : 将文件保存为CSV文件
- 参数 :
    1. path_or_buf 输出文件路径
    2. sep 设置分隔符
    3. na_rep 替换空值
    4. header 是否保留列名 , header=0 表示不保存列名
    5. index 是否保留行索引
    6. cols 是否保留某列数据 (columns=['name'])
    7. index 是否写入列名, 默认为 True

In [11]:
iris.to_csv('../to_data/iris_01.csv',
            sep=';', na_rep='?', header=0)

### 3. 创建测试数据

- pd.DataFrame() 创建DataFrame
    1. column : 值为list, 用于指定 DataFrame 的列名
- pd.Series() 创建Series
- 添加一个日期索引 index
    1. df.index = pd.date_range('2017/1/1', periods=df.shape[0])

In [15]:
# 创建一个 5行5列的数据
pd.DataFrame(np.random.randn(5, 5), columns=['a', 'b', 'c', 'd', 'e'])

Unnamed: 0,a,b,c,d,e
0,-0.185157,-1.698995,1.644381,-0.621478,0.151583
1,-0.448374,-0.158677,-0.725542,0.710373,0.423818
2,0.617101,0.036987,0.404606,-0.206712,-0.745539
3,1.046734,0.897569,1.112306,0.89532,-1.164779
4,0.923494,-0.349683,-1.960187,-1.551123,-0.436827


In [16]:
# 从一个可迭代对象中创建一个 Series
my_list = ['Lab109', 100, '大家好']
pd.Series(my_list)

0    Lab109
1       100
2       大家好
dtype: object

#### 3.1 创建数字索引

In [23]:
# 添加日期索引

df_data = pd.DataFrame(np.random.randn(5, 4))
df_data.index = pd.date_range('2021/12/21', periods=df_data.shape[0])
df_data

Unnamed: 0,0,1,2,3
2021-12-21,1.632379,-1.39521,-0.261696,1.413183
2021-12-22,1.674387,0.3306,0.673868,-0.812234
2021-12-23,0.552859,1.00906,-0.663936,-1.182821
2021-12-24,-0.386588,-0.091213,1.111748,-1.17875
2021-12-25,-0.203519,1.617431,1.571207,-0.977976


### 4. 数据的查看与检查

- df.head(n) 查看前 n 行的数据
- df.tail(n) 查看后 n 行的数据
- df.shape 查看数据框的行数与列数
- df.info() 查看数据框 (DataFrame) 的索引、数据类型及内存信息
- df.describe() 对于数据类型为数值型的列，查询其描述性统计的内容
- s.value_counts(dropna=False) 查询每个独特数据值出现次数统计
- df.apply(pd.Series.value_counts) 查询数据框 (Data Frame) 中每个列的独特数据值出现次数统计

In [30]:
df = pd.DataFrame(np.random.randn(5, 5))

# 查看数据的前 n 行
df.head()  # 默认是前5行

Unnamed: 0,0,1,2,3,4
0,0.254311,0.738132,1.610184,-0.184351,-0.087369
1,-0.667106,0.05006,1.122164,0.870518,0.366792
2,-0.310987,0.710765,0.322928,-0.199523,-0.393688
3,0.539029,-0.397929,0.038788,0.270945,0.341962
4,1.390394,0.125789,-0.07809,-1.128102,-2.058937


In [31]:
df.head(3)

Unnamed: 0,0,1,2,3,4
0,0.254311,0.738132,1.610184,-0.184351,-0.087369
1,-0.667106,0.05006,1.122164,0.870518,0.366792
2,-0.310987,0.710765,0.322928,-0.199523,-0.393688


In [32]:
# 查看数据的最后 n 行
df.tail(4)

Unnamed: 0,0,1,2,3,4
1,-0.667106,0.05006,1.122164,0.870518,0.366792
2,-0.310987,0.710765,0.322928,-0.199523,-0.393688
3,0.539029,-0.397929,0.038788,0.270945,0.341962
4,1.390394,0.125789,-0.07809,-1.128102,-2.058937


In [33]:
# 查看数据的行数和列数
df.shape

(5, 5)

In [34]:
# 查看数据框 (DataFrame) 的索引、数据类型及内存信息
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   0       5 non-null      float64
 1   1       5 non-null      float64
 2   2       5 non-null      float64
 3   3       5 non-null      float64
 4   4       5 non-null      float64
dtypes: float64(5)
memory usage: 328.0 bytes


In [35]:
# 对于数据类型为数值型的列，查询其描述性统计的内容
# std 表示标准差
df.describe()

Unnamed: 0,0,1,2,3,4
count,5.0,5.0,5.0,5.0,5.0
mean,0.241128,0.245363,0.603195,-0.074103,-0.366248
std,0.796783,0.481063,0.732224,0.733172,0.997827
min,-0.667106,-0.397929,-0.07809,-1.128102,-2.058937
25%,-0.310987,0.05006,0.038788,-0.199523,-0.393688
50%,0.254311,0.125789,0.322928,-0.184351,-0.087369
75%,0.539029,0.710765,1.122164,0.270945,0.341962
max,1.390394,0.738132,1.610184,0.870518,0.366792


In [38]:
s = pd.Series([1, 2, 3, 1, 1, 2, 4, np.nan, 5, 5, 5, 6, 7])
# 查询每个独特数据值出现次数统计
# dropna : 是否包括 nan 的统计
s.value_counts(dropna=False)

1.0    3
5.0    3
2.0    2
3.0    1
4.0    1
NaN    1
6.0    1
7.0    1
dtype: int64

In [39]:
# 查询数据框 (Data Frame) 中每个列的独特数据值出现次数统计
# apply 方法中需要传入函数, df的 每一行 Series 都会被作为 参数传入
df.apply(pd.Series.value_counts)

Unnamed: 0,0,1,2,3,4
-2.058937,,,,,1.0
-1.128102,,,,1.0,
-0.667106,1.0,,,,
-0.397929,,1.0,,,
-0.393688,,,,,1.0
-0.310987,1.0,,,,
-0.199523,,,,1.0,
-0.184351,,,,1.0,
-0.087369,,,,,1.0
-0.07809,,,1.0,,


In [50]:
def func(s):
    print(s)
    return s


df_01 = pd.DataFrame([[1, 2, 3], [3, 4, 5]])
print(df_01)

df_01.apply(func)

   0  1  2
0  1  2  3
1  3  4  5
0    1
1    3
Name: 0, dtype: int64
0    2
1    4
Name: 1, dtype: int64
0    3
1    5
Name: 2, dtype: int64


Unnamed: 0,0,1,2
0,1,2,3
1,3,4,5


### 5.数据的选取

In [59]:
df = pd.DataFrame(np.random.randn(5,3), columns=list('ABC'))
df['A'] # 以数组 Series 的形式返回选取的列

0   -2.098008
1   -0.218355
2    0.536830
3    0.561098
4   -0.009654
Name: A, dtype: float64

In [60]:
df[['A', 'B']] # 以新的数据框(DataFrame)的形式返回选取的列

Unnamed: 0,A,B
0,-2.098008,0.8148
1,-0.218355,0.633867
2,0.53683,0.023114
3,0.561098,-0.419413
4,-0.009654,-1.19305


In [66]:
# 按照位置选取 df.iloc[列][行], 下标从0开始
df.iloc[0] # 等价于 df.iloc[0,:]

A   -2.098008
B    0.814800
C    0.617078
Name: 0, dtype: float64

In [69]:
# df.iloc 是基于整数位置的选择数据, df.loc 是基于索引选择数据
df.iloc[0,0]

-2.0980077484728836

In [74]:
#
s = pd.Series(np.array(['I', 'Love', 'Data']), index=['a','b','c'])
s

a       I
b    Love
c    Data
dtype: object

In [None]:
# 按照索引选取
