In [20]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all" 

# 使用指南

速查：https://www.dataquest.io/blog/pandas-cheat-sheet/

官网：https://pandas.pydata.org/

源码：https://github.com/pandas-dev/pandas

## 基本的读写数据

### CSV 文件

CSV（Comma-Separated Values，逗号分隔值，有时也称为字符分隔值，因为分隔字符也可以不是逗号），其文件以纯文本形式存储表格数据（数字和文本）。

### JSON文件

JSON（JavaScript Object Notation，JavaScript 对象表示法），是存储和交换文本信息的语法，类似 XML。

JSON 比 XML 更小、更快，更易解析。

### 读数据

最常用的功能：read_csv, read_excel, read_clipboard, read_sql

data = pd.read_csv( my_file.csv )

data = pd.read_csv( my_file.csv , sep= ; , encoding= latin-1 , nrows=1000, skiprows=[2,5])

### 写数据

最常用的功能：to_csv, to_excel, to_json, to_pickle 

data.to_csv( my_new_file.csv , index=None)

## 基本的绘图

可以直接在 pandas 中使用matplotlib。（.plot()）

在画图之前加上    %matplotlib inline

## 数据结构

1. Series: 类似于一维数组的对象，它由一组数据（各种Numpy数据类型）以及一组与之相关的数据标签（即索引）组成。

    a one-dimensional labeled array holding data of any type, such as integers, strings, Python objects etc.

2. DataFrame: 一个表格型的数据结构，它含有一组有序的列，每列可以是不同的值类型（数值、字符串、布尔型值）。DataFrame 既有行索引也有列索引，它可以被看做由 Series 组成的字典（共同用一个索引）。

    a two-dimensional data structure that holds data like a two-dimension array or a table with rows and columns.


### Series

Series 类似表格中的一个列（column），类似于一维数组，可以保存任何数据类型。

Series 由索引（index）和列组成，函数如下：

pandas.Series( data, index, dtype, name, copy)

- data：一组数据(ndarray 类型)。

- index：数据索引标签，如果不指定，默认从 0 开始。

- dtype：数据类型，默认会自己判断。

- name：设置名称。

- copy：拷贝数据，默认为 False。

### DataFrame

DataFrame 是一个表格型的数据结构，它含有一组有序的列，每列可以是不同的值类型（数值、字符串、布尔型值）。DataFrame 既有行索引也有列索引，它可以被看做由 Series 组成的字典（共同用一个索引）。

Pandas DataFrame 是一个二维的数组结构，类似二维数组。

DataFrame 构造方法如下：

pandas.DataFrame( data, index, columns, dtype, copy)

- data：一组数据(ndarray、series, map, lists, dict 等类型)。

- index：索引值，或者可以称为行标签。

- columns：列标签，默认为 RangeIndex (0, 1, 2, …, n) 。

- dtype：数据类型。

- copy：拷贝数据，默认为 False。





In [25]:
import numpy as np
import pandas as pd
np.__version__
pd.__version__
s = pd.Series([1, 3, 5, np.nan, 6, 8])
s
pd.DataFrame({'A':[1,2,3]})

'1.26.0'

'2.0.3'

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

Unnamed: 0,A
0,1
1,2
2,3


In [22]:
dates = pd.date_range("20130101", periods=6)
dates

DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')

In [23]:
df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list("ABCD"))
df

df.head()
# df.head(3)
df.tail(3)

df.index
df.columns

df.to_numpy()

Unnamed: 0,A,B,C,D
2013-01-01,0.018891,1.270398,0.278518,0.304399
2013-01-02,0.880381,-1.25034,-0.258003,1.246572
2013-01-03,1.854067,0.197671,0.307295,-0.010346
2013-01-04,-0.063532,-0.2338,0.540343,0.153033
2013-01-05,0.543097,0.670187,0.120064,0.055278
2013-01-06,0.129532,-0.241251,1.101101,-0.155301


Unnamed: 0,A,B,C,D
2013-01-01,0.018891,1.270398,0.278518,0.304399
2013-01-02,0.880381,-1.25034,-0.258003,1.246572
2013-01-03,1.854067,0.197671,0.307295,-0.010346
2013-01-04,-0.063532,-0.2338,0.540343,0.153033
2013-01-05,0.543097,0.670187,0.120064,0.055278


Unnamed: 0,A,B,C,D
2013-01-04,-0.063532,-0.2338,0.540343,0.153033
2013-01-05,0.543097,0.670187,0.120064,0.055278
2013-01-06,0.129532,-0.241251,1.101101,-0.155301


DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')

Index(['A', 'B', 'C', 'D'], dtype='object')

array([[ 0.01889097,  1.27039761,  0.2785179 ,  0.30439949],
       [ 0.88038077, -1.25034042, -0.25800263,  1.24657216],
       [ 1.85406723,  0.19767062,  0.30729492, -0.01034614],
       [-0.063532  , -0.23379966,  0.54034342,  0.15303263],
       [ 0.54309682,  0.67018686,  0.12006427,  0.05527811],
       [ 0.12953247, -0.24125069,  1.10110117, -0.15530121]])

In [24]:
df2 = pd.DataFrame(

    {

        "A": 1.0,

        "B": pd.Timestamp("20130102"),

        "C": pd.Series(1, index=list(range(4)), dtype="float32"),

        "D": np.array([3] * 4, dtype="int32"),

        "E": pd.Categorical(["test", "train", "test", "train"]),

        "F": "foo",

    }

)
df2
df2.dtypes

Unnamed: 0,A,B,C,D,E,F
0,1.0,2013-01-02,1.0,3,test,foo
1,1.0,2013-01-02,1.0,3,train,foo
2,1.0,2013-01-02,1.0,3,test,foo
3,1.0,2013-01-02,1.0,3,train,foo


A           float64
B    datetime64[ns]
C           float32
D             int32
E          category
F            object
dtype: object

## SQL数据关联

merge

## 数据分组

groupby

# 数据清洗

数据清洗是对一些没有用的数据进行处理的过程。

很多数据集存在数据缺失、数据格式错误、错误数据或重复数据的情况，如果要使数据分析更加准确，就需要对这些没有用的数据进行处理。

## 清洗空值

dropna() 方法，语法格式：

DataFrame.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)

## 清洗格式错误数据

## 清洗错误数据

## 清洗重复数据

# 常用函数

https://www.runoob.com/pandas/pandas-functions.html

## 读取数据

函数	说明
pd.read_csv(filename)	读取 CSV 文件；
pd.read_excel(filename)	读取 Excel 文件；
pd.read_sql(query, connection_object)	从 SQL 数据库读取数据；
pd.read_json(json_string)	从 JSON 字符串中读取数据；
pd.read_html(url)	从 HTML 页面中读取数据。


## 查看数据

## 数据清洗

## 数据选择和切片

## 数据排序

## 数据分组和聚合

## 数据合并

## 数据选择和过滤

## 数据统计和描述