# 基本信息查看

Pandas 提供`Series`与`DataFrame`数据结构来存储大型数据集，`Series`用于一维数据集，`DataFrame`用于表格式数据集。创建`Series`与`DataFrame`对象来组织管理数据集，首要的是了解数据集中包含有哪些数据，为何种数据，数据规模是多少？掌握了数据集的基本概况，才方便后续的数据分析。本节会介绍如何查看数据集的基本信息。

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

## 查看对象属性

通过查看`Series`与`DataFrame`对象的一些属性，可以快速查看数据集包含的数据，数据类型与规模如何。

这里仍然使用上节的饭店示例来一些`Series`与`DataFrame`对象：

In [None]:
from datetime import datetime
# 时间
times = [datetime(2018, 10, 10, 6), datetime(2018, 10, 10, 7), 
         datetime(2018, 10, 10, 8), datetime(2018, 10, 10, 11), 
         datetime(2018, 10, 10, 12), datetime(2018, 10, 10, 13), 
         datetime(2018, 10, 10, 18), datetime(2018, 10, 10, 19), 
         datetime(2018, 10, 10, 20), datetime(2018, 10, 10, 21)]
# 餐时标识，顾客人数、平均消费、总消费
meals = np.array(['B', 'B', 'B', 'L', 'L', 'L', 'D', 'D', 'D', 'D'])
customers = np.array([60, 70, 65, 100, 230, 150, 100, 300, 250, 150])
costs = np.array([6.5, 7, 8, 24, 23, 26, 45, 55.5, 45, 40])
total_costs = customers * costs

# 创建Series、DataFrame对象
ser = pd.Series(customers, index=times)
data = {'meals': meals, 'customers': customers, 'costs': costs, 'total_costs': total_costs}
df = pd.DataFrame(data, index=times)

访问如下属性来查看数据集
- `shape`，数据集的维度，元组对象。
- `index, columns`，数据集的索引，索引对象。
- `dtypes`，数据集数据类型。
- `values`, 数据集的数据。

`Series` 对象是一维数据，属性`shape`为数据集大小；`DataFrame` 对象是表格式数据集，属性`shape`返回数据数及规模大小。在这里的示例中，`Series` 对象的数据集大小为10，`Series` 对象的数据集包括4组数据，大小为10：

In [None]:
# Series对象维度
print(ser.shape)
# DataFrame对象维度
print(df.shape)

`Series` 对象只有索引`index`，`DataFrame` 对象则包括行索引与列索引。在这里的示例中，`Series` 对象的索引是一个日期索引对象；`DataFrame`对象的行索引是日期索引对象，列索引是索引对象，包含4个列名。

In [None]:
# Series对象的索引
ser.index

In [None]:
# DataFrame对象的行索引
df.index

In [None]:
# DataFrame对象的列索引
df.columns

`Series` 对象是一维数据集，其`dtypes`返回一个数据类型对象；`DataFrame`是表格式数据集，其`dtypes`会返回一个序列，分别为列名与对应数据类型。Pandas 支持的数据类型主要有如下：
- `bool`：布尔类型
- `int`： 整型类型
- `float`：浮点数类型
- `object`：字符串类型
- `datetime`：日期类型

In [None]:
# Series对象的数据类型，整数
ser.dtypes

In [None]:
# DataFrame对象的数据类型
df.dtypes

对于`Series` 对象，其`values`属性会返回一个一维数组对象，`DataFrame`则返回二维数组对象：

In [None]:
# Series对象的数据
ser.values

In [None]:
# DataFrame对象的数据
df.values

通过查看`Series`与`DataFrame`对象这些属性，初步了解数据集有几组数据、数据规模如何，什么数据类型。

## 查看数据集概况

`Series`与`DataFrame` 对象提供有方法`memory_usage()`，用来查看对象占用内存，其使用语法为：
```python
memory_usage(index=True, deep=False)
```

In [None]:
# 数据集占用内存
print(ser.memory_usage(deep=True))
print(df.memory_usage(deep=True).sum())

对于`DataFrame`对象，除了查看上述属性方法外，还可使用其`info()`方法来查看数据集概况信息，其使用语法为：
```python
df.info(verbose=None, buf=None, max_cols=None, memory_usage=None, null_counts=None)
```
主要参数说明
- `memory_usage`，指定为`deep`会返回数据集占用内存

该方法会返回索引信息、列信息、每列类型及非空数据数目、数据类型计数以及占用内存。

In [None]:
df.info(memory_usage='deep')

## 查看抽样数据

Pandas 通常用来处理中等规模大小的数据集，其数据集大小可从几条到百万条数据。使用`Series`与`DataFrame`如下方法可以抽样查看数据集数据，快速获得数据集大概印象：
- `head(n=5)`，查看头部几行数据：
- `tail(n=5)`，查看尾部几行数据：
- `sample(n=None, frac=None，...)`，随机查看数据 

In [None]:
# 头部数据
ser.head()

In [None]:
# 尾部数据
df.tail(3)

In [None]:
# 随机抽样数据
df.sample(5)

In [None]:
# 随机抽样数据 
df.sample(frac=0.3)

## 小结

本节介绍了如何通过对象属性（`shape, index, columns, dtypes, values`）来查看数据。同时还介绍了用于数据集概况与数据抽样的常用查看方法：
- `memory_usage()`
- `info()`
- `head()`
- `tail()`
- `sample()`