# Lab 1. DataFrame数据集读取和分析 

Pandas是最常用的Python数据集操作模块，提供了非常便利的数据集操纵功能。Series和DataFrame是其中最主要的类。

Series对应于列，DataFrame对应于二维表。可以先定义Series再用若干个Series定义DataFrame，也可以直接定义DataFrame。

本节主要介绍DataFrame的创建和使用方法。

## 1. 从CSV文件中创建DataFrame

Pandas 的 read_csv 方法是最主要的从 CSV 文件中加载数据集的方法。

缺省情况下认为首行是属性名，即列名。也可以通过 read_csv 方法的 header 参数指定。

In [None]:
import pandas as pd
import os
import numpy as np

In [None]:
path = os.getcwd() + os.path.sep + 'iris.csv'
df = pd.DataFrame(pd.read_csv(path,header=None))
print(df.describe)
print(df.columns)
print(df.dtypes)

### 1.1 添加列名
如果数据集中不包含列名，有时需要加上列名，可用的方法有以下几种：

* 使用columns重命名
* 使用rename()方法

【注意】rename()方法默认会使用新的列名新建一个dataframe，如果要在原来的dataframe上修改，可以设置参数inplace为True

In [None]:
df.columns = ['sepallength', 'sepalwidth', 'petallength', 'petalwidth', 'class']
df.dtypes

In [None]:
df1 = df.rename(columns={'class': 'flower_subtype'})
print(df1.columns)
print(df.columns)

还可以使用 lambda 表达式进行批量修改：

In [None]:
# 去掉前两个字符
df.rename(columns=lambda x: x[1:], inplace=True)
df

### 【注意】

<b>1、对于属性比较多的数据集，可能需要用正则表达式等方法生成首行属性名。</b>

比如weka中的supermarket数据集，记录了超市中的各类商品共217个属性（包括类属性）。

In [None]:
path = os.getcwd() + os.path.sep + 'supermarket.csv'
df_market = pd.DataFrame(pd.read_csv(path))
df_market.columns

<b>2、对于大文件，需要分块读取</b>

Pandas的read_csv方法提供了众多参数，参见

https://blog.csdn.net/sinat_35562946/article/details/81058221
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html

## 2.程序中定义DataFrame

Pandas所支持的数据类型包括以下几种：
* float
* int
* bool
* datetime64
* timedelta[ns]
* category
* object

下面构建一个名为df的dataframe数据，来举例说明怎么查看数据类型以及相关判断

In [62]:
df2 = pd.DataFrame({
    #'string': ['ab','bc', 'cd'],
    'string': list('abc'),
    'int64': list(range(1,4)),
    'uint8': np.arange(3,6).astype('u1'),
    'float64': np.arange(4.0, 7.0),
    'bool1':[True, False, True],
    'bool2':[False, True, False],
    'dates':pd.date_range('now', periods=3).values,
    #'category':pd.Series(['A1','B1','C1']).astype('category')
    'category':pd.Series(list("ABC")).astype('category')
})
df2.dtypes

string              object
int64                int64
uint8                uint8
float64            float64
bool1                 bool
bool2                 bool
dates       datetime64[ns]
category          category
dtype: object

先定义Series，再定义DataFrame：

In [None]:
population_dict = {'California':38332521,
                  'Texas':26448193,
                  'New York':19651127,
                  'Florida':19552860,
                  'Illinois':12882135}
population=pd.Series(population_dict)
population

In [None]:
area_dict = {'California':423967, 'Texas':695662, 'New York':141297, 'Florida':170312, 'Illinois':149995}
area = pd.Series(area_dict)
area

In [None]:
states = pd.DataFrame({'population':population, 'area':area})
states

## 3. 查看数据

describe()方法可以显示数据集中每列的基本信息。

查看DataFrame的索引、列、值、数据类型，用 .index、.columns、.values、.dtypes 即可。

In [64]:
#df.columns

#df.describe(include='all')

#df.describe(include=np.number)

#df.describe(include='category')

#df2.describe(include=np.object)

# 如果数据集中不包含object类型的数据，则会出错：
#df.describe(include=np.object)

Unnamed: 0,string
count,3
unique,3
top,b
freq,1


## 4. 强制字段类型转换

DataFrame 中提供了 astype 方法来实现强制类型转换。astype 主要有三种用法：

* 以列表的形式列出所有要转换的列
* 转换某一个列
* 如果列名不是保留字，可以直接引用

In [None]:
df = df.astype({'class':'category'})
df['class'] = df['class'].astype('category')
df_market = df_market.total.astype('category')

print(df.dtypes)
print(df_market)

## 5. 读取数据

In [None]:
print(df.keys())
df.describe()

In [None]:
list(df.items())

获取一条实例：

In [None]:
df.loc[2]

In [None]:
df.loc[2:3]

### Python的设计原则之一是“显示优于隐式”，所以强烈推荐使用这两种索引器取值

### 5.1 切片

In [None]:
df.sepallength.loc[0:5]

### 5.2 切块

In [None]:
# 获取前三行的数据
df.loc[:2]
df.head(3)

# 获取后三行的数据
df.tail(3)

# 获取100-102行的数据
df.loc[100:102]

In [None]:
# 获取前两行的前三列数据
df.iloc[:2,:3]

In [None]:
# 筛选满足条件的数据
df[df.sepallength>7.0]

# 查看满足条件的数据的类别属性取值？


# 查看满足条件的数据的类别属性取值（不重复）？


In [None]:
# 使用索引器完成筛选
df.loc[df.sepallength>7.0, 'petalwidth']

### 5.3 分组与统计

Pandas 提供的主要累计方法有 count()、first()、last()、mean()、median()、min()、max()、std()、var()、mad()（均值绝对偏差）、prod()（所有项乘积）、sum()（所有项求和）。


<b>方法一：按列取值</b>

groupby() 方法返回的是一个 DataFrameGroupBy 对象，在进行下一步聚合运算之前，该对象不会计算。比如，下面代码可以获得不同鸢尾花类型下所有花瓣长度的中位数。

In [65]:
df.groupby('class')['petallength'].median()

class
Iris-setosa        1.50
Iris-versicolor    4.35
Iris-virginica     5.55
Name: petallength, dtype: float64

In [70]:
for (c, group) in df.groupby('class'):
    # {0:30s} 用于实现两端对齐
   print("{0:30s} shape={1}".format(c, group.shape))

Iris-setosa                    shape=(50, 5)
Iris-versicolor                shape=(50, 5)
Iris-virginica                 shape=(50, 5)


In [71]:
df.groupby('class')['petallength'].describe()

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
class,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Iris-setosa,50.0,1.464,0.173511,1.0,1.4,1.5,1.575,1.9
Iris-versicolor,50.0,4.26,0.469911,3.0,4.0,4.35,4.6,5.1
Iris-virginica,50.0,5.552,0.551895,4.5,5.1,5.55,5.875,6.9
