# Lab 1. DataFrame数据集读取和分析 

Pandas是最常用的Python数据集操作模块，提供了非常便利的数据集操纵功能。Series和DataFrame是其中最主要的类。

Series对应于列，DataFrame对应于二维表。可以先定义Series再用若干个Series定义DataFrame，也可以直接定义DataFrame。

本节主要介绍DataFrame的创建和使用方法。

## 1. 从CSV文件中创建DataFrame

Pandas 的 read_csv 方法是最主要的从 CSV 文件中加载数据集的方法。

缺省情况下认为首行是属性名，即列名。也可以通过 read_csv 方法的 header 参数指定。

In [3]:
import pandas as pd
import os
import numpy as np

E:\python\JupterSpace\数据挖掘\


In [19]:
path = os.getcwd() + os.path.sep + '/data/iris.csv'
df = pd.DataFrame(pd.read_csv(path,header=None))
df.describe()
print("df.cloumns")
print(df.columns)
print("df.dtype")
print(df.dtypes)

df.cloumns
Int64Index([0, 1, 2, 3, 4], dtype='int64')
df.dtype
0    float64
1    float64
2    float64
3    float64
4     object
dtype: object


### 1.1 添加列名
如果数据集中不包含列名，有时需要加上列名，可用的方法有以下几种：

* 使用columns重命名
* 使用rename()方法

【注意】rename()方法默认会使用新的列名新建一个dataframe，如果要在原来的dataframe上修改，可以设置参数inplace为True

In [11]:
df.columns = ['sepallength', 'sepalwidth', 'petallength', 'petalwidth', 'class']
# df.dtypes
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
sepallength    150 non-null float64
sepalwidth     150 non-null float64
petallength    150 non-null float64
petalwidth     150 non-null float64
class          150 non-null object
dtypes: float64(4), object(1)
memory usage: 5.9+ KB


In [7]:
df1 = df.rename(columns={'class': 'flower_subtype'})
print(df1.columns)
print(df.columns)

Index(['sepallength', 'sepalwidth', 'petallength', 'petalwidth',
       'flower_subtype'],
      dtype='object')
Index(['sepallength', 'sepalwidth', 'petallength', 'petalwidth', 'class'], dtype='object')


还可以使用 lambda 表达式进行批量修改：

In [None]:
# 去掉前两个字符
df.rename(columns=lambda x: x[1:], inplace=True)
df

### 【注意】

<b>1、对于属性比较多的数据集，可能需要用正则表达式等方法生成首行属性名。</b>

比如weka中的supermarket数据集，记录了超市中的各类商品共217个属性（包括类属性）。

In [36]:
path = os.getcwd() + os.path.sep + '/data/supermarket.csv'
df_market = pd.DataFrame(pd.read_csv(path))
df_market.columns

Index(['department1', 'department2', 'department3', 'department4',
       'department5', 'department6', 'department7', 'department8',
       'department9', 'grocery misc',
       ...
       'department208', 'department209', 'department210', 'department211',
       'department212', 'department213', 'department214', 'department215',
       'department216', 'total'],
      dtype='object', length=217)

<b>2、对于大文件，需要分块读取</b>

Pandas的read_csv方法提供了众多参数，参见

https://blog.csdn.net/sinat_35562946/article/details/81058221
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html

## 2.程序中定义DataFrame

Pandas所支持的数据类型包括以下几种：
* float
* int
* bool
* datetime64
* timedelta[ns]
* category
* object

下面构建一个名为df的dataframe数据，来举例说明怎么查看数据类型以及相关判断

In [25]:
df2 = pd.DataFrame({
    #'string': ['ab','bc', 'cd'],
    'string': list('abc'),
    'int64': list(range(1,4)),
    'uint8': np.arange(3,6).astype('u1'),
    'float64': np.arange(4.0, 7.0),
    'bool1':[True, False, True],
    'bool2':[False, True, False],
    'dates':pd.date_range('now', periods=3).values,
    #'category':pd.Series(['A1','B1','C1']).astype('category')
    'category':pd.Series(list("ABC")).astype('category')
})
df2
# df2.dtypes #查看对应的类型

Unnamed: 0,string,int64,uint8,float64,bool1,bool2,dates,category
0,a,1,3,4.0,True,False,2019-09-18 17:03:28.724923,A
1,b,2,4,5.0,False,True,2019-09-19 17:03:28.724923,B
2,c,3,5,6.0,True,False,2019-09-20 17:03:28.724923,C


先定义Series(列)，再定义DataFrame：

In [22]:
population_dict = {'California':38332521,
                  'Texas':26448193,
                  'New York':19651127,
                  'Florida':19552860,
                  'Illinois':12882135}
population=pd.Series(population_dict)
population

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

In [23]:
area_dict = {'California':423967, 'Texas':695662, 'New York':141297, 'Florida':170312, 'Illinois':149995}
area = pd.Series(area_dict)
area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
dtype: int64

In [27]:
states = pd.DataFrame({'population':population, 'area':area}) #将上述定义的二个数据集重新合成一个新的数据集
states

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


## 3. 查看数据

describe()、info()方法可以显示数据集中每列的基本信息。如果数据集中包含多个类型的字段，describe()方法会因为数据冗余而只显示主要数据类型的信息，而info()方法会显示所有属性的信息。

查看DataFrame的索引、列、值、数据类型，用 .index、.columns、.values、.dtypes 即可。

In [34]:
# print("df.info()")
# df.info()
print("df.columns")
df.columns
# print("df.describe(include='all')")
# df.describe(include='all')
# print("df.describe(include=np.number)")
# df.describe(include=np.number)
# print("df.describe(include='category')")
# df.describe(include='category')
# print("df2.describe(include=np.object)")
# df2.describe(include=np.object)

# 如果数据集中不包含object类型的数据，则会出错：
#df.describe(include=np.object)

df.columns


Int64Index([0, 1, 2, 3, 4], dtype='int64')

## 4. 强制字段类型转换

DataFrame 中提供了 astype 方法来实现强制类型转换。astype 主要有三种用法：

* 以列表的形式列出所有要转换的列
* 转换某一个列
* 如果列名不是保留字，可以直接引用

In [47]:
df = df.astype({'class':'category'})
df['class'] = df['class'].astype('category')
df_market = df_market.total.astype('category')
# df.info()
print(df.info)
print(df_market)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
0    150 non-null float64
1    150 non-null float64
2    150 non-null float64
3    150 non-null float64
4    150 non-null object
dtypes: float64(4), object(1)
memory usage: 5.9+ KB


## 5. 读取数据

In [None]:
print(df.keys())
df.describe()

In [None]:
list(df.items())

获取一条实例：

In [None]:
df.loc[2]

In [None]:
df.loc[2:3]

### Python的设计原则之一是“显示优于隐式”，所以强烈推荐使用这两种索引器取值

### 5.1 切片

In [None]:
df.sepallength.loc[0:5]

### 5.2 切块

In [None]:
# 获取前三行的数据
df.loc[:2]
df.head(3)

# 获取后三行的数据
df.tail(3)

# 获取100-102行的数据
df.loc[100:102]

In [None]:
# 获取前两行的前三列数据
df.iloc[:2,:3]

In [None]:
# 筛选满足条件的数据
df[df.sepallength>7.0]

# 查看满足条件的数据的类别属性取值？


# 查看满足条件的数据的类别属性取值（不重复）？


In [None]:
# 使用索引器完成筛选
df.loc[df.sepallength>7.0, 'petalwidth']

## 6. 修改数据

DataFrame 可以用 loc 索引器来实现数据的修改，loc方法实际上是定位某个位置的数据的，但是定位完以后就可以对此位置的数据进行修改，可以进行的修改如下：

* 对某行、某N行进行修改；
* 对某列、某N列进行修改；
* 对横坐标为某行或某N行，纵坐标为某列或者某N列的数据进行修改；

### 6.1 对某行、某N行进行修改

In [None]:
df.head(2)

In [None]:
df.loc[1:1, ('sepallength', 'sepalwidth', 'petallength', 'petalwidth', 'class')]=[5.0, 3.1, 1.5, 0.3, 'Iris-setosa']
df.head(2)

In [None]:
df.loc[0:1, ('sepallength', 'sepalwidth', 'petallength', 'petalwidth', 'class')]=[[5.2, 3.6, 1.5, 0.3, 'Iris-setosa'],[5.0, 3.1, 1.5, 0.3, 'Iris-setosa']]
df.head(2)

### 6.2 对某列、某N列进行修改

In [None]:
df.loc[0:1,('petalwidth')]=1.4
df.head(2)