# Using Python to read data fiels and explore their contents 
## Python中的数据类型
* **boolean** 布尔
* **integer** 整型
* **float**  浮点型
* **string** 字符串
* **list**   列表
* **NoneType**   
* complex   复数
* object    对象
* set       集合
* dictionary  字典

本文仅介绍加粗部分

## 数值变量（计算平均值是有意义的）
* 离散型数值变量
  - int 
* 连续型数值变量
  - float

### int

In [1]:
type(4)

int

In [2]:
type(0)

int

In [3]:
type(-3)

int

In [4]:
# 尝试计算平均值
numbers = [2, 3, 4, 5]
print(sum(numbers) / len(numbers))
type(sum(numbers) / len(numbers))

3.5


float

### float

In [5]:
print(3/5)
type(3/5)

0.6


float

In [6]:
import math
print(math.pi)
type(math.pi)

3.141592653589793


float

In [7]:
type(4.0)

float

In [8]:
# 尝试计算平均值
numbers = [math.pi, 3/5, 4.1]
type(sum(numbers) / len(numbers))

float

## 分类变量
* 名义分类变量
  - bool
  - str
  - NoneType
* 有序分类变量
  - 仅由如何使用数据来定义
  - 在创建视觉效果时往往很重要
  - 列表 `list` 可以容纳许多不同的类型，可以用来存储顺序信息，所以可以认为是分类变量，也可以是数值变量，也可以什么都没有，取决于如何使用

### bool

In [9]:
type(True)

bool

In [10]:
if 6 < 5:
    print("Yes!")

In [11]:
myList = [True, 6<5, 1==3, None is None]
for element in myList:
    print(element)
    print(type(element))

True
<class 'bool'>
False
<class 'bool'>
False
<class 'bool'>
True
<class 'bool'>


In [12]:
print(sum(myList) / len(myList))
type(sum(myList) / len(myList))

0.5


float

### string

In [13]:
type("This is a sentence")

str

In [14]:
type("hello")

str

In [15]:
type("math.pi")

str

In [16]:
strList = ['dog', 'koala', 'goose']
try:
    sum(strList) / len(strList)
except TypeError: 
    print("TypeError")

TypeError


### NoneType

In [17]:
type(None)

NoneType

In [18]:
x = None
type(x)

NoneType

In [19]:
noneList = [None] * 5
print(noneList)
try:
    sum(noneList) / len(noneList)
except TypeError:
    print("TypeError")

[None, None, None, None, None]
TypeError


### list

In [20]:
myList = [1, 1.1, "This is a sentence", None]
for element in myList:
    print(element)
    print(type(element))

1
<class 'int'>
1.1
<class 'float'>
This is a sentence
<class 'str'>
None
<class 'NoneType'>


In [21]:
try:
    sum(myList) / len(myList)
except TypeError:
    print("TypeError")

TypeError


In [22]:
myList = [1, 2, 3]
for element in myList:
    print(element)
    print(type(element))
try: 
    print(sum(myList) / len(myList))
    print(type((sum(myList) / len(myList))))
except TypeError:
    print("TypeError")

1
<class 'int'>
2
<class 'int'>
3
<class 'int'>
2.0
<class 'float'>


In [23]:
myList = ["third", "first", "medium", "small", "large"]
myList[0]

'third'

In [24]:
myList.sort()
myList

['first', 'large', 'medium', 'small', 'third']

## Python 库
* **Numpy**
  - 处理数组数据
* **Pandas**
  - 提供高性能、易于使用的数据结构和数据分析工具
* **Scipy**
  - 用于数值和科学计算
* **Matplotlib**
  - 用于制作图形
* **Seaborn**
  - 是 Matplotlib 的一个高级接口，可以用来简化许多绘图任务
* **Statsmodels**
  - 实现许多统计技术


### 导入库

In [25]:
import numpy as np
import pandas as pd

### 使用库的函数

In [26]:
a = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10])
np.mean(a)

5.0

## 数据管理
数据管理在统计分析和数据科学工作中是一个重要的组成部分，接下来的部分将会展示如何通过 Pandas 导入数据、显示数据、改变数据
Pandas 中主要的数据结构是 **Data Frame** ,这是一个二维数据表，其中行通常代表每一个样本，列代表变量
Pandas 还有一种一维数据结构 **Series** ，在访问 **Data Frame** 的单列时，就会用到这种结构

Pandas 有许多名为"`read_xxx`"函数，用于读取不同格式的数据，如：csv文件、EXCEL、JSON、SQL

### 导入数据

In [27]:
url = "Cartwheeldata.csv"
df = pd.read_csv(url)
type(df)

pandas.core.frame.DataFrame

### 显示数据

In [28]:
df.head()

Unnamed: 0,ID,Age,Gender,GenderGroup,Glasses,GlassesGroup,Height,Wingspan,CWDistance,Complete,CompleteGroup,Score
0,1,56,F,1,Y,1,62.0,61.0,79,Y,1,7
1,2,26,F,1,Y,1,62.0,60.0,70,Y,1,8
2,3,33,F,1,Y,1,66.0,64.0,85,Y,1,7
3,4,39,F,1,N,0,64.0,63.0,87,Y,1,10
4,5,27,M,2,N,0,73.0,75.0,72,N,0,4


In [29]:
df

Unnamed: 0,ID,Age,Gender,GenderGroup,Glasses,GlassesGroup,Height,Wingspan,CWDistance,Complete,CompleteGroup,Score
0,1,56,F,1,Y,1,62.0,61.0,79,Y,1,7
1,2,26,F,1,Y,1,62.0,60.0,70,Y,1,8
2,3,33,F,1,Y,1,66.0,64.0,85,Y,1,7
3,4,39,F,1,N,0,64.0,63.0,87,Y,1,10
4,5,27,M,2,N,0,73.0,75.0,72,N,0,4
5,6,24,M,2,N,0,75.0,71.0,81,N,0,3
6,7,28,M,2,N,0,75.0,76.0,107,Y,1,10
7,8,22,F,1,N,0,65.0,62.0,98,Y,1,9
8,9,29,M,2,Y,1,74.0,73.0,106,N,0,5
9,10,33,F,1,Y,1,63.0,60.0,65,Y,1,8


In [30]:
df.columns

Index(['ID', 'Age', 'Gender', 'GenderGroup', 'Glasses', 'GlassesGroup',
       'Height', 'Wingspan', 'CWDistance', 'Complete', 'CompleteGroup',
       'Score'],
      dtype='object')

### .loc()
.loc[] 通过 label 或者布尔数组访问一组行和列

可以输入：
* 一个单一的标签，如：5(5是索引的标签，而不是索引的整数位置)，'a'
* 一个标签的列表/数组，如：['a', 'b', 'c']
* 一个带标签的切片对象，如：'a':'f'
* 一个布尔数组，长度与被切分的轴相同，如：[True, False, True]
* 一个具有一个参数（调用 Series / DataFrame）的可调用函数，并返回有效的索引输出

In [31]:
df.loc[:,"CWDistance"]

0      79
1      70
2      85
3      87
4      72
5      81
6     107
7      98
8     106
9      65
10     96
11     79
12     92
13     66
14     72
15    115
16     90
17     74
18     64
19     85
20     66
21    101
22     82
23     63
24     67
Name: CWDistance, dtype: int64

In [32]:
df.loc[:,["CWDistance", "Height", "Wingspan"]]

Unnamed: 0,CWDistance,Height,Wingspan
0,79,62.0,61.0
1,70,62.0,60.0
2,85,66.0,64.0
3,87,64.0,63.0
4,72,73.0,75.0
5,81,75.0,71.0
6,107,75.0,76.0
7,98,65.0,62.0
8,106,74.0,73.0
9,65,63.0,60.0


In [33]:
df.loc[:9, ["CWDistance", "Height", "Wingspan"]]

Unnamed: 0,CWDistance,Height,Wingspan
0,79,62.0,61.0
1,70,62.0,60.0
2,85,66.0,64.0
3,87,64.0,63.0
4,72,73.0,75.0
5,81,75.0,71.0
6,107,75.0,76.0
7,98,65.0,62.0
8,106,74.0,73.0
9,65,63.0,60.0


In [34]:
df.loc[10:15]

Unnamed: 0,ID,Age,Gender,GenderGroup,Glasses,GlassesGroup,Height,Wingspan,CWDistance,Complete,CompleteGroup,Score
10,11,30,M,2,Y,1,69.5,66.0,96,Y,1,6
11,12,28,F,1,Y,1,62.75,58.0,79,Y,1,10
12,13,25,F,1,Y,1,65.0,64.5,92,Y,1,6
13,14,23,F,1,N,0,61.5,57.5,66,Y,1,4
14,15,31,M,2,Y,1,73.0,74.0,72,Y,1,9
15,16,26,M,2,Y,1,71.0,72.0,115,Y,1,6


In [35]:
df.loc[:9, "CWDistance"]

0     79
1     70
2     85
3     87
4     72
5     81
6    107
7     98
8    106
9     65
Name: CWDistance, dtype: int64

### .iloc()
单纯基于整数位置的索引，用于按位置进行选择

.iloc[] 主要是基于整数位置的，从0到轴长度-1，也可以使用布尔数组

可以输入：
* 一个整数，如：5
* 一个整数的列表/数组，如：[4, 3, 0]
* 一个包含整数的切片对象，如: 1:7
* 一个布尔数组
* 一个有一个参数（Series 或 DataFrame）的可调用函数，并返回有效的输出以进行索引

In [36]:
df.iloc[:4]

Unnamed: 0,ID,Age,Gender,GenderGroup,Glasses,GlassesGroup,Height,Wingspan,CWDistance,Complete,CompleteGroup,Score
0,1,56,F,1,Y,1,62.0,61.0,79,Y,1,7
1,2,26,F,1,Y,1,62.0,60.0,70,Y,1,8
2,3,33,F,1,Y,1,66.0,64.0,85,Y,1,7
3,4,39,F,1,N,0,64.0,63.0,87,Y,1,10


In [37]:
df.iloc[1:5, 2:4]

Unnamed: 0,Gender,GenderGroup
1,F,1
2,F,1
3,F,1
4,M,2


In [38]:
try:
    df.iloc[1:5, ["Gender", "GenderGroup"]]
except IndexError:
    print("IndexError")

IndexError


In [39]:
df.dtypes

ID                 int64
Age                int64
Gender            object
GenderGroup        int64
Glasses           object
GlassesGroup       int64
Height           float64
Wingspan         float64
CWDistance         int64
Complete          object
CompleteGroup      int64
Score              int64
dtype: object

In [40]:
# 列出df["Gender"]列中的唯一值
df.Gender.unique()

array(['F', 'M'], dtype=object)

In [41]:
# 列出df["GenderGroup"]列中的唯一值
df.GenderGroup.unique()

array([1, 2], dtype=int64)

In [42]:
df.loc[:,["Gender", "GenderGroup"]]

Unnamed: 0,Gender,GenderGroup
0,F,1
1,F,1
2,F,1
3,F,1
4,M,2
5,M,2
6,M,2
7,F,1
8,M,2
9,F,1


In [43]:
df.groupby(["Gender", "GenderGroup"]).size()

Gender  GenderGroup
F       1              12
M       2              13
dtype: int64

In [44]:
# 这个输出表明，有两种联系
# 1. Gender = F & GenderGroup = 1
# 2. Gender = M & GenderGroup = 2

## 使用 Python 读文件、探究其内容
### 导入包

In [45]:
import pandas as pd

### 读数据文件

In [46]:
url = "nhanes_2015_2016.csv"
da = pd.read_csv(url)
da.shape

(5735, 28)

### 探索数据集的内容

In [47]:
da.columns

Index(['SEQN', 'ALQ101', 'ALQ110', 'ALQ130', 'SMQ020', 'RIAGENDR', 'RIDAGEYR',
       'RIDRETH1', 'DMDCITZN', 'DMDEDUC2', 'DMDMARTL', 'DMDHHSIZ', 'WTINT2YR',
       'SDMVPSU', 'SDMVSTRA', 'INDFMPIR', 'BPXSY1', 'BPXDI1', 'BPXSY2',
       'BPXDI2', 'BMXWT', 'BMXHT', 'BMXBMI', 'BMXLEG', 'BMXARML', 'BMXARMC',
       'BMXWAIST', 'HIQ210'],
      dtype='object')

In [48]:
da.dtypes

SEQN          int64
ALQ101      float64
ALQ110      float64
ALQ130      float64
SMQ020        int64
RIAGENDR      int64
RIDAGEYR      int64
RIDRETH1      int64
DMDCITZN    float64
DMDEDUC2    float64
DMDMARTL    float64
DMDHHSIZ      int64
WTINT2YR    float64
SDMVPSU       int64
SDMVSTRA      int64
INDFMPIR    float64
BPXSY1      float64
BPXDI1      float64
BPXSY2      float64
BPXDI2      float64
BMXWT       float64
BMXHT       float64
BMXBMI      float64
BMXLEG      float64
BMXARML     float64
BMXARMC     float64
BMXWAIST    float64
HIQ210      float64
dtype: object

### 分割数据集

In [49]:
w = da["DMDEDUC2"]
x = da.loc[:,"DMDEDUC2"]
y = da.DMDEDUC2
# DMDEDUC2 在第10列
z = da.iloc[:,9]

In [50]:
print(w.max())
print(x.max())
print(y.max())
print(z.max())

9.0
9.0
9.0
9.0


In [51]:
print("The type of varable is", type(da))

The type of varable is <class 'pandas.core.frame.DataFrame'>


In [52]:
print("The type of one column of the DataFrame is", type(da.DMDEDUC2))

The type of one column of the DataFrame is <class 'pandas.core.series.Series'>


In [53]:
print("The type of one row of the DataFrame is", type(da.iloc[2,:]))

The type of one row of the DataFrame is <class 'pandas.core.series.Series'>


In [54]:
# 从数据集中提取第三行（从 0 开始计算）
x = da.iloc[3,:]

In [55]:
# 从数据集中提取第三行和第四行（从 0 开始计算）
x = da.iloc[3:5,:]

In [56]:
# 从数据集中提取第二列、第三列、第四列（从 0 开始计算）
y = da.iloc[:, 2:5]

### 缺失值
`isnull` 和 `notnull`函数可以确定缺失值和非缺失值在 DataFrame 中的位置

In [57]:
# da["DMDEDUC2"]缺失值的总数
print(pd.isnull(da.DMDEDUC2).sum())

261


In [58]:
# da["DMDEDUC2"]非缺失值的总数
print(pd.notnull(da.DMDEDUC2).sum())

5474


In [59]:
# week1 - End