# Pandas学习笔记

![panadas图标](https://extraimage.net/images/2019/09/23/49c74b414c5244690b0adbd47285400f.png)

## 1.  Pandas是什么

> - Pandas是一个强大的分析结构化数据的工具集；
> - 它的使用基础是Numpy（提供高性能的矩阵运算）(提供了高级的数据结构与工具)；
> - 用于数据挖掘和数据分析，同时也提供数据清洗功能。


对于pandas我们主要集中在以下几个方面：<br>
- 数据类型
- 数据读取
- 数据选择
- 数据删减
- 数据填充

# 2. Pandas基本数据结构

Pandas 的数据类型主要有以下几种，它们分别是：Series（一维数组），DataFrame（二维数组），Panel（三维数组），Panel4D（四维数组），PanelND（更多维数组）。其中 Series 和 DataFrame 应用的最为广泛，几乎占据了使用频率 90% 以上。

> - **series**:类似于Numpy中的ndarray,差别主要体现在两个方面：
  - - series中的数据可以是不同类型的，ndarray中的数据必须是同类型的；
  - - series的索引可以为字符型类型；
  
> Series 基本结构如下：

```python
    pandas.Series(data=None, index=None，dtype=None,Name=None)
```
- - 其中，data 可以是字典，或者NumPy 里的 ndarray 对象等。index 是数据索引，索引是 Pandas 数据结构中的一大特性，它主要的功能是帮助我们更快速地定位数据。  
  
> - **dataframe**: 具有行索引和列索引的数据，类似于关系数据库中的关系数据。你可以把 DataFrame 看成是 Series 的扩展类型，它仿佛是由多个 Series 拼合而成。它和 Series 的直观区别在于，数据不但具有行索引，且具有列索引。

![dataframe](https://doc.shiyanlou.com/courses/uid214893-20190531-1559284057250)

> 使用pandas必须首先导入pandas库 import pandas as pd

## 2.1 Series

In [24]:

import numpy as np
import pandas as pd

print(pd.__version__)

mine=pd.Series(np.random.randint(80,100,5),index=["Math","PE","English","Chinese","Physics"])
print(mine)

0.24.2
Math       90
PE         83
English    88
Chinese    98
Physics    80
dtype: int32


In [30]:
# 查看索引值
print(mine.index)

Index(['Math', 'PE', 'English', 'Chinese', 'Physics'], dtype='object')


In [28]:
#series 获取数据的方法同numpy类似，但其不支持负索引
print(mine[0])
print(mine.Math)

90
90



**练习题1：** <br>
如上所示，该 Series 的数据值是 10, 20, 30，索引为 a, b, c，数据值的类型默认识别为 int64。你可以通过 type 来确认 s 的类型。

## 2.2 DataFrame
<br>
DataFrame的基本用法如下：


```python
    pandas.DataFrame(data=None, index=None, columns=None)                    
```

区别于 Series，其增加了 columns 列索引。DataFrame 可以由以下多个类型的数据构建：

- 一维数组、列表、字典或者 Series 字典。
- 二维或者结构化的 numpy.ndarray。
- 一个 Series 或者另一个 DataFrame。

In [41]:
import pandas as pd

df = pd.DataFrame({'one': pd.Series([1, 2, 3]),
                   'two': pd.Series([4, 5, 6])})
print(df)

   one  two
0    1    4
1    2    5
2    3    6


In [46]:
cd = pd.DataFrame({'one':{0:1,1:2,2:3},
              'two':{0:4,1:5,2:7}})
print(cd)

   one  two
0    1    4
1    2    5
2    3    7


In [8]:
import pandas as pd 

df = pd.DataFrame([{'one': 1, 'two': 4},
                   {'one': 2, 'two': 5},
                   {'one': 3, 'two': 6}])
print(df)

   one  two
0    1    4
1    2    5
2    3    6


**练习2：**
<br>
分别使用字典和多维字典数组构建两个DataFrame

In [12]:
# 利用numpy中的多维数组构建dataframe
import numpy as np
import pandas as pd

df = pd.DataFrame(np.random.binomial(100,0.8,(3,4)))
print(df)

df= pd.DataFrame(np.eye(5))
print(df)


    0   1   2   3
0  76  85  76  81
1  84  88  83  84
2  78  79  81  81
     0    1    2    3    4
0  1.0  0.0  0.0  0.0  0.0
1  0.0  1.0  0.0  0.0  0.0
2  0.0  0.0  1.0  0.0  0.0
3  0.0  0.0  0.0  1.0  0.0
4  0.0  0.0  0.0  0.0  1.0


**练习3** 

请使用多维ndarry对象创建两个DataFrame

## Series 实际上可以被初略看出是只有 1 列数据的 DataFrame。当然，这个说法不严谨，二者的核心区别仍然是 Series 没有列索引。你可以观察如下所示由 NumPy 一维随机数组生成的 Series 和 DataFrame。

In [14]:
import numpy as np
import pandas as pd

# create Series
s=pd.Series(np.random.randint(90,100,5))
print(s)

#create dataframe
df=pd.DataFrame(np.random.randint(90,100,5))
print(df)

# pay more attention to the difference between the series and the dataframe list below

0    91
1    93
2    90
3    91
4    92
dtype: int32
    0
0  92
1  93
2  99
3  94
4  93


## 3. 数据的读取
<br>
我们想要使用 Pandas 来分析数据，那么首先需要读取数据。大多数情况下，数据都来源于外部的数据文件或者数据库。Pandas 提供了一系列的方法来读取外部数据，非常全面。

第一个函数是我们经常用到的读取CSV文件的函数：pd.read_csv(相对路径文件|文件的URL)

```python
    df = pd.read_csv("https://labfile.oss.aliyuncs.com/courses/906/los_census.csv")
```

In [17]:
df = pd.read_csv("https://labfile.oss.aliyuncs.com/courses/906/los_census.csv")
print(df.head())
print(df.tail(3))

   Zip Code  Total Population  Median Age  Total Males  Total Females  \
0     91371                 1        73.5            0              1   
1     90001             57110        26.6        28468          28642   
2     90002             51223        25.5        24876          26347   
3     90003             66266        26.3        32631          33635   
4     90004             62180        34.8        31302          30878   

   Total Households  Average Household Size  
0                 1                    1.00  
1             12971                    4.40  
2             11731                    4.36  
3             15642                    4.22  
4             22547                    2.73  
     Zip Code  Total Population  Median Age  Total Males  Total Females  \
316     93560             18910        32.4         9491           9419   
317     93563               388        44.5          263            125   
318     93591              7285        30.9         3653    

DataFrame 是 Pandas 构成的核心。一切的数据，无论是外部读取还是自行生成，我们都需要先将其转换为 Pandas 的 DataFrame 或者 Series 数据类型。
<br>
基本原因在与pandas所有针对数据的操作都是基于series和dataframe这两种数据结构进行的。
在pandas中除了有pd.read_csv()这种从csv数据中获取数据的方法之外，还有：

In [49]:
import pandas as pd
help(pd.read_table)

Help on function read_table in module pandas.io.parsers:

read_table(filepath_or_buffer, sep=False, delimiter=None, header='infer', names=None, index_col=None, usecols=None, squeeze=False, prefix=None, mangle_dupe_cols=True, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skipinitialspace=False, skiprows=None, skipfooter=0, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, skip_blank_lines=True, parse_dates=False, infer_datetime_format=False, keep_date_col=False, date_parser=None, dayfirst=False, iterator=False, chunksize=None, compression='infer', thousands=None, decimal=b'.', lineterminator=None, quotechar='"', quoting=0, doublequote=True, escapechar=None, comment=None, encoding=None, dialect=None, tupleize_cols=None, error_bad_lines=True, warn_bad_lines=True, delim_whitespace=False, low_memory=True, memory_map=False, float_precision=None)
    Read general delimited file into DataFrame.
    
    .. deprecated:: 0.24.0
    

## 4. 基本操作

![DataFrame数据类型示意图](https://doc.shiyanlou.com/courses/uid214893-20190531-1559286555222)

>一个 DataFrame 结构大致由 3 部分组成，它们分别是列名称、索引和数据。
> - head()与tail():分别用于获取dataframe的首部或或尾部数据；
> - describe():快速获取数据集合中的统计特性；
> - values: 获取df的numpy形式，可以使用numpy中的方法对数据进行处理；
> - index与columns：分别获取数据中的行索引名与列索引名；
> - shape:获取数组的形状；

In [50]:
import numpy as np
import pandas as pd

df = pd.read_csv("https://labfile.oss.aliyuncs.com/courses/906/los_census.csv")

# display the first 5 rows of the data
print(df.head(5))

# display the last 5 rows of the dada
print(df.tail(5))

#display the statistics info for the data
print("************describe*************")
print(df.describe())
print("***************values*************************")

#transform df to ndarray
arr=df.values
print(arr)
print("***************type*************************")
print(type(arr))
print("**************index**************************")
# print the index names for the row and column separately
print(df.index)
print("**************columns**************************")
print(df.columns)

#print the shapse for the data
print(df.shape)

   Zip Code  Total Population  Median Age  Total Males  Total Females  \
0     91371                 1        73.5            0              1   
1     90001             57110        26.6        28468          28642   
2     90002             51223        25.5        24876          26347   
3     90003             66266        26.3        32631          33635   
4     90004             62180        34.8        31302          30878   

   Total Households  Average Household Size  
0                 1                    1.00  
1             12971                    4.40  
2             11731                    4.36  
3             15642                    4.22  
4             22547                    2.73  
     Zip Code  Total Population  Median Age  Total Males  Total Females  \
314     93552             38158        28.4        18711          19447   
315     93553              2138        43.3         1121           1017   
316     93560             18910        32.4         9491    

## 5. 数据选择

**数据选择**：在数据预处理过程中，我们往往会对数据集进行切分，只将需要的某些行、列，或者数据块保留下来，输出到下一个流程中去。这也就是所谓的数据选择，或者数据索引。

### 5.1 基于数字的索引

在dataframe中，如果没有自己设定索引，pandas 会默认从0开始以数字形式作为行索引，并以第一行作为列对应的标签。标签数字索引用到的函数是：
```python
    pd.iloc(数字索引)
```
   该方法能够接收的参数有：
   
   - 整数：pd.iloc[5] 
   - 数组：pd.iloc([1,2,3])
   - 布尔数组
   - 返回索引值的函数或参数


In [53]:
import numpy as np
import pandas as pd

df = pd.read_csv("https://labfile.oss.aliyuncs.com/courses/906/los_census.csv")

#选择一行数据
oneRow=df.iloc[5]
print(oneRow)

Zip Code                  90005.0
Total Population          37681.0
Median Age                   33.9
Total Males               19299.0
Total Females             18382.0
Total Households          15044.0
Average Household Size        2.5
Name: 5, dtype: float64


In [51]:
# 利用切片选择一组数据

mulRow=df.iloc[1]
print(mulRow)

Zip Code                  90001.0
Total Population          57110.0
Median Age                   26.6
Total Males               28468.0
Total Females             28642.0
Total Households          12971.0
Average Household Size        4.4
Name: 1, dtype: float64


### 那么选择1,3,5行，是不是 df.iloc[1, 3, 5] 这样呢？

答案是错误的。df.iloc[] 的 [[行]，[列]] 里面可以同时接受行和列的位置，如果你直接键入 df.iloc[1, 3, 5] 就会报错。

所以，很简单。如果你想要选择 1，3，5 行，可以这样做。
```python
    df.iloc[[1,3,5]]
```

In [11]:
oddRow=df.iloc[[1,3,5]]
print(oddRow)

   Zip Code  Total Population  Median Age  Total Males  Total Females  \
1     90001             57110        26.6        28468          28642   
3     90003             66266        26.3        32631          33635   
5     90005             37681        33.9        19299          18382   

   Total Households  Average Household Size  
1             12971                    4.40  
3             15642                    4.22  
5             15044                    2.50  


### 上述方法是根据行进行元素的选择，如果要根据列来选择元素可以执行下面的命令
```python
    df.iloc[:,column nuber|column numbers list]
```

In [13]:
# choose the fifth column

fifth=df.iloc[:,4]
print(fifth)

# chose the first odd columns

oddCol=df.iloc[:,[1,3,5]]
print(oddCol)

0          1
1      28642
2      26347
3      33635
4      30878
5      18382
6      28931
7      20005
8      17850
9       1926
10     51098
11     11610
12      4143
13      2534
14      9153
15     24818
16     10950
17     25540
18     33016
19     19586
20      1161
21     33963
22     22866
23     25204
24     21288
25     33354
26     22789
27     12658
28     19042
29     19770
       ...  
289    15904
290    27902
291    15836
292    15868
293     8198
294     3084
295     2372
296    18195
297     1856
298    26124
299      979
300    27774
301     2492
302      815
303      875
304     3907
305     1543
306     1290
307    20740
308    37167
309    33114
310     6338
311      570
312    38515
313    25742
314    19447
315     1017
316     9419
317      125
318     3632
Name: Total Females, Length: 319, dtype: int64
     Total Population  Total Males  Total Households
0                   1            0                 1
1               57110        28468             12971
2

## 5.2 根据索引名选择元素
<br>

除了根据数字索引选择，还可以直接根据标签对应的名称选择。这里用到的方法和上面的 iloc 很相似，少了个 i 为 df.loc[]。

df.loc[] 可以接受的类型有：

 -  单个标签。例如：2 或 'a'，这里的 2 指的是标签而不是索引位置。
 - 列表或数组包含的标签。例如：['A', 'B', 'C']。
 - 切片对象。例如：'A':'E'，注意这里和上面切片的不同支持，首尾都包含在内。
 - 布尔数组。
 - 可返回标签的函数或参数。
 
 ### 备注：对于用户没有设定标签的数组，其默认标签其实和索引是一样的，针对这种情况iloc和loc的参数是相同的。

In [14]:
print(df.index)
print(df.columns)

RangeIndex(start=0, stop=319, step=1)
Index(['Zip Code', 'Total Population', 'Median Age', 'Total Males',
       'Total Females', 'Total Households', 'Average Household Size'],
      dtype='object')


In [15]:
# 因为针对数据而言，行使用的是默认索引，所以所以只是选择行，这里loc与iloc的使用没有差别

print(df.loc[5])
print(df.loc[1:3])
print(df.loc[[1,3,5]])


Zip Code                  90005.0
Total Population          37681.0
Median Age                   33.9
Total Males               19299.0
Total Females             18382.0
Total Households          15044.0
Average Household Size        2.5
Name: 5, dtype: float64
   Zip Code  Total Population  Median Age  Total Males  Total Females  \
1     90001             57110        26.6        28468          28642   
2     90002             51223        25.5        24876          26347   
3     90003             66266        26.3        32631          33635   

   Total Households  Average Household Size  
1             12971                    4.40  
2             11731                    4.36  
3             15642                    4.22  
   Zip Code  Total Population  Median Age  Total Males  Total Females  \
1     90001             57110        26.6        28468          28642   
3     90003             66266        26.3        32631          33635   
5     90005             37681        33.9 

### 从上面的df.columns执行结果来看，数据收集人针对数据是添加了语义化的标签名,除了在参数上使用语义化标签外，loc用法与iloc方法选择列并没有太多的不同；


In [11]:
popNum=df.loc[:,"Total Population"]

print(popNum.head(5))

ts=df.loc[:,"Total Population":"Total Males"]
ts.tail(5)



0        1
1    57110
2    51223
3    66266
4    62180
Name: Total Population, dtype: int64


Unnamed: 0,Total Population,Median Age,Total Males
314,38158,28.4,18711
315,2138,43.3,1121
316,18910,32.4,9491
317,388,44.5,263
318,7285,30.9,3653


In [15]:
td=df.loc[:,["Total Population","Total Males","Total Age"]]
td.head(5)

Unnamed: 0,Total Population,Total Males,Total Age
0,1,0,
1,57110,28468,
2,51223,24876,
3,66266,32631,
4,62180,31302,


## 5.3 数据的删减

在处理数据的时候，在面临有些情况，我们不得不删除数组中部分数据，Pandas提供一下函数用于数据的删除：
```python
         1.df.drop([索引]，axis=?):根据索引名删除数据；
         2.df.drop_duplicates():删除数据中的重复数据；
         3.df.dropna():删除数据中有缺失值得行或列；
```

## 5.4 数据的填充

在真实的生产环境中，我们需要处理的数据文件往往没有想象中的那么美好。其中，很大几率会遇到的情况就是缺失值。缺失值主要是指数据丢失的现象，也就是数据集中的某一块数据不存在。除此之外、存在但明显不正确的数据也被归为缺失值一类。例如，在一个时间序列数据集中，某一段数据突然发生了时间流错乱，那么这一小块数据就是毫无意义的，可以被归为缺失值。

### 5.4.1 检测缺失值
Pandas 为了更方便地检测缺失值，将不同类型数据的缺失均采用 NaN 标记。这里的 NaN 代表 Not a Number，它仅仅是作为一个标记。例外是，在时间序列里，时间戳的丢失采用 NaT 标记。

Pandas 中用于检测缺失值主要用到两个方法，分别是：isna() 和 notna()，故名思意就是「是缺失值」和「不是缺失值」。默认会返回布尔值用于判断。

In [22]:
import numpy as np
import pandas as pd

#create a dataframe
df = pd.DataFrame(np.random.rand(9, 5), columns=list('ABCDE'))

# 插入 T 列，并打上时间戳,将“column”time插入到第一列
df.insert(value=pd.Timestamp('2017-10-3'), loc=0, column='Time')

# 将 1, 3, 5 列的 1，3，5 行置为缺失值
df.iloc[[1, 3, 5, 7], [0, 2, 4]] = np.nan

# 将 2, 4, 6 8 行的 2，4，6 列置为缺失值
df.iloc[[2, 4, 6, 8], [1, 3, 5]] = np.nan
print(df)

        Time         A         B         C         D         E
0 2017-10-03  0.728428  0.519089  0.752957  0.088124  0.391963
1        NaT  0.598972       NaN  0.530464       NaN  0.524171
2 2017-10-03       NaN  0.331239       NaN  0.087761       NaN
3        NaT  0.548077       NaN  0.803766       NaN  0.098108
4 2017-10-03       NaN  0.011935       NaN  0.611398       NaN
5        NaT  0.313816       NaN  0.834941       NaN  0.940328
6 2017-10-03       NaN  0.349780       NaN  0.331600       NaN
7        NaT  0.040045       NaN  0.745002       NaN  0.566959
8 2017-10-03       NaN  0.658828       NaN  0.241482       NaN


In [29]:
a= df.isna()
print(a)

    Time      A      B      C      D      E
0  False  False  False  False  False  False
1   True  False   True  False   True  False
2  False   True  False   True  False   True
3   True  False   True  False   True  False
4  False   True  False   True  False   True
5   True  False   True  False   True  False
6  False   True  False   True  False   True
7   True  False   True  False   True  False
8  False   True  False   True  False   True


In [30]:
b=df.notna()

In [31]:
print(b)

    Time      A      B      C      D      E
0   True   True   True   True   True   True
1  False   True  False   True  False   True
2   True  False   True  False   True  False
3  False   True  False   True  False   True
4   True  False   True  False   True  False
5  False   True  False   True  False   True
6   True  False   True  False   True  False
7  False   True  False   True  False   True
8   True  False   True  False   True  False


In [33]:
b=df.fillna(0)
print(b)

                  Time         A         B         C         D         E
0  2017-10-01 00:00:00  0.475584  0.259771  0.034901  0.491540  0.010381
1                    0  0.465567  0.000000  0.517693  0.000000  0.551515
2  2017-10-01 00:00:00  0.000000  0.212914  0.000000  0.956355  0.000000
3                    0  0.790929  0.000000  0.471999  0.000000  0.998210
4  2017-10-01 00:00:00  0.000000  0.915548  0.000000  0.221661  0.000000
5                    0  0.055812  0.000000  0.126919  0.000000  0.802734
6  2017-10-01 00:00:00  0.000000  0.092874  0.000000  0.530040  0.000000
7                    0  0.336958  0.000000  0.691019  0.000000  0.257575
8  2017-10-01 00:00:00  0.000000  0.466516  0.000000  0.033842  0.000000


### 5.4.2 插值填充
插值是数值分析中一种方法。简而言之，就是借助于一个函数（线性或非线性），再根据已知数据去求解未知数据的值。插值在数据领域非常常见，它的好处在于，可以尽量去还原数据本身的样子。

In [34]:
import numpy as np
import pandas as pd

df = pd.DataFrame({'A': [1.1, 2.2, np.nan, 4.5, 5.7, 6.9],
                   'B': [.21, np.nan, np.nan, 3.1, 11.7, 13.2]})

a=df.interpolate()
print(a)

      A          B
0  1.10   0.210000
1  2.20   1.173333
2  3.35   2.136667
3  4.50   3.100000
4  5.70  11.700000
5  6.90  13.200000


#### 实验


In [25]:
import pandas as pd
df = pd.read_csv("./titanic/train.csv")
#print(df.head())
#print(df.tail(3))
#
#检查是否是na。检查出来只有age和cabin有数据为nan
#print(df.isna())

#查看数据样式
#print(df)

#计算属性为age的平均值
age_averge=df['Age'].mean()
#输出age值
print(age_averge)
dd=df
#dd['Z']=dd['Z'].fillna('lg')
print("Age的平均值：",age_averge)
dd['Age']=dd['Age'].fillna(age_averge)
print(dd)

#填充cabin
#cabin缺失太多删除属性



29.69911764705882
Age的平均值： 29.69911764705882
     PassengerId  Survived  Pclass  \
0              1         0       3   
1              2         1       1   
2              3         1       3   
3              4         1       1   
4              5         0       3   
5              6         0       3   
6              7         0       1   
7              8         0       3   
8              9         1       3   
9             10         1       2   
10            11         1       3   
11            12         1       1   
12            13         0       3   
13            14         0       3   
14            15         0       3   
15            16         1       2   
16            17         0       3   
17            18         1       2   
18            19         0       3   
19            20         1       3   
20            21         0       2   
21            22         1       2   
22            23         1       3   
23            24         1       1   
24   