## 利用 pandas 对某公司数据建立数据库并进行简单分析
有 6 家上市公司的股票代码、市值与市盈率数据如下，请按照下面要求利用 pandas 对该组数据进行数据分析统计。

![jupyter](https://cdn.py2china.cn/study-group/pandas/5-1.png)

### 1.请根据上方表格数据创建一个 DataFrame 存储公司的数据，数据命名为 df_company

In [2]:
import pandas as pd
data = {'公司':['杭州银行','青农商行','常熟银行','工商银行','上海银行','江苏银行'],
        '股票代码':['600926','002958','601128','601398','601229','600919'],
        '市值（亿）':[449,371,237,21313,1369,823],
        '市盈率':[8.31,15.36,16.01,7.16,7.59,6.3]}
df_company = pd.DataFrame(data).set_index('公司')
df_company

Unnamed: 0_level_0,股票代码,市值（亿）,市盈率
公司,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
杭州银行,600926,449,8.31
青农商行,2958,371,15.36
常熟银行,601128,237,16.01
工商银行,601398,21313,7.16
上海银行,601229,1369,7.59
江苏银行,600919,823,6.3


### 2.选出市值低于 2000 亿的所有公司（任务提示：使用布尔形式选取数据）

In [5]:
df_company.loc[df_company['市值（亿）'] < 2000]
#或者 df_company[df_company['市值（亿）'] < 2000]

Unnamed: 0_level_0,股票代码,市值（亿）,市盈率
公司,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
杭州银行,600926,449,8.31
青农商行,2958,371,15.36
常熟银行,601128,237,16.01
上海银行,601229,1369,7.59
江苏银行,600919,823,6.3


### 3. 选出市值 < 2000亿，并且市盈率 < 10 的所有公司
任务提示：使用布尔形式选取数据

In [6]:
df_company[(df_company['市值（亿）']<2000) & (df_company['市盈率']<10)]

Unnamed: 0_level_0,股票代码,市值（亿）,市盈率
公司,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
杭州银行,600926,449,8.31
上海银行,601229,1369,7.59
江苏银行,600919,823,6.3


### 4. 假设其中一家公司股票的每日收盘价数据，如下

In [7]:
import numpy as np
dr = pd.date_range(start='2019-01-02', periods=100)
data = np.random.randn(100).cumsum()
close = data - np.min(data)
df = pd.DataFrame({"close": close}, index=dr)
df

Unnamed: 0,close
2019-01-02,7.582783
2019-01-03,7.825950
2019-01-04,7.406229
2019-01-05,6.459937
2019-01-06,6.205217
...,...
2019-04-07,8.502900
2019-04-08,8.110079
2019-04-09,10.051735
2019-04-10,10.464735


### 请计算收盘价的五日平均，并新增一列存储
任务提示：使用窗函数rolling计算移动平均

In [59]:
df['5MA'] = df.rolling(window=5).mean()
df
#若原始数据有多列，可写成 df['5MA'] = df['close'].rolling(window=5).mean()

Unnamed: 0,close,5MA
2019-01-02,11.607239,
2019-01-03,12.207718,
2019-01-04,11.175212,
2019-01-05,12.349590,
2019-01-06,11.221557,11.712263
...,...,...
2019-04-07,2.853294,2.856639
2019-04-08,4.689768,3.236593
2019-04-09,5.798524,3.831534
2019-04-10,5.678170,4.408419


### 请将下方表格数据存储在 DataFrame 中，然后按要求完成练习
![Jupyter](https://cdn.py2china.cn/study-group/pandas/5-2.png)
### 5. 创建 DataFrame 存储数据

In [10]:
data1 = np.arange(1,17).reshape(4,4)
df1 = pd.DataFrame(data1, index = list('abcd'), columns = ['第1列','第2列','第3列','第4列'])
df1

Unnamed: 0,第1列,第2列,第3列,第4列
a,1,2,3,4
b,5,6,7,8
c,9,10,11,12
d,13,14,15,16


### 6. 请利用 apply 函数，统计出每一行的总数

In [11]:
df1.apply(np.sum,axis=1)
# df1.apply(lambda x: x.sum(),axis=1)

a    10
b    26
c    42
d    58
dtype: int64

### 7. 请生成第 5 列数据，使其满足：当第 3 列数据 > 10 时，第 5 列数据等于第 1 、第 2 列数据之和；否则第 5 列数据等于第 3 列数据

In [62]:
df1['第5列'] = df1.apply(lambda x: x[0]+x[1] if x[2]>10 else x[2], axis =1)
df1

Unnamed: 0,第1列,第2列,第3列,第4列,第5列
a,1,2,3,4,3
b,5,6,7,8,7
c,9,10,11,12,19
d,13,14,15,16,27
