# 第三方库的安装

- pip install package
- pip uninstall package

In [63]:
!pip3 install -i https://mirrors.aliyun.com/pypi/simple/ pandas

Looking in indexes: https://mirrors.aliyun.com/pypi/simple/


# openpyxl库

## Workbook操作
- 创建Workbook对象：`wb = openpyxl.Workbook()`
- 保存Workbook对象到xlsx文件：`wb.save("test.xlsx")`
- 打开现有xlsx文件：`wb = openpyxl.load_workbook("test.xlsx")`

In [65]:
import openpyxl

wb = openpyxl.Workbook()

wb.save("./baiku.xlsx")

In [66]:
wb1 = openpyxl.load_workbook("./baik.xlsx")

## 工作表（sheet）操作
- 获取默认的Sheet页面：`ws1 = wb.active`
- 通过工作表名称获取sheet页面2：`ws1 = wb["Sheet"]`
- 通过工作表名称获取sheet页面3：`ws1 = wb.worksheets[0]`
- 创建新的sheet页面（保存时才生效）：`ws2 = wb.create_sheet("Sheet2")`
- 给已有sheet重命名：`ws1.title = "New"`
- 获取所有sheet名：`sheet_name_list = wb.sheetnames`
- 删除工作表：`wb.remove_sheet(ws2)`

In [68]:
ws = wb1["Sheet"]
ws

<Worksheet "Sheet">

## 单元格操作
- 给表格赋值（保存时才生效）：`ws2["A1"] = "Test"`
- 在指定行、列的单元格中写入数据：`ws1.cell(row=3, column=2).value = "AAAAA"`
- 获取最大的行数：`ws2.max_row`
- 获取最大的列数：`ws2.max_column`
- 采用iter_cols方法:

```python
for col in ws1.iter_cols(min_row=2, min_col=2, max_row=7, max_col=6):
    for cell in col:
        print(cell.value)
```
- 遍历方式向多个单元格中写入值：

```python
for row in ws2["B2:F7"]:
    for cell in row:
        cell.value = 100
        print(cell.value)

```
- 按行追加数据，不会影响原有数据：

```python
DATA = [
    ['第一天', 123, 12, 123, 900, 231, 7],
    ['第二天', 13, 56, 3, 900, 231, 90],
    ['第三天', 216, 38, 37, 543, 55, 376],
    ['第四天', 89, 99, 88, 453, 87, 527]
]
for row in DATA:
    ws1.append(row)
```

In [71]:
ws["A1"] = 1000

wb1.save("./baiku.xlsx")

In [74]:
import openpyxl

wb1 = openpyxl.load_workbook("./baiku.xlsx")
ws = wb1["Sheet"]
ws.append(["日期", "商品1", "商品2"])

ws.append(['第20天', 9, 277])

wb1.save("./baiku.xlsx")

In [81]:
wb2 = openpyxl.load_workbook("./baiku.xlsx")
ws2 = wb2['Sheet']

for col in ws2.iter_cols(min_col=ws2.min_column,
    max_col=ws2.max_column,
    min_row=ws2.min_row,
    max_row=ws2.max_row):
    for cell in col:
        print(cell.value)
    

日期
第20天
商品1
9
商品2
277


## 案例：将下列数据写入Excel表格中

- 表头信息为：日期， 商品1，商品2， 商品3， 商品4，商品4
- 表格内数据：`data_list = [['第20天', 9, 277, 94, 139, 126],
 ['第1天', 22, 206, 98, 14, 254],
 ['第2天', 27, 179, 14, 165, 110],
 ['第3天', 79, 69, 142, 262, 150],
 ['第4天', 139, 70, 226, 51, 273],
 ['第5天', 160, 114, 249, 252, 89],
 ['第6天', 108, 242, 212, 180, 198],
 ['第7天', 170, 195, 82, 181, 209],
 ['第8天', 146, 222, 261, 20, 82],
 ['第9天', 33, 254, 241, 126, 245],
 ['第10天', 115, 56, 154, 242, 122],
 ['第11天', 161, 256, 225, 102, 53],
 ['第12天', 91, 259, 279, 126, 85],
 ['第13天', 172, 184, 60, 50, 249],
 ['第14天', 85, 27, 4, 144, 30],
 ['第15天', 81, 219, 192, 1, 282],
 ['第16天', 180, 217, 198, 154, 119],
 ['第17天', 137, 296, 150, 263, 242],
 ['第18天', 105, 290, 203, 158, 4],
 ['第19天', 158, 180, 245, 99, 120]]`


In [83]:
wb2 = openpyxl.load_workbook("./good.xlsx")
ws2 = wb2['Sheet1']

total = 0
for col in ws2.iter_cols(min_col=ws2.min_column,
    max_col=ws2.max_column,
    min_row=ws2.min_row,
    max_row=ws2.max_row):
    if col[0].value == "商品1":
        for cell in col[1:]:
            total += cell.value
print(total)

2576


## 新需求：统计商品1的总销量

# Pandas入门

>  pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。它主要提供了两种类型的数据结构，分别是DataFrame和Series，我们可以简单的把DataFrame理解为Excel里面的一张表，而Series就是表中的某一列，后面学习和用到的所有Pandas骚操作，都是基于这些表和列进行的操作

## Series

- pd.Series(data, index)

## DataFrame

### 定义
- pd.DataFrame(data, index, columns)

### DataFrame常见操作
- info()
- describe()
- df[col].sum()

In [94]:
import pandas as pd

df = pd.read_excel("./good.xlsx")
df["商品1"].mode()

0    199.0
dtype: float64

In [91]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 22 entries, 0 to 21
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   日期      22 non-null     object 
 1   商品1     20 non-null     float64
 2   商品2     22 non-null     int64  
 3   商品3     20 non-null     float64
 4   商品4     22 non-null     int64  
 5   商品5     21 non-null     float64
dtypes: float64(3), int64(2), object(1)
memory usage: 1.2+ KB


In [95]:
df.describe()

Unnamed: 0,商品1,商品2,商品3,商品4,商品5
count,20.0,22.0,20.0,22.0,21.0
mean,11116.3,194.454545,157.25,133.045455,145.333333
std,49166.153599,78.81789,82.311907,78.326835,88.905755
min,9.0,27.0,4.0,1.0,7.0
25%,84.0,179.25,97.0,99.0,85.0
50%,142.5,218.0,152.0,132.5,122.0
75%,170.5,251.0,229.75,176.25,242.0
max,220000.0,296.0,279.0,263.0,282.0
