# docker练习场 笔记

## 题目
分阶段提交容器镜像完成以下3个任务（分数依次占 30/30/40），根据评分系统的分数返回验证任务的完成情况。

- 输出Hello world
- 计算 /tcdata/num_list.csv中一列数字的总和
- 在/tcdata/num_list.csv文件中寻找最大的10个数，从大到小生成一个List

num_list.csv文件中只有一列不为负的整数，其中存在重复值，示例如下：
> 102
6
11
11

生成入口脚本`run.sh`，放置于镜像工作目录。运行后生成结果`result.json`放置于工作目录（与`run.sh`同目录），评分系统将根据`result.json`进行打分。json文件如下所示：
```
{  
    "Q1":"Hello world", 
    "Q2":sum值, 
    "Q3":[top10_list] 
}
```
## 提前准备所需文件
新建一个文件夹（例如tianchi_submit_demo）用于存放这次任务镜像所需的文件，文件夹中如下：
> /tcdata Dockerfile  hello_world.py   result.json   run.sh

**1.1** 其中`hello_world.py`中是自己的代码部分：

**1.2** `Dockerfile`配置文件，`Dockerfile`是固定名称，首字母大写。`Dockerfile`中命令皆大写

**1.3** `run.sh`参考:
```
python hello_world.py
```

### 文件说明
- Dockerfile: docker生成镜像的配置文件
- hello_world.py：实现任务的代码文件
- result.json: 保存结果的文件
- run.sh: 镜像启动后执行的脚本
- /tcdata/num_list.csv:  基础镜像不存在该路径及文件，所以本地跑代码测试的时候，需要自行生成数据。

提交结果的时候，镜像中可以不包含本地的tcdata，后台会提供。

## 实战

### 0.docker login
指明 Registry 域名，并输入您的用户名和登录密码。

登录成功之后会显示 Login Succeeded

```
 docker login registry.cn-hangzhou.aliyuncs.com
```
以上 `registry ....` 为实例， 添加自己的镜像公有网络， 如`registry.cn-hangzhou.aliyuncs.com/<命名空间>/<镜像仓库>`
或者
```
sudo docker login --username=<用户名> registry.cn-hangzhou.aliyuncs.com
```

为简化构建镜像的难度，天池已准备了常用的Python基础镜像，可直接拉取使用
```
docker pull registry.cn-shanghai.aliyuncs.com/tcc-public/python:3
```
### 1.代码

In [None]:
#!/usr/bin/env python
# coding: utf-8

import pandas as pd
import numpy as np
import json

#这里为了方便测试程序，自己编写一个num_list.csv文件，实际提交结果时，用不到此文件
#data=np.random.randint(1,100,200)
#data=pd.DataFrame(data)
#data.to_csv("./tcdata/num_list.csv",index=False,header=False)

#天池python镜像默认包含此文件
data=pd.read_csv("/tcdata/num_list.csv",header=None)

#第一题
result_1="Hello world"

#第二题
result_2 = 0
for i,num in enumerate(data[0]):
    result_2 += num

#第三题
data.sort_values(by=0,ascending=False,inplace=True)
result_3=data[0][:10]
result_3=list(result_3)

result={"Q1":result_1,
        "Q2":result_2,
        "Q3":result_3
       }
with open('result.json', 'w', encoding='utf-8') as f:
    json.dump(result, f)

### 2.生成依赖包文件

由于使用python的时候用到了一些库，所以需要编写requirements.txt文件:

- 方法一：打开cmd或者powershell，输入pip freeze > requirements.txt（此方法缺点：会把许多我们此次文件用不到的库也写进requirements.txt里。当然，如果用此方法，你可以自己打开生成文件，删减掉不用的库）
- 方法二：在当前目录，打开cmd或者powershell，使用 pipreqs 代码如下：
```
# 在当前目录生成
pipreqs . --encoding=utf8 --force
```
### 3.再次编写 `run.sh`

In [4]:
#!/bin/sh
!CURDIR="`dirname $0`" #获取此脚本所在目录
!echo $CURDIR
!cd $CURDIR #切换到该脚本所在目录
!python hello_world.py


python: can't open file 'hello_world.py': [Errno 2] No such file or directory


- 如果直接在hello_world.py文件所在位置运行指令sh run.sh，上述代码可以简化为python hello_world.py
- 如果系统装了python2和python3，那么要改为python3 hello_world.py
- 运行sh run.sh推荐使用Git Bash

### 4.编写Dockerfile文件

```
# Base Images
## 从天池基础镜像构建
FROM registry.cn-shanghai.aliyuncs.com/tcc-public/python:3

## 把当前文件夹里的文件构建到镜像的根目录下（.后面有空格，不能直接跟/）
ADD . /

## 指定默认工作目录为根目录（需要把run.sh和生成的结果文件都放在该文件夹下，提交后才能运行）
WORKDIR /

## Install Requirements（requirements.txt包含python包的版本）
## 这里使用清华镜像加速安装
RUN pip install -i https://pypi.tuna.tsinghua.edu.cn/simple -r requirements.txt

## 镜像启动后统一执行 sh run.sh
CMD ["sh", "run.sh"]
```

### 5. 构建镜像并推送  -- 服务器上直接操作

执行
```
docker build -t registry.cn-shenzhen.aliyuncs.com/<命名空间>/<镜像仓库>:1.0 .
```

注意：`registry.~~~` 是上面创建仓库的公网地址，用自己仓库地址替换。地址后面的：1.0为自己指定的版本号，用于区分每次build的镜像。最后的.是构建镜像的路径，不可以省掉。

构建完成后可先验证是否正常运行，正常运行后再进行推送。

CPU镜像：`docker run <your_image> sh run.sh`

GPU镜像：`nvidia-docker run your_image sh run.sh`

推送到镜像仓库 `docker push registry.cn-shenzhen.aliyuncs.com/<命名空间>/<镜像仓库>:1.0`

如果这步出错，可能是因为没有登录，按照仓库里描述操作登录即可。