# Linux环境配置
- 查看可选的Linux发行版：`wsl --list --online`
- 安装Ubuntu：`wsl --install -d <发行版名称>`，比如 `wsl --install -d Ubuntu-24.04`
- 换源
    - 安装lsb_release：`sudo apt install -y lsb-release`
    - 先查询自己系统的版本号：`lsb_release -a`
    - 注意这个开发代号Codename，Ubuntu每一个版本都有一个代号，这个一定要跟国内源对应，否则会出问题。
    - 通过以下地址可以看到阿里云Ubuntu各个版本的镜像地址，从中选择自己的系统版本就好，一定要选择Codename对应的版本。
    - 镜像地址: [阿里云Ubuntu镜像](https://developer.aliyun.com/mirror/ubuntu)

    Ubuntu24.04的源地址配置文件发生改变，不再使用以前的sources.list文件，升级24.04之后，该文件内容变成了一行注释：

    # Ubuntu sources have moved to /etc/apt/sources.list.d/ubuntu.sources

    新的官方源配置放在了/etc/apt/sources.list.d/ubuntu.sources中，升级前的三方源被放在了`/etc/apt/sources.list.d/third-party.sources`中

    `sudo vim /etc/apt/sources.list.d/ubuntu.sources`

    替换默认的

    `http://archive.ubuntu.com/`

    为

    `http://mirrors.aliyun.com/`

    ubuntu 24.04 (noble) 配置如下

    ```
    Types: deb
    URIs: https://mirrors.tuna.tsinghua.edu.cn/ubuntu
    Suites: noble noble-updates noble-backports
    Components: main restricted universe multiverse
    Signed-By: /usr/share/keyrings/ubuntu-archive-keyring.gpg

    # 默认注释了源码镜像以提高 apt update 速度，如有需要可自行取消注释
    Types: deb-src
    URIs: https://mirrors.tuna.tsinghua.edu.cn/ubuntu
    Suites: noble noble-updates noble-backports
    Components: main restricted universe multiverse
    Signed-By: /usr/share/keyrings/ubuntu-archive-keyring.gpg

    # 以下安全更新软件源包含了官方源与镜像站配置，如有需要可自行修改注释切换
    Types: deb
    URIs: http://security.ubuntu.com/ubuntu/
    Suites: noble-security
    Components: main restricted universe multiverse
    Signed-By: /usr/share/keyrings/ubuntu-archive-keyring.gpg

    Types: deb-src
    URIs: http://security.ubuntu.com/ubuntu/
    Suites: noble-security
    Components: main restricted universe multiverse
    Signed-By: /usr/share/keyrings/ubuntu-archive-keyring.gpg
    ```

- debian换源
    `sudo vim /etc/apt/sources.list.d/ubuntu.sources`
    
    ```
    Types: deb
    URIs: https://mirrors.tuna.tsinghua.edu.cn/debian
    Suites: trixie trixie-updates trixie-backports
    Components: main contrib non-free non-free-firmware
    Signed-By: /usr/share/keyrings/debian-archive-keyring.gpg

    # 默认注释了源码镜像以提高 apt update 速度，如有需要可自行取消注释
    # Types: deb-src
    # URIs: https://mirrors.tuna.tsinghua.edu.cn/debian
    # Suites: trixie trixie-updates trixie-backports
    # Components: main contrib non-free non-free-firmware
    # Signed-By: /usr/share/keyrings/debian-archive-keyring.gpg

    # 以下安全更新软件源包含了官方源与镜像站配置，如有需要可自行修改注释切换
    Types: deb
    URIs: https://security.debian.org/debian-security
    Suites: trixie-security
    Components: main contrib non-free non-free-firmware
    Signed-By: /usr/share/keyrings/debian-archive-keyring.gpg

    # Types: deb-src
    # URIs: https://security.debian.org/debian-security
    # Suites: trixie-security
    # Components: main contrib non-free non-free-firmware
    # Signed-By: /usr/share/keyrings/debian-archive-keyring.gpg
    ```

- 安装编译所需的依赖项：
   
    `sudo apt update`
    
    `sudo apt upgrade`

    or `sudo apt update && sudo apt upgrade`

    `sudo apt install build-essential`


- 安装miniconda
   - 下载：`wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh`

   - `bash Miniconda3-latest-Linux-x86_64.sh`

   - 一路yes

   - `bash`进入conda环境
  
   - `conda create -n bsenv python=3.11`  //创建环境

   - `conda activate bsenv`  //激活环境
   - 
   - 删除虚拟环境：`conda remove -n 要删除的环境名 --all`

   - 退出conda环境：`conda deactivate`

- miniconda 换源
   - 方法1：

        `conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/`

        `conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/`

        `conda config --set show_channel_urls yes`

        `pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple`

    - 方法2：

        vim ~/.condarc

        channels:
        - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
        - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
        - https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
        - https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/
        - https://mirrors.sjtug.sjtu.edu.cn/anaconda/pkgs/main/
        - https://mirrors.sjtug.sjtu.edu.cn/anaconda/pkgs/free/
        - https://mirrors.sjtug.sjtu.edu.cn/anaconda/cloud/conda-forge/
    ssl_verify: true

### wsl下linux修改主机名
1. wsl，进入 /etc 目录 ,编辑 wsl.conf，如果没有该文件就创建一个：
   `vim /etc/wsl.conf`

   添加内容：
   
    ```
    [network]
    hostname = docker
    generateHosts = false
    ```
    在设置完成后退出 wsl。

    注意在直接退出wsl 之后配置并没有直接生效，而是在wsl 重启之后才会生效，所以我们可以使用命令使wsl 先关闭，然后再重新进入就会发现hostname已经修改过来了。

2. 查看主机名：`hostname`
3. 修改主机名：`sudo hostnamectl set-hostname 主机名`
4. 修改`/etc/hosts`文件
    打开`/etc/hosts`文件，找到包含旧主机名的行，并将其替换为新主机名。例如：`127.0.0.1   old-hostname`更改为：`127.0.0.1   new-hostname`
5. 检查`/etc/cloud/cloud.cfg`文件:如果该文件存在，请查找`preserve_hostname`选项。默认情况下，该选项可能设置为`false`，这意味着`cloud-init`会在每次启动时重置主机名。要避免这种情况，请将该选项设置为`true`：`preserve_hostname: true`
6. 重启：`systemctl restart network` 

### linux打开终端进入指定目录
1. 打开.bashrc文件：`vim ~/.bashrc`
2. 在文件末尾添加：`cd 要进入的目录路径`
3. 保存并退出：`:wq`


## 备份库
pip freeze > 00-coding/req.txt

pip uninstall -r 00-coding/req.txt -y # 卸载

pip install -r 00-coding/req.txt


查看库版本：pip list

查看库新版本: pip list -o

升级pip: `pip install --upgrade pip`


- 安装pytorch

    `pip3 install torch torchvision torchaudio`

    `pip install numpy scipy pandas matplotlib`

    `pip install jupyter`


- 安装zip
    `sudo apt install zip`
- 安装其他库
    `sudo apt install numpy scipy pandas matplotlib`

    解压：`unzip <压缩包名>`

- 备份：
`wsl --export Ubuntu Ubuntu.tar`

- 恢复:
`wsl --import Ubuntu C:\Users\Administrator\Ubuntu .\Ubuntu.tar`

- 删除Linux子系统：
`wsl --unregister Ubuntu`


- 检查conda版本：
`conda --version`

- 列出conda环境：
`conda env list`

- conda升级：
`conda update conda` 升级conda
`conda update anaconda` 升级anaconda前要先升级conda
`conda update --all` 更新所有包

- conda 新建环境：
`conda create -n 环境名 python=3.11`

- conda 删除环境：
`conda remove -n 环境名 --all`

- conda 删除一个环境:
`conda env remove -n 环境名`

- conda 切换环境：
`conda activate 环境名`

- 切换回base环境：
`conda de
`

- 复制环境：
`conda create --name 新环境名 --clone 旧环境名`


## VPS

### VPS购买

- 美国CN2 GIA线路：https://bwg.m123.org
- 香港CN2 GIA线路：https://hk.m123.org
- 日本CN2 GIA线路：https://jp.m123.org
- 其他地区线路：https://d.m123.org

优惠码： `BWHCGLUKKB`

### VPS账号

`IP:192.69.94.220`

`SSH PORT:22`

`用户:root`

`PASSWORD:SGkU7LRFbZRM`

cmd输入：`ssh root@192.69.94.220 -p 22`


### 安装X-UI

`bash <(curl -Ls https://raw.githubusercontent.com/FranzKafkaYu/x-ui/956bf85bbac978d56c0e319c5fac2d6db7df9564/install.sh) 0.3.4.4`

设置账号、密码

浏览器中输入：`192.69.94.220:10000/e3lK/`

输入刚才设置的账号、密码

切换版本


### 各平台客户端

- Windows（v2rayN）：https://github.com/2dust/v2rayN/releases/tag/6.23
- Android（v2rayNG）：https://github.com/2dust/v2rayNG/releases/tag/1.8.5
- IOS（shadowrocket）：https://apps.apple.com/app/shadowrocket/id932747118



## Docker

### Install Docker

#### linux一键安装：
方法1：

`sudo curl -fsSL https://get.docker.com| bash -s docker --mirror Aliyun`


方法2：

`curl -fsSL https://get.docker.com -o install-docker.sh`

`sudo sh install-docker.sh`

#### 启动docker服务

`sudo service docker start`

#### Linux配置镜像站

`sudo vi /etc/docker/daemon.json`

输入下列内容，最后按ESC，输入 :wq! 保存退出。

```
{
    "registry-mirrors": [
        "https://docker.xuanyuan.me",
        "http://hub-mirror.c.163.com",
        "https://docker.mirrors.ustc.edu.cn",
        "https://registry.docker-cn.com",
        "https://docker.m.daocloud.io",
        "https://docker.1panel.live",
        "https://hub.rat.dev"
    ],
    "runtimes": {
        "nvidia": {
            "args": [],
            "path": "nvidia-container-runtime"
        }
    }
}
```

#### 配置docker用户组
添加docker用户组: \
`sudo groupadd docker`  \
`sudo usermod -aG docker $USER`   \
`sudo systemctl start docker`

重启电脑

#### 查看docker版本
`docker --version`
`docker compose version`


#### 安装 NVIDIA Container Toolkit
NVIDIAContainer Toolkit让Docker/Containerd里的容器能“看见”并安全使用宿主机上的NVIDIAGPU（自动挂载驱动库、设备节点、设置环境变量等），从而在容器里跑CUDA、PyTorch、TensorFlow、FFmpegNVENC/NVDEC等工作负载。

- 安装前提
  - 1.宿主机已安装正确版本的NVIDIA显卡驱动（只需驱动，不必在宿主机装CUDAToOIkit）。
  - 2.已安装Docker Engine(20.10+更稳；19.03 起原生支持-gpus)。

- 添加NVIDIA Container Toolkit仓库与密钥


```
curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg \
  && curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | \
    sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \
    sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list

```


- 从仓库更新软件包列表：`sudo apt update`
- 按照工具包:`sudo apt install -y nvidia-container-toolkit`
- 配置 Docker 以使用 NVIDIA 运行时:`sudo nvidia-ctk runtime configure --runtime=docker`
- 重启 Docker 服务，使配置生效:`sudo systemctl restart docker`

- 验证 Toolkit 是否安装成功
运行以下命令，如果能看到主机的 GPU 信息，说明配置正确：

`docker run --rm --gpus all nvidia/cuda:13.0.1-runtime-ubuntu22.04 nvidia-smi`


这一步是“让容器访问 GPU”的核心，不同 Linux 发行版命令略有不同，按你的系统选择：

附加组件	cudnn	包含 cuDNN 库（深度学习必选）
镜像类型	runtime / devel	runtime：仅含运行环境；devel：含开发工具（编译代码用）
系统版本	ubuntu24.04 / ubi9	系统镜像（ubuntu 兼容性好，ubi 适合企业级）

- 仅运行已编译好的 CUDA 程序（如 PyTorch 模型）：选 cudnn-runtime 类型（如 `13.0.1-cudnn-runtime-ubuntu24.04`）；
- 需要编译 CUDA 代码（如自己写 CUDA 程序）：选 cudnn-devel 类型（如 `13.0.1-cudnn-devel-ubuntu24.04`）；
- 系统偏好：Ubuntu 24.04 / 22.04 兼容性最好，新手优先选。


#### vscode安装插件
- Docker
- Dev Container


#### Docker常用命令
- 加载镜像: `docker load -i xxx.tar`
- 重启docker服务: `sudo service docker restart`
- 查看镜像: `sudo docker images`
- 删除镜像: `sudo docker rmi <image_id>`
- 拉取镜像: `sudo docker pull <image_name>`
- 运行镜像: `sudo docker run -d <image_name>`
- 运行镜像并映射端口: `sudo docker run -p 宿主机端口:容器端口 <image_name>`，比如：`docker run -it -p 22222:22 --name test_name ubuntu:latest /bin/bash`  \
  这里的 -p 22222:22指的是将宿主机的端口22222映射到容器的22，可以理解为端口转发，这在需要ssh连接容器的时候尤其有用。
- 运行镜像并挂载目录: `sudo docker run -v 宿主机目录:容器目录 <image_name>`
- 查看运行中的容器: `sudo docker ps`
- 删除容器 (-f:--force 强制删除): `sudo docker rm -f <container_id>`
- 新建挂载卷: `sudo docker volume create <volume_name>`
- 查看宿主机真实目录: `sudo docker volume inspect <volume_name>`
- 查看创建卷: `sudo docker volume list`
- 删除卷: `sudo docker volume rm <volume_name>`
- 跟容器自定义名称: `sudo docker run --name <自定义名称> <container_name>`
- 容器交互：`sudo docker run -it <image_name> /bin/bash`
- 容器关闭自动重启: `sudo docker run -d --restart always <image_name>`
- 启动容器: `sudo docker start <container_id/name>`
- 关闭容器: `sudo docker stop <container_id/name>`
- 添加对NVIDIA的支持：`docker run -it --net=host --gpus all -p 22222:22 --name test_nvidia -e NVIDIA_DRIVER_CAPABILITIES=compute,utility -e NVIDIA_VISIBLE_DEVICES=all ubuntu:latest`
- 退出方法1：`exit`指令退出，这种方法会在退出的时候停止容器。
- 退出方法2：按`ctrl P`然后按`ctrl Q`退出，这样的话可以保持容器的运行。
- 如何回到已经退出的但是仍然在运行的容器: `sudo docker attach <container_id/name>` or `sudo docker exec -it <container_id/name> /bin/bash`
  
  如果创建容器时采用了`-d`，`docker attach`命令将无法使用，只能使用`docker exec -it`命令进入容器。
- 处于停止状态的容器可以被打包成镜像: `sudo docker commit <container_id/name> <image_name>`
- 将镜像文件打包成压缩包: `sudo docker save image_name > image_name.tar`
- 创建容器：`docker run --name mamba_test --net host --gpus all -v /home/vtchen/00-coding/03-docker/05-mamba:/00-coding/05-mamba -it mamba:1.0 /bin/bash`

#### docker对已经启动的容器添加目录映射(挂载目录)
1. 查看容器存放目录：`docker info | grep 'Root'`
2. 查看要新增挂载的容器id：`docker ps`
3. 进入要新增文件夹挂载的目录：`cd /var/lib/docker/containers/container_id/`
4. 关闭容器、关闭docke: `docker stop container_id` `systemctl stop docker`
5. 修改config.v2.json文件：`code config.v2.json`

   说明：想要将容器中的/opt/shardingsphere-proxy/logs目录映射到宿主机的/atguigu/server/proxy-a/logs目录下。在config.v2.json文件中找到MountPoints，添加如下/opt/shardingsphere-proxy/logs的映射即可(这里如果前面还有内容的话，注意逗号)

6. 修改hostconfig.json:`code hostconfig.json`

  `"Binds": ["/home/vtchen/00-coding/03-docker/05-mamba:/00-coding/05-mamba","/home/vtchen/01-DL:/01-DL"],`
7. 重启docker与容器：`systemctl start docker` `docker start container_id`

# Docker核心概念与实战指南



## 1. Docker基础概念



*  **Docker概述**: Docker是一种成熟高效的软件部署技术，利用容器化技术为应用程序封装独立的运行环境。每个运行环境即为一个**容器**，承载容器运行的计算机称为**宿主机**。

*  **容器与虚拟机的区别**:

  *  **Docker容器**: 多个容器共享同一个系统内核。

  *  **虚拟机**: 每个虚拟机包含一个操作系统的完整内核。

  *  **优势**: Docker容器比虚拟机更轻量、占用空间更小、启动速度更快。

*  **镜像 (Image)**:

  *  **定义**: 镜像是容器的模板，可类比为软件安装包。

  *  **类比**: 类似于制作糕点的模具，可用于创建多个糕点（容器），并可分享给他人。

*  **容器 (Container)**:

  *  **定义**: 容器是基于镜像运行的应用程序实例，可类比为安装好的软件。

  *  **类比**: 类似于模具制作出的糕点。

*  **Docker仓库 (Registry)**:

  *  **定义**: 用于存放和分享Docker镜像的场所。

  *  **Docker Hub**: Docker的官方公共仓库，存储了大量用户分享的Docker镜像。



## 2. Docker安装



*  **运行环境**: Docker通常基于Linux容器化技术。在Windows和Mac电脑上，Docker通过虚拟化一个Linux子系统来运行。

*  **推荐环境**: Linux系统宿主机是最佳的Docker实战环境。

*  **Linux系统安装**:

  1. 访问`getdocker.com`获取安装脚本。

  2. 执行安装脚本（例如，通过`curl -fsSL https://get.docker.com -o get-docker.sh`下载脚本，然后执行`sudo sh get-docker.sh`）。

  3. 安装完成后，若非`root`用户，需在所有`docker`命令前添加`sudo`以获取管理员权限。

*  **Windows系统安装**:

  1. **启用Windows功能**: 勾选“Virtual Machine Platform”（虚拟机平台）和“适用于Linux的Windows子系统”（WSL）。

  2. **重启电脑**: 根据提示完成重启。

  3. **安装WSL**:

   *  以管理员身份打开命令提示符（CMD）。

   *  执行`wsl --set-default-version 2`将WSL默认版本设为2。

   *  执行`wsl --update`安装WSL（国内网络建议添加`--web-download`参数减少下载失败）。

  4. **下载并安装Docker Desktop**: 从官方网站下载对应CPU架构的安装包（Windows通常为AMD64），按提示完成安装。

  5. **启动Docker Desktop**: 需保持Docker Desktop软件运行。

  6. **验证安装**: 在Windows终端输入`docker --version`，若能打印版本号则表示安装成功。

*  **Mac系统安装**:

  1. 根据Mac电脑的芯片类型（Intel或Apple Silicon）下载对应的Docker Desktop安装包。

  2. 按提示完成安装。

*  **命令行使用**: 尽管Docker Desktop提供可视化界面，但命令行在各操作系统上通用性更强，因此教程主要通过命令行讲解。



## 3. Docker镜像管理命令



*  ### `docker pull` - 下载镜像

*  **功能**: 从Docker仓库下载镜像到本地。

*  **镜像构成**: 一个完整的镜像名称包含四部分：`[registry_address/][namespace/]image_name[:tag]`

   *  `registry_address`: Docker仓库的注册表地址。`docker.io`表示Docker Hub官方仓库，可省略。

   *  `namespace`: 命名空间，通常是作者或组织名称。`library`是Docker官方仓库的命名空间，可省略。

   *  `image_name`: 镜像的名称。

   *  `tag`: 镜像的标签名，通常表示版本号。`latest`表示最新版本，可省略。

*  **示例**:

    *  `docker pull nginx`: 从Docker Hub官方仓库下载最新版Nginx镜像。

    *  `docker pull n8n/n8n`: 从N8n的私有仓库下载N8n镜像。

*  **Docker Hub网站**: `hub.docker.com`是官方仓库，可搜索、查看镜像详情（如官方镜像、版本号、使用说明）。

*  **Registry (注册表) 与 Repository (镜像库)**:

   *  **Registry**: 整个Docker Hub网站可视为一个Registry。

   *  **Repository**: 一个Repository（如Nginx）存储了同一个镜像的不同版本。

*  **网络问题解决方案 (镜像站配置)**:~

   *  **Linux**: 修改`/etc/docker/daemon.json`文件，添加`"registry-mirrors": ["https://<your-mirror-address>"]`，然后重启Docker服务（`sudo systemctl restart docker`）。

   *  **Windows/Mac**: 在Docker Desktop的设置中，进入“Docker Engine”配置项，在`registry-mirrors`中添加镜像站地址，点击“Apply & Restart”。

*  ### `docker images` - 列出本地镜像

  *  **功能**: 列出所有已下载到本地的Docker镜像。

*  ### `docker rmi` - 删除镜像

  *  **功能**: 删除本地的Docker镜像。

  *  **参数**: 可指定镜像名称或ID。

*  ### 镜像CPU架构 (`--platform`)

  *  **背景**: Docker镜像作为软件，在不同的CPU架构下（如AMD64、ARM64）有不同的版本。

  *  **默认行为**: `docker pull`命令默认会自动选择最适合当前宿主机CPU架构的镜像。

*  **特殊情况**:

   *  对于某些低功耗迷你主机（如香橙派），其CPU架构通常为ARM64，需确认所需镜像是否提供ARM64版本。

   *  Mac电脑（ARM64架构）的Docker Desktop会使用QEMU模拟X86-64指令集，以兼容部分AMD64镜像，但可能存在兼容性或性能开销。



## 4. Docker容器管理命令



*  ### `docker run` - 创建并运行容器 (最重要命令)

   *  **功能**: 使用指定的镜像创建并运行一个容器。

   *  **自动拉取**: 如果本地不存在指定镜像，`docker run`会先自动拉取镜像，再创建并运行容器。

   *  **`docker ps`**: 查看正在运行的容器。

      *  输出信息包括：`Container ID`（容器唯一ID）、`Image`（基于哪个镜像创建）、`Names`（容器名称）。

   *  **`docker ps -a`**: 查看所有容器（包括正在运行和已停止的）。

   *  **`-d` (Detached Mode)**:

      *  **功能**: 让容器在后台执行，不阻塞当前终端窗口。

      *  **效果**: 控制台只打印容器ID，容器日志不会直接输出到终端。

   *  **`-p` (Port Mapping / 端口映射)**:

      *  **背景**: Docker容器运行在独立的虚拟网络环境中，默认无法直接从宿主机访问容器内部网络。

      *  **功能**: 将宿主机的端口映射到容器内部的端口。

      *  **语法**: `-p <宿主机端口>:<容器内部端口>`（先外后内）。

      *  **示例**: `-p 80:80`将宿主机的80端口转发到容器内的80端口。

   *  **`-v` (Volume Mounting / 挂载卷)**:

      *  **功能**: 将宿主机的文件目录与容器内的文件目录进行绑定。

      *  **目的**: 实现数据的**持久化保存**。当容器被删除时，容器内的数据也会被删除，但挂载卷可确保数据保存在宿主机上。

    *  **类型**:

      *  **绑定挂载 (Bind Mount)**: 直接将宿主机目录路径写入命令。

         *  **语法**: `-v <宿主机目录路径>:<容器内部目录路径>`。

         *  **注意**: 宿主机目录内容会覆盖容器内对应目录的原始内容。

      *  **命名卷挂载 (Named Volume)**: 让Docker自动创建一个存储空间，并为其命名。

         *  **创建命名卷**: `docker volume create <卷名称>`。

         *  **使用命名卷**: `-v <卷名称>:<容器内部目录路径>`。

         *  **特点**: 命名卷在第一次使用时，Docker会将容器的文件夹内容同步到命名卷进行初始化（绑定挂载无此功能）。

    *  **卷管理命令**:

      *  `docker volume ls`: 列出所有创建过的卷。

      *  `docker volume inspect <卷名称>`: 查看卷的详细信息，包括在宿主机的真实目录。

      *  `docker volume rm <卷名称>`: 删除一个卷。

      *  `docker volume prune`: 删除所有未被任何容器使用的卷。

   *  **`-e` (Environment Variables / 环境变量)**:

      *  **功能**: 向容器内部传递环境变量。

      *  **语法**: `-e <KEY>=<VALUE>`。

      *  **用途**: 常用于配置数据库账号密码等。

      *  **查找**: 可在Docker Hub镜像文档或开源项目的GitHub仓库中查找可用的环境变量。

   *  **`--name` (自定义容器名称)**:

      *  **功能**: 为容器指定一个自定义的、在宿主机上唯一的名称。

      *  **好处**: 方便记忆和管理。

   *  **`-it` (Interactive & TTY / 交互式终端)**:

      *  **功能**: 让控制台进入容器内部，获得一个交互式的命令行环境。

      *  **用途**: 临时调试容器，执行Linux命令。

      *  **语法**: `docker run -it <镜像名称> /bin/bash` (或`/bin/sh`)。

   *  **`--rm` (运行结束后自动删除)**:

      *  **功能**: 当容器停止时，自动将其从宿主机上删除。

      *  **常用组合**: 与`-it`联用，用于临时调试场景。

   *  **`--restart` (重启策略)**:

      *  **功能**: 配置容器停止时的重启行为。

      *  **常用策略**:

         *  `always`: 只要容器停止（包括内部错误崩溃、宿主机断电等），就会立即重启。

         *  `unless-stopped`: 除非手动停止容器，否则都会尝试重启。对于生产环境非常有用，可自动重启因意外停止的容器，而手动停止的容器不会再重启。

*  ### 容器启停与管理

   *  **`docker stop <容器ID或名称>`**: 停止一个正在运行的容器。

   *  **`docker start <容器ID或名称>`**: 重新启动一个已停止的容器。

   *  **参数保留**: 使用`stop`和`start`启停容器时，之前`docker run`时设置的端口映射、挂载卷、环境变量等参数都会被Docker记录并保留，无需重新设置。

   *  **`docker inspect <容器ID或名称>`**: 查看容器的详细配置信息。输出内容复杂，可借助AI辅助分析。

   *  **`docker create <镜像名称>`**: 只创建容器，但不立即启动。若要启动，需后续执行`docker start`命令。

*  ### 容器内部操作与调试

   *  **`docker logs <容器ID或名称>`**: 查看容器的运行日志。

   *  **`-f`**: 滚动查看日志，实时刷新。

   *  **Docker技术原理简述**:

      *  **Cgroups (Control Groups)**: 用于限制和隔离进程的资源使用（CPU、内存、网络带宽等），确保容器资源消耗不影响宿主机或其他容器。

      *  **Namespaces**: 用于隔离进程的资源视图，使得容器只能看到自己内部的进程ID、网络资源和文件目录，而看不到宿主机的。

      *  **本质**: Docker容器本质上是一个特殊的进程，但进入容器内部后，其表现如同一个独立的操作系统。

   *  **`docker exec` - 在容器内部执行命令**:

      *  **功能**: 在一个正在运行的Docker容器内部执行Linux命令。

      *  **语法**: `docker exec <容器ID或名称> <命令>`。

      *  **示例**: `docker exec my_nginx ps -ef`查看容器内进程。

      *  **进入交互式环境**: `docker exec -it <容器ID或名称> /bin/sh`（或`/bin/bash`）可进入容器内部获得交互式命令行环境，进行文件系统查看、进程管理或深入调试。

      *  **注意**: 容器内部通常是极简操作系统，可能缺失`vi`等常用工具，需要自行安装（如Debian系容器使用`apt update`和`apt install vim`）。



## 5. Dockerfile - 构建镜像的蓝图



*  **定义**: Dockerfile是一个文本文件，详细列出了如何制作Docker镜像的步骤和指令，可类比为制作模具的图纸。

*  **基本结构与指令**:

  *  `FROM <基础镜像>`: 所有Dockerfile的第一行，选择一个基础镜像，表示新镜像在此基础上构建。

  *  `WORKDIR <目录路径>`: 设置镜像内的工作目录，后续命令在此目录下执行。

  *  `COPY <源路径> <目标路径>`: 将宿主机的文件或目录拷贝到镜像内的指定路径。

  *  `RUN <命令>`: 在镜像构建过程中执行的命令（例如安装依赖）。

  *  `EXPOSE <端口号>`: 声明镜像提供服务的端口（仅为声明，非强制，实际端口映射仍由`-p`参数决定）。

  *  `CMD <命令>`: 容器运行时默认执行的启动命令。一个Dockerfile只能有一个`CMD`指令。

  *  `ENTRYPOINT <命令>`: 与`CMD`类似，但优先级更高，不易被`docker run`命令覆盖。

*  **`docker build` - 构建镜像**:

  *  **功能**: 根据Dockerfile构建Docker镜像。

  *  **语法**: `docker build -t <镜像名称>[:<版本号>] <Dockerfile所在目录>`。

  *  **示例**: `docker build -t docker-test .` (在当前目录构建名为`docker-test`的镜像)。

*  **镜像推送至Docker Hub**:

  1. **登录Docker Hub**: `docker login`。

  2. **重新标记镜像**: `docker tag <本地镜像名称> <你的用户名>/<镜像名称>[:<版本号>]`。推送时镜像名称必须包含用户名作为命名空间。

  3. **推送镜像**: `docker push <你的用户名>/<镜像名称>[:<版本号>]`。

  4. **验证**: 在Docker Hub网站上可搜索到已推送的镜像，其他用户即可通过`docker pull`下载使用。



## 6. Docker网络模式



*  ### Bridge (桥接模式)

   *  **默认模式**: 所有容器默认连接到此网络。

   *  **内部IP**: 每个容器被分配一个内部IP地址（通常是`172.17.x.x`开头）。

   *  **通信**: 同一Bridge网络内的容器可以通过内部IP地址互相访问。容器网络与宿主机网络默认隔离，需通过端口映射（`-p`）才能从宿主机访问。

   *  **自定义子网**:

      *  **创建**: `docker network create <子网名称>`。

      *  **加入**: `docker run --network <子网名称> ...`。

      *  **优势**:

         *  同一子网内的容器可以使用**容器名称**互相访问（Docker内部DNS机制）。

         *  不同子网之间默认隔离。

*  ### Host (主机模式)

   *  **功能**: Docker容器直接共享宿主机的网络命名空间。

   *  **IP地址**: 容器直接使用宿主机的IP地址。

   *  **端口**: 无需端口映射（`-p`），容器内的服务直接运行在宿主机的端口上，通过宿主机的IP和端口即可访问。

   *  **用途**: 解决一些复杂的网络问题。

   *  **语法**: `docker run --network host ...`。

*  ### None (无网络模式)

   *  **功能**: 容器不连接任何网络，完全隔离。

   *  **语法**: `docker run --network none ...`。

*  **网络管理命令**:

   *  `docker network ls`: 列出所有Docker网络（包括默认的bridge、host、none以及自定义子网）。

   *  `docker network rm <网络名称>`: 删除自定义子网（默认网络不可删除）。



## 7. Docker Compose - 多容器编排



*  **背景**: 当一个完整的应用由多个模块（如前端、后端、数据库）组成时，若将所有模块打包成一个巨大容器，会导致故障蔓延、伸缩性差。若每个模块独立容器化，则管理多个容器（创建、网络配置）会增加复杂性。

*  **解决方案**: Docker Compose是一种轻量级的容器编排技术，用于管理多个容器的创建和协同工作。

*  **核心**: 使用YAML文件（通常命名为`docker-compose.yml`）定义多服务应用。

*  **YAML文件结构**: 可视为多个`docker run`命令按照特定格式组织在一个文件中。

   *  `services`: 顶级元素，每个服务对应一个容器。

   *  服务名称（如`mongodb`）: 对应`docker run`中的`--name`，作为容器名的一部分。

   *  `image`: 对应`docker run`中的镜像名。

   *  `environment`: 对应`docker run`的`-e`参数。

   *  `volumes`: 对应`docker run`的`-v`参数。

   *  `ports`: 对应`docker run`的`-p`参数。

   *  **网络**: Docker Compose会自动为每个Compose文件创建一个默认子网，文件中定义的所有容器都会自动加入此子网，并可通过服务名称互相访问。

   *  `depends_on`: 定义容器的启动顺序，确保依赖服务先启动。

*  **AI辅助**: 可借助AI工具生成等价的Docker Compose文件。

*  **Docker Compose命令**:

  *  `docker compose up`: 启动YAML文件中定义的所有服务（容器）。

      *  `-d`: 后台运行。

      *  会自动创建子网和容器。

   *  `docker compose down`: 停止并删除由Compose文件定义的所有服务和网络。

   *  `docker compose stop`: 仅停止服务，不删除容器。

   *  `docker compose start`: 启动已停止的服务。

   *  `docker compose -f <文件名.yml> up`: 指定非标准文件名的Compose文件进行操作。

*  **适用场景**: Docker Compose适合个人使用和单机运行的轻量级容器编排需求。

*  **与Kubernetes对比**: Kubernetes是企业级服务器集群和大规模容器编排的解决方案，功能更为复杂。



## 8. 总结



以上内容涵盖了Docker的核心概念、在不同操作系统上的安装方法、常用的镜像与容器管理命令、Dockerfile的编写与镜像构建流程、Docker的多种网络模式，以及轻量级多容器编排工具Docker Compose的使用。这些是理解和应用Docker的关键知识点。





# Git

### 基本操作

#### 初始化设置

`git config --global user.name "mihu"`

`git config --global user.email vt.chen@163.com`


#### 设置代理
`git config --global http.proxy socks5://127.0.0.1:10808`

`git config --global https.proxy socks5://127.0.0.1:10808`

10808为代理端口


### Git笔记


#### 创建仓库
`git init <project_name>`   \
创建一个新的本地仓库（省略project-name则在当前目录创建。）

`git clone <repository_url>`   \
克隆一个远程仓库到本地。

#### 四个区域
- 工作区：即你在电脑里能看到的目录，通过编辑器打开的文件都在这里。
- 暂存区：git add命令将文件添加到暂存区，等待提交。暂存区也叫索引， 用来临时存放未提交的内容， 一般在.git目录下的index中。
- 本地仓库：git commit命令将暂存区的内容提交到本地仓库，版本库。Git在本地的版本库， 仓库信息存储在.git这个隐藏目录中。
- 远程仓库：托管在远程服务器上的版本库，可以和本地仓库进行交互。常用的有GitHub、 GitLab、 Gitee。

一般情况下 我们先设置默认分支为master级别 

`git config --global init.defaultBranch master`

`git clone https://gitclone.com/github.com/vtchen0523/git_test.git`


#### 文件状态
- 已修改（modified）：已在工作区被修改，但没有被暂存。
- 已暂存（staged）：修改后已经保存到暂存区的文件。
- 已提交（committed）：把暂存区的文件提交到本地仓库后的状态。

#### 状态
- main/master分支：默认的分支，用于发布新版本。
- origin：默认远程仓库
- HEAD：指向当前所在的分支。
- HEAD^：指向当前分支的父节点。
- HEAD~3：指向前3个父节点。


#### 特殊文件
- .gitignore：用于指定忽略哪些文件不纳入版本管理。
- .git ：版本库目录，保存了版本库的元数据和对象数据库。
- .gitkeep：可以用来创建一个空目录。
- .gitmodules：保存了子模块的配置。
- .gitconfig：记录仓库的配置信息。

#### 添加和提交

`git add <file>`   \
将文件添加到暂存区。添加一个文件到暂存区， 比如git add . 就表示添加所有文件到暂存区。

`git commit -m "commit message"`   \
将暂存区的修改提交到本地仓库。

`git commit -a -m "commit message"`   \
提交所有已修改的文件到本地仓库。

#### 分支
`git branch`   \
查看所有本地分支， 当前分支前面会有一个星号*， -r查看远程分支， -a查看所有分支。

`git branch <branch_name>`   \
创建一个新的分支。

`git switch <branch_name>`   \
切换到指定分支。

`git switch -b <branch_name>`   \
创建并切换到指定分支。

`git branch -d <branch_name>`   \
删除一个已经合并的分支。

`git branch -D <branch_name>`   \
删除一个分支， 不管是否合并。

`git tag <tag-name>`   \
给当前的提交打上标签， 通常用于版本发布。

`git merge <branch_name>`   \
合并指定分支到当前分支。

`git rebase <branch_name>`   \
操作可以把本地未push的分叉提交历史整理成直线， 看起来更加直观。 但是， 如果多人协作时， 不要对已经推送到远程的分支执行rebase操作。

rebase不会产生新的提交， 而是把当前分支的每一个提交都“复制” 到目标分支上， 然后再把当前分支指向目标分支， 而merge会产生一个新的提交， 这个提交有两个分支的所有修改。



#### 撤销和恢复

`git reset --mixed <commit-id>`   \
重置当前分支的HEAD为之前的某个提交， 并且删除所有之后的提交。\
--hard参数表示重置工作区和暂存区，\
--soft参数表示重置暂存区，\
--mixed参数表示重置工作区。

`git revert <commit-id>`   \
创建一个新的提交， 用来撤销指定的提交， 后者的所有变化将被前者抵消， 并且应用到当前分支。

`git mv <file> <new-file>`   \
移动一个文件到新的位置。

`git rm <file>`   \
从工作区和暂存区删除一个文件， 并且将这次删除放入暂存区。

`git rm --cached <file>`   \
从暂存区删除一个文件， 但仍然保留在工作区。

`git checkout <file> <commit-id>`   \
丢弃工作区的改动， 回到指定提交的状态。

`git restore --staged <file>`   \
撤销暂存区的文件， 重新放回工作区（git add的反向操作）。


#### 查看状态或差异
`git status`   \
查看仓库状态， 列出还未提交的新的或修改的文件。

`git log --oneline`   \
查看提交历史， --oneline表示简介模式。

`git diff`   \
查看未暂存的文件更新了哪些部分。

`git diff <commit-id> <commit-id>`   \
查看两个提交之间的差异。


#### 远程仓库
`git remote add <remote_name> <repository_url>`   \
添加一个远程仓库。

`git remote -v`   \
查看远程仓库信息。

`git remote rm <remote-name>`   \
删除一个远程仓库。

`git remote rename <old-name> <new-name>`   \
重命名一个远程仓库。

`git pull <remote-name> <branch-name>`   \
从远程仓库拉取代码。 默认拉取远程仓库名origin的master或者main分支。

`git pull --rebase`   \
合并远程分支到本地分支， 并自动解决冲突。

`git push <remote-name> <branch-name>`   \
推送代码到远程仓库（然后再发起pull request）。

`git fetch <remote-name>`   \
获取所有远程分支。

`git branch -r`   \
查看远程分支。

`git fetch <remote-name> <branch-name>`   \
Fetch某一个特定的远程分支。

#### 

`git clone git@gitee.com:wang-66/diff-power.git --depth 10 `

--depth 10: only clone the latest 10 commits


[
git submodule update --init --recursive  对于一些很久的分支，要用这个更新一下子模块

git status 查看状态,确定一下是否有没有track的子模块
]




git checkout -b vtchen/0825_test

git add xx.py

git commit -m "[planner]: add st boundary pre decider test" 添加评论

git push --set-upstream origin happy/0817_test

git reset --soft HEAD^

git push -f

git remote -v

git remote add origin git@gitee.com:wang-66/altc.git

git fetch --depth 10

`git merge` 用于将两个分支的历史合并。它会创建一个新的合并提交，并保留合并前两个分支的历史。

## SSH

ssh-keygen -t rsa -b 4096 -C "vtchen"


```
pip install torchshow
```

## vscode更新
`sudo apt update`

`sudo apt upgrade code`

- 解压到指定目录: `unzip xxx.zip -d /path/to/directory`

####  linux全局环境卸载python
1. conda deactivate
2. sudo apt-get remove python3
3. sudo apt-get autoremove

### SSH连接
1. ifconfig 查看网卡信息，如果没有，则需要安装ifconfig工具：sudo apt install net-tools
2. 安装ssh：sudo apt install openssh-server
3. vscode中安装Remote-SSH插件，并连接服务器
4. 打开扩展，点击+，然后ssh 用户名@服务器ip地址，输入密码，连接成功
5. 软件mobaXterm连接服务器
6. sftp上传文件：
   - sftp 用户名@服务器ip地址
   - 所有命令同linux命令行一样（cd, pwd, ls）
   - 本地命令前面增加字母$l$（lcd, lpwd, lls）
   - 上传文件：put 文件名
   - 下载文件：get 文件名


## 1 使用服务器进行炼丹

### 1.1 连接服务器的方法（SSH和GUI）

**使用方法【详细见[腾讯文档笔记](https://link.zhihu.com/?target=https%3A//docs.qq.com/aio/DVk9zR05GVERMWVpp%3Fp%3DxH4wGvbncJczOJkcMRuTem)】：**

> **使用场景：通常适用于文件查找、环境配置、简短的代码测试**等等。  
> **使用前提：**服务器需要配置SSH服务，不是新服务器一般都是开着的

使用方法

1.  终端：直接使用PC终端命令`ssh <username>@ip`
2.  使用工具Termius（[Termius - SSH platform for Mobile and Desktop](https://link.zhihu.com/?target=https%3A//termius.com/)）
3.  使用工具MobaXterm**（**[MobaXterm free Xserver and tabbed SSH client for Windows](https://link.zhihu.com/?target=https%3A//mobaxterm.mobatek.net/)**）**

**简要说明：**可Termius、MobaXterm任选一个做自己常用的SSH软件，连接服务器。

> Termius记忆功能比较强大，右侧栏有历史命令记录，对于新用户相对有好些【用多了其实区别不大】  
> MobaXterm支持协议更多，可以直接使用X11服务，调用图形界面，例如服务器需要上网认证，可直接在命令行输入`firefox` ，即可调用Ubuntu服务器的火狐浏览器。  
> 终端的这种一般需要快速连接服务器可使用，比如刚安装的服务器需要测试等。

**GUI方式：**

> 使用Windows自带**远程桌面连接**输入服务器局域网IP即可  
> 其实，在学校更推荐使用这种方式连接其他电脑。学校是一个大的局域网环境，我们不需要认证登录就可以直接访问其他的设备，特别适合没钱买新的笔记本，只能依靠实验室电脑的朋友们，远比向日葵要求低，[XRDP](https://zhida.zhihu.com/search?content_id=658739683&content_type=Answer&match_order=1&q=XRDP&zhida_source=entity)在向日葵那里收费哦！  
> **使用场景：**上网认证、服务器之间进行文件传输。、  
> **使用前提：**完成了XRDP服务配置【Linux需要配置，Windows默认开启好像】

**使用方法【详细见[腾讯文档笔记](https://link.zhihu.com/?target=https%3A//docs.qq.com/aio/DVk9zR05GVERMWVpp%3Fp%3DxH4wGvbncJczOJkcMRuTem)】：**

1.  `WIN+S`打开系统搜索界面，搜索`远程桌面连接`；
2.  打开`远程桌面连接`工具，输入服务器 IP 地址，点击连接；
3.  输入你的服务器的 Username(用户名) 和 Password(密码)
4.  出现该警告，勾选不在询问
5.  等待片刻，会出现锁屏或者桌面

**补充网络穿透：**

> 很多学校除了申请，基本只有二级路由的局域网IP，外网是无法直接ssh到该ip的，可以使用zerotier这个P2P的内网穿透工具，使用方式参考下面链接【根据个人习惯，任选文档】：

-   [ZeroTier 的安装与使用-CSDN](https://link.zhihu.com/?target=https%3A//blog.csdn.net/RadiantJeral/article/details/104150070)
-   [用zerotier实现内网穿透 - 知乎 (zhihu.com)](https://zhuanlan.zhihu.com/p/422171986)
-   [免费高速P2P内网穿透zerotier使用教程\_哔哩哔哩 (bilibili)](https://link.zhihu.com/?target=https%3A//www.bilibili.com/video/BV1yZ4y1s7jg/%3Fvd_source%3D7ec211fe7ee27e99084aa40794446e40)

### 1.2 使用VSCode进行开发简单的交代

-   **面向对象：**开发周期比较长的，可以选择使用VSCode直接把代码放到服务器上面进行修改
-   **使用方法：**

1.  安装`Remote-SSH`扩展
2.  打开用户目录下配置文件`C:\Users\username\.ssh.config`
3.  点击config文件之后，输入以下内容，之后连接：

```text
Host  
  HostName <服务器IP>
  User 
  Port 22
```

> <name>: 设置一个标识，让你自己知道在操作是那台服务器  
> <服务器IP>： 实验室的服务器IP，例如：172.27.41.21  
> <username>: 你的账户的用户名

例如：

```text
Host remote
  HostName 192.168.192.135
  User cbw
  Port 22
```

-   **VS Code免密登录**

> 面向场景：  
> 1\. 不想每次进入都输入两次密码  
> 2\. 不想每次因为网络波动都重新输入

1.  密钥生成：【本地】使用命令`ssh-keygen -t rsa`，之后会在`Users/username/.ssh`下生成`id_rsa`以及`id_rsa.pub`，对应的是私钥和公钥。
2.  本地：打开`id_rsa.pub`文件，复制文件内容【文档下面用xxx代替该文件内容】
3.  服务器终端：运行命令`echo "xxx" >> ~/.ssh/authorized_keys`，其中`“xxx”`是上一步`id_rsa.pub`文件中内容
4.  服务器终端：设置文件600权限 `chmod 600 ~/.ssh/authorized_keys`

-   **详细说明文档**

-   [VS Code官方文档](https://link.zhihu.com/?target=https%3A//code.visualstudio.com/docs/remote/ssh)
-   [VSCode Remote SSH (腾讯文档笔记)](https://link.zhihu.com/?target=https%3A//docs.qq.com/aio/DVk9zR05GVERMWVpp%3Fp%3DLdSJr9PCeZVXG7bZPEihyB)

### 1.3 会话终端分离方案

> 算法训练通常时间比较长，正常的终端形式或者VSCode内置终端，会受本地、网络影响，会出现ssh断连导致训练中断，**tmux可以把终端和会话分离开**  
> **解决痛点：**可以避免丹还没练完，VS Code因长时间运行导致挂着卡死的情况。【真的不敢动！】

**使用方法【详细见[腾讯文档笔记](https://link.zhihu.com/?target=https%3A//docs.qq.com/aio/DVk9zR05GVERMWVpp%3Fp%3DsUp0dGz5LSD4stKyKiku46)】：**

-   **Tmux配置**

-   创建配置文件`.tmux.conf` ，命令`vim ~/.tmux.conf`
-   分屏设置 [tmux分屏命令总结\_termux分屏-CSDN博客](https://link.zhihu.com/?target=https%3A//blog.csdn.net/luhao19980909/article/details/89718899)
-   `set -g mouse on`写入配置文件`.tmux.conf`

-   **Tmux使用【极简版】**

> 通常只需要创建、连接两步就行了，直接关闭终端不影响进程。  
> 只有手动杀掉tmux会话，里面的进程才会受影响

-   创建Tmux会话：`tmux new -s <name>`
-   连接已有Tmux会话：`tmux a -d -t <name>`

### 1.4 数据下载与传输建议

> 有多少人使用Linux服务器，还用向日葵传输文件？  
> 如果说单独一个人的服务器随便整，但是没有sudo权限的用户，传上去文件所属可能就不是你了  
> **推荐使用：**使用wget、curl、SMB、FTP等协议的方式

1.  **SMB服务传输：**windows局域网使用的协议，windows网上邻居发现的共享文件夹即使用的smb协议，可以通过windows自带的映射网络文件夹挂载。Linux需要配置**，**使用方法如下**【详细见[腾讯文档笔记](https://link.zhihu.com/?target=https%3A//docs.qq.com/aio/DVk9zR05GVERMWVpp%3Fp%3DWXRuskzNpb5V3iYsNAX85P)】**：

-   开设SMB服务认证用户：`sudo smbpasswd -a <username>`
-   在Windows任务管理器，创建网络位置`\\<server ip>\<username>`

**2\. FTP服务传输：**无需开设服务账号，使用自己用户账号认证，直接创建网络位置`ftp://192.168.192.135`

**3.** **Termius、mobaXterm工具传输文件**：

-   **Termius：**左侧SFTP选项即文件传输界面，看到应该就会用了【也适用于两个服务器之间传输，左右两个设备文件管理】
-   **mobaXterm：**直接使用SSH服务配置选则，增强的SCP服务左侧就会有服务器的文件管理，直接拖拉即可

**4\. 直接使用wget、curl下载文件到服务器：**

-   wget断点续传：`wget -c <url>`
-   curl下载：`curl -O <url>`

**相关的参考文档：**

-   [文件传输与下载 (docs.qq.com)](https://link.zhihu.com/?target=https%3A//docs.qq.com/aio/DVk9zR05GVERMWVpp%3Fp%3D9kck1SXu58yM3WyfRiQqIO)
-   [挂载远程文件夹方案 smb ftp sftp nfs webdav - sikeerwei - 博客园 (cnblogs.com)](https://link.zhihu.com/?target=https%3A//www.cnblogs.com/focus-g/p/11367181.html)
-   [Linux wget命令-菜鸟笔记 (coonote.com)](https://link.zhihu.com/?target=https%3A//www.coonote.com/linux/linux-cmd-wget.html)

## 2 开发环境说明以及常见问题

### 2.1 [CUDA](https://zhida.zhihu.com/search?content_id=658739683&content_type=Answer&match_order=1&q=CUDA&zhida_source=entity)版本说明

**主要内容：**CUDA简述，常见问题以及解决方案

> CUDA有两种API，运行环境API和驱动API，即所谓的Runtime API与Driver API。`nvidia-smi`的结果除了有GPU驱动版本型号，还有CUDA Driver API的型号，而`[nvcc](https://zhida.zhihu.com/search?content_id=658739683&content_type=Answer&match_order=1&q=nvcc&zhida_source=entity) -V`得结果对应CUDA Runtime API。

![](https://picx.zhimg.com/50/v2-65d3a405c146e42f7572f3cd9cb03dd0_720w.jpg?source=2c26e567)

nvidia-smi结果

### 2.3 CUDA常见相关问题以及解决方案

**常见问题1：**我们跑代码看的是`nvidia-smi`的CUDA Version还是`nvcc -V`结果？哪个对应代码说明文档里面提到的版本

**说明：**看`nvcc -V`结果，也就是运行环境版本。nvidia-smi显示的CUDA Version是当前版本驱动支持的**运行环境最高版本号**，CUDA驱动支持的运行环境版本是向下兼容的。图里面是11.4，对应的10.0-11.4以下的都可以用。【服务器T4显卡支持范围10.0以上】

**常见问题2：**没有人跑程序，显存显示被占用。

**说明：**这种通常是某个用户跑的程序没有正常退出，显存没有释放，这种情况需要用户手动释放【程序不正常退出可以看下nvidia-smi，如果不是自己的造成的，联系持有管理员账号的同门】。

**解决方法：**

![](https://pica.zhimg.com/50/v2-9062a0b92ea569c0f84035ec6dcf0be9_720w.jpg?source=2c26e567)

查看进程所属用户

以上图为例，可以看到进程号PID是65260

-   查看进程所属用户：`ps u <PID>`
-   杀掉自己残存进程：`kill -9 <PID>`

**Tips：**如果`ps u <PID>`结果显示`USER`不是自己用户名，可联系所属用户或者管理员。

**常见问题3：**显存被占，但是不显示PID，如下图

![](https://picx.zhimg.com/50/v2-0e148d9a88596deb461a2e1c2fdc984d_720w.jpg?source=2c26e567)

**说明：**原因同问题2

**解决方法：**使用`fuser -v /dev/nvidia0`，查看使用显存线程PID，随后`kill -9 <PID>`，如下图

![](https://picx.zhimg.com/50/v2-7aaf5d0117f9c1359ee4fa743b330861_720w.jpg?source=2c26e567)

### 2.3 CUDA多环境多版本使用

> 管理用户可以提前装好驱动以及10.2、11.1、11.3、11.7这些覆盖范围比较广的CUDA运行环境的版本，基本可以全覆盖PyTorch，需要其他版本的联系管理员，或者**自己在用户目录安装【包括gcc之类的也都可以，安装过程路径全部放到自己用户目录下，例如：在**`/usr/local/...`**路径前面加上`/home/cbw`构成`/home/cbw/usr/local/...`】**。  
> 新用户`nvcc -V`提示安装`nvidia-cuda-toolkit`，不用装，只是没有设置环境变量，使用下面脚本切换就不提示了。

![](https://picx.zhimg.com/50/v2-4bc6b226763977cfbae4f5ae7beec275_720w.jpg?source=2c26e567)

bash脚本切换效果

![](https://picx.zhimg.com/50/v2-d729c5a5d62b4775624113af13373dc5_720w.jpg?source=2c26e567)

新用户使用效果

切换方式：运行bash文件切换

1.  创建转换脚本

```bash
vim ~/switch-cuda.sh
```

将下面代码粘贴进去链接: [网盘链接，也可直接下载放入用户目录](https://link.zhihu.com/?target=https%3A//pan.baidu.com/s/1ERqZ3Ry2lbSCtq_5DsfWQw%3Fpwd%3D6666)

```text
#!/usr/bin/env bash

set -e
# ensure that the script has been sourced rather than just executed
if [[ "${BASH_SOURCE[0]}" = "${0}" ]]; then
    echo "Please use 'source' to execute switch-cuda.sh!"
    exit 1
fi

INSTALL_FOLDER="/usr/local"  # the location to look for CUDA installations at
TARGET_VERSION=${1}          # the target CUDA version to switch to (if provided)

# if no version to switch to has been provided, then just print all available CUDA installations
if [[ -z ${TARGET_VERSION} ]]; then
    echo "The following CUDA installations have been found (in '${INSTALL_FOLDER}'):"
    ls -l "${INSTALL_FOLDER}" | egrep -o "cuda-[0-9]+\\.[0-9]+$" | while read -r line; do
        echo "* ${line}"
    done
    set +e
    return
# otherwise, check whether there is an installation of the requested CUDA version
elif [[ ! -d "${INSTALL_FOLDER}/cuda-${TARGET_VERSION}" ]]; then
    echo "No installation of CUDA ${TARGET_VERSION} has been found!"
    set +e
    return
fi

# the path of the installation to use
cuda_path="${INSTALL_FOLDER}/cuda-${TARGET_VERSION}"

# filter out those CUDA entries from the PATH that are not needed anymore
path_elements=(${PATH//:/ })
new_path="${cuda_path}/bin"
for p in "${path_elements[@]}"; do
    if [[ ! ${p} =~ ^${INSTALL_FOLDER}/cuda ]]; then
        new_path="${new_path}:${p}"
    fi
done

# filter out those CUDA entries from the LD_LIBRARY_PATH that are not needed anymore
ld_path_elements=(${LD_LIBRARY_PATH//:/ })
new_ld_path="${cuda_path}/lib64:${cuda_path}/extras/CUPTI/lib64"
for p in "${ld_path_elements[@]}"; do
    if [[ ! ${p} =~ ^${INSTALL_FOLDER}/cuda ]]; then
        new_ld_path="${new_ld_path}:${p}"
    fi
done

# update environment variables
export CUDA_HOME="${cuda_path}"
export CUDA_ROOT="${cuda_path}"
export LD_LIBRARY_PATH="${new_ld_path}"
export PATH="${new_path}"

echo "Switched to CUDA ${TARGET_VERSION}."

set +e
return
```

2\. bash脚本使用

a. 查看当前已有版本：`source ~/switch-cuda.sh[bash脚本存放路径]`

b. 转换当前版本：`source ~/switch-cuda.sh[bash脚本存放路径] <cuda version>[需要版本号]`

**Tips:** 需要时转换即可。conda安装的pytorch会自带cuda toolkits，如果需要编译，可以激活环境之后，再使用切换命令。

### 2.4 镜像源加速、环境简单说明

> 推荐直接参考清华源官网文档来配置

**换源，**[清华大学开源软件镜像站 | Tsinghua Open Source Mirror](https://link.zhihu.com/?target=https%3A//mirrors.tuna.tsinghua.edu.cn/)**：**

1.  apt源【对应什么系统，比如Ubuntu】
2.  pip【对应pypi】、conda【对应anaconda】

### 2.5 [Conda](https://zhida.zhihu.com/search?content_id=658739683&content_type=Answer&match_order=1&q=Conda&zhida_source=entity)常用命令

**2.5.1 创建、删除环境**

```text
# 查看环境信息
conda info --e

# 创建环境
conda create -n <envname> (python=<version>)

# 激活环境
conda activate <envname>
source activate <envname>

# 切换base环境
conda activate
activate

# 退出环境
conda deactivate <envname>
source deactivate <envname>

# 删除环境
conda env remove -n <envname>
conda remove -n <envname> --all
```

**2.5.2 管理环境libraries**

```text
# 安装包（library）
conda install 
pip install 

# 查看当前环境已安装包
conda list

# 更新包
conda update 
# 更新指定环境内的包
conda update -n  

# 移除包
conda remove 
pip uninstall 

# 删除指定环境以及下属所有包
conda remove -n  --all
```

**补充：**[pip下载pytorch等比较大的包时，遇到超时](https://link.zhihu.com/?target=https%3A//blog.csdn.net/qq_39478403/article/details/109644316)

2.5.3 复制环境以及环境打包

-   本机复制`conda create -n <new envname> --clone <old envname>`
-   非本机复制【推荐pip方式】

```text
# 导出环境
conda env export > environment.yaml
# 在新机器上安装环境
conda env create -f environment.yaml
```

**Tips:** `conda env export` 导出的yaml记录了环境名，软件源地址以及安装包列表，但是只能用`conda install` ，如果环境有用`pip install`安装的包，可使用`pip freeze`生成txt文件。

```text
# 导出环境 
pip freeze > requirements.txt
# 在新机器上安装环境
pip install -r requirements.txt
```

### 2.6 Conda环境常见问题

**2.6.1 CondaHTTPError 000**

问题截图：

![](https://picx.zhimg.com/50/v2-0eb717f9d5038cf10e44e5bf9b3cc061_720w.jpg?source=2c26e567)

解决方案：使用命令`conda config --set ssl_verify false`

### 2.7 apt(apt-get)、docker、环境等代理

> 涉及到有些访问不了的源，想使用官方源的话，可以走代理。

**2.7.1 Ubuntu中apt、apt-get走代理**

1.  配置文件法：永久代理

修改/etc/apt/apt.conf（或者/etc/envrionment），增加

```console
Acquire::http::proxy "http://10.251.210.xx:808/";
Acquire::ftp::proxy "ftp://10.251.210.xx:808/";
Acquire::https::proxy "https://10.251.210.xx:808/";
```

2\. 命令行临时使用：推荐方法，毕竟不能访问的基本都是需要梯子的，流量一般是限量的，而且也不需要时时刻刻走代理

命令行后直接增加-o参数

```text
sudo apt-get -o Acquire::http::proxy="http://ip:port/" update（install等）
```

3\. 环境变量设置https\_proxy、http\_proxy的方式

> 该方法apt有bug，ipv6的ip走不通，如果有nvidia-github-io等访问需求推荐使用apt配置的方式。  
> 如果使用git、curl、wget等可以使用该方法，其实对应的git、curl、wget也有对应方法，如果知道建议使用对应方法，不知道可以使用该方法。

```text
export https_proxy=http://127.0.0.1:8000
```

**2.7.2 Docker各种情况下的代理使用**

[如何优雅的给 Docker 配置网络代理-腾讯云开发者社区-腾讯云 (tencent.com)](https://link.zhihu.com/?target=https%3A//cloud.tencent.com/developer/article/1806455)

[git设置、查看、取消代理\_git 取消代理-CSDN博客](https://link.zhihu.com/?target=https%3A//blog.csdn.net/weimeibuqieryu/article/details/106793645)

## WLS2安装CUDA保姆级教程


目前很多[服务器](https://so.csdn.net/so/search?q=%E6%9C%8D%E5%8A%A1%E5%99%A8&spm=1001.2101.3001.7020)是unix系统或者linux系统，想学习[Linux系统](https://so.csdn.net/so/search?q=Linux%E7%B3%BB%E7%BB%9F&spm=1001.2101.3001.7020)上调用GPU进行程序加速，但是没有Linux系统设备，要弄双系统也觉得麻烦。Windows系统有一个适用于Linux的windows子系统，叫做WSL，可以在Windows下使用Linux编程。因此这篇文章就是记录自己在wsl上安装cuda并进行程序测试的过程。

安装过程中由于ubuntu系统、NVIDIA显卡驱动以及cuda版本（包括后面可能安装pytorch等一些包）的适配问题，会有非常多的坑，因此，**明确自己各个设备的版本**十分有必要。

本人的设备以及要安装的软件系统包括：  
NVIDIA GeForce GTX 750 ti显卡  
NVIDIA 显卡驱动472.212  
ubuntu22.04  
cuda11.4

### 一、确认装好wsl2并设置为默认版本，同时安装ubuntu子系统

这个网上有很多教程，自己找个装就好了。这里贴一个：  
[Win11 WSL2 安装教程](https://lihanchen2004.github.io/2024/05/02/Win11-WSL2-Installation-Tutorial/#:~:text=%E5%AE%89%E8%A3%85%20WSL%202%20%E4%B9%8B%E5%89%8D%EF%BC%8C%E5%BF%85%E9%A1%BB%E5%90%AF%E7%94%A8%E2%80%9C%E8%99%9A%E6%8B%9F%E6%9C%BA%E5%B9%B3%E5%8F%B0%E2%80%9D%E5%8F%AF%E9%80%89%E5%8A%9F%E8%83%BD%E3%80%82%20%E8%AE%A1%E7%AE%97%E6%9C%BA%E9%9C%80%E8%A6%81%20%E8%99%9A%E6%8B%9F%E5%8C%96%E5%8A%9F%E8%83%BD%20%E6%89%8D%E8%83%BD%E4%BD%BF%E7%94%A8%E6%AD%A4%E5%8A%9F%E8%83%BD%E3%80%82%20%E4%BB%A5%E7%AE%A1%E7%90%86%E5%91%98%E8%BA%AB%E4%BB%BD%E6%89%93%E5%BC%80,%2Fall%20%2Fnorestart%20%E9%87%8D%E6%96%B0%E5%90%AF%E5%8A%A8%20%E8%AE%A1%E7%AE%97%E6%9C%BA%EF%BC%8C%E4%BB%A5%E5%AE%8C%E6%88%90%20WSL%20%E5%AE%89%E8%A3%85%E5%B9%B6%E6%9B%B4%E6%96%B0%E5%88%B0%20WSL%202%E3%80%82)  
我按照上面的教程，安装了wls2+ubuntu22.04。  
**注意**，ubuntu安装过程会附带安装某个版本的gcc、g++，但是这个版本可能会与cuda版本不匹配，这个我们会讲。

### 二、安装cuda

此处参考教程：[如何使用 GTX750 或 1050 显卡安装 CUDA11+](https://mp.weixin.qq.com/s/OvxUASMonxtdo0aF1wxfNg)和[win11 WSL ubuntu安装CUDA、CUDNN、TensorRT最有效的方式\_wsl安装cudnn-CSDN博客](https://blog.csdn.net/qq_40102732/article/details/135182310)

#### step1 查询当前驱动程序以及可安装的最高cuda版本

要安装 CUDA 的条件是电脑有独立显卡，并且显卡是英伟达也就是 N 卡。打开“控制面板”，点击“硬件和声音”，找到“NVIDIA控制面板”并打开，点击“系统信息”。  
![打开NVIDIA控制面板](https://i-blog.csdnimg.cn/blog_migrate/fb40ca1d52216c61e8159d9dd8c9eea1.png)  
![查看驱动版本号](https://i-blog.csdnimg.cn/blog_migrate/27a6969290b55cf5d5afc91d91aac19c.png)  
![查看最高支持的cuda版本](https://i-blog.csdnimg.cn/blog_migrate/5978f473bc6ae397018fd94642450729.png)  
“显示”里面可以看到当前驱动的版本。“组件”里面可以看到支持当前驱动的最高cuda版本。如果你想下载高版本cuda，那么就需要更新显卡驱动程序了。

或者打开命令行窗口，输入：

```bash
nvidia-smi
```

![nvidiasmi命令](https://i-blog.csdnimg.cn/blog_migrate/78f2265e35a61014c55c8f89565a4f05.png)  
也可以看到驱动程序版本和最高支持的cuda版本。如果 cmd 输入后找不到该命令，需要把 “C:\\Program Files\\NVIDIA Corporation\\NVSMI” (监控工具默认位置) 添加到 “path” 的环境变量中。可以看一下上面的参考链接。

#### step2 更新NVIDIA显卡驱动程序

首先**查看显卡的型号**，打开“任务管理器”，点击“性能”，找到GPU，这里将显示显卡的型号。![查看显卡型号](https://i-blog.csdnimg.cn/blog_migrate/cd36194810004209c58fb0b3fc0cc801.png)  
然后**下载显卡驱动**。进入英伟达驱动下载网站：NVIDIA Driver Downloads.选择对应显卡型号的驱动程序并下载一个最新的。  
![下载显卡驱动](https://i-blog.csdnimg.cn/blog_migrate/5f473f9b0f6ab9266c2f133c8efc0a25.png)  
下载完之后双击进行安装。安装之后可以把原来版本的驱动程序给卸载。  
![卸载老版驱动](https://i-blog.csdnimg.cn/blog_migrate/9e8ec1e5aad41034dbed84588811f32c.png)  
重启计算机之后，驱动程序应该更新到了下载好的版本！可以在Step1再次查看是否更新成功，并且查看当前最高支持的cuda版本。

#### step3 安装对应版本的cuda

打开网站developer.nvidia.com/cuda-toolkit-archive，找一个满足条件的cuda版本，比如我的驱动程序最高支持cuda11.4，于是选择cuda11.4.0.按照如图所示选择，下面会显示下载的指令。  
![cuda各个版本](https://i-blog.csdnimg.cn/blog_migrate/ecbdcc2649a4056183aa4098f6ea4dae.png)  
![下载对应版本cuda](https://i-blog.csdnimg.cn/blog_migrate/8edea7b8e1bde67462561cd8318ba410.png)  
之后，我们以管理员身份运行命令行窗口，并输入wsl切换至ubuntu系统。然后依次输入上面的下载指令。  
![切换wsl-ubuntu系统](https://i-blog.csdnimg.cn/blog_migrate/70471ef6a732012a52ce74c4717e9e4a.png)  
注意，安装过程可能会出现如下问题：

-   运行安装指令时，出现apt-key过时的问题：

```bash
W: http://mirrors.aliyun.com/kubernetes/apt/dists/kubernetes-xenial/InRelease: Key is stored in legacy trusted.gpg keyring (/etc/apt/trusted.gpg), see the DEPRECATION section in apt-key(8) for details.
```

可以直接忽略，也可以参考链接：[ubuntu 安装 cuda-CSDN博客](https://blog.csdn.net/weixin_40548182/article/details/136703916)以去除“warning”代码提示。

-   出现libcufile11-4没有安装的问题：

```bash
The following packages have unmet dependencies:
 libcufile-11-4 : Depends: liburcu6 but it is not installable
E: Unable to correct problems, you have held broken packages.
```

参考链接: [WSL2 Ubuntu22.04 + 3070安装cuda11.6 +Pytorch1.13.0全纪录\_wsl ubuntu cuda-CSDN博客](https://blog.csdn.net/qq_31034951/article/details/134187395?csdn_share_tail=%7B%22type%22%3A%22blog%22%2C%22rType%22%3A%22article%22%2C%22rId%22%3A%22134187395%22%2C%22source%22%3A%22unlogin%22%7D)进行解决。

安装时间可能比较长，耐心等待就好。

#### step4 将cuda添加至环境变量

使用`cd ~`命令切换至用户文件夹下，并用nano文本编辑器(没有这个就`sudo install nano`)打开`.bashrc`文件。

```bash
nano .bashrc
```

![编辑bashrc](https://i-blog.csdnimg.cn/blog_migrate/18c1229cfbdb6f1e4b4bfc87d04869c8.png)

```bash
#config cuda
export CUDA_HOME=/usr/local/cuda-11.4 
export PATH=$PATH:$CUDA_HOME/bin       
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:$CUDA_HOME/lib64
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:$CUDA_HOME/extras/CUPTI/lib64
```

按`ctrl+X`退出，`Y`保存，`enter`确定。然后输入：

```bash
source ~/.bashrc
```

环境变量生效。

如果这几步没有问题，cuda程序就安装好了，使用命令：

```bash
nvcc --version
```

如果安装成功，会输出类似如下信息：  
![nvcc](https://i-blog.csdnimg.cn/blog_migrate/1942e3bbe1e64e6886db5aa41e2b54db.png)

### 三、利用VScode运行cpp测试代码

确保windows下面安装了vscode，安装教程可以网上找。

首先安装WSL插件，确保WSL-Ubuntu系统下也能调用vscode。

在命令窗口，创建cpp文件夹并用vscode打开：

```bash
mkdir myproject
cd myproject
mkdir cpp
cd cpp
code .
```

在该文件夹下创建一个`test.cu`文件，并输入下面的测试代码并保存：

```cpp
#include <stdio.h>

__global__ void myKernel() 
{
    printf("Hello, world from the device!\n"); 
} 

int main() 
{ 
    myKernel<<<4,4>>>(); 
    cudaError_t cudaError = cudaGetLastError();
    if (cudaError != cudaSuccess) {
        printf("CUDA error: %s\n", cudaGetErrorString(cudaError));
        return 1;
        }
        else {
            printf("No CUDA error\n");
            }
     cudaDeviceSynchronize();
} 
```

该代码调用4个线程块，每个线程块有4个线程，因此将会输出16个"Hello, world from the device!".  
新建一个终端，在终端输入下面指令进行编译：

```bash
nvcc test.cu -o test
```

输入下面指令进行运行：

```bash
./test
```

如果输出结果为16个"Hello, world from the device!"，那么测试成功！你已经可以成功调用GPU进行编程！

**注意**，也有可能出现如下的问题：

-   回顾开头说的，出现gcc,g++版本不匹配的问题：

```bash
#error -- unsupported GNU version! gcc versions later than 10 are not supported! The nvcc flag '-allow-unsupported-compiler' can be used to override this version check; however, using an unsupported host compiler may cause compilation failure or incorrect run time execution. Use at your own risk.
      |  ^~~~~
```

**解决方法：** 这说明cuda不支持ubuntu自带的gcc版本，因此我们需要重新安装gcc和g++，参考解决链接[CUDA与我的gcc版本不兼容 | 码农家园 (codenong.com)](https://www.codenong.com/6622454/)。在命令行窗口依次执行以下命令：

```bash
# 安装支持的gcc版本
sudo apt-get install gcc-10
sudo apt-get install g++-10

# 更改软连接
cd /usr/bin
sudo rm gcc
sudo rm g++
sudo ln -s /usr/bin/gcc-10 gcc
sudo ln -s /usr/bin/g++-10 g++
```

-   cuda内核无法调用的问题：

```bash
CUDA error: no kernel image is available for execution on the device
```

**解决方法：** 在cuda调用GPU内核时，会默认指定GPU架构，不同版本cuda可能会有差异？如果默认的架构与我们的显卡架构不一致，就会出现内核无法调用的问题。按照链接[CUDA GPUs - Compute Capability | NVIDIA Developer](https://developer.nvidia.com/cuda-gpus)，查找显卡的算力。  
![各显卡算力对应](https://i-blog.csdnimg.cn/blog_migrate/8803061f420d941d1606982f4eb6e634.png)  
比如我的GTX 750 ti算力为5.0，因此算力架构为`compute_50 sm_50`，编译cpp代码时指定相应GPU架构编译再运行就不会出现上面的问题了。

```bash
nvcc -arch=compute_50 -code=sm_50 test.cu -o test
```

如果不想每次编译时都这么复杂，那也可以为nvcc设置别名，用nano编辑`.bashrc`并在末尾加入：

```bash
#  命名一个别名，以指定调用gpu的架构
alias nvcc='nvcc -arch=compute_50 -code=sm_50'
```

保存并source。这样，运行：

```bash
nvcc test.cu -o test
```

和运行上面指定GPU架构的编译命令就没什么区别了。

-   更多问题欢迎一起讨论~

### 四、一些思考

个人感觉GPU可以看作CPU的一个辅助工具，用于快速的流水线作业，而CPU则是大脑发出生产的指令。cuda搭起了CPU指挥GPU的通信桥梁。所以CUDA的版本，GPU的版本都会影响二者之间建立联系。因此安装过程格外需要注意版本问题以及一些调用指令。

最后再次感谢文中出现的博客，讨论贴链接，学习了很多。抱拳了~

#### Removing CUDA toolkit

https://docs.nvidia.com/cuda/archive/12.8.1/cuda-installation-guide-linux/index.html#ubuntu

- To remove CUDA Toolkit:

```
sudo apt-get --purge remove "*cuda*" "*cublas*" "*cufft*" "*cufile*" "*curand*" \
 "*cusolver*" "*cusparse*" "*gds-tools*" "*npp*" "*nvjpeg*" "nsight*" "*nvvm*"
```
- To clean up the uninstall:

`sudo apt-get autoremove --purge -V`

#### 安装mamba
```python
import torch
print(torch.cuda.get_device_capability())

```


```
export CC=gcc-11
export CXX=g++-11
export CUDA_HOME=/usr/local/cuda-12.8
export TORCH_CUDA_ARCH_LIST="8.9"
git clone https://github.com/state-spaces/mamba.git
cd mamba
modify setup.py line 193 to “ cc_flag.append("arch=compute_89,code=sm_89") ”
pip install -e .
python -c "from mamba_ssm import Mamba; print('✅ Mamba imported successfully')"
```

## 安装Julia

使用WSL2时控制台输出“wsl: 检测到 localhost 代理配置，但未镜像到 WSL。NAT 模式下的 WSL 不支持 localhost 代理

- 打开或创建WSL配置文件(位于C:/User/%你的用户名/.wslconfig),并添加以下内容:

        [experimental]
        autoMemoryReclaim=gradual  
        networkingMode=mirrored
        dnsTunneling=true
        firewall=true
        autoProxy=true


- 打开命令提示符并执行wsl --shutdown命令

- 重新启动wsl就可以了


根据官网的说明安装Julia

1.Install the latest Julia version (v1.10.4 June 4, 2024) by running this in your terminal:
> curl -fsSL https://install.julialang.org | sh

2.Once installed julia will be available via the command line interface.

3.This will install the Juliaup installation manager, which will automatically install julia and help keep it up to date. The command juliaup is also installed. To install different julia versions see juliaup --help.


### Julia换源

这里提供一种针对 Julia 的全平台通用的方式： $JULIA_DEPOT_PATH/config/startup.jl ( 默认为 ~/.julia/config/startup.jl ) 文件定义了每次启动 Julia 时都会执行的命令，编辑该文件，根据需要选择以下两种中的一种即可：

- 每次打开 Julia 都使用固定的 pkg server
  
ENV["JULIA_PKG_SERVER"] = "https://pkg.julialang.org"

- 在 ~/.bashrc 中添加下面这一行内容
  
export JULIA_PKG_SERVER="https://pkg.julialang.org"

### Tips:

查看软件安装路径:

```
whereis xxx
```

查看用户名：
> net user
> 
> whoami
>
查看系统架构：
> uname -m

## 安装Mojo

1.Open a terminal and install the modular command line tool with this helper script:
>curl -s https://get.modular.com | sh -

2.Install the MAX SDK (it includes Mojo):
> modular install max

3.Install the MAX Engine Python package:
> MAX_PATH=$(modular config max.path) \
  && python3 -m pip install --find-links $MAX_PATH/wheels max-engine

4.Set environment variables so you can access the mojo and max tools:
``` 
  MAX_PATH=$(modular config max.path) \
  && BASHRC=$( [ -f "$HOME/.bash_profile" ] && echo "$HOME/.bash_profile" || echo "$HOME/.bashrc" ) \
  && echo 'export MODULAR_HOME="'$HOME'/.modular"' >> "$BASHRC" \
  && echo 'export PATH="'$MAX_PATH'/bin:$PATH"' >> "$BASHRC" \
  && source "$BASHRC"
```

### Troubleshooting

- Ubuntu系统anaconda报错version `GLIBCXX_3.4.30' not found

https://www.cnblogs.com/devilmaycry812839668/p/16760151.html


## Mojo默认安装路径
/home/vtchen/.modular

## Git

### 基本操作

一般情况下 我们先设置默认分支为master级别 

> git config --global init.defaultBranch master
>
> git clone https://gitclone.com/github.com/vtchen0523/git_test.git

## VPN

### VPS

美国CN2 GIA线路：https://bwg.m123.org \
香港CN2 GIA线路：https://hk.m123.org \
日本CN2 GIA线路：https://jp.m123.org \
其他地区线路：https://d.m123.org 

优惠码： BWHCGLUKKB

选择季度/半年/年度后，点击add to cart

填入优惠码

点击checkout





## Linux基本操作
### 更新
sudo apt update && sudo apt upgrade
### 安装软件
`sudo apt install <软件名>`

`sudo apt remove <软件名>`

### debug
- /usr/bin/dpkg returned an error code (1)错误解决方案
    - `cd /var/lib/dpkg`
    - `sudo mv info info.bak`
    - `sudo mkdir info`
    - `sudo apt upgrade`

### wsl2常用命令
- wsl  //进入子系统
- exit  //退出子系统或者使用ctrl+d
- wsl -l -o  //列出可用的 Linux 发行版
- wsl --set-default-version <Version>  //设置wsl的默认版本，<Version>可替换为数字 1 或 2。 例如wsl --set-default-version 2。
- wsl --status  //检查 WSL 状态
- wsl --shutdown   //重启
- wsl --version  //检查 WSL 版本
- wsl -l -v  //查看已经安装的发行版
- wsl --unregister <DistributionName>  //<DistributionName>为要注销的发行版名称
  
### Ubuntu常用命令
- 切换到root账户：`sudo su - root`
- 切换到普通账户：`su - <用户名>`
- 退出当前账户：`exit`
- 显示当前路径：`echo $PWD`
- 显示当前用户：`whoami`
- 切换到管理员home目录：`su`
- 查看当前目录：`pwd`
- 切换目录：`cd`:`cd <目录名>`
- 返回上一次目录：`cd -`
- 创建目录：`mkdir`:`mkdir <目录名>`
- 创建一个文件夹，并给它创建多个子文件夹:
  
   `mkdir -p dirName/{dirname1,dirname2,dirname3}`
- 删除目录：`rmdir`:`rm -r`
- 列出目录内容：`ls`:`ls -l`
- 查看文件内容：`cat`:`cat <文件名>`
- 创建文件：`touch`:`touch <文件名>`
- 删除文件：`rm`:`rm <文件名>`
- 复制文件：`cp`:`cp <源文件> <目标文件>`
- 移动文件：`mv`:`mv <源文件> <目标文件>`
- 查看文件属性：`stat`:`stat <文件名>`
- sudo   //管理权限
- sudo -s  //进入管理员权限模式
- ls  //查看当前路径下的文件
- sudo apt update   //更新软件包       
- sudo apt upgrade    //对比本地需要更新的包        
- sudo mv <clone_file> <target_file>   //移动文件，<clone_file>为要复制的文件路径，<target_file>为目标文件路径
- sudo cp <clone_file> <target_file>   //复制文件，<clone_file>为要复制的文件路径，<target_file>为目标文件路径
- sudo rm <target_file>  //删除文件，<target_file>为目标文件,如果目标为文件夹，加上可选符：-f 。 例如sudo rm -f <target_file>



解决：ModuleNotFoundError: No module named 'apt_pkg'

将 ubuntu18.04 中的 python 版本从 python3.6 更新为 python3.7 之后，使用 pip3 list 命令出现如下报错：

`ModuleNotFoundError: No module named 'apt_pkg`

解决方法：
更新完python版本之后，路径：/usr/lib/python3/dist-packages 下的文件 apt_pkg.cpython-310-x86_64-linux-gnu.so，文件名没有跟随 python 版本进行更改，正确做法应该是把文件名中的 310 更改为你更新后的 python 版本号，如我更新后的 python 版本为 python311 ，所以文件名应该更改为 apt_pkg.cpython-311-x86_64-linux-gnu.so


## CUDA

- https://blog.csdn.net/qq_38628046/article/details/139006457#:~:text=%E6%82%A8%E5%A5%BD%EF%BC%81%E9%81%87%E5%88%B0%20%22OSE

- https://blog.csdn.net/HaoZiHuang/article/details/109544443#:~:text=error:%20#er

卸载
cd  /usr/local/cuda-12.0/bin

sudo ./cuda-uninstaller


## 排故

1. vscode server for wsl closed unexpectedly

    问题描述：

    在终端执行code . 命令没反应，手动连接wsl报错：vscode server for wsl closed unexpectedly

    解决方案：

    1、先cd到home
    > cd ~

    2、删除.vscode-server目录
    > rm -rf .vscode-server 

    3、重新连接wsl，执行code . 命令，vscode server会自动安装
    > code .


2. Ubuntu24.04安装cuda时报错！未安装libtinfo5.

安装cuda时，出现以下错误：

```text
Reading package lists... Done
Building dependency tree... Done
Reading state information... Done
Some packages could not be installed. This may mean that you have
requested an impossible situation or if you are using the unstable
distribution that some required packages have not yet been created
or been moved out of Incoming.
The following information may help to resolve the situation:

The following packages have unmet dependencies:
 nsight-systems-2023.3.3 : Depends: libtinfo5 but it is not installable
E: Unable to correct problems, you have held broken pack
```

解决方案：

1.打开镜像源文件，并修改。

```text
sudo vim /etc/apt/sources.list.d/ubuntu.sources
```

2.向sources文件中添加如下内容：

```text
Types: deb
URIs: http://old-releases.ubuntu.com/ubuntu/
Suites: lunar
Components: universe
Signed-By: /usr/share/keyrings/ubuntu-archive-keyring.gpg
```

3.更新

```text
sudo apt-get update
```

4.重新安装cuda

```text
 sudo apt install cuda -y
```

## 

# 对于稳定版本(Linux)
wget https://download.pytorch.org/libtorch/cpu/libtorch-cxx11-abi-shared-with-deps-2.0.0%2Bcpu.zip

unzip libtorch-cxx11-abi-shared-with-deps-2.0.0+cpu.zip

# 或使用conda安装
conda install pytorch torchvision torchaudio -c pytorch


# Linux基础命令

## Linux的目录结构

![image-20221027214128453](https://image-set.oss-cn-zhangjiakou.aliyuncs.com/img-out/2022/10/27/20221027214128.png)

- `/`，根目录是最顶级的目录了
- Linux只有一个顶级目录：`/`
- 路径描述的层次关系同样适用 `/`来表示
- /home/itheima/a.txt，表示根目录下的home文件夹内有itheima文件夹，内有a.txt

## ls命令

功能：列出文件夹信息

语法：`ls [-l -h -a] [参数]`

- 参数：被查看的文件夹，不提供参数，表示查看当前工作目录
- -l，以列表形式查看
- -h，配合-l，以更加人性化的方式显示文件大小
- -a，显示隐藏文件

### 隐藏文件、文件夹

在Linux中以 `.`开头的，均是隐藏的。

默认不显示出来，需要 `-a`选项才可查看到。

## pwd命令

功能：展示当前工作目录

语法：`pwd`

## cd命令

功能：切换工作目录

语法：`cd [目标目录]`

参数：目标目录，要切换去的地方，不提供默认切换到 `当前登录用户HOME目录`

## HOME目录

每一个用户在Linux系统中都有自己的专属工作目录，称之为HOME目录。

- 普通用户的HOME目录，默认在：`/home/用户名`
- root用户的HOME目录，在：`/root`

FinalShell登陆终端后，默认的工作目录就是用户的HOME目录

## 相对路径、绝对路径

- 相对路径，非 `/`开头的称之为相对路径

  相对路径表示以 `当前目录`作为起点，去描述路径，如 `test/a.txt`，表示当前工作目录内的test文件夹内的a.txt文件
- 绝对路径，以 `/`开头的称之为绝对路径

  绝对路径从 `根`开始描述路径

## 特殊路径符

- `.`，表示当前，比如./a.txt，表示当前文件夹内的 `a.txt`文件
- `..`，表示上级目录，比如 `../`表示上级目录，`../../`表示上级的上级目录
- `~`，表示用户的HOME目录，比如 `cd ~`，即可切回用户HOME目录

## mkdir命令

功能：创建文件夹

语法：`mkdir [-p] 参数`

- 参数：被创建文件夹的路径
- 选项：-p，可选，表示创建前置路径

## touch命令

功能：创建文件

语法：`touch 参数`

- 参数：被创建的文件路径

## cat命令

功能：查看文件内容

语法：`cat 参数`

- 参数：被查看的文件路径

## more命令

功能：查看文件，可以支持翻页查看

语法：`more 参数`

- 参数：被查看的文件路径
- 在查看过程中：
  - `空格`键翻页
  - `q`退出查看

## cp命令

功能：复制文件、文件夹

语法：`cp [-r] 参数1 参数2`

- 参数1，被复制的
- 参数2，要复制去的地方
- 选项：-r，可选，复制文件夹使用

示例：

- cp a.txt b.txt，复制当前目录下a.txt为b.txt
- cp a.txt test/，复制当前目录a.txt到test文件夹内
- cp -r test test2，复制文件夹test到当前文件夹内为test2存在

## mv命令

功能：移动文件、文件夹、重命名

语法：`mv 参数1 参数2`

- 参数1：被移动的
- 参数2：要移动去的地方，参数2如果不存在，则会进行改名

## rm命令

功能：删除文件、文件夹

语法：`rm [-r -f] 参数...参数`

- 参数：支持多个，每一个表示被删除的，空格进行分隔
- 选项：-r，删除文件夹使用
- 选项：-f，强制删除，不会给出确认提示，一般root用户会用到

> rm命令很危险，一定要注意，特别是切换到root用户的时候。

## which命令

功能：查看命令的程序本体文件路径

语法：`which 参数`

- 参数：被查看的命令

## find命令

功能：搜索文件

语法1按文件名搜索：`find 路径 -name 参数`

- 路径，搜索的起始路径
- 参数，搜索的关键字，支持通配符*， 比如：`*`test表示搜索任意以test结尾的文件

查找指定目录下的所有的.drawio文件，并复制到指定目录: `find /home/vtchen/00-coding/ -type f -name "*.drawio" -exec cp {} /home/vtchen/01-DL/01-notes/ \;`

## grep命令

功能：过滤关键字

语法：`grep [-n] 关键字 文件路径`

- 选项-n，可选，表示在结果中显示匹配的行的行号。
- 参数，关键字，必填，表示过滤的关键字，带有空格或其它特殊符号，建议使用””将关键字包围起来
- 参数，文件路径，必填，表示要过滤内容的文件路径，可作为内容输入端口

> 参数文件路径，可以作为管道符的输入

## wc命令

功能：统计

语法：`wc [-c -m -l -w] 文件路径`

- 选项，-c，统计bytes数量
- 选项，-m，统计字符数量
- 选项，-l，统计行数
- 选项，-w，统计单词数量
- 参数，文件路径，被统计的文件，可作为内容输入端口

> 参数文件路径，可作为管道符的输入

## 管道符|

写法：`|`

功能：将符号左边的结果，作为符号右边的输入

示例：

`cat a.txt | grep itheima`，将cat a.txt的结果，作为grep命令的输入，用来过滤 `itheima`关键字

可以支持嵌套：

`cat a.txt | grep itheima | grep itcast`

## echo命令

功能：输出内容，类似print

语法：`echo 参数`

- 参数：被输出的内容

## `反引号

功能：被两个反引号包围的内容，会作为命令执行

示例：

- echo \`pwd\`，会输出当前工作目录

## tail命令

功能：查看文件尾部内容

语法：`tail [-f] [-num] 参数`

- 参数：被查看的文件
- 选项：-f，持续跟踪文件修改
- 选项: -num, 数字，查看的行数

## head命令

功能：查看文件头部内容

语法：`head [-n] 参数`

- 参数：被查看的文件
- 选项：-n，查看的行数

## 重定向符

功能：将符号左边的结果，输出到右边指定的文件中去

- `>`，表示覆盖输出
- `>>`，表示追加输出


## 命令的选项

我们学习的一系列Linux命令，它们所拥有的选项都是非常多的。

比如，简单的ls命令就有：-a -A -b -c -C -d -D -f -F -g -G -h -H -i -I -k -l -L -m -n -N -o -p -q -Q -r-R -s -S -t -T -u -U -v -w -x -X -1等选项，可以发现选项是极其多的。

课程中， 并不会将全部的选项都进行讲解，否则，一个ls命令就可能讲解2小时之久。

课程中，会对常见的选项进行讲解， 足够满足绝大多数的学习、工作场景。


# Linux常用操作

## 软件安装

- CentOS系统使用：
  - yum [install remove search] [-y] 软件名称
    - install 安装
    - remove 卸载
    - search 搜索
    - -y，自动确认
- Ubuntu系统使用
  - apt [install remove search] [-y] 软件名称
    - install 安装
    - remove 卸载
    - search 搜索
    - -y，自动确认

> yum 和 apt 均需要root权限

## systemctl

功能：控制系统服务的启动关闭等

语法：`systemctl start | stop | restart | disable | enable | status 服务名`

- start，启动
- stop，停止
- status，查看状态
- disable，关闭开机自启
- enable，开启开机自启
- restart，重启

## 软链接

功能：创建文件、文件夹软链接（快捷方式）

语法：`ln -s 参数1 参数2`

- 参数1：被链接的
- 参数2：要链接去的地方（快捷方式的名称和存放位置）


## ntp

功能：同步时间

安装：`yum install -y ntp`

启动管理：`systemctl start | stop | restart | status | disable | enable ntpd`

手动校准时间：`ntpdate -u ntp.aliyun.com`

## ip地址

格式：a.b.c.d

- abcd为0~255的数字

特殊IP：

- 127.0.0.1，表示本机
- 0.0.0.0
  - 可以表示本机
  - 也可以表示任意IP（看使用场景）

查看ip：`ifconfig`

## 主机名

功能：Linux系统的名称

查看：`hostname`

设置：`hostnamectl set-hostname 主机名`

## 配置VMware固定IP

1. 修改VMware网络，参阅PPT，图太多
2. 设置Linux内部固定IP

   修改文件：`/etc/sysconfig/network-scripts/ifcfg-ens33`

   示例文件内容：

   ```shell
   TYPE="Ethernet"
   PROXY_METHOD="none"
   BROWSER_ONLY="no"
   BOOTPROTO="static"			# 改为static，固定IP
   DEFROUTE="yes"
   IPV4_FAILURE_FATAL="no"
   IPV6INIT="yes"
   IPV6_AUTOCONF="yes"
   IPV6_DEFROUTE="yes"
   IPV6_FAILURE_FATAL="no"
   IPV6_ADDR_GEN_MODE="stable-privacy"
   NAME="ens33"
   UUID="1b0011cb-0d2e-4eaa-8a11-af7d50ebc876"
   DEVICE="ens33"
   ONBOOT="yes"
   IPADDR="192.168.88.131"		# IP地址，自己设置，要匹配网络范围
   NETMASK="255.255.255.0"		# 子网掩码，固定写法255.255.255.0
   GATEWAY="192.168.88.2"		# 网关，要和VMware中配置的一致
   DNS1="192.168.88.2"			# DNS1服务器，和网关一致即可
   ```

## ps命令

功能：查看进程信息

语法：`ps -ef`，查看全部进程信息，可以搭配grep做过滤：`ps -ef | grep xxx`


## netstat命令

功能：查看端口占用

用法：`netstat -anp | grep xxx`




## 环境变量

- 临时设置：export 变量名=变量值
- 永久设置：
  - 针对用户，设置用户HOME目录内：`.bashrc`文件
  - 针对全局，设置 `/etc/profile`

### PATH变量

记录了执行程序的搜索路径

可以将自定义路径加入PATH内，实现自定义命令在任意地方均可执行的效果

## $符号

可以取出指定的环境变量的值

语法：`$变量名`

示例：

`echo $PATH`，输出PATH环境变量的值

`echo ${PATH}ABC`，输出PATH环境变量的值以及ABC

如果变量名和其它内容混淆在一起，可以使用${}


## su命令

切换用户

语法：`su [-] [用户]`

![image-20221027222021619](https://image-set.oss-cn-zhangjiakou.aliyuncs.com/img-out/2022/10/27/20221027222021.png)

## sudo命令

![image-20221027222035337](https://image-set.oss-cn-zhangjiakou.aliyuncs.com/img-out/2022/10/27/20221027222035.png)

比如：

```shell
itheima ALL=(ALL)       NOPASSWD: ALL
```

在visudo内配置如上内容，可以让itheima用户，无需密码直接使用 `sudo`

## chmod命令

修改文件、文件夹权限

语法：`chmod [-R] 权限 参数`

- 权限，要设置的权限，比如755，表示：`rwxr-xr-x`

  ![image-20221027222157276](https://image-set.oss-cn-zhangjiakou.aliyuncs.com/img-out/2022/10/27/20221027222157.png)
- 参数，被修改的文件、文件夹
- 选项-R，设置文件夹和其内部全部内容一样生效

## chown命令

修改文件、文件夹所属用户、组

语法：`chown [-R] [用户][:][用户组] 文件或文件夹`

![image-20221027222326192](https://image-set.oss-cn-zhangjiakou.aliyuncs.com/img-out/2022/10/27/20221027222326.png)


## env命令

查看系统全部的环境变量

语法：`env`


#### 压缩

- tar –cvf jpg.tar *.jpg  将目录里所有jpg文件打包成tar.jpg
- tar –czf jpg.tar.gz *.jpg   将目录里所有jpg文件打包成jpg.tar后，并且- 将其用gzip压缩，生成一个gzip压缩过的包，命名为jpg.tar.gz
- tar –cjf jpg.tar.bz2 *.jpg 将目录里所有jpg文件打包成jpg.tar后，并且将其用bzip2压缩，生成一个bzip2压缩过的包，命名为jpg.tar.bz2
- tar –cZf jpg.tar.Z *.jpg   将目录里所有jpg文件打包成jpg.tar后，并且将其用compress压缩，生成一个umcompress压缩过的包，命名为jpg.tar.Z
- rar a jpg.rar *.jpg rar格式的压缩，需要先下载rar for linux
- zip jpg.zip *.jpg   zip格式的压缩，需要先下载zip for linux


#### 解压
- tar –xvf file.tar  解压 tar包
- tar -xzvf file.tar.gz 解压tar.gz
- tar -xjvf file.tar.bz2   解压 tar.bz2
- tar –xZvf file.tar.Z   解压tar.Z
- unrar e file.rar 解压rar
- unzip file.zip 解压zip



## Python

### Tips

- python怎么导入任意一个目录的包
  
  - 方法1：使用sys.path.append()方法添加路径
  
  ```python
  import sys
  sys.path.append(r'/path/to/package')

  ```
  比如：
  ```python
  import sys
  sys.path.append(r"/home/vtchen/00-coding/01-deep_learning")

  paths = sys.path
  for path in paths:
      print(path)

  from utils.utils_class import extend_grid
  ```


### Python - 获取当前目录/上级目录/上上级目录


- 获取当前目录
```python
import os
os.getcwd()
```

- 获取上级目录
```python
os.path.dirname(os.getcwd())
# os.path.abspath(os.path.join(os.getcwd(), ".."))
```

- 获取上上级目录
```python
os.path.abspath(os.path.join(os.getcwd(), "../.."))
```

- 获取上上上级目录
print(os.path.abspath(os.path.join(os.getcwd(), "../../..")))

- 如何查找gcc、g++默认include路径？
```shell
#gcc
`gcc -print-prog-name=cc1plus` -v
 
#g++
`g++ -print-prog-name=cc1plus` -v
```


### python debug tips

Here is how I did: find the local directory where my pydevd extensions sit, in my case is
\\wsl.localhost\Ubuntu-24.04\home\vtchen\\.vscode-server\extensions\ms-python.debugpy-2025.8.0-linux-x64\bundled\libs\debugpy\\_vendored\pydevd\pydevd_plugins\extensions\types;
in the types sub-directory, create a new file called pydevd_plugin_pytorch_tensor_str.py


```python

from _pydevd_bundle.pydevd_extension_api import StrPresentationProvider
from .pydevd_helpers import find_mod_attr
import sys
 
class SmartVariableStr:
    def can_provide(self, type_object, type_name):
        sized_obj = find_mod_attr('collections.abc', 'Sized')
        return sized_obj is not None and issubclass(type_object, sized_obj)
 
    def get_str(self, val):
        try:
            torch_tensor = find_mod_attr('torch', 'Tensor')
            if torch_tensor is not None and isinstance(val, torch_tensor):
                shape = tuple(val.shape)
                dtype = str(val.dtype)
                device = str(val.device)
                return f'Tensor(shape={shape}, dtype={dtype}, device={device})\nvalue: {val}'
 
            np_ndarray = find_mod_attr('numpy', 'ndarray')
            if np_ndarray is not None and isinstance(val, np_ndarray):
                return f'ndarray(shape={val.shape}, dtype={val.dtype})\nvalue: {val}'
 
            pd_dataframe = find_mod_attr('pandas', 'DataFrame')
            if pd_dataframe is not None and isinstance(val, pd_dataframe):
                return f'DataFrame(shape={val.shape}, columns={list(val.columns)})\nvalue: {val}'
 
            if hasattr(val, 'shape'):
                return f'shape: {val.shape}\nvalue: {val}'
 
            return f'len: {len(val)}\nvalue: {val}'
 
        except Exception:
            return str(val)
 
if not sys.platform.startswith("java"):
    StrPresentationProvider.register(SmartVariableStr)

```




```python

'''
A simple example to show tensor shape on debugger
'''
from _pydevd_bundle.pydevd_extension_api import StrPresentationProvider
from .pydevd_helpers import find_mod_attr


class PyTorchTensorShapeStr:
    def can_provide(self, type_object, type_name):
        torch_tensor = find_mod_attr('torch', 'Tensor')
        return torch_tensor is not None and issubclass(type_object, torch_tensor)

    def get_str(self, val):
        dim = val.dim()
        if dim == 0:
            return str(val)
        elif dim == 1:
            return f'{val.shape[0]}: {val}'
        return f'{list(val.shape)}: {val}'

import sys

if not sys.platform.startswith("java"):
    StrPresentationProvider.register(PyTorchTensorShapeStr)
```

由于 debugpy 版本不同，路径中的 XXX 部分会不一样；如果是 VSCode Remote 环境，放到远程机器的 ~/.vscode-server/... 下的相同子目录即可。我在原 issue comment 给的脚本上做了一点修改，显示更直观。该链接中还给出了另一个脚本，可以不仅对 torch.tensor 而是对所有 list、set 等都显示长度（这样就和 PyCharm 完全一致了），具体可以参见原链接。

And if you would like to see the length/shape at any possible cases, you may leverage the collections.abc.Sized type to generalise the code, like:

```python
from _pydevd_bundle.pydevd_extension_api import StrPresentationProvider
from .pydevd_helpers import find_mod_attr


class SizedShapeStr:
    '''Displays the size of a Sized object before displaying its value.
    '''
    def can_provide(self, type_object, type_name):
        sized_obj = find_mod_attr('collections.abc', 'Sized')
        return sized_obj is not None and issubclass(type_object, sized_obj)

    def get_str(self, val):
        if hasattr(val, 'shape'):
            return f'shape: {val.shape}, value: {val}'
        return f'len: {len(val)}, value: {val}'

import sys

if not sys.platform.startswith("java"):
    StrPresentationProvider.register(SizedShapeStr)
```


#### 头文件错误

- nano ~/.bashrc
- 在文件末尾添加：
```text
# torch/extension.h 父文件夹
export C_INCLUDE_PATH=/home/vtchen/miniconda3/envs/vtcuda/lib/python3.13/site-packages/torch/include:$C_INCLUDE_PATH
# torch/all.h 父文件夹
export C_INCLUDE_PATH=/home/vtchen/miniconda3/envs/vtcuda/lib/python3.13/site-packages/torch/include/torch/csrc/api/include:$C_INCLUDE_PATH
# Python.h 父文件夹
export C_INCLUDE_PATH=/home/vtchen/miniconda3/envs/vtcuda/include/python3.13:$C_INCLUDE_PATH

# torch/extension.h 父文件夹
export CPLUS_INCLUDE_PATH=/home/vtchen/miniconda3/envs/vtcuda/lib/python3.13/site-packages/torch/include:$CPLUS_INCLUDE_PATH
# torch/all.h 父文件夹
export CPLUS_INCLUDE_PATH=/home/vtchen/miniconda3/envs/vtcuda/lib/python3.13/site-packages/torch/include/torch/csrc/api/include:$CPLUS_INCLUDE_PATH
# Python.h 父文件夹
export CPLUS_INCLUDE_PATH=/home/vtchen/miniconda3/envs/vtcuda/include/python3.13:$CPLUS_INCLUDE_PATH
```
- 保存并退出
- source ~/.bashrc
