# 如何使用 PyWazi

这是一个简单的教程，以告知大家如何使用 PyWazi 应对一些可能出现的需求。

## 安装

1. `git clone https://github.com/Yazawazi/pywazi`；
2. `cd pywazi`;
3. `pip install -r .\requirements.txt`。

此时，你就可以新建你的代码文件以完全需求了。

## 导入 PyWazi

使用以下代码，进行一个 PyWazi 的导入：

In [None]:
from pywazi import *

使用该代码之后，将会导入所有的实例化的站点模块、日志和读取配置模块和没有实例化的主模块。

## 主模块的教程

主模块叫 `waziMain`，它有三个静态接口，你完全可以不实例它直接调用。它可以用于配置所有的站点模块。

### 读取配置文件

使用以下代码，进行一个配置文件的读取：

In [None]:
waziMain.defConfig("./config.json")

配置文件中记载了所有站点模块的配置，格式如下（内容都是可选的）：

```jsonc
[{
    "name": "JavBus",         // 即表示这是 JavBus 的配置
    "params": {},             // 这里是 Params 内容，跟前文一致
    "url": "",                // 设置 JavBus 的镜像站地址
    "eaUrl": "",              // 设置 JavBus.red 的镜像站地址
    "type": 0                 // 设置 JavBus 的类型，0 为仅显示有磁力的影片，1 为显示所有影片
}, {
    "name": "PicAcg",         // 即表示这是 PicAcg 的配置
    "params": {},             // 这里是 Params 内容，跟前文一致
    "login": {
        "username": "",       // 设置登录用户名
        "password": ""        // 设置登录密码
    },
    "image": 0                // 设置图片素质，0 为原图，1 为 low，2 为 medium，3 为 high
}, {
    "name": "Danbooru",       // 即表示这是 Danbooru 的配置
    "params": {},             // 这里是 Params 内容，跟前文一致
    "url": "",                // 设置 Danbooru 类网站地址
    "ports": [{               // 设置请求 API 路由，可以设置多个
        "key": "",            // 设置 key
        "value": ""           // 设置 value 可见 `waziDanbooru.setPort` 相关内容
    }]
}, {
    "name": "ExHentai",       // 即表示这是 ExHentai 的配置
    "params": {},             // 这里是 Params 内容，跟前文一致
    "cookies": "",            // 设置 ExHentai 的 Cookies
    "fullComment": true,      // 设置是否显示全部评论
    "jump": true,             // 是否跳过画廊警告
    "parse": true,            // 是否解析画廊
    "thumbType": "large"      // 设置缩略图类型，large 是大图，normal 是普通模式
}, {
    "name": "AsianSister",    // 即表示这是 AsianSister 的配置
    "params": {}              // 这里是 Params 内容，跟前文一致
}, {
    "name": "Nyaa",           // 即表示这是 Nyaa 的配置
    "params": {}              // 这里是 Params 内容，跟前文一致
}, {
    "name": "Log",            // 即表示这是 Log 的配置
    "save": true,             // 是否保存日志
    "level": 5                // 设置日志屏幕输入等级，-1 不显示，0 是错误，1 是警告，2 是信息，3 是调试，更高级别则与 3 同步
}]
```

### 设置全局配置

如果你只是想设置全局配置的话，比如只是统一代理的使用等，你可以使用以下的代码：

In [None]:
waziMain.globalParams({
    "useProxies": True, 
    "proxyAddress": "127.0.0.1",
    "proxyPort": 7890
})

它的格式如下：

```python
{
    "useProxies": True,           # 是否需要使用代理
    "proxyAddress": "127.0.0.1",  # 代理地址是什么
    "proxyPort": 7890,            # 代理端口是什么
    "useHeaders": True,           # 是否需要使用自定义请求头
    "headers": {}                 # 自定义请求头
}
```

事实上，你可以只完全填写关于代理的需求，设置自定义请求头的特殊情况极为少见，程序事实上会自动设置的，如果你自己设置的话，可能会导致一些模块的失效（事实上，谁知道呢）。

### 从文件中设置全局代理

使用代码为 `waziMain.globalParamsByFile("./global.json")`，格式和效果同上。

## 日志模块的教程

日志模块是 `waziLog`，你可以通过这个模块设置是否需要保存日志或者日志屏幕输出级别。

### 设置保存日志

使用以下代码保存日志：

In [None]:
waziLog.needSave(True)

同理，`needSave` 的参数是 `False` 就表示不保存日志。日志保存在 `./logs/` 文件夹下，使用日期名作为文件名。

### 设置日志屏幕输出级别

有时候你需要在控制台进行代码追踪或者想让它显示错误日志之类的，你就可以使用这个接口，举例如下：

In [None]:
waziLog.setMinDisplayLevel(-1)

`-1` 表示什么都不打印，什么都不会在屏幕上显示；`0` 表示显示错误的日志输出；`1` 表示显示错误、警告的日志输出；`2` 表示显示错误、警告、信息的日志输出；`3` 表示显示全部，包括调试级别的（会非常的多，大部分其实是追踪级别的）。

## AsianSister 站点模块的使用教程

AsianSister 对应的网站我这边先贴出来：`https://asiansister.com/`，很惭愧，只做了一点微小的工作，作为教程，我先导入一个案例：

In [None]:
from pywazi import waziAsianSister

waziAsianSister.giveParams({
    "useProxies": True,                             # 是否使用代理
    "proxyAddress": "127.0.0.1",                    # 代理地址
    "proxyPort": 7890                               # 代理端口
})

for page in range(1, 3):
    # 爬两页吧，我没啥时间（）
    info = waziAsianSister.getPage(page)            # 获取页面
    for i in info[0]:                               # 画廊信息在 info[0] 中 是一个列表
        waziAsianSister.downloadGallery(            # 下载画廊
            gallery = i["link"].split("/")[-1],     # 画廊后缀
            path = "./download"                     # 保存路径
        )

上文的代码是爬取两页 `AsisnSister` 的画廊，事实上还是很花时间的，这得看你的代理或者网络情况了。每页 `40` 个画廊，一个画廊大概 `25` 张左右，大概 `2000` 多张吧，或许可以试着多线程进行一个爬，那我先摸了（逃）

淦淦，我都两倍速看完了一季 `Yes, Minister.` 在看最后一季了，还是没下完，这是否有点...

### 设置用户参数

OKAY，如果你没有使用前文的主模块的设置参数的接口的话，想要自己一个一个设置参数，没有问题。对于 `AsianSister` 还是其他的模块都一样，看代码：

In [None]:
waziAsianSister.giveParams({
    "useProxies": True, 
    "proxyAddress": "127.0.0.1",
    "proxyPort": 7890
})

事实上，所有的站点模块都有这个接口，用于设置属于他们的参数，比如要下载大流量的，比如全天候要开着爬的，你可以换一个不限速的代理，其他的比如说 `Danbooru` 接口，你或许需要自定义请求头嘞。

### 下载单个文件

我是说，如果你需要下载单个文件了，或者自己实现一个下载画廊之类的接口，可以试试看 `downloadFile` 这个接口，用于下载一个文件，举例如下：

In [None]:
waziAsianSister.downloadFile(
    url  = "https://asiansister.com/images/cover/20/R735AeWiX1J77.jpg",
    name = "cover.jpg",
    path = "./download"
)

最后返回 `True` 就表示下载完成。

### 获取主页

如果你需要获取主页的信息，你可以使用以下代码：

In [None]:
waziAsianSister.getPage(1)

最后返回一个 `tuple`，格式是：

```python
(
    list[dict{                                          # 画廊信息
        "views": int,                                   # 画廊的浏览量
        "link": str,                                    # 画廊的链接
        "vip": bool,                                    # 画廊是否需要 VIP 权限
        "cover": str,                                   # 画廊的封面
        "alt": str,                                     # 画廊 Img 的 Alt 属性
        "title": str                                    # 画廊的标题
    }],
    list[dict{                                          # 视频信息
        "data": str or None,                            # 视频的 Data 信息（表示那个动图，反正你看了就知道了）
        "views": int,                                   # 视频的浏览量
        "link": str,                                    # 视频的链接
        "vip": bool,                                    # 视频是否需要 VIP 权限
        "cover": str,                                   # 视频的封面
        "title": str                                    # 视频的标题
    }]
)
```

### 搜索

额，有时候你确实需要进行一些搜索功能，比如搜索一些你想要的福利姬的图集之类的。总而言之，看例子：

In [None]:
waziAsianSister.search(
    keyword = "Maid",
    page    = 1
)

`keyword` 表示你的搜索关键字，而 `page` 表示页码，从 1 开始数起。它的返回格式同上，总而言之你自己看吧。

### 标签搜索

额，有时候你可能需要进行一个标签的搜索，比如说 `Cosplay` 或者 `Cute Girl` 之类的。来看看例子：

In [None]:
waziAsianSister.tagSearch(
    tag  = "Cosplay",
    page = 1
)

`tag` 表示标签，你逛一逛网站就知道有哪些标签了，`page` 表示页码，额，还是从 1 数起的。返回格式还是同那个获取主页一致。

### 模特搜索

如果你需要找一个福利姬的作品的话，你可以试试看模特搜索吧，当然前提是你得知道这个模特在站内的 ID，总而言之举个例子：

In [None]:
waziAsianSister.personSearch(
    person = "m_6__YUZUKIn"
)

`person` 表示那个模特或者福利姬的 ID 吧，比如说 `m_6__YUZUKIn`，事实上这个 ID 是从 URL 中获取的：`https://asiansister.com/m_6__YUZUKIn`，这个是柚木的 ID。返回格式如下：

```python
{
    "name": str,                                    # 福利姬的名字
    "descriptionHTML": str,                         # 福利姬的描述 <br> 被替换成了 \n
    "views": int,                                   # 这个福利姬的浏览量
    "tags": list[dict{                              # 福利姬的标签
        "name": str,                                # 标签名
        "link": str                                 # 标签链接
    }],
    "galleries": list[dict{                         # 关于这个福利姬相关的画廊
        "link": str,                                # 画廊的链接
        "cover": str,                               # 画廊的封面
        "alt": str,                                 # 画廊 Img 的 Alt 属性
        "title": str,                               # 画廊的标题
        "stars": str,                               # 画廊的评分 X/Y
        "VIP": bool                                 # 画廊是不是需要 VIP 才能看
    }],
    "videos": list[dict{                            # 关于这个福利姬相关的视频
        "data": str or None,                        # 视频动图数据
        "link": str,                                # 视频的链接
        "title": str,                               # 视频的标题
        "cover": str,                               # 视频的封面
        "VIP": bool                                 # 视频是不是需要 VIP 才能看
    }]
}
```

### 获取画廊的详细信息

Well, well guys. 终于来到了这一步，想必你已经找到了一个你满意的画廊之类的了，你想要获取关于这个画廊的序列化后的信息，你想要从中提取你所能看到的信息，但不过更为简化。

说人话就是你需要获取这个画廊的信息，看例子：

In [None]:
waziAsianSister.getGallery(
    gallery = "view_243_Kasugano_Sora_Cosplay___n"
)

`gallery` 表示一个画廊的 ID，同样还是从 URL 里面拿出来的，这个画廊其实是一个 VIP 画廊，但这个网站似乎压根没有鉴权吧，只能说很神必了。

返回格式如下：

```python
{
    "title": str,                                       # 画廊标题
    "stars": str,                                       # 画廊评分 X/Y
    "category": dict{"name": str, "link": str},         # 画廊分类
    "tags": list[dict{"name": str, "link": str}],       # 画廊标签
    "description": str,                                 # 画廊描述
    "model": dict{"name": str, "link": str},            # 画廊福利姬
    "covers": list[dict{"link": str, "alt": str}],      # 画廊封面
    "pictures": list[dict{"link": str, "org": str}],    # 画廊图片
                                                        # org: 原图 / link: 缩略图
    "pageNum": int,                                     # 到底有几张图片
    "comments": list[dict{                              # 画廊评论
        "user": str,                                    # 用户组
        "avatar": str,                                  # 用户头像
        "name": str,                                    # 用户名
        "time": str,                                    # 评论时间
        "content": str                                  # 评论内容
    }],                                                 
    "galleries": list[dict{                             # 推荐画廊
        "link": str,                                    # 画廊链接
        "cover": str,                                   # 画廊封面
        "alt": str,                                     # 画廊封面 Alt
        "title": str,                                   # 画廊标题
        "stars": str,                                   # 画廊评分
        "VIP": bool                                     # 画廊是否需要 VIP
    }],
    "videos": list[dict{                                # 推荐视频
        "data": str or None,                            # 视频动图
        "link": str,                                    # 视频地址
        "title": str,                                   # 视频标题
        "cover": str,                                   # 视频封面
        "VIP": bool                                     # 视频是否需要 VIP
    }]
}
```

### 下载一个画廊

🆗，我想说，大家都可能比较期待这个吧，下载画廊什么的，爬一整天，工作或者放学回到家就可以欣赏这些高雅作品。事实上，一开始我压根没写这个下载画廊的功能，然后有一天我写文档的时候发现 `waziAsianSister` 是不是少了一点什么，好像就是这个下载功能吧。

先看个例子：

In [None]:
waziAsianSister.downloadGallery(
    gallery = "view_80___Haruka__Loli_Girl_In_Carn",
    path    = "./download",
    key     = "org"
)

这是一个 VIP 画廊，但显然我没有给出登录接口，还能正常下载图片，这说明了网站压根没有鉴权方面的想法。好，再来说说参数。`gallery` 表示画廊 ID，`path` 表示下载路径，`key` 表示，怎么说呢，在这里你可以写两个值：

* `org`: 表示原图画质；
* `link`: 表示缩略图。

### 获取一个视频的详细信息

如果你需要的话，你可能会注意到 `AsianSister` 会有很多视频存在，当然，我更推荐你去 `SisterAsian` 我以后可能会做这个的模块吧。看个例子：

In [None]:
waziAsianSister.getVideo(
    video = "v_vide_85_Fingering_beautiful_pussy_girln"
)

`video` 这个参数表示视频 ID，返回格式如下：

```python
{
    "title": str,                                   # 视频标题
    "views": int,                                   # 视频浏览量
    "tags": list[dict{"name": str, "link": str}],   # 视频标签
    "cover": str,                                   # 视频封面
    "url": str,                                     # 视频 URL
    "comments": list[dict{                          # 视频评论
        "user": str,                                # 用户组
        "avatar": str,                              # 用户头像
        "name": str,                                # 用户名
        "time": str,                                # 发表时间
        "content": str                              # 评论内容
    }],                                             
    "recommends": list[dict{                        # 推荐视频
        "title": str,                               # 视频标题
        "link": str,                                # 视频链接
        "cover": str,                               # 视频封面
        "views": int                                # 视频浏览量
    }]
}
```

### 下载一个视频

好吧，或许你想下载一个视频，我也提供了这个接口，看例子：

In [None]:
waziAsianSister.downloadVideo(
    video = "v_vide_85_Fingering_beautiful_pussy_girln",
    path  = "./download"
)

这个视频比较短，比较小，如果大一点，我就要等它等个半天。`video` 表示视频 ID，`path` 表示下载路径，最后返回下载路径。

## Danbooru 站点模块的使用教程

`Danbooru`，包括那个 `Moebooru`，应该都可以通过 `waziDanbooru` 进行一个操作。不过我会额外针对 `behoimi` 再说几句的。

先来看一个例子吧，在案例导入中举过的，不过如果你不喜欢看开发文档的话：

In [None]:
from pywazi import waziDanbooru

waziDanbooru.giveParams({
    "useProxies": True,	            # 是否使用代理
    "proxyAddress": "127.0.0.1",    # 代理地址
    "proxyPort": 7890               # 代理端口
})

waziDanbooru.setApi("https://konachan.com") # 设置你想爬的 Danbooru 类网站地址

for page in range(1, 101):
    # 爬一百页
    waziDanbooru.downloadPosts(
        page  = page,                   # 指定页码
        tags  = "rating:explicit",      # 标签
        limit = 40,                     # 每页限制几张图片，最多就 40 张
        path  = "./download"            # 下载目录
    )

上文的代码就是爬 `100` 页的 `R-18` 图片，大概 `4000` 张，有时会重复。使用 `konachan` 这个网站进行一个爬。

有时候你得注意一下，比如 `behoimi.org` 之类的网站具有反爬能力，在 `Headers` 需要做一点手脚，我会在文末上说的，但是呢，我这边引用 `behoimi.org` 站长的一句话：

> I don't care if someone downloads the entire 180k plus images. Just take your time, ok? 3dbooru is not Danbooru, Shittykaku or 4chan. We don't have a huge pipe on this server and when you rip the entire site you are taking away from folk who are just browsing content instead of a ripping everything to start their own 'booru or archive the whole internet (hi artefact, yes we know where most of the seed images on the idol site came from). So rape the site slowly, ok?
>
> 我不关心是否有人下载了这个网站上整个 18 万多张图片。你可以慢慢来，好吗？3dbooru 不是 Danbooru、Shittykaku 或 4chan。我们网站水管小，当你操这个网站的时候，事实你在阻止一些人的浏览，而不是自己想着操完了建一个像 Danbooru, Moebooru 之类的网站亦或者是备份整个互联网（嗨，额，这些精美的艺术品（大概吧），确实我们知道这偶像网站上的大部分种子图片来自哪里）。所以你操的慢一点可以吗？

反正就是说少操操，操了就加个 `time.sleep()` 吧。所以，额，事实上，你应该操一点比如 `Konachan` 或者 `Yande` 之类的，但是事实上，这两个似乎也并不是很想被人操，所以还是那句话：`So rape the site slowly, ok?`

### 设置用户参数

跟前面一样，都是同一个套路，你看看吧：

In [None]:
waziDanbooru.giveParams({
    "useProxies": True, 
    "proxyAddress": "127.0.0.1",
    "proxyPort": 7890
})

### 设置要爬取的网站

你需要指定一个你要爬的网站，比如 `yande.re` 之类的，我不能指派，不然这看起来比较内定，事实上，我有倾向要把它做成一个针对类 `Booru` 的处理模块，以方便我自己日后进行相关开发，事实上，我只不过把这个事情弄得更复杂了。

谔谔：

In [None]:
waziDanbooru.setApi("https://yande.re")

就这样，可以设置一个所要爬取的网站，记得加上 `https` 或者 `http` 之类的。

### 设置自定义 API 接口

说实话，我一开始愚蠢了，我习惯了 `yande` 还有 `konachan`，默认的就直接带上了 `post.json` 之类的，等到我有一天，额，说 `behoimi` 的时候突然发现，一切都完了。

不过没事，试着使用下面的代码，设置一个自定义 API 接口：