Skip to content
Permalink
Branch: master
Find file Copy path
Find file Copy path
Fetching contributors…
Cannot retrieve contributors at this time
256 lines (210 sloc) 18.3 KB

说明及配置 {#concept_rc2_t1h_wdb .concept}

ossimport是一款将数据迁移至OSS的工具。您可以将ossimport部署在本地服务器或云上ECS实例内,轻松将您本地或其它云存储的数据迁移到OSS。

ossimport具有以下特点:

  • 支持丰富的数据源,包括本地、七牛、百度BOS、AWS S3、Azure Blob、又拍云、腾讯云COS、金山KS3、HTTP、OSS等,并可根据需要扩展。
  • 支持单机模式和分布式模式。单机模式部署简单使用方便,分布式模式适合大规模数据迁移。
  • 支持断点续传。
  • 支持流量控制。
  • 支持迁移指定时间后的文件以及特定前缀的文件。
  • 支持并行数据下载和上传。

说明: 您也可以使用在线迁移服务迁移您的数据,无需再部署迁移工具。

运行环境 {#section_cwg_v1h_wdb .section}

ossimport可以部署在Linux或Windows系统上,要求如下:

  • Windows7及以上版本
  • Linux系统最新版本
  • Java 1.7及以上版本

说明: 分布式部署暂时不支持Windows系统。

部署方式选择 {#section_ttn_x1h_wdb .section}

ossimport有单机模式和分布式模式两种部署方式。

  • 单机模式:当您需要迁移的数据小于30TB时,推荐部署单机模式。您可以将ossimport部署在任意一台可以访问您待迁移数据,且可以访问OSS的机器上。下载地址

  • 分布式模式:当您需要迁移的数据大于30TB时,推荐使用分布式模式。您可以将ossimport部署在任意多台可以访问您待迁移数据,且可以访问OSS的机器上。下载地址

    说明: 当您待迁移的数据过大时,为了节约时间,您可以将ossimport部署到与您OSS相同地域的ECS实例上,并通过专线将源数据存放的服务器挂载到阿里云VPC网络中。多台ECS实例将数据通过内网迁移至OSS,会极大的提升数据迁移效率。

单机模式 {#section_ql2_gb3_dhb .section}

Master、Worker、Tracker、Console运行在一个机器上,统一打包成ossimport2.jar。系统中有且只有一个Worker。

单机模式下文件结构如下:

ossimport
├── bin
│ └── ossimport2.jar  # 包括Master、Worker、Tracker、Console四个模块的总jar
├── conf
│ ├── local_job.cfg   # 单机Job配置文件
│ └── sys.properties  # 系统运行参数配置文件
├── console.bat         # Windows命令行,可以分布执行调入任务
├── console.sh          # Linux命令行,可以分布执行调入任务
├── import.bat          # Windows一键导入,执行配置文件为conf/local_job.cfg配置的数据迁移任务,包括启动、迁移、校验、重试
├── import.sh           # Linux一键导入,执行配置文件为conf/local_job.cfg配置的数据迁移任务,包括启动、迁移、校验、重试
├── logs                # 日志目录
└── README.md           # 说明文档,强烈建议使用前仔细阅读
  • import.bat/import.sh为一键导入脚本,修改完local_job.cfg后可以直接运行。
  • console.bat/console.sh为命令行工具,可以用于分布执行命令。
  • 脚本或命令请在ossimport目录下执行,即 *.bat/*.sh 的同级目录。

分布式模式 {#section_im2_hb3_dhb .section}

ossimport是基于master-worker的分布式架构,结构如下:

Master --------- Job --------- Console
    |
    |
   TaskTracker
    |_____________________
    |Task     | Task      | Task
    |         |           |
Worker      Worker      Worker
参数 说明
Master 负责将Job切分成Task,按照数据大小和文件个数分解成Task,数据大小/文件个数可以在sys.properties中配置。Job切分成Task的详细过程如下: 1. Master从本地/其它云存储中遍历出完整的待迁移的文件列表。
  1. 按照数据大小和文件个数把完整的文件列表切分成Task,每个Task负责部分文件的迁移或校验。

| |Worker| - 负责Task的文件迁移和数据校验,从数据源上拉取指定文件,并上传到OSS的指定目录。迁移的数据源和OSS的配置在job.cfg或local_job.cfg中指定。

  • Worker数据迁移支持限流、指定Task并发数,在sys.properties中配置。

| |TaskTracker|简称Tracker,负责Task的分发、Task状态跟踪。| |Console|负责与用户交互,接受命令显示结果。支持系统管理命令deploy/start/stop,Job管理命令 submit/retry/clean。| |Job|用户提交的数据迁移任务,对用户来说一个任务对应一个配置文件job.cfg。| |Task|Job按照数据大小和文件个数可以分成多个Task ,每个Task 迁移部分文件。Job切分成Task的最小单位是文件,同一个文件不会切分到多个Task中。|

分布式模式下可以启动多个Worker执行迁移数据,Task平均分配到Worker上执行,一个Worker执行多个Task。每一个机器上只能启动一个Worker。workers配置的第一个Worker上会同时启动Master 、 Tracker。Console也要在该机器上运行。

分布式模式下文件结构如下:

ossimport
├── bin
│ ├── console.jar     # Console模块jar包
│ ├── master.jar      # Master模块jar包
│ ├── tracker.jar     # Tracker模块jar包
│ └── worker.jar      # Worker模块jar包
├── conf
│ ├── job.cfg         # Job配置文件模板
│ ├── sys.properties  # 系统运行参数配置文件
│ └── workers         # Worker列表
├── console.sh          # 命令行工具,目前支持只Linux
├── logs                # 日志目录
└── README.md           # 说明文档,强烈建议使用前仔细阅读

配置文件 {#section_c2z_ldh_wdb .section}

单机模式下有两个配置文件sys.propertieslocal_job.cfg,分布式模式下有三个配置文件sys.propertiesjob.cfgworkers。其中local_job.cfgjob.cfg的配置项是完全一样的,只是名称不一样,workers是分布式环境独有的。

  • sys.properties:系统运行参数

    参数 含义 说明
    workingDir 工作目录 工具包解压后的目录。单机模式下请不要修改此参数,分布式模式下每个机器的工作目录必须相同。
    workerUser Worker机器的ssh用户名 - 如果配置了privateKeyFile ,则优先使用privateKeyFile。
    • 如果没有配置privateKeyFile,则使用workerUser/workerPassword。
    • 单机模式不需要修改此参数。 | |workerPassword|Worker机器的ssh用户密码|单机模式不需要修改此参数。| |privateKeyFile|private key文件路径| - 如果已经打通了ssh通道,则可以指定此参数,否则为空。
    • 如果配置了privateKeyFile,则优先使用privateKeyFile。
    • 如果没有配置privateKeyFile,则使用workerUser/workerPassword。
    • 单机模式不需要修改此参数。 | |sshPort|ssh端口|默认22,一般情况无需更改。 单机模式不需要修改此参数。| |workerTaskThreadNum|Worker执行Task的最大线程数| - 该参数与机器的内存/网络有关,建议值60 。
    • 物理机可以适当加大,例如150 ,如果网络带宽已占满,请不要再加大。
    • 如果网络较差,请适当降低,例如30,防止请求竞争网络造成大量请求超时。 | |workerMaxThroughput(KB/s)|worker数据迁移的流量上限|该值能起到限流作用,默认0表示不限流。| |dispatcherThreadNum|Tracker的Task分发与状态确认的线程数|默认值一般够用,没有特殊需要请不要修改默认值。| |workerAbortWhenUncatchedException|表示遇到未知错误时是跳过还是终止|默认跳过。| |workerRecordMd5|在OSS中是否使用元数据x-oss-meta-md5记录迁移文件MD5值,默认不记录。|主要用于用户使用MD5校验文件数据。|
  • job.cfg:数据迁移任务配置,local_job.cfgjob.cfg的配置项是完全一样的,只是名称不一样。

    参数 含义 说明
    jobName 任务名字,字符串。 - 任务的唯一标识,命名规则 [a-zA-Z0-9_-]{4,128}, 支持提交多个名字不同的任务。
    • 如果重复提交同名任务会提示任务已存在,清理(clean)同名任务前, 无法提交同名任务。 | |jobType|任务类型,字符串|两类import或audit,默认 import。 - import,执行数据迁移操作并校验迁移数据的一致性。
    • audit,仅进行数据一致性校验。 | |isIncremental|是否打开增量迁移模式,布尔类型。| - 默认值false。
    • 如果设为true,会每间隔incrementalModeInterval(单位秒)重新扫描一次增量数据,并将增量数据迁移到OSS。 | |incrementalModeInterval|增量模式下的同步间隔,整型,单位秒。|isIncremental=true时有效。可配置的最小间隔为900秒,不建议配置成大于3600秒的值,会浪费大量请求,造成额外的系统开销。| |importSince|迁移大于该时间的数据,整型,单位秒。| - 该时间为 Unix时间戳,即自1970年1月1日UTC零点以来的秒数,通过命令date +%s获取。
    • 默认为0,表示迁移全部数据。 | |srcType|同步源类型,字符串, 请注意大小写。|支持以下类型: - local:从本地文件迁移数据到OSS,该选项只需要填写srcPrefix, 不需要填写srcAccessKey,srcSecretKey,srcDomain,srcBucket。
    • oss:从一个 OSS bucket 迁移到另一个 bucket。
    • qiniu:从七牛云存储迁移到OSS。
    • bos:从百度的云存储迁移到OSS。
    • ks3:从金山云存储迁移到OSS。
    • s3:从 AWS S3 迁移到OSS。
    • youpai:从又拍云迁移到OSS。
    • http:通过提供的HTTP链接列表迁移数据到OSS。
    • cos:从腾讯云存储COS迁移到OSS。
    • azure:从Azuer Blob迁移到OSS。 | |srcAccessKey|源AccessKey,字符串。| - 如果srcType设置为oss、qiniu、baidu、ks3、s3,则填写数据源的AccessKey。
    • 如果srcType设置为local、http,则该项不需要填写。
    • 如果srcType设置为youpai、azure,则填写用户名AccountName。 | |srcSecretKey|源SecretKey,字符串。| - 如果 srcType 设置为oss、qiniu、baidu、ks3、s3,则填写数据源的 SecretKey。
    • 如果 srcType 设置为local、http,则该项不需要填写。
    • 如果 srcType 设置为youpai,则填写操作员密码。
    • 如果 srcType 设置为azure,则填写AccountKey。 | |srcDomain|源Endpoint| - 如果 srcType 设置为local、http,则该项不需要填写。
    • 如果 srcType 设置为oss,则填写从控制台获取的域名,非带bucket前缀的二级域名。
    • 如果 srcType 设置为qiniu,则填写从七牛控制台获取的对应bucket的域名。
    • 如果 srcType 设置为bos,则填写百度BOS域名,如http://bj.bcebos.comhttp://gz.bcebos.com
    • 如果 srcType 设置为ks3,则填写金山ks3域名,如http://kss.ksyun.comhttp://ks3-cn-beijing.ksyun.comhttp://ks3-us-west-1.ksyun.coms
    • 如果 srcType 设置为S3, 则填写AWS S3各 region 的域名。
    • 如果 srcType 设置为youpai,则填写又拍云域名,如自动判断最优线路http://v0.api.upyun.com 或电信线路http://v1.api.upyun.com 或联通网通线路http://v2.api.upyun.com或移动铁通线路http://v3.api.upyun.com
    • 如果 srcType 设置为cos,则填写腾讯云bucket所在的区域,例如华南园区:gz、华北园区:tj、华东园区:sh。
    • 如果 srcType 设置为azure,则填写Azure Blob连接字符串中的 EndpointSuffix ,如core.chinacloudapi.cn。 | |srcBucket|源bucket名字或container名称| - 如果 srcType 设置为 local、http,则不需要填写。
    • 如果 srcType 设置为 azure,则填写container名称。
    • 其它填写bucket名称。 | |srcPrefix|源前缀,字符串,默认为空| - 如果srcType设置为local,则填写本地目录,需要完整路径,以单个正斜线(/)进行分割并且以单个正斜线(/)结尾,仅支持如c:/example/ 或者/data/example/ 的格式。

说明: c:/example//或 /data//example/ 或 /data/example//是非法的。

-   如果srcType 设置为oss、qiniu、bos、ks3、youpai、s3,则填写待同步object的前缀,不包括bucket名称,如data/to/oss/。
-   如需同步所有文件,则srcPrefix设置为空 。

| |destAccessKey|目的AccessKey,字符串。| OSS的AccessKeyID,请到阿里云控制台查看。

| |destSecretKey|目的SecretKey,字符串。| OSS的AccessKeySecret,请到阿里云控制台查看。

| |destDomain|目的endpoint,字符串。| 从阿里云控制台获取,非带bucket前缀的二级域名,列表请参看域名列表。

| |destBucket|目的bucket,字符串。|OSS的bucket名称,不需要以/结尾。| |destPrefix|目标前缀,字符串,默认为空。| - 目标前缀,默认为空,直接放在目标bucket下。 - 如果要将数据同步到oss的某个目录下,请以/结尾,如data/in/oss/。 - 注意oss不支持以/作为文件的开头,所以destPrefix请不要配置以/做为开头。 - 一个本地文件路径为srcPrefix+relativePath的文件,迁移到oss的路径为destDomain/destBucket/destPrefix +relativePath。 - 一个云端文件路径为srcDomain/srcBucket/srcPrefix+relativePath的文件,迁移到oss的路径为destDomain/destBucket/destPrefix+relativePath。 | |taskObjectCountLimit|每个Task最大的文件数,整型,默认10000。|该配置项会影响到任务执行的并行度,一般配置为总文件数/Worker总数/迁移线程数(workerTaskThreadNum) ,最大值不要超过50000,如果不知道总文件数,请使用默认值。| |taskObjectSizeLimit|每个Task最大数据量,整型,单位bytes,默认1GB。|该配置项会影响到任务执行的并行度,一般配置为总数据量/Worker总数/迁移线程数(workerTaskThreadNum),如果不知道总数据量,请使用默认值。| |isSkipExistFile|数据迁移时是否跳过已经存在的文件,布尔类型。|当设置为true时,根据文件的size和LastModifiedTime判断是否跳过;为false时,总是覆盖OSS上已有文件。默认为值为false。jobType为audit时此项不生效。| |scanThreadCount|并行扫描文件的线程数,整型。 - 默认值:1 - 有效值:1-32 |该配置项与扫描文件的效率有关,没有特殊需求请不要修改。| |maxMultiThreadScanDepth|最大允许并行扫描目录的深度,整型。 - 默认值:1 - 有效值:1-16 | - 默认值1表示在顶级目录间并行扫描。 - 没有特殊需求不要修改,随意配置过大值会导致任务无法正常运行 。 | |appId|腾讯云COS的appId ,整型。|srcType=cos时有效。| |httpListFilePath|HTTP列表文件的绝对路径,字符串。| - srcType=http时有效,源为HTTP链接地址时,需要提供内容为HTTP链接地址文件的绝对路径,如c:/example/http.list。 - 该文件中的HTTP链接需要划分成两列,以空格分开,分别代表前缀和上传到OSS后的相对路径。例如c:/example/http.list文件内容如:http://mingdi-hz.oss-cn-hangzhou.aliyuncs.com/aa/ bb.jpghttp://mingdi-hz.oss-cn-hangzhou.aliyuncs.com/cc/dd.jpg两行,迁移到OSS的文件名分别是 destPrefix + bb.jpg和 destPrefix + cc/dd.jpg。 |

  • workers:分布式模式独有,每个IP一行。如:

    192.168.1.6
    192.168.1.7
    192.168.1.8
    
    • 上述配置情况下,第一行的192.168.1.6一定是 master ;即192.168.1.6 上会同时启动Master 、 Worker、TaskTracker。Console也需要在该机上运行。
    • 多个Worker机器的用户名、登录方式、工作目录请确保相同。

配置文件示例 {#section_yjs_3gh_wdb .section}

下表中是分布式部署下的数据迁移任务配置文件,单机的配置文件名是local_job.cfg,配置项与分布式部署时没有区别。

迁移类型 配置文件 说明
从本地迁移到OSS job.cfg srcPrefix 是以 / 结尾的绝对路径,如 D:/work/oss/data//home/user/work/oss/data/
从七牛云存储迁移到OSS job.cfg srcPrefix 和 destPrefix 可以配置为空;如果不为空,请以 / 结尾,如 destPrefix=docs/
从百度bos迁移到OSS job.cfg srcPrefix 和 destPrefix 可以配置为空;如果不为空,请以 / 结尾,如 destPrefix=docs/
从AWS S3迁移到OSS job.cfg 参见S3域名列表
从又拍云存储迁移到OSS job.cfg srcAccessKey/srcSecretKey填操作员账号及密码。
从腾讯cos迁移到OSS job.cfg srcDomain请按照V4版本填写,如srcDomain=sh。srcPrefix可以为空,当不为空时候,请以 / 开头和结尾,如srcPrefix=/docs/
从Azure blob迁移到OSS job.cfg srcAccessKey/srcSecretKey填存储存储账号及密钥。srcDomain填连接字符串中的 EndpointSuffix,如core.chinacloudapi.cn
从OSS迁移到OSS job.cfg 适用于不同区域之间、不同存储类型之间、不同前缀之间的数据迁移。推荐在ECS上部署,并使用带internal的域名,可以节省流量费用。
You can’t perform that action at this time.