Dji算力开放教程

关于大疆算力开放的教程#

前阵子在研究无人机的目标检测，当时发现大疆的文档讲的跟没讲一下，所以打算出一个比较详细的教程。

先在官方的开发者网站上下载path的文件
myolo 安装

1
git clone https://github.com/open-mmlab/mmyolo.git
2
cd mmyolo
3
mim install -r requirements/albu.txt
4
mim install -v -e .

mmyolo切到tag v0.6.0

1
git checkout v0.6.0

应用git patch文件

1
git apply ../yourpatch.patch

训练参数

1
python ../train.py ../yourjson.py

很多人到这里就开始正常去把参数调好训练了，但是你会发现你的环境死活不对，我是把albumentations版本改为1.3.1。后面就是数据集的文件路径配置了。

以下是示例代码参考#

点击这里展开示例代码1

1
# =================================================================================
2
_base_ = ['../_base_/default_runtime.py', '../_base_/det_p5_tta.py']
3

4

5
# === 2. 新的数据集与类别设置 (覆盖旧配置) ===
6
data_root = 'D:/mmyolomain/data/'
7
train_ann_file = 'annotations/trainval.json'
8
train_data_prefix = 'train2017/'
9
val_ann_file =  'annotations/val.json'
10
val_data_prefix = 'val2017/'
11

12
num_classes = 6
13
metainfo = dict(classes=(''))
14

15

16
# === 3. 新的训练超参数 (覆盖旧配置并优化速度) ===
17
img_scale = (640, 640)
18

19
train_batch_size_per_gpu = 12 # 尝试从8增加到12或16
20
train_num_workers = 8 # 从4增加到8
21
persistent_workers = True
22

23
# 核心改动: 延长训练周期，让模型有充足时间学习高分辨率特征
24
max_epochs = 100
25
# 最后15个周期关闭mosaic，进行精调
26
close_mosaic_epochs = 15
27
# 每10个epoch保存一次权重，方便观察
28
save_epoch_intervals = 10
29

30

31
# === 4. 模型和通用参数 ===
32
# 这部分参数基本与之前一致，但因为数据集类别数变了，
33
# 模型头部的 `num_classes` 会被自动更新。
34
dataset_type = 'YOLOv5CocoDataset'
35
val_batch_size_per_gpu = 1
36
val_num_workers = 2
37
batch_shapes_cfg = None
38
deepen_factor = 0.33
39
widen_factor = 0.5
40
strides = [8, 16, 32]
41
last_stage_out_channels = 1024
42
num_det_layers = 3
43
norm_cfg = dict(type='BN', momentum=0.03, eps=0.001)
44
affine_scale = 0.4
45
max_aspect_ratio = 100
46
tal_topk = 10; tal_alpha = 0.5; tal_beta = 6.0
47
loss_cls_weight = 0.5; loss_bbox_weight = 7.5; loss_dfl_weight = 1.5 / 4
48
weight_decay = 0.05
49
max_keep_ckpts = 5
50
env_cfg = dict(
51
    cudnn_benchmark=True,
52
    mp_cfg=dict(mp_start_method='fork', opencv_num_threads=0),
53
    dist_cfg=dict(backend='nccl'),
54
)
55

56
# === 5. 模型结构 (num_classes 会被自动更新) ===
57
model = dict(
58
    type='YOLODetector',
59
    data_preprocessor=dict(
60
        type='YOLOv5DetDataPreprocessor',
61
        mean=[128., 128., 128.], std=[128., 128., 128.], bgr_to_rgb=True),
62
    backbone=dict(
63
        type='YOLOv8CSPDarknet', arch='P5', last_stage_out_channels=last_stage_out_channels,
64
        deepen_factor=deepen_factor, widen_factor=widen_factor, norm_cfg=norm_cfg,
65
        act_cfg=dict(type='ReLU', inplace=True)),
66
    neck=dict(
67
        type='YOLOv8PAFPN', deepen_factor=deepen_factor, widen_factor=widen_factor,
68
        in_channels=[256, 512, last_stage_out_channels], out_channels=[256, 512, last_stage_out_channels],
69
        num_csp_blocks=3, norm_cfg=norm_cfg, act_cfg=dict(type='ReLU', inplace=True)),
70
    bbox_head=dict(
71
        type='YOLOv8Head',
72
        head_module=dict(
73
            type='YOLOv8HeadModule', num_classes=num_classes, in_channels=[256, 512, last_stage_out_channels],
74
            widen_factor=widen_factor, reg_max=16, norm_cfg=norm_cfg,
75
            act_cfg=dict(type='ReLU', inplace=True), featmap_strides=strides, skip_dfl=False),
76
        prior_generator=dict(type='mmdet.MlvlPointGenerator', offset=0.5, strides=strides),
77
        bbox_coder=dict(type='DistancePointBBoxCoder'),
78
        loss_cls=dict(type='mmdet.CrossEntropyLoss', use_sigmoid=True, reduction='none', loss_weight=loss_cls_weight),
79
        loss_bbox=dict(type='IoULoss', iou_mode='ciou', bbox_format='xyxy', reduction='sum', loss_weight=loss_bbox_weight, return_iou=False),
80
        loss_dfl=dict(type='mmdet.DistributionFocalLoss', reduction='mean', loss_weight=loss_dfl_weight)),
81
    train_cfg=dict(
82
        assigner=dict(
83
            type='BatchTaskAlignedAssigner', num_classes=num_classes, use_ciou=True,
84
            topk=tal_topk, alpha=tal_alpha, beta=tal_beta, eps=1e-9)),
85
    test_cfg=dict(
86
        multi_label=True, nms_pre=30000, score_thr=0.001,
87
        nms=dict(type='nms', iou_threshold=0.7), max_per_img=300))
88

89
# === 6. 数据处理流水线 (更新为960x960) ===
90
albu_train_transforms = [
91
    dict(type='Blur', p=0.01), dict(type='MedianBlur', p=0.01),
92
    dict(type='ToGray', p=0.01), dict(type='CLAHE', p=0.01)
93
]
94
pre_transform = [
95
    dict(type='LoadImageFromFile', backend_args=None),
96
    dict(type='LoadAnnotations', with_bbox=True)
97
]
98
last_transform = [
99
    dict(
100
        type='mmdet.Albu', transforms=albu_train_transforms,
101
        bbox_params=dict(type='BboxParams', format='pascal_voc', label_fields=['gt_bboxes_labels', 'gt_ignore_flags']),
102
        keymap={'img': 'image', 'gt_bboxes': 'bboxes'}),
103
    dict(type='YOLOv5HSVRandomAug'),
104
    dict(type='mmdet.RandomFlip', prob=0.5),
105
    dict(
106
        type='mmdet.PackDetInputs',
107
        meta_keys=('img_id', 'img_path', 'ori_shape', 'img_shape', 'flip', 'flip_direction'))
108
]
109
train_pipeline = [
110
    *pre_transform,
111
    dict(type='Mosaic', img_scale=img_scale, pad_val=114.0, pre_transform=pre_transform),
112
    dict(
113
        type='YOLOv5RandomAffine',
114
        max_rotate_degree=0.0, max_shear_degree=0.0,
115
        scaling_ratio_range=(1 - affine_scale, 1 + affine_scale),
116
        max_aspect_ratio=max_aspect_ratio,
117
        border=(-img_scale[0] // 2, -img_scale[1] // 2), border_val=(114, 114, 114)),
118
    *last_transform
119
]
120
train_pipeline_stage2 = [
121
    *pre_transform,
122
    dict(type='YOLOv5KeepRatioResize', scale=img_scale),
123
    dict(type='LetterResize', scale=img_scale, allow_scale_up=True, pad_val=dict(img=114.0)),
124
    dict(
125
        type='YOLOv5RandomAffine',
126
        max_rotate_degree=0.0, max_shear_degree=0.0,
127
        scaling_ratio_range=(1 - affine_scale, 1 + affine_scale),
128
        max_aspect_ratio=max_aspect_ratio, border_val=(114, 114, 114)),
129
    *last_transform
130
]
131

132
# === 7. 数据加载器 (更新为新数据集) ===
133
train_dataloader = dict(
134
    batch_size=train_batch_size_per_gpu, num_workers=train_num_workers,
135
    persistent_workers=persistent_workers, pin_memory=True,
136
    sampler=dict(type='DefaultSampler', shuffle=True),
137
    collate_fn=dict(type='yolov5_collate'),
138
    dataset=dict(
139
        type=dataset_type, data_root=data_root, ann_file=train_ann_file,
140
        data_prefix=dict(img=train_data_prefix),
141
        filter_cfg=dict(filter_empty_gt=False, min_size=0),
142
        pipeline=train_pipeline, metainfo=metainfo
143
        ))
144

145
test_pipeline = [
146
    dict(type='LoadImageFromFile', backend_args=None),
147
    dict(type='YOLOv5KeepRatioResize', scale=img_scale),
148
    dict(type='LetterResize', scale=img_scale, allow_scale_up=False, pad_val=dict(img=114)),
149
    dict(type='LoadAnnotations', with_bbox=True, _scope_='mmdet'),
150
    dict(type='mmdet.PackDetInputs', meta_keys=('img_id', 'img_path', 'ori_shape', 'img_shape', 'scale_factor', 'pad_param'))
151
]
152
val_dataloader = dict(
153
    batch_size=val_batch_size_per_gpu, num_workers=val_num_workers,
154
    persistent_workers=persistent_workers, pin_memory=True, drop_last=False,
155
    sampler=dict(type='DefaultSampler', shuffle=False),
156
    dataset=dict(
157
        type=dataset_type, data_root=data_root, test_mode=True,
158
        data_prefix=dict(img=val_data_prefix), ann_file=val_ann_file,
159
        pipeline=test_pipeline, batch_shapes_cfg=batch_shapes_cfg, metainfo=metainfo
160
        ))
161
test_dataloader = val_dataloader
162

163

164
# === 8. 优化器和钩子 (重置学习率计划并开启加速) ===
165
# 即使是恢复训练，我们也希望学习率从一个较高的值开始，然后慢慢下降，
166
# 以便模型能适应新的高分辨率数据。所以这里的学习率调度器是全新的。
167
base_lr = 0.001
168
param_scheduler = [
169
    dict(
170
        type='LinearLR', start_factor=0.01, by_epoch=True,
171
        begin=0, end=5), # 从恢复的那个epoch开始，进行5个epoch的预热
172
    dict(
173
        type='CosineAnnealingLR', eta_min=base_lr * 0.01,
174
        begin=5, end=max_epochs, T_max=max_epochs - 5,
175
        by_epoch=True, convert_to_iter_based=True),
176
]
177

178
# === 核心提速点: 开启混合精度训练 (AMP) ===
179
optim_wrapper = dict(
180
    type='AmpOptimWrapper',
181
    optimizer=dict(
182
        type='AdamW', lr=base_lr, betas=(0.9, 0.999),
183
        weight_decay=weight_decay),
184
    clip_grad=dict(max_norm=10.0)
185
)
186

187
default_hooks = dict(
188
    param_scheduler=dict(type='ParamSchedulerHook'),
189
    checkpoint=dict(
190
        type='CheckpointHook', interval=save_epoch_intervals,
191
        save_best='auto', max_keep_ckpts=max_keep_ckpts)
192
)
193
custom_hooks = [
194
    dict(type='EMAHook', ema_type='ExpMomentumEMA', momentum=0.0001, update_buffers=True, strict_load=False, priority=49),
195
    dict(type='mmdet.PipelineSwitchHook', switch_epoch=max_epochs - close_mosaic_epochs, switch_pipeline=train_pipeline_stage2)
196
]
197

198
# === 9. 评估器与训练循环 (更新评估器和总epoch) ===
199
val_evaluator = dict(
200
    type='mmdet.CocoMetric',
201
    ann_file=data_root + val_ann_file, # 使用新数据集的标注文件
202
    metric='bbox', classwise=True,
203
)
204
test_evaluator = val_evaluator
205

206
train_cfg = dict(
207
    type='EpochBasedTrainLoop',
208
    max_epochs=max_epochs, # 使用新的总epoch数
209
    val_interval=save_epoch_intervals,
210
    dynamic_intervals=[((max_epochs - close_mosaic_epochs), 1)])
211
val_cfg = dict(type='ValLoop')
212
test_cfg = dict(type='TestLoop')

点击这里展开示例代码2

1
# =================================================================================
2
_base_ = ['../_base_/default_runtime.py', '../_base_/det_p5_tta.py']
3

4
# === 加载最佳模型 & 创建新工作目录 ===
5
# 使用 load_from 加载你找到的最好的权重，开始一次全新的优化过程
6
load_from ='D:/best_coco.pth'
7

8
# 为这次微调创建一个全新的、独立的工作目录
9
work_dir = './work_dirs/yolo'
10

11

12
# === 2. 数据集与类别设置 (保持不变) ===
13
data_root = 'D:/mmyolomain/data/'
14
train_ann_file = 'annotations/train.json'
15
train_data_prefix = 'train2017/'
16
val_ann_file =  'annotations/val.json'
17
val_data_prefix = 'val2017/'
18

19
num_classes = 3
20
metainfo = dict(classes=())
21

22

23
# === 3. 核心修改：新的微调超参数 ===
24
img_scale = (960, 960)
25

26
train_batch_size_per_gpu = 12
27
train_num_workers = 8
28
persistent_workers = True
29

30
# 设置一个较短的微调周期
31
max_epochs = 20
32
# 在微调阶段，可以更早或全程关闭Mosaic，这里我们设置最后10个周期关闭
33
close_mosaic_epochs = 10
34
# 每2个epoch就保存和验证一次，方便观察细微变化
35
save_epoch_intervals = 2
36

37

38
# === 4. 模型和通用参数 (保持不变) ===
39
dataset_type = 'YOLOv5CocoDataset'
40
val_batch_size_per_gpu = 1
41
val_num_workers = 2
42
batch_shapes_cfg = None
43
deepen_factor = 0.33
44
widen_factor = 0.5
45
strides = [8, 16, 32]
46
last_stage_out_channels = 1024
47
num_det_layers = 3
48
norm_cfg = dict(type='BN', momentum=0.03, eps=0.001)
49
affine_scale = 0.4
50
max_aspect_ratio = 100
51
tal_topk = 10; tal_alpha = 0.5; tal_beta = 6.0
52
loss_cls_weight = 0.5; loss_bbox_weight = 7.5; loss_dfl_weight = 1.5 / 4
53
weight_decay = 0.05
54
max_keep_ckpts = 5
55
env_cfg = dict(
56
    cudnn_benchmark=True,
57
    mp_cfg=dict(mp_start_method='fork', opencv_num_threads=0),
58
    dist_cfg=dict(backend='nccl'),
59
)
60

61

62
# === 5. 模型结构 (保持不变) ===
63
model = dict(
64
    type='YOLODetector',
65
    data_preprocessor=dict(
66
        type='YOLOv5DetDataPreprocessor',
67
        mean=[128., 128., 128.], std=[128., 128., 128.], bgr_to_rgb=True),
68
    backbone=dict(
69
        type='YOLOv8CSPDarknet', arch='P5', last_stage_out_channels=last_stage_out_channels,
70
        deepen_factor=deepen_factor, widen_factor=widen_factor, norm_cfg=norm_cfg,
71
        act_cfg=dict(type='ReLU', inplace=True)),
72
    neck=dict(
73
        type='YOLOv8PAFPN', deepen_factor=deepen_factor, widen_factor=widen_factor,
74
        in_channels=[256, 512, last_stage_out_channels], out_channels=[256, 512, last_stage_out_channels],
75
        num_csp_blocks=3, norm_cfg=norm_cfg, act_cfg=dict(type='ReLU', inplace=True)),
76
    bbox_head=dict(
77
        type='YOLOv8Head',
78
        head_module=dict(
79
            type='YOLOv8HeadModule', num_classes=num_classes, in_channels=[256, 512, last_stage_out_channels],
80
            widen_factor=widen_factor, reg_max=16, norm_cfg=norm_cfg,
81
            act_cfg=dict(type='ReLU', inplace=True), featmap_strides=strides, skip_dfl=False),
82
        prior_generator=dict(type='mmdet.MlvlPointGenerator', offset=0.5, strides=strides),
83
        bbox_coder=dict(type='DistancePointBBoxCoder'),
84
        loss_cls=dict(type='mmdet.CrossEntropyLoss', use_sigmoid=True, reduction='none', loss_weight=loss_cls_weight),
85
        loss_bbox=dict(type='IoULoss', iou_mode='ciou', bbox_format='xyxy', reduction='sum', loss_weight=loss_bbox_weight, return_iou=False),
86
        loss_dfl=dict(type='mmdet.DistributionFocalLoss', reduction='mean', loss_weight=loss_dfl_weight)),
87
    train_cfg=dict(
88
        assigner=dict(
89
            type='BatchTaskAlignedAssigner', num_classes=num_classes, use_ciou=True,
90
            topk=tal_topk, alpha=tal_alpha, beta=tal_beta, eps=1e-9)),
91
    test_cfg=dict(
92
        multi_label=True, nms_pre=30000, score_thr=0.001,
93
        nms=dict(type='nms', iou_threshold=0.7), max_per_img=300))
94

95

96
# === 6. 数据处理流水线 (保持不变) ===
97
albu_train_transforms = [
98
    dict(type='Blur', p=0.01), dict(type='MedianBlur', p=0.01),
99
    dict(type='ToGray', p=0.01), dict(type='CLAHE', p=0.01)
100
]
101
pre_transform = [
102
    dict(type='LoadImageFromFile', backend_args=None),
103
    dict(type='LoadAnnotations', with_bbox=True)
104
]
105
last_transform = [
106
    dict(
107
        type='mmdet.Albu', transforms=albu_train_transforms,
108
        bbox_params=dict(type='BboxParams', format='pascal_voc', label_fields=['gt_bboxes_labels', 'gt_ignore_flags']),
109
        keymap={'img': 'image', 'gt_bboxes': 'bboxes'}),
110
    dict(type='YOLOv5HSVRandomAug'),
111
    dict(type='mmdet.RandomFlip', prob=0.5),
112
    dict(
113
        type='mmdet.PackDetInputs',
114
        meta_keys=('img_id', 'img_path', 'ori_shape', 'img_shape', 'flip', 'flip_direction'))
115
]
116
train_pipeline = [
117
    *pre_transform,
118
    dict(type='Mosaic', img_scale=img_scale, pad_val=114.0, pre_transform=pre_transform),
119
    dict(
120
        type='YOLOv5RandomAffine',
121
        max_rotate_degree=0.0, max_shear_degree=0.0,
122
        scaling_ratio_range=(1 - affine_scale, 1 + affine_scale),
123
        max_aspect_ratio=max_aspect_ratio,
124
        border=(-img_scale[0] // 2, -img_scale[1] // 2), border_val=(114, 114, 114)),
125
    *last_transform
126
]
127
train_pipeline_stage2 = [
128
    *pre_transform,
129
    dict(type='YOLOv5KeepRatioResize', scale=img_scale),
130
    dict(type='LetterResize', scale=img_scale, allow_scale_up=True, pad_val=dict(img=114.0)),
131
    dict(
132
        type='YOLOv5RandomAffine',
133
        max_rotate_degree=0.0, max_shear_degree=0.0,
134
        scaling_ratio_range=(1 - affine_scale, 1 + affine_scale),
135
        max_aspect_ratio=max_aspect_ratio, border_val=(114, 114, 114)),
136
    *last_transform
137
]
138

139

140
# === 7. 数据加载器 (保持不变) ===
141
train_dataloader = dict(
142
    batch_size=train_batch_size_per_gpu, num_workers=train_num_workers,
143
    persistent_workers=persistent_workers, pin_memory=True,
144
    sampler=dict(type='DefaultSampler', shuffle=True),
145
    collate_fn=dict(type='yolov5_collate'),
146
    dataset=dict(
147
        type=dataset_type, data_root=data_root, ann_file=train_ann_file,
148
        data_prefix=dict(img=train_data_prefix),
149
        filter_cfg=dict(filter_empty_gt=False, min_size=0),
150
        pipeline=train_pipeline, metainfo=metainfo
151
        ))
152

153
test_pipeline = [
154
    dict(type='LoadImageFromFile', backend_args=None),
155
    dict(type='YOLOv5KeepRatioResize', scale=img_scale),
156
    dict(type='LetterResize', scale=img_scale, allow_scale_up=False, pad_val=dict(img=114)),
157
    dict(type='LoadAnnotations', with_bbox=True, _scope_='mmdet'),
158
    dict(type='mmdet.PackDetInputs', meta_keys=('img_id', 'img_path', 'ori_shape', 'img_shape', 'scale_factor', 'pad_param'))
159
]
160
val_dataloader = dict(
161
    batch_size=val_batch_size_per_gpu, num_workers=val_num_workers,
162
    persistent_workers=persistent_workers, pin_memory=True, drop_last=False,
163
    sampler=dict(type='DefaultSampler', shuffle=False),
164
    dataset=dict(
165
        type=dataset_type, data_root=data_root, test_mode=True,
166
        data_prefix=dict(img=val_data_prefix), ann_file=val_ann_file,
167
        pipeline=test_pipeline, batch_shapes_cfg=batch_shapes_cfg, metainfo=metainfo
168
        ))
169
test_dataloader = val_dataloader
170

171

172
# === 8. 核心修改：全新的微调优化器和学习率策略 ===
173
# 使用一个极低的基础学习率
174
base_lr = 1e-5  # 0.00001
175

176
# 为微调设计的学习率调度器
177
param_scheduler = [
178
    # 在微调阶段，我们不再需要很长的预热
179
    dict(
180
        type='LinearLR',
181
        start_factor=1.0,  # 直接从 base_lr 开始，不打折
182
        by_epoch=True,
183
        begin=0,
184
        end=1),
185
    # 主要使用余弦退火，在新的、短的周期内缓慢下降
186
    dict(
187
        type='CosineAnnealingLR',
188
        eta_min=base_lr * 0.1,  # 学习率最低降到 1e-6
189
        begin=1,
190
        end=max_epochs,  # 对应新的 max_epochs (20)
191
        T_max=max_epochs - 1,
192
        by_epoch=True,
193
        convert_to_iter_based=True),
194
]
195

196
# 优化器配置保持不变，但会使用上面的新 base_lr
197
optim_wrapper = dict(
198
    type='AmpOptimWrapper',
199
    optimizer=dict(
200
        type='AdamW', lr=base_lr, betas=(0.9, 0.999),
201
        weight_decay=weight_decay),
202
    clip_grad=dict(max_norm=10.0)
203
)
204

205
default_hooks = dict(
206
    param_scheduler=dict(type='ParamSchedulerHook'),
207
    checkpoint=dict(
208
        type='CheckpointHook', interval=save_epoch_intervals, # 每2个epoch保存一次
209
        save_best='auto', max_keep_ckpts=max_keep_ckpts)
210
)
211
custom_hooks = [
212
    dict(type='EMAHook', ema_type='ExpMomentumEMA', momentum=0.0001, update_buffers=True, strict_load=False, priority=49),
213
    dict(type='mmdet.PipelineSwitchHook', switch_epoch=max_epochs - close_mosaic_epochs, switch_pipeline=train_pipeline_stage2)
214
]
215

216

217
# === 9. 评估器与训练循环 (适配新的周期) ===
218
val_evaluator = dict(
219
    type='mmdet.CocoMetric',
220
    #ann_file=data_root + val_ann_file,
221
    metric='bbox', classwise=True,
222
)
223
test_evaluator = val_evaluator
224

225
train_cfg = dict(
226
    type='EpochBasedTrainLoop',
227
    max_epochs=max_epochs,  # 使用新的总周期数 (20)
228
    val_interval=save_epoch_intervals, # 使用新的验证间隔 (2)
229
    dynamic_intervals=[((max_epochs - close_mosaic_epochs), 1)])
230
val_cfg = dict(type='ValLoop')
231
test_cfg = dict(type='TestLoop')

点击这里展开示例代码3

1
# =================================================================================
2
_base_ = ['../_base_/default_runtime.py', '../_base_/det_p5_tta.py']
3

4
# === 加载新的起点模型 & 创建新工作目录 ===
5
# 指定从 epoch.pth 开始，保持不变
6
load_from = 'D:/mmyolo-main/mmyolo/work_dirs/yolo/epoch.pth'
7

8
# 为这次【强化微调】创建一个全新的、独立的工作目录
9
work_dir = './work_dirs/yolo'
10

11

12
# === 2. 数据集与类别设置 (保持不变) ===
13
data_root = 'D:/mmyolo/data/'
14
train_ann_file = 'annotations/train.json'
15
train_data_prefix = 'train2017/'
16
val_ann_file =  'annotations/val.json'
17
val_data_prefix = 'val2017/'
18

19
num_classes = 2
20
metainfo = dict(classes=())
21

22

23
# === 3. 核心修改：新的强化微调超参数 ===
24
img_scale = (960, 960)
25

26
train_batch_size_per_gpu = 12
27
train_num_workers = 8
28
persistent_workers = True
29

30
# --- 【修改】延长训练周期，给予模型更充分的打磨时间 ---
31
max_epochs = 40
32
# --- 【修改】相应调整关闭Mosaic的时机，在最后15个周期关闭 ---
33
close_mosaic_epochs = 15
34
# 每2个epoch就保存和验证一次，方便观察细微变化
35
save_epoch_intervals = 2
36

37

38
# === 4. 核心修改：调整损失函数权重 ===
39
# --- 【修改】提高分类损失权重，让模型更关注难分的类别；同时略微降低BBox权重以平衡总损失 ---
40
loss_cls_weight = 0.8        # 从 0.5 提升
41
loss_bbox_weight = 7.0       # 从 7.5 降低
42
loss_dfl_weight = 1.5 / 4    # 保持不变
43

44
# --- 以下为保持不变的参数 ---
45
dataset_type = 'YOLOv5CocoDataset'
46
val_batch_size_per_gpu = 1; val_num_workers = 2
47
batch_shapes_cfg = None; deepen_factor = 0.33; widen_factor = 0.5
48
strides = [8, 16, 32]; last_stage_out_channels = 1024
49
num_det_layers = 3; norm_cfg = dict(type='BN', momentum=0.03, eps=0.001)
50
affine_scale = 0.4; max_aspect_ratio = 100
51
tal_topk = 10; tal_alpha = 0.5; tal_beta = 6.0
52
weight_decay = 0.05; max_keep_ckpts = 5
53
env_cfg = dict(
54
    cudnn_benchmark=True,
55
    mp_cfg=dict(mp_start_method='fork', opencv_num_threads=0),
56
    dist_cfg=dict(backend='nccl'),
57
)
58

59

60
# === 5. 模型结构 (保持不变) ===
61
model = dict(
62
    type='YOLODetector',
63
    data_preprocessor=dict(
64
        type='YOLOv5DetDataPreprocessor',
65
        mean=[128., 128., 128.], std=[128., 128., 128.], bgr_to_rgb=True),
66
    backbone=dict(
67
        type='YOLOv8CSPDarknet', arch='P5', last_stage_out_channels=last_stage_out_channels,
68
        deepen_factor=deepen_factor, widen_factor=widen_factor, norm_cfg=norm_cfg,
69
        act_cfg=dict(type='ReLU', inplace=True)),
70
    neck=dict(
71
        type='YOLOv8PAFPN', deepen_factor=deepen_factor, widen_factor=widen_factor,
72
        in_channels=[256, 512, last_stage_out_channels], out_channels=[256, 512, last_stage_out_channels],
73
        num_csp_blocks=3, norm_cfg=norm_cfg, act_cfg=dict(type='ReLU', inplace=True)),
74
    bbox_head=dict(
75
        type='YOLOv8Head',
76
        head_module=dict(
77
            type='YOLOv8HeadModule', num_classes=num_classes, in_channels=[256, 512, last_stage_out_channels],
78
            widen_factor=widen_factor, reg_max=16, norm_cfg=norm_cfg,
79
            act_cfg=dict(type='ReLU', inplace=True), featmap_strides=strides, skip_dfl=False),
80
        prior_generator=dict(type='mmdet.MlvlPointGenerator', offset=0.5, strides=strides),
81
        bbox_coder=dict(type='DistancePointBBoxCoder'),
82
        loss_cls=dict(type='mmdet.CrossEntropyLoss', use_sigmoid=True, reduction='none', loss_weight=loss_cls_weight),
83
        loss_bbox=dict(type='IoULoss', iou_mode='ciou', bbox_format='xyxy', reduction='sum', loss_weight=loss_bbox_weight, return_iou=False),
84
        loss_dfl=dict(type='mmdet.DistributionFocalLoss', reduction='mean', loss_weight=loss_dfl_weight)),
85
    train_cfg=dict(
86
        assigner=dict(
87
            type='BatchTaskAlignedAssigner', num_classes=num_classes, use_ciou=True,
88
            topk=tal_topk, alpha=tal_alpha, beta=tal_beta, eps=1e-9)),
89
    test_cfg=dict(
90
        multi_label=True, nms_pre=30000, score_thr=0.001,
91
        nms=dict(type='nms', iou_threshold=0.7), max_per_img=300))
92

93

94
# === 6. 核心修改：修正数据增强流水线以兼容您的环境 ===
95
albu_train_transforms = [
96
    dict(type='Blur', p=0.01), dict(type='MedianBlur', p=0.01),
97
    dict(type='ToGray', p=0.01), dict(type='CLAHE', p=0.01)
98
]
99
pre_transform = [
100
    dict(type='LoadImageFromFile', backend_args=None),
101
    dict(type='LoadAnnotations', with_bbox=True)
102
]
103
last_transform = [
104
    dict(
105
        type='mmdet.Albu', transforms=albu_train_transforms,
106
        bbox_params=dict(type='BboxParams', format='pascal_voc', label_fields=['gt_bboxes_labels', 'gt_ignore_flags']),
107
        keymap={'img': 'image', 'gt_bboxes': 'bboxes'}),
108
    dict(type='YOLOv5HSVRandomAug'),
109
    dict(type='mmdet.RandomFlip', prob=0.5),
110
    dict(
111
        type='mmdet.PackDetInputs',
112
        meta_keys=('img_id', 'img_path', 'ori_shape', 'img_shape', 'flip', 'flip_direction'))
113
]
114

115
# --- 【重要修改】已为您修正此部分代码 ---
116
train_pipeline = [
117
    *pre_transform,
118
    dict(type='Mosaic', img_scale=img_scale, pad_val=114.0, pre_transform=pre_transform),
119
    # --- 【已修正】删除了不兼容的 'max_num_pasted' 参数，现在可以正常运行 ---
120
    dict(
121
        type='YOLOv5CopyPaste',
122
        prob=0.75),
123
    dict(
124
        type='YOLOv5RandomAffine',
125
        max_rotate_degree=0.0, max_shear_degree=0.0,
126
        scaling_ratio_range=(1 - affine_scale, 1 + affine_scale),
127
        max_aspect_ratio=max_aspect_ratio,
128
        border=(-img_scale[0] // 2, -img_scale[1] // 2), border_val=(114, 114, 114)),
129
    *last_transform
130
]
131

132
# 第二阶段（关闭Mosaic）的流水线保持不变
133
train_pipeline_stage2 = [
134
    *pre_transform,
135
    dict(type='YOLOv5KeepRatioResize', scale=img_scale),
136
    dict(type='LetterResize', scale=img_scale, allow_scale_up=True, pad_val=dict(img=114.0)),
137
    dict(
138
        type='YOLOv5RandomAffine',
139
        max_rotate_degree=0.0, max_shear_degree=0.0,
140
        scaling_ratio_range=(1 - affine_scale, 1 + affine_scale),
141
        max_aspect_ratio=max_aspect_ratio, border_val=(114, 114, 114)),
142
    *last_transform
143
]
144

145

146
# === 7. 数据加载器 (保持不变) ===
147
train_dataloader = dict(
148
    batch_size=train_batch_size_per_gpu, num_workers=train_num_workers,
149
    persistent_workers=persistent_workers, pin_memory=True,
150
    sampler=dict(type='DefaultSampler', shuffle=True),
151
    collate_fn=dict(type='yolov5_collate'),
152
    dataset=dict(
153
        type=dataset_type, data_root=data_root, ann_file=train_ann_file,
154
        data_prefix=dict(img=train_data_prefix),
155
        filter_cfg=dict(filter_empty_gt=False, min_size=0),
156
        pipeline=train_pipeline, metainfo=metainfo
157
        ))
158

159
test_pipeline = [
160
    dict(type='LoadImageFromFile', backend_args=None),
161
    dict(type='YOLOv5KeepRatioResize', scale=img_scale),
162
    dict(type='LetterResize', scale=img_scale, allow_scale_up=False, pad_val=dict(img=114)),
163
    dict(type='LoadAnnotations', with_bbox=True, _scope_='mmdet'),
164
    dict(type='mmdet.PackDetInputs', meta_keys=('img_id', 'img_path', 'ori_shape', 'img_shape', 'scale_factor', 'pad_param'))
165
]
166
val_dataloader = dict(
167
    batch_size=val_batch_size_per_gpu, num_workers=val_num_workers,
168
    persistent_workers=persistent_workers, pin_memory=True, drop_last=False,
169
    sampler=dict(type='DefaultSampler', shuffle=False),
170
    dataset=dict(
171
        type=dataset_type, data_root=data_root, test_mode=True,
172
        data_prefix=dict(img=val_data_prefix), ann_file=val_ann_file,
173
        pipeline=test_pipeline, batch_shapes_cfg=batch_shapes_cfg, metainfo=metainfo
174
        ))
175
test_dataloader = val_dataloader
176

177

178
# === 8. 核心修改：适配新的训练周期的优化器和学习率策略 ===
179
# --- 【修改】可以略微提高学习率，给模型更多动力学习新知识 ---
180
base_lr = 2e-5  # 0.00002
181

182
# --- 【修改】学习率调度器需适配新的 max_epochs ---
183
param_scheduler = [
184
    dict(type='LinearLR', start_factor=1.0, by_epoch=True, begin=0, end=1),
185
    dict(
186
        type='CosineAnnealingLR',
187
        eta_min=base_lr * 0.1,
188
        begin=1,
189
        end=max_epochs,  # 对应新的 max_epochs (40)
190
        T_max=max_epochs - 1,
191
        by_epoch=True,
192
        convert_to_iter_based=True),
193
]
194

195
# 优化器配置保持不变，但会使用上面的新 base_lr
196
optim_wrapper = dict(
197
    type='AmpOptimWrapper',
198
    optimizer=dict(
199
        type='AdamW', lr=base_lr, betas=(0.9, 0.999),
200
        weight_decay=weight_decay),
201
    clip_grad=dict(max_norm=10.0) # 梯度裁剪依然保留，非常重要
202
)
203

204
default_hooks = dict(
205
    param_scheduler=dict(type='ParamSchedulerHook'),
206
    checkpoint=dict(
207
        type='CheckpointHook', interval=save_epoch_intervals,
208
        save_best='auto', max_keep_ckpts=max_keep_ckpts)
209
)
210
# --- 【修改】PipelineSwitchHook 的切换时机也需要更新 ---
211
switch_pipeline_epoch = max_epochs - close_mosaic_epochs # 40 - 15 = 25
212
custom_hooks = [
213
    dict(type='EMAHook', ema_type='ExpMomentumEMA', momentum=0.0001, update_buffers=True, strict_load=False, priority=49),
214
    dict(type='mmdet.PipelineSwitchHook', switch_epoch=switch_pipeline_epoch, switch_pipeline=train_pipeline_stage2)
215
]
216

217

218
# === 9. 核心修改：评估器与训练循环 (适配新的周期) ===
219
val_evaluator = dict(
220
    type='mmdet.CocoMetric',
221
    ann_file=data_root + val_ann_file,
222
    metric='bbox', classwise=True,
223
)
224
test_evaluator = val_evaluator
225

226
train_cfg = dict(
227
    type='EpochBasedTrainLoop',
228
    max_epochs=max_epochs,  # 使用新的总周期数 (40)
229
    val_interval=save_epoch_intervals,
230
    # --- 【修改】动态间隔的触发点也需要更新 ---
231
    dynamic_intervals=[(switch_pipeline_epoch, 1)])
232
val_cfg = dict(type='ValLoop')
233
test_cfg = dict(type='TestLoop')

嘟嘟嘟嘟

关于大疆算力开放的教程#

以下是示例代码参考#