티스토리 뷰

ℹ️요약

  1. 이미지 합성을 위해 원본 이미지를 위험품목과 일반 품목으로 분류한다.
  2. 일반 품목에 위험품목을 합성한다.
  3. 합성 알고리즘을 통해 데이터 셋을 구축한다.
  4. 데이터 수량은 일반품목과 동일하게 구축하며, 효용성을 비교한다.
  5. 학습을 수행하여 모델에 따른 결과를 도출한다.
  6. 결과는 원본 이미지로 구성된 품목과 큰 차이는 없는것으로 판단된다.

 

0. Abstract

  • X-ray의 보안 이미지를 비교하는것은 지속적으로 발전해야한다.
  • 본 논문은 합성 된 이미지를 사용할 가능성에 대한 방법을 제시한다.
  • 3가지 위험 품목에 대해 탐지 성능차이를 확인한다.

 

1. Introduction

  • 공항, 철도, 지하철역 및 대중교통 등 국경 보안 시설에서는 X-ray 보안검사가 일반적으로 수행된다.
  • 위험 품목에 대한 선별작업을 사용자(사람)가 판독하기에는 시간적 제약이 든다.
  • 현 X-ray는 이중에너지를 이용해 이미지의 물질을 구분하며, 해당 기술은 이미 구현되어 있다.
  • 학습을 진행하기에 앞서 정제(라벨링)된 이미지에 의존성이 크다.
  • 현 X-ray의 이미지 데이터 셋은 가용성 크기가 제한적이며, 크기와 항목 범위도 제한된다.
  • 위험 품목에 대한 X-ray 데이터 수집은 어렵다.
  • 데이터 증설을 위해 “위험 이미지 투영(TIP : Threat Image Projection)”을 사용하여 “합성 혼합품(SC : Synthetically Composited) data” 을 사용한다.
    • 위험 이미지 투영(TIP : Threat Image Projection) : X-ray에서 투영(투사)된 위험 영상
    • 합성 혼합품 (SC : Synthetically Composited) data : X-ray 영상을 합성한 데이터
  • 목적은 다음과 같다.
    • TIP 접근방식을 사용하여 위험 품목(금지 품목) 에 대한 고품질 이미지 합성
    • 합성에 따라 생산된 이미지를 신경망(CNN)을 통해 위험 물품 감지 및 분류에 어떠한 영향을 미치는 지 비교 평가

2. Related Work

  • 신경망의 발전에 따라 X-ray 보안 이미지의 상당한 성능 향상으로 인해 금지된 품목 탐지에 많이 활용되고 있다.
  • 사용하는 모델은 다음과 같다.
    • Faster R-CNN
    • R-FCN
    • YOLO-v2 → 결과에 나와있지 않음(안씀)
  • 사용하는 데이터셋은 다음과 같다.
    • GDXray
  • 일반적인 위험품목 종류는 다음과 같다.
    • gun(총)
    • knife(칼)
    • wrench(랜치)
    • plier(팬치)
    • scissor(가위)
    • hammer(망치)
  • 제한된 데이터셋 가용성을 높이기 위해 데이터 수량을 증가시킨다.
  • 일반적인 변형(flip, crop, rotate, scaling)은 이미지의 다양성을 증가시키지만 데이터셋 모양에 따른 특이점에 대한 변형의 다양성은 증가시키지 않는다.
  • 이에 따라 GAN(Generative Adversarial Network) 접근 방식을 통해 데이터 확대를 시도하지만, 전체 X-ray 이미지에서가 아닌 특정 물품에 대한 데이터셋 생성을 수행할 예정이다. → 결론에 차기 논문주제로 다룰 예정이라 명시됨
  • X-ray 영상에 금지 품목이라는 기준을 두어 데이터 증설을 위해 TIP(Threat Image Projection)의 실현 가능성을 확인함이 목적이다.

 

3. Proposed Approach

  • TIP의 사용 가능성 여부를 위한 pipeline을 조사한다.
  • TIP기반 데이터를 평가 하기 위해 실제 X-ray영상과 비교하여 신경망을 구축 후 결과를 도출한다.

 

3.1 Synthetic X-ray Security Imagery via TIP

  • TIP의 파이프라인 구성은 다음과 같다.
    1. 위험 품목 이미지 변환
    2. 삽입 및 위치 조절
    3. 이미지 합성
  • 즉, 이미지 증설을 위해 합성 이미지 생성이 목적이다.

  • 합성을 위해 배경에서 구분이 쉬운 깨끗한 이미지를 사용한다.
  • 영상의 잡음(noise)으로 인해 배경과 전경이미지가 올바르게 분리되지 않을 수 있다.
    • a : grayscale → 영상을 회색영상으로 변경
    • b : binarisation → 임계치를 통한 영상 이진화
    • c : dilation → 영상 팽창을 통해 이진화된 영상주변의 잡음을 제거
    • d : hole filling → 주변 영상의 외각만 추출하여 사이에 채워진 검은색 영역을 제거
    • e : erosion → 영상 수축을 통한 외각 영역 감소
    • f : biggest region → contour(윤곽선을통한 마스킹 추출 알고리즘)을 통해 가장 큰 마스크 영역만 살리고 나머지 영역 제거 작업 수행

  • 합성을 위한 수식을 정의한다.
  • 수식에 따른 변수 정의는 다음과 같다.

  • 수식 도출은 다음과 같다.

3.2 Detection Strategies

  • 사용하는 모델은 다음과 같다.
    • RetinaNet
    • Faster R-CNN

4. Experimental Setup

  • 이미지 셋 원본은 smith detection사의 장비에서 출력된 영상 정보이다.
  • 실제 이미지셋과 가공한 데이터셋을 분리하여 구성한다.

  • 데이터 비율은 다음과 같다
    • Train : 60%
    • Validation : 20%
    • Test : 20%
  • 파라메터
    • gradinet descent : SGD
    • weight decay : 0.0001
    • learning rate : 0.01
    • termination epoch : 180k

5. Evaluation

  • 학습 모델에 대한 평가 척도는 mAP를 통해 확인한다.

5.1 Prohibited Item Detection Results

  • 전체적으로 detector가 Faster R-CNN이며 resnet101일 경우 결과가 가장 좋다.

5.2 Qualitative Examples

  • 원본이미지와 합성한 이미지 비교는 다음과 같다.

  • 합성한 이미지 와 원본이미지에 대한 영상 비교는 다음과 같다.

  • B1,B2에서 초록색 점선 박스는 검출에 실패하거나 오인식으로 인해 나타난 결과 이다.

6. Conclusion

  • 합성에 대한 영상과 원본에 대한 영상의 차이를 비교하였다.
  • TIP을 통해 데이터 합성 과정을 알아보았으며 해당 알고리즘을 통해 데이터 셋을 구축하였다.
  • 원본데이터, 합성데이터, 원본+합성 데이터를 통해 비교 결과 원본데이터가 mAP가 가장 높은것으로 확인된다.
  • 합성 데이터는 인식율에서 원본데이터와 mAP기준으로 큰 차이는 보이지 않았다.
  • 즉, 실 X-ray 데이터를 사용할 때 교육용 및 합성 데이터에 대해 강한 이점 및 이미지 사용이 가능함을 알수 있다.
  • 차후 GAN(generative adversarial networks)를 이용하여 이미지 생성을 목표로 둔다.

❓생각정리

  1. 전체적으로 물건이 겹침현상에 따라 물성 분석이 진할경우 해당 물채는 어떻게 식별할 수 있을까?
  2. 위험 물품이 물성이 높기 때문에 파란색(진함)에 근접한 데이터들이 많아 위와 같이 될 수 있으나 공책, 책 과 같이 물성이 낮은 품목에 대해서는 해당 알고리즘을 적용 시킬수 있는가?
  3. 결론에서 GAN을 쓰기로 했는데 GAN을 어떻게 쓸것인지에 대한 상세 내용은 나오지 않아서 차후 논문에 어떻게 구현할것인가?

❗ 결론

  1. 데이터 증설 방법에서 데이터를 합성하여 늘려도 큰 차이는 없지만 효용적으로는 원본데이터를 통한 학습이 가장 좋다.
반응형
댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/05   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함