Weed Classification in Sweet potato Fields Based on Image-learning

Research
Seung-Hoon Han1Kyeong-Min Kang1Min-Seok Kim1Chae-Yoon Oh1Dae-Hyun Lee1*

Abstract

The purpose of this study was to discriminate weed in sweet potato field automatically by using Image-based learning, deep learning. First, weed images were captured using various kind of devices in sweet potato farmhouse. The collected images have big size, and each image was cropped into 224 × 224 pixels at random region in the raw image for constructing training set. The total number of cropped images was 2786 and they were divided into training, verification and test sets. Second, transfer learning technique was employed to train the deep learning model efficiently. The VGG16-based model was constructed and the weights was pre-trained on ImageNet dataset. The model training and verification were repeated 100 times using training and validation set, respectively. The model training results show that loss and accuracy for validation set were 0.003 and 99.0% at 60th epochs which was the best figure. Averaged performance for weed classification was evaluated to be 0.990, 0.990, 0.990 and 0.990 for accuracy, recall, precision, and F1 Score, respectively. Considering the overall results, weed could be classified automatically from sweet potato scene by using deep learning. In order to utilize in the field, model optimization with various kind of sweet potato field weed images is required.

Keyword



Introduction

국내 인구는 지속해서 증가하고 있으며, 이에 따른 농작물 생산량 확보가 필요하지만, 농업 노동력 감소에 따라 1인당 재배면적이 증가해야 하는 등 생산성 향상에 어려움을 겪고 있다. 특히, 잡초 관리는 작물의 성장과 생산량에 직접적인 영향을 주지만 대부분 인력 작업으로 효율적인 작업이 어려워 농작물의 품질 일관화 및 생산성 향상에 저해요인으로 작용되고 있다.

효율적인 잡초 관리와 노동력 절감을 위하여 다양한 방식의 제초방식이 적용되고 있으며, 그 중 전용 기계를 이용한 제초 방식(Bakhshipour et al., 2017; Nørremark et al., 2008; Tillett et al., 2008)과 제초제를 이용한 화학적인 제초 방식(Hamuda et al., 2016) 등이 사용되고 있다. 그러나 전용 기계를 이용한 제초 방식은 사람의 도움 없이는 잡초 제거가 어렵고 정밀한 작업이 불가능하여 농작물에 손상을 줄 수 있다(Hamuda et al., 2016). 또한, 화학적인 제초 방식은 토양오염으로 인한 환경파괴를 일으킨다는 연구(Hyun et al., 2007)들과 건강한 식품에 대한 소비자의 선호도 증가로 인해 감소하고 있다.

위의 문제점들을 해결하고 더욱 더 넓은 면적을 효율적으로 관리 가능하게 하기 위해 작물 열 검출, 제초 영역 검출 등의 무인-자동화 연구가 활발히 진행되고 있다(Tellaeche et al., 2011; Wu et al., 2011; Guerrero et al., 2012). 최근에는 딥러닝 등 인공신경망 기술도 비약적인 발전을 하였고, 일부는 사람 수준의 자동 인식이 가능해졌다. 이러한 딥러닝 기술을 활용하면 잡초의 특징을 학습할 수 있어 무인 잡초 방제기에 적용이 가능할 것이다. 하지만 세계 10대 작물 중 하나이면서 잡초에 의해 작물의 품질에 영향을 받는 고구마에는 잡초 관리 기술이 요구되나 적용된 사례가 없어 이를 위한 연구가 필요하다(Howard et al., 2011).

따라서, 본 연구에서는 무인 잡초 방제를 위한 기초 연구로 딥러닝 기반 잡초 자동인식 기술을 개발하였으며, 기존에 개발되어 성능이 검증된 CNN (Convolution neural network) 모델인 VGG16을 기반으로 고구마 밭 영상 내 잡초를 자동으로 인식하였다. 연구에 이용된 영상은 국내 고구마 재배지에서 직접 수집하였으며, CNN 모델 학습 후 검출 정확도를 평가하였다.

Materials and Methods

영상 데이터 개요

본 연구에서는 영상 내 고구마 잎과 잡초를 딥러닝(deep learning)을 이용하여 인식 및 분류하였다. 고구마의 잎은 잡초보다 상대적으로 넓은 편이며 고구마의 종에 따라 잎이 자색 혹은 녹색을 띠는 반면, 잡초는 대체로 잎이 얇은 편이고 고구마 잎보다 지면과 수직 방향으로 자라며 종에 따라 다양한 크기 및 형태를 가진다. 영상 데이터는 고구마 밭에서 Table 1과 같은 스마트폰(G7 ThinQ, LG Electronics Inc., Rep. Korea; Galaxy Note 9, Samsung Electronics Co. Ltd., Rep. Korea)을 이용하여 수집되었으며, 영상 학습 시 인식률을 향상하기 위해 일정한 각도, 거리 등 제한된 조건에서 촬영되었다. 촬영된 고구마와 잡초 잎의 원 영상은 4032 × 3024픽셀을 가진 70장의 영상이며, 이를 Fig. 1과 같이 224 × 224픽셀의 일관된 영상 크기로 잘라내는 샘플링 작업이 수행되었다. 수집된 총 데이터는 2,786장이며 잡초 1,386장, 고구마 1,400장으로 이루어져 있다. 영상 데이터는 딥러닝 학습 시 필요한 훈련 집합(training-set), 검증 집합(validation-set) 및 테스트 집합(test-set)으로 분류하였으며 각각 1,540, 630, 616장으로 약 5:2:2의 구성비를 가지며 이는 Table 2와 같이 구성되었다.

http://dam.zipot.com:8080/sites/pastj/images/PASTJ_20-008_image/Figure_PASTJ_20-008_F1.png

Fig. 1. Results of image measurement and cropping for deep-learning. (A) Weed, (B) Sweet potato leaves.

Table 1. Specification of camera used in this study.http://dam.zipot.com:8080/sites/pastj/images/PASTJ_20-008_image/Table_PASTJ_20-008_T1.png
Table 2. Dataset composition for deep learning.http://dam.zipot.com:8080/sites/pastj/images/PASTJ_20-008_image/Table_PASTJ_20-008_T2.png

소프트웨어 및 하드웨어 환경

딥러닝 모델 구현 및 학습을 위한 프로그램은 오픈소스 기반의 파이선(version 3.6, Python Software Foundation, Wilmington, Delaware, United States)을 이용하며 윈도우 운영체제에서 다양한 함수 및 기능을 원활히 사용하기 위해 파이선 통합 플랫폼 아나콘다(version 3.5, Anaconda, Austin, Texas, United States) 기반으로 개발하였다. 인공신경망 설계 및 학습 구현은 Pytorch (version 4.0, Berkeley Software Distribution, San Mateo, California, United States)를 이용하며 결과의 시각화 및 저장 등 영상처리는 OpenCV (version 3.4.1, Berkeley Software Distribution, Santa Clara, California, United States) 라이브러리를 사용하였다. 딥러닝 모델 학습을 위한 하드웨어는 Table 3과 같으며 병렬처리를 위해 GPU (GeForce gtx1070ti, Nvidia, Santa Clara, California, United States) 기반으로 구성되었다.

Table 3. Specification of development environment for deep learning in this study.http://dam.zipot.com:8080/sites/pastj/images/PASTJ_20-008_image/Table_PASTJ_20-008_T3.png

영상인식 기술

인공신경망(artificial neural network, ANN)은 인간 두뇌의 신경망을 모방한 머신 러닝 기법으로 입력층(input layer)과 출력층(output layer) 그리고 그사이에 다수의 은닉층(hidden layer)으로 구성이 되어있다. 층 사이는 망 형태의 조정 가능한 가중치로 연결되어 있으며 이 가중치들은 훈련 또는 예측을 하는 동안 작동된다. 인공신경망의 장점은 입력된 데이터를 가지고 원하는 출력을 위한 근사 함수를 만들 수 있다는 점이다. 본 연구에서는 영상 인식에서 장점을 보이는 인공신경망의 한 종류인 합성곱 신경망(convolutional neural network, CNN)이 이용되었다. 합성곱 신경망은 영상 데이터의 특징 추출이 자동으로 가능하다는 큰 장점을 가지고 있어 2차원 이상의 형태를 가진 영상 데이터 인식 시 주로 사용된다.

본 연구에서는 합성곱 신경망 기반의 인공신경망 모델을 이용하며, 기존 학습된 모델 기반의 효과적인 학습이 가능한 전이학습(transfer learning) 방식을 이용하였다. 전이학습은 기존에 개발된 학습 모델과 가중치를 연구 환경에 적합하게 일부 수정한 후 가중치들을 미세조정(fine tuning)하는 방법으로 적은 데이터를 가지고 빠른 학습과 우수한 성능을 확보할 수 있다. 전이학습에 사용된 모델은 사물 인식에서 높은 성능을 가지며 비교적 가벼운 구조로 일반적인 하드웨어 환경에서 쉽게 학습이 가능한 VGG16 구조를 이용하였다. VGG16 모델의 입력 영상데이터는 224 × 224 픽셀이며, 합성곱 신경망은 필터 개수가 각각 64, 128, 256, 512인 네트워크로 구성되어 있으며 각각 2, 2, 3, 6회 반복된다. 합성곱 신경망의 필터 크기는 3 × 3으로 동일하며, 풀링으로는 최댓값 풀링(max pooling)을 이용하였다. 마지막 합성곱 신경망 이후에는 고구마 밭 잡초 영상의 부류(class)로 분류하기 위해 2개의 완전연결 계층(fully connected networks)과 분류기(classifier)인 소프트맥스로 구성되어 있다. 이때 소프트맥스의 분류는 본 연구의 부류 개수인 2개(고구마 잎, 잡초)로 변경하여 사용하였다. 학습 시 가중치 최적화는 SGD (stochastic gradient descent)를 이용하며, 학습 효율 향상을 위해 부분 데이터(mini-batch)를 이용하여 학습을 진행하였다.

본 연구에서 사용된 영상 데이터는 기존 분야의 모델 학습에서 사용된 데이터에 비해 비교적 적은 규모로 과적합(overfitting) 등의 문제가 발생하기 쉽다. 이에 본 실험에서는 적은 규모의 데이터로 학습 효과를 극대화할 수 있는 교차검증(cross-validation) 방법을 사용하여 학습 성능을 검증하였다. 부분데이터의 크기는 16으로 설정하였으며, 이를 고려한 학습률(learning rate)은 0.001로 설정하였다. 학습 시 비용함수(loss function)로는 두 집단의 확률분포 간 차이를 계산할 수 있는 cross entropy를 이용하였다. 학습은 총 100회 반복 실시하였으며 반복 1회마다 훈련 집합을 이용한 가중치 갱신, 검증 집합을 통해 성능평가를 진행하였다.

성능평가

학습된 딥러닝 모델의 고구마 밭 잡초 영상 인식 성능은 Table 4의 오차행렬(confusion matrix)을 이용하여 인식 정확도(accuracy), 재현율(recall), 정밀도(precision) 및 F1Score를 평가하였다. 정확도는 전체 데이터 중 부류를 정확히 분류한 경우에 해당되며 상대적 값이 높을수록 높은 성능을 나타낸다. 재현율은 목표 부류의 데이터 중 정확히 분류한 데이터의 비율이며, 정밀도는 목표 부류로 분류한 것 중 정확히 분류한 데이터의 비율을 나타낸다. F1 Score의 경우 정밀도와 재현율의 조화평균(harmonic mean)으로 이 두 지표를 모두 고려해 성능에 반영할 수 있다. 각각의 평가항목은 TP (true-positive), TN (true-negative), FP (false-positive), FN (false-negative)를 먼저 계산한 후 식(1) ~ (4)와 같이 정확도, 민감도, 정밀도, F1Score를 각각 계산하였다.

http://dam.zipot.com:8080/sites/pastj/images/PASTJ_20-008_image/PASTJ_20-008 eq1.png (1)

http://dam.zipot.com:8080/sites/pastj/images/PASTJ_20-008_image/PASTJ_20-008 eq2.png (2)

http://dam.zipot.com:8080/sites/pastj/images/PASTJ_20-008_image/PASTJ_20-008 eq3.png (3)

http://dam.zipot.com:8080/sites/pastj/images/PASTJ_20-008_image/PASTJ_20-008 eq4.png (4)

Table 4. Confusion matrix.http://dam.zipot.com:8080/sites/pastj/images/PASTJ_20-008_image/Table_PASTJ_20-008_T4.png

Results and Discussion

모델의 학습 결과

잡초 인식 모델의 학습 결과는 Table 5와 같이 반복에 따른 손실(loss)과 정확도(accuracy)로 나타냈다. 모델의 학습 결과, 훈련 집합을 이용한 모델의 손실과 정확도 평가에서 10회까지 각각 0.043과 0.545로 나타났으나, 이후 급격한 변화를 나타내며 50회 이후부터는 0.001 이하와 0.995 이상의 수치로 관찰되어 급격한 학습이 일어난 것으로 관찰되었다. 검증 집합을 이용한 모델의 손실과 정확도 평가에서는 10회 반복 시 각각 0.046과 0.333을 보였으나, 30회 반복까지 급격한 변화를 보여 각각 0.004와 0.978의 수치를 보였다. 이후 60회에서 가장 높은 정확도를 보인 후 손실이 소량 증가하고 정확도가 소량 감소하였으나 100회 반복 시에는 다시 손실이 감소하였고 정확도는 향상되었다. 이에 대한 변화 추이는 Fig. 2와 Fig. 3으로 나타냈다. 결론적으로 60회에서 손실과 정확도가 각각 최저점과 최고점으로 나타나 이때를 학습훈련에 과적합 되지 않은 최적의 학습 상태로 볼 수 있다.

http://dam.zipot.com:8080/sites/pastj/images/PASTJ_20-008_image/Figure_PASTJ_20-008_F2.png

Fig. 2. World coordinate system and camera coordinate system.

http://dam.zipot.com:8080/sites/pastj/images/PASTJ_20-008_image/Figure_PASTJ_20-008_F3.png

Fig. 3. World coordinate system and camera coordinate system.

Table 5. Loss and accuracy of deep learning model for weeds detection.http://dam.zipot.com:8080/sites/pastj/images/PASTJ_20-008_image/Table_PASTJ_20-008_T5.png

인식 성능

테스트 집합의 고구마 밭 잡초 인식 및 분류 성능은 Table 6과 같이 나타났다. 전체 영상 데이터 616개 중 TP, TN, FP, FN은 각각 335, 275, 5, 1로 계산되었으며, 이를 통한 정확도, 재현율, 정밀도 및 F1Score는 각각 0.990, 0.997, 0.985, 0.991로 계산되었다. 테스트 집합의 고구마 밭 작물 인식의 경우 TP, TN, FP, FN은 각각 275, 335, 1, 5로 관찰되었다. 이를 통한 정확도, 재현율, 정밀도 및 F1Score는 각각 0.990, 0.982, 0.996, 0.989로 평가되었고 이는 Table 7과 같다. 전체평균 성능의 인식의 경우 TP, TN, FP, FN은 각각 305, 305, 3, 3으로 관찰되었다. 이를 통한 정확도 및 recall은 각각 0.990, 0.990으로 계산되었으며, 이를 통해 F1Score는 0.990으로 나타났고 이는 Table 8과 같다. 영상 데이터 한 장당 소요된 평균 시간은 20 ms이다.

Table 6. Classification performance of deep learning model on weed.http://dam.zipot.com:8080/sites/pastj/images/PASTJ_20-008_image/Table_PASTJ_20-008_T6.png
Table 7. Classification performance of deep learning model on sweet potato.http://dam.zipot.com:8080/sites/pastj/images/PASTJ_20-008_image/Table_PASTJ_20-008_T7.png
Table 8. Classification performance of deep learning model in total average.http://dam.zipot.com:8080/sites/pastj/images/PASTJ_20-008_image/Table_PASTJ_20-008_T8.png

Fig. 4는 각 항목과 재현율, 정확도, F1Score의 수치 비교를 통해 고구마 밭 잡초 분류 성능을 분석한 결과를 나타냈다. 재현율의 경우 잡초가 0.997로 0.982인 고구마보다 높았다. F1Score도 잡초가 0.991로 0.989인 고구마보다 높았으며, 0.002의 차이가 났다. 정확도의 경우 모든 항목이 정확도 0.990으로 같은 확률을 보였다.

http://dam.zipot.com:8080/sites/pastj/images/PASTJ_20-008_image/Figure_PASTJ_20-008_F4.png

Fig. 4. Comparison of classification performance by sweet potato field weed.

Conclusion

본 연구에서는 딥러닝을 이용한 고구마 밭에서 잡초 인식을 목적으로 수행되었다. 이를 위해 전이학습 모델로 VGG16이 이용되었으며 수집된 영상 데이터로 모델의 학습을 실행한 후 고구마 잎과 잡초의 인식이 성능평가 되었다. 학습은 총 100회 실시되었으나 30회 학습 이후부터는 학습 집합과 검증 집합의 손실은 각각 0.006 이하와 정확도는 각각 97% 이상을 보였으며 60회 학습에서 검증 집합의 정확도가 99%로 가장 높아 이를 통해 60회 학습만으로도 정확도를 충분히 높일 수 있다는 것을 알 수 있었다. 100회 학습 후 성능평가에서 F1Score는 0.990으로 계산되어 딥러닝을 통한 고구마 잎과 잡초의 인식이 가능함을 알 수 있다.

하지만 일정한 환경 내 유사한 패턴의 영상만을 가지고 연구를 진행하였기에 농업 현장에 적용되기에는 한계가 있을 것으로 판단된다. 향후 실제 농업 환경에서의 활용을 위해서는 다양한 잡초 빅데이터 구축 및 모델 최적화가 추가로 필요할 것으로 판단된다. 실제 고구마 밭 잡초의 자동 인식이 가능할 것으로 판단된다.

Acknowledgements

본 연구는 2019년도 정부(과학기술정보통신부)의 재원으로 한국연구재단의 지원을 받아 수행된 연구입니다(No. 2019R1G1A1003023).

References

1  Bakhshipour A, Jafari A, Nassiri SM, Zare D. 2017. Weed segmentation using texture features extracted from wavelet sub-images. Biosystems Engineering 157 : 1-12.  

2  Guerrero JM, Pajares G, Montalvo M, Romeo J, Guijarro M. 2012. Support Vector Machines for crop/weeds identification in maize fields. Expert Systems with Applications 39: 11149-11155.  

3  Hamuda E, Glavin M, Jones E. 2016. A survey of image processing technique for plant extraction and segmentation in the field. Computers and Electronics in Agriculture 125: 184-199.  

4  Howard F, Harrison JR, Jackson DM. 2011. Response of two sweet potato cultivars to weed interference. Crop Protection 30: 1291-1296.  

5  Hyun HN, Jang GM, Oh SS, Chung JB. 2007. Evaluation of groundwater contamination potential of pesticides using groundwater ubiquity score in Jeju island soils. The Korean Journal of Pesticide Science 11(3): 144-153.  

6  Nørremark M, Griepentrog HW, Nielsen J, Søgaard HT. 2008. The development and assessment of the accuracy of an autonomous GPS-based system for intra-row mechanical weed control in row crops. Biosystems Engineering 101: 396-410.  

7  Tellaeche A, Pajares G, Burgos-Artizzu XP, Ribeiro A. 2011. A compute vision approach for weeds identification through support vector machines. Applied Soft Computing 11:908-915.  

8  Tillett ND, Hague T, Grundy AC, Dedousis AP. 2008. Mechanical within-row weed control for transplanted crops using computer vision. Biosystems Engineering 99: 171-178.  

9  Wu X, Xu W, Song Y, Cai M. 2011. A detection method of weed in wheat field on machine vision. Procedia Engineering 15: 1998-2003.