3.1 데이터 수집
본 연구에서 예측 모델을 만들기 위해 사용된 데이터는 시설물통합정보관리시스템(facility management system, FMS)을 통해 수집된
정밀점검 및 정밀안전진단 상태평가 보고서를 바탕으로 구성되었다. 1종 교량 1,205개와 2종 교량 1,224개를 포함하여 총 2,429개의 데이터를
수집하였다. 수집된 데이터 항목은 준공년도로부터 점검년도까지의 공용연수, 교량 길이(교장), 경간 수, 상부 형식, 교량 위치(지역), 전체 상태등급
등이다.
교량의 공용연수가 지남에 따른 부재 열화를 반영하기 위해 시설물 안전 및 유지관리 세부지침(안전점검・진단_교량 편, 2022)을 바탕으로 바닥판,
하부, 거더, 신축이음, 포장, 배수, 난간연석, 교량받침, 기초, 염화물, 탄산화 등 11개 부재의 결함도 지수 및 상태등급 데이터를 수집하였다.
다만 기초, 염화물, 탄산화에 대한 데이터는 대부분 누락되어 분석에서 제외하였고 교량받침은 내진 보강 시 열화에 관계없이 탄성받침이나 면진받침으로
교체되는 경우가 많기에 데이터에서 제외하였다.
또한, 제설제에 의한 염화물이나 동결융해와 같은 환경적 요인을 고려하기 위해 기상 데이터를 수집하였다. 이를 위해 정밀점검 및 정밀안전진단이 실시된
연도의 기상 데이터를 포함하여 평균기온, 최저기온, 최고기온, 강수량, 평균 상대습도 등을 포함한 자료를 수집하였으며, 이 데이터는 Table 2에 정리하였다.
수집한 데이터 총 2,429개 중 교량 상부형식 분포는 강교, 콘크리트교, 라멘교, 슬래브교, 복합교로 총 5개 항목으로 분포하였다. 교량 구간별
상부형식이 다른 교량의 경우를 복합교로 정의하였다. 그 중 강교가 54.4 %(1,323개), 콘크리트교가 39.8 %(968개)로 전체 데이터의
약 94 %로 가장 큰 비율을 차지하였다.
또한, 공용연수의 분포는 평균 14.46년, 표준편차가 9.28년으로 나왔고 대부분의 공용연수가 30년 이내로 분포하는 것을 확인하였다. 부재 상태등급의
분포는 바닥판의 경우, a등급이 18.4 %(447개), b등급 60.5 %(1,471개), c등급 20.3 %(493개), d등급 0.7 %(18개)로
나타났다. 공용연수와 부재 상태등급에 대한 분포는 각각 Fig. 1과 Fig. 2에 나타내었다.
Fig. 1 Distribution of bridge year bridge classes 1 & 2
Fig. 2 Distribution of component condition ratings
교장, 지역 등 기타 상세 제원과 기온, 습도, 강수량과 같은 환경 데이터는 다양한 값을 포함하고 있어 시각적으로 명확히 제시하기 어려웠으며, 연구
목적에 비추어 특별한 분포상의 특성이 발견되지 않아 본문에서 생략하였다. 본 연구에 사용된 데이터는 FMS(facility management system)의
정밀점검 및 정밀안전진단 상태평가 보고서에서 수집되었으며, 공용연수에 따른 불균형한 분포를 보였다. 예를 들어, Fig. 2에서는 공용연수 55년~ 80년 구간의 데이터가 없고, 80년~85년 구간의 데이터만 포함된 것을 확인할 수 있었다. 이러한 데이터 분포는 원본 데이터에
따른 것으로, 연구자가 임의로 조정할 수 없었다. 따라서 데이터 전처리 과정에서는 누락된 데이터만 제거하고, 원본 데이터의 분포 특성을 그대로 유지하였다.
Table 2 List of collected data
|
Bridge basic specifications
|
Time history data
|
Environmental data
|
Data
|
Bridge year
Length Numbers of spans Superstructure type Region Condition rating
|
Deck slab Girder Pavement Drainage Parapet Expansion joint Substructure
|
Avg. temp Min/Max temp Avg. min/max Precipitation Humidity
|
3.2 예측 모델 개발
본 연구에서는 Python(3.13.0)을 사용하여 예측 모델을 개발하였으며, Table 2에 제시된 데이터를 모두 입력 변수로, 바닥판 결함도 지수와 상태등급을 출력 변수로 설정하였다. 다양한 부재와 환경 데이터가 바닥판 열화에 영향을
미친다는 점(Lee et al. 2023)을 고려하여 SMOTE-TomekLinks 기법으로 C, D등급 샘플을 보완하여 균형 있는 데이터 분포를 확보하였다. 결함도 지수는 연속형 데이터이고
시설물 안전 및 유지관리 세부지침 상태평가 보고서에 근거하여 결함도 지수가 상태등급과 연관된다는 점에 따라 상태등급을 기준으로 리샘플링을 진행하였다.
C등급과 D등급 데이터가 적어 전체 데이터세트에 리샘플링을 적용하였으며, 트레이닝 세트만 리샘플링할 경우 One-Hot Encoding 시 트레이닝
세트에만 존재하는 범주가 테스트 세트에 없어 모델이 작동하지 않는 문제를 방지하고자 하였다.
리샘플링 방법으로 데이터 불균형을 해소한 결과는 Table 3에 나타내었고, 생성된 데이터를 프로그램에 업로드하여 전처리 과정을 수행하였다. 전처리 단계에서는 One-Hot Encoding으로 범주형 데이터를
숫자형으로 변환하고 StandardScaler로 스케일을 표준화하였다. 전처리된 데이터는 일곱 가지 알고리즘(RF, XGB, k-NN, SVM, NN,
LSTM, GRU)으로 7:3 비율로 학습 및 테스트 데이터를 분할하여 기계 학습을 진행하였으며, 각 알고리즘의 하이퍼파라미터와 훈련 시간, 메모리
사용량은 Table 4에 정리하였다.
기계 학습 후, 부재 결함도 지수 예측 모델은 MSE, RMSE, MAE, MAPE 지표로, 상태등급 예측 모델은 Confusion Matrix,
Accuracy, F1-Score, Recall, Precision 지표로 성능을 평가하였고, 과적합 여부는 훈련 데이터와 테스트 데이터의 MSE와
MAE 값을 비교하여 교차 검증으로 확인하였다. 예측 모델 생성 과정의 전체 흐름도는 Fig. 3에 나타내었다.
Fig. 3 Flow chart of predictive model development
Table 3 Resampled data distribution
|
a
|
b
|
c
|
d
|
Total
|
SMOTE- TomekLinks
|
1,105
|
1,043
|
1,091
|
1,163
|
4,402
|
Table 4 Comparison of algorithm hyperparameters, training time, and memory usage
Algorithms
|
Main parameters
|
Training time (s)
|
Memory usage (MB)
|
RF
|
Number of trees, Seed
|
2.82
|
0.00
|
XGB
|
Number of trees, Learning rate, Seed
|
0.26
|
0.31
|
k-NN
|
Number of neighbors
|
0.00
|
0.00
|
SVM
|
Kernel type
|
0.09
|
0.00
|
NN
|
Number of layers, Regularization,
Number of epochs, Batch size
|
16.79
|
0.64
|
LSTM
|
Number of LSTM layers, Dropout rate,
Number of epochs, Batch size
|
30.01
|
0.77
|
GRU
|
Number of GRU layers, Dropout rate,
Regularization, Number of epochs, Batch size
|
29.80
|
0.34
|