본문 바로가기
프로젝트

대학 학생역량통합관리시스템 인공지능 적용 사례

by 고수가 되고 싶은 초보 2021. 4. 10.
반응형

C대학 학생역량통합관리시스템 인공지능 학습 적용 사례

: 졸업생 취업조사 결과 및 졸업생의 대학생활 활동내역을 기반으로 하여, 정의 기반 시스템에서 데이터 기반 시스템으로의 전환을 시도함. 졸업생과 현재 사용자(재학생)의 활동내역(교과, 비교과, 개인활동)을 서로 비교하고, 역량 기반의 진로지도를 인공지능 학습 결과를 통해 자동으로 구현하는 것을 목표로 함.

 

1. 개요

인공지능은 기존의 데이터를 학습하여 모델을 구축한뒤, 그 모델을 통해 이전에 학습하지 않은 데이터의 결과값을 예측하는 기술이다.

 

인공지능을 통해 모델을 구축하는 다양한 방법(알고리즘)이 존재하며, 알고리즘마다의 특성이 있기 때문에 예측하려는 데이터에 따라 적절한 알고리즘을 찾아낼 필요가 있다. 또한 각 알고리즘마다 다양한 파라미터(Hyperparameters)를 설정할 수 있으며, 해당 파라미터의 변화에 따라 알고리즘의 예측 값이 달라지기 때문에 알고리즘과 함께 해당 변수의 값 역시 고려해야 한다.

 

특정 알고리즘의 예측 성공율을 평가하기 위해서는 학습 데이터를 일부는 학습용으로, 나머지는 검증용으로 분할하는 방법을 사용한다. 주로 8:2나 9:1 정도로 데이터를 분할하여 학습용 데이터로 인공지능 모델을 구축한 뒤, 검증용 데이터를 인공지능 모델을 통해 예측하여, 검증용 데이터 결과값과 비교하는 방법이다.

 

하지만 위의 방법을 1회만 수행해서는 안된다. 분할된 학습용 데이터에 특정 상황(변수)이 과도하게 반영되어 있을 수 있기 때문이다. 따라서 데이터를 다양하게 분할하여 여러번 검증하는 방법을 사용하게 되는데, 이를 교차검증(CV)이라고 한다.

 

2. 취업/진학 예측모델

이번 C대학 고도화 프로젝트에서는 2012년부터 2017년까지의 졸업생 데이터 2만 8천여건을 이용하여 재학생의 취업/진학 예측 모델을 구축하였다. 취업/진학 모델 구축에서 사용된 변수는 학과, 단과대, 캠퍼스(서울,안성), 성별 등의 개인 정보와 졸업생들이 수강한 과목의 성적을 포함하여, 총 3672 차원에 해당한다.

 

이 과정에서 총 5개의 알고리즘(DT, Random Forest, SVC, XGBoost, LightGBM)을 사용하여 교차검증하는 방식으로 진행하였으며, 최종적으로 69.02%의 예측 성공률을 기록한 XGBoost 알고리즘의 결과를 채택하였다.

 

각 알고리즘별 예측 성공률(평균 정확도

3. 졸업생 역량 모델

이번 프로젝트의 요건으로 제시된 교과/비교과 추천 및 추천 직무 제시를 위해, 취업에 성공한 졸업생의 평균 역량 모델을 구축하였다. 취업 졸업생의 역량 모델에 재학생의 역량 값을 투영하면, 해당 재학생과 취업 졸업생 모델 간의 유사도를 판별할 수 있다.

 

이번 프로젝트에서는 취업 졸업생의 역량 모델 구축을 위해 인공지능 방법 중 하나인 MF(Matrix Factorization)를 사용하였다. MF나 KNN 등은 사용자 간의 취향 및 유사도 분석을 통한 추천(예를들어 넷플릭스 영화 추천)에 널리 사용되어 검증된 방법으로서, 이번 프로젝트에서는 취업 졸업생의 역량과 재학생 역량 간의 유사도 측정을 위해 사용되었다.

 

이를 간략히 설명하면 59차원의 벡터(역량의 갯수가 59개) 공간의 두 점(취업졸업생 평균 위치와 특정 재학생의 위치) 간의 거리를 구하는 방법으로 유사도를 판별하는 것이다. 두 점 사이의 거리가 가까울수록 취업 확률이 높아진다. 또한 각 차원(역량)의 거리가 해당 재학생이 취업에 성공하기 위해 필요로 하는 역량의 갭으로 볼 수 있다.

 

MF를 통해 재학생에게 필요한 역량을 산출하고 나면, 필요 역량을 기반으로 교과/비교과를 추천할 수 있으며, 취업 졸업생과의 역량 유사도 분석과 직무-역량 관계 테이블을 결합하여 재학생의 역량에 적합한 직무를 추천할 수 있다.

 

반응형

4. 향후 발전 가능성

인공지능 프로젝트는 시간이 지나 데이터가 쌓여갈수록 더욱 정교한 예측을 가능하게 한다. 이번 프로젝트 역시 신규 졸업생의 데이터가 수집되면, 추가의 인공지능 학습을 통해 예측 알고리즘을 계속해서 보정해 가야 한다. 신규 졸업생의 데이터에는 이전 졸업생에는 발생하지 않았던 환경적 영향이 특정 변수에 반영되었을 수도 있으므로 추가 학습은 계속 필요하다. 예를들어 이전 졸업생은 수강하지 않았던 새로운 강의의 성적 정보가 변수로 추가될 수도 있기 때문이다.

 

이번 프로젝트에서 직관적으로 취업에 영향을 미칠 것으로 판단했던 비교과 영역의 변수들을 제거해야만 했는데, 그 이유는 2가지 조건을 충족하지 못했기 때문이다. 그 첫번째 조건은 모든 졸업생 데이터에 누락없이 포함되어 있어야 한다는 조건이다. 예를 들어 취업에 영향을 크게 미칠 것으로 판단되었던 어학성적이 기록되어 있지 않은 졸업생들이 상당수 발견되어 이번 학습에서는 제외할 수 밖에 없었다.

 

두번째 조건은 정량적 평가가 결합되어 수치로 표현될 수 있어야 한다는 조건이다. 각종 비교과 프로그램에 대한 참가 기록은 잘 관리되고 있었으나, 학생 개개인에 대한 해당 프로그램에 대한 정량적 평가 수치를 알 수 없었기 때문에 이번 학습에서는 제외하였다. 비교과 프로그램에 대한 정량적 평가 기준을 정립하여 데이터를 확보하는 일이 필요하다고 할 수 있다.

 

향후 비교과 영역의 활동들이 좀 더 정규화되어 관리되어, 추가의 인공지능 학습에 반영될 수 있다면, 현재 교과 영역 중심의 데이터 학습을 보완하여 인공지능 예측 성공률을 더욱 높여낼 수 있으리라 전망한다.

728x90
반응형

'프로젝트' 카테고리의 다른 글

학생역량통합관리시스템 소개  (1) 2021.04.09
한림대학교 BeCome System  (0) 2021.03.26
DreamPATH System  (0) 2021.03.08
UOStory System  (0) 2021.03.08
KNU CUBE System  (0) 2021.03.08

댓글