불확실한 현실을 위해 기계를 훈련시키는 보다 효과적인 방법 - 스위프트브라이트 벤처스 그룹 주식회사

MIT 뉴스 오피스 웹사이트에서 다운로드할 수 있는 이미지는 Creative Commons Attribution Non-Commercial No Derivatives 라이센스에 따라 비영리 단체, 언론 및 일반 대중에게 제공됩니다. 제공된 이미지를 크기에 맞게 자르는 것 외에는 변경할 수 없습니다. 이미지를 복제할 때는 크레디트 라인을 사용해야 합니다. 아래에 제공되지 않은 경우 이미지를 "MIT"로 표시하십시오.

이전 이미지 다음 이미지

테니스를 배우는 사람은 더 빨리 배울 수 있도록 교사를 고용할 수도 있습니다. 이 선생님은 (희망적으로) 훌륭한 테니스 선수이기 때문에, 선생님을 정확하게 흉내내려고 해도 학생의 학습에 도움이 되지 않을 때가 있습니다. 아마도 선생님은 능숙하게 발리슛을 되돌리기 위해 공중으로 높이 도약했을 수도 있습니다. 그것을 따라할 수 없는 학생은 발리슛을 되돌리는 데 필요한 기술을 숙달할 때까지 스스로 몇 가지 다른 동작을 시도할 수도 있습니다.

컴퓨터 과학자들은 "교사" 시스템을 사용하여 작업을 완료하도록 다른 기계를 훈련시킬 수도 있습니다. 그러나 인간의 학습과 마찬가지로 학생 기계도 언제 교사를 따라야 할지, 언제 스스로 탐구해야 할지 아는 딜레마에 직면합니다. 이를 위해 MIT와 이스라엘 공과대학 Technion의 연구원들은 학생이 교사를 모방해야 하는 시기(모방 학습이라고 함)와 대신 시행착오를 통해 학습해야 하는 시기(모방 학습이라고 함)를 자동으로 독립적으로 결정하는 알고리즘을 개발했습니다. 강화 학습으로).

그들의 역동적인 접근 방식을 통해 학생은 교사가 너무 좋거나 충분하지 않을 때 교사를 따라하는 것에서 벗어날 수 있지만, 그렇게 하면 더 나은 결과와 더 빠른 학습을 얻을 수 있는 경우 훈련 과정의 후반부에 교사를 따르기로 돌아갈 수 있습니다.

연구자들이 시뮬레이션에서 이 접근 방식을 테스트했을 때 시행착오 학습과 모방 학습을 결합하면 학생들이 한 가지 유형의 학습만 사용하는 방법보다 과제를 더 효과적으로 배울 수 있다는 사실을 발견했습니다.

이 방법은 연구자들이 이전에 본 적이 없는 건물 내부를 탐색하도록 훈련받는 로봇과 같이 불확실한 실제 상황에 배치될 기계에 대한 훈련 프로세스를 개선하는 데 도움이 될 수 있습니다.

"시행 착오를 통한 학습과 교사를 따르는 것의 조합은 매우 강력합니다. 이는 우리 알고리즘에 개별 기술을 사용하여 해결할 수 없는 매우 어려운 작업을 해결할 수 있는 능력을 제공합니다."라고 전기 공학 및 컴퓨터 과학 분야의 Idan Shenfeld는 말합니다. (EECS) 대학원생이자 이 기술에 관한 논문의 주요 저자입니다.

Shenfeld는 EECS 대학원생인 공동저자 Zhang-Wei Hong과 함께 논문을 썼습니다. 아비브 타마르; Technion의 전기 공학 및 컴퓨터 과학 조교수; 선임 저자이자 Improbable AI Lab의 이사이자 컴퓨터 과학 및 인공 지능 연구소의 조교수인 Pulkit Agrawal입니다. 이번 연구는 국제 머신러닝 컨퍼런스에서 발표될 예정이다.

균형 잡기

모방 학습과 강화 학습 사이의 균형을 맞추려는 기존의 많은 방법은 무차별적인 시행착오를 통해 이를 수행합니다. 연구자들은 두 가지 학습 방법의 가중치 조합을 선택하고 전체 훈련 절차를 실행한 다음 최적의 균형을 찾을 때까지 프로세스를 반복합니다. 이는 비효율적이며 종종 계산 비용이 너무 많이 들기 때문에 실현 가능하지도 않습니다.

Agrawal은 "우리는 원칙이 있고, 가능한 한 적은 수의 손잡이를 조정하고, 고성능을 달성하는 알고리즘을 원합니다. 이러한 원칙이 우리 연구의 원동력이 되었습니다."라고 말했습니다.

이를 달성하기 위해 팀은 이전 작업과 다르게 문제에 접근했습니다. 그들의 솔루션에는 두 명의 학생을 교육하는 것이 포함됩니다. 한 명은 강화 학습과 모방 학습의 가중치 조합을 사용하고 다른 한 명은 강화 학습을 사용하여 동일한 작업을 학습할 수 있습니다.