서브에이전트 풀의 자가 복구 아키텍처 결함 격리와 지속적 운영을 위한 설계 원리
OpenClaw는 프로세스 격리와 Memory Boundary 이중 구조로 결함을 차단하고, watchdog 감지·체크포인트 복원·지수 백오프 재시작으로 자동 복구하며, 계층적 결과 흐름과 3단계 생성 제한이 자원 고갈 연쇄 장애를 방지하여 안정적인 서브에이전트 풀 운영을 보장합니다.
이 글의 핵심 주장과 근거
결함 격리의 다층적 방어 구조: 프로세스와 메모리의 이중 장벽
OpenClaw의 서브에이전트 아키텍처는 개별 에이전트의 실패가 다른 에이전트나 메인 세션으로 전파되지 않도록 설계되었다. 이는 프로세스 수준의 격리와 Memory Boundary의 이중 구조로 구현된다. 각 서브에이전트는 완전히 고립된 컨텍스트 버블을 가지며, sessions_spawn 도구를 통해 생성된 세션은 독립적인 실행 환경을 확보한다. 메모리 측면에서는 추가 전용 일일 로그(memory/YYYY-MM-DD.md)와 영속 MEMORY.md의 이중 레이어가 적용되어 서브에이전트 간 자동 메모리 공유가 원천 차단된다. 이 설계는 레이스 컨디션과 공유 가변 상태로 인한 예기치 않은 장애를 방지하며, 한 에이전트의 실패가 다른 에이전트의 정상 작동을 방해하지 않도록 보장한다.
자가치유 watchdog와 체크포인트 기반 복구 메커니즘
서브에이전트 풀의 지속적 운영을 위해 자가치유 watchdog 하트비트가 구현되어 있다. 이 메커니즘은 주기적으로 각 Worker의 활성 상태를 점검하여 정지된 에이전트를 조기에 감지한다. 감지된 결함은 체크포인트-복원 체계로 연결되어 자동 복구를 트리거한다. ACP 체크포인트 프로토콜은 에이전트의 이전 정상 실행 지점을 저장하며, 재스폰 시 해당 체크포인트에서 복원하여 실패 직전 상태를 빠르게 재구성하고 불필요한 재실행을 방지한다. 이는 단순한 재시작이 아닌, 실패 직전의 컨텍스트를 보존한 상태에서의 복구로, 전체 파이프라인의 효율성을 유지하면서 장애 대응 속도를 극대화한다.
계층적 결과 흐름과 자원 거버넌스의 연쇄 방지 설계
OpenClaw는 Depth-2 워커가 Depth-1 오케스트레이터에 결과를 전달하고, Depth-1이 메인 에이전트에게 최종 결과를 보고하는 위계적 전달 체계를 채택했다. 각 레벨에서 필터·요약·변환이 발생하며 한 레벨의 실패가 다른 레벨의 실행을 차단하지 않는다. 이는 계층적 결과 흐름의 핵심 원리로, 개별 에이전트의 실패가 전체 파이프라인의 정지로 이어지지 않도록 보장한다. 또한 3단계 생성 제한(maxSpawnDepth: 1~5단계 중첩, maxConcurrent: 전역 병렬 상한 8개, maxChildrenPerAgent: 세션당 1~20개 생성 상한)이 무분별한 병렬 생성을 방지하여 자원 고갈 연쇄 장애를 구조적으로 억제한다. 오케스트레이터 브릿지는 격리된 컨텍스트 버블을 가진 서브에이전트들의 결과를 읽고 공통 발견 사항을 MEMORY.md에 기록하며, 서브에이전트가 시작 시 MEMORY.md를 읽어 이전 컨텍스트를 복원하는 명시적 통신 방식으로 정보 일관성을 유지한다. > 이 주제의 전체 맥락 방향성은 **8. 나는 더 이상 예전 방식으로 일하지 않는다.** 원본 글에 세밀하게 정리되어 있습니다. 더 깊게 탐구하고 싶다면 관련 내부 대표 문서(Pillar/Entity)를 참조하세요.