brief

서브에이전트 풀의 자가 복구 아키텍처 결함 격리와 지속적 운영을 위한 설계 원리

핵심 요약

OpenClaw는 프로세스 격리와 Memory Boundary 이중 구조로 결함을 차단하고, watchdog 감지·체크포인트 복원·지수 백오프 재시작으로 자동 복구하며, 계층적 결과 흐름과 3단계 생성 제한이 자원 고갈 연쇄 장애를 방지하여 안정적인 서브에이전트 풀 운영을 보장합니다.

이 글의 핵심 주장과 근거

핵심 주장

OpenClaw의 ACP 8단계 채널바인딩은 채널 식별부터 종료 바인딩까지 8단계 폐곡선 구조를 형성하여 세션 응집력을 보장하며, 이는 정적 자동화 도구의 순차 실행 한계를 동시성 실행으로 초월하는 구조적 기반이다

직접 근거: [1] ZeroInput 직접 경험 (첫 코딩 30분 만에 체감하는 OpenClaw 속도 학습법: AI 피로감을 역이용하는 실천 온보닝 루프) [2] OpenClaw Fault Isolation Architecture [3] OpenClaw Session Recovery Mechanisms

핵심 주장

execFileAsync/spawn 이중 실행 모드는 비동기 파일 실행과 프로세스 생성 기반 병렬 실행을 각각 담당하며, dmScope 격리 계층과 결합되어 단일 장애점 의존을 구조적으로 제거한다

직접 근거: [1] ZeroInput 직접 경험 (첫 코딩 30분 만에 체감하는 OpenClaw 속도 학습법: AI 피로감을 역이용하는 실천 온보닝 루프) [2] Claude Code GAV Feedback Loop

핵심 주장

ACP 이중 격리 구조(물리적 격리+논리적 라우팅)는 단일 장애점·확장瓶頸·인지 부담을 제거하며, 이는 기존 CI/CD 자동화가 갖는 경직된 순차 실행 패러다임과의 근본적 차이다

서브에이전트 풀은 3~5개 Worker를 동시에 생성·실행하는 풀 기반 관리 방식으로, 某个 에이전트 실패가Others에게 전파되지 않는 결함 격리机制으로 바이브코딩 환경에서 안전한 병렬 실행을 실현한다

출처: [1] Claude Code GAV Feedback Loop [2] OpenClaw CLI Getting Started

ACP 세션 연속성은 ACP 런타임 경로 우선 원칙에 따라 세션 종료 후에도 컨텍스트를 복원하며, wd_Linker 검증과 결합된 연속성 확장으로 Autonomous Scouter의 작업 흐름을 중단 없이 유지한다

출처: [1] OpenClaw Documentation [2] OpenClaw Session Recovery Mechanisms [3] OpenClaw Session Recovery Mechanisms

Fan-Out/Fan-In 패턴의 2단계 실행 체계는 8개 동시 생성 에이전트를 각각 독립 격리하고, 실패한 エージェント를 자동으로 복구하는 Exponential Backoff 메커니즘으로 생산성의 동시성 한계를 극복한다

출처: [1] OpenClaw Documentation [2] OpenClaw Binding Routing

인지 부담 3단계 분산 구조는 복잡한 코딩 작업을 ACP 채널·dmScope 격리·에이전트Pool 계층으로 나누어 인간 개발자가 감당해야 할 인지 부담을 물리적으로 줄이며, 이는 정적 자동화 도구와의 결정적 차이다

출처: [1] OpenClaw Documentation [2] llama.cpp GitHub Repository

ACP 8단계 우선순위 라우팅은 결정적 메시지 라우팅을 통해 세션 분열을 방지하며, dmScope 격리·ECDHE 키 교환·3-tier Gateway 구조와 결합된 삼중 안전망으로 바이브코딩 Fan-Out/Fan-In의 신뢰성을 보장한다

출처: [1] Claude Code GAV Feedback Loop [2] OpenClaw Session Recovery Mechanisms [3] OpenClaw Fault Isolation Architecture

OpenClaw 재시도 정책은 최대 3회 재시도에 30000ms 상한 cap, 0.1(10%) 지터를 적용한 Exponential Backoff를 사용하며, Telegram 400ms·Discord 500ms의 플랫폼별 최소 지연까지 보장하여 재시도 폭풍과 API 한도 초과를 동시에 방지한다.

출처: [1] Claude Code GAV Feedback Loop

서브에이전트 풀의 결함 격리 설계에 의해 특정 서브에이전트의 실패나 비정상 출력이 전체 시스템에 연쇄적으로 전파되지 않는다. 실패한 서브에이전트는 격리 경계 안에서 자동 재구성되며, 나머지 정상 동작 중인 서브에이전트는 계속 작업을 완료하고 ACP 채널바인딩을 통해 부모에게 결과를 보고한다. 예를 들어 8개 서브에이전트가 동시에 병렬 작업을 수행하는 도중 2개가 비정상 종료되더라도 나머지 6개는 안전하게 작업을 완료하여 파이프라인의 연속성이 보장된다.

출처: [1] OpenClaw ACP Agents Documentation [2] OpenClaw Subagent Pool Architecture Deep Dive

결함 격리의 다층적 방어 구조: 프로세스와 메모리의 이중 장벽

OpenClaw의 서브에이전트 아키텍처는 개별 에이전트의 실패가 다른 에이전트나 메인 세션으로 전파되지 않도록 설계되었다. 이는 프로세스 수준의 격리와 Memory Boundary의 이중 구조로 구현된다. 각 서브에이전트는 완전히 고립된 컨텍스트 버블을 가지며, sessions_spawn 도구를 통해 생성된 세션은 독립적인 실행 환경을 확보한다. 메모리 측면에서는 추가 전용 일일 로그(memory/YYYY-MM-DD.md)와 영속 MEMORY.md의 이중 레이어가 적용되어 서브에이전트 간 자동 메모리 공유가 원천 차단된다. 이 설계는 레이스 컨디션과 공유 가변 상태로 인한 예기치 않은 장애를 방지하며, 한 에이전트의 실패가 다른 에이전트의 정상 작동을 방해하지 않도록 보장한다.

자가치유 watchdog와 체크포인트 기반 복구 메커니즘

서브에이전트 풀의 지속적 운영을 위해 자가치유 watchdog 하트비트가 구현되어 있다. 이 메커니즘은 주기적으로 각 Worker의 활성 상태를 점검하여 정지된 에이전트를 조기에 감지한다. 감지된 결함은 체크포인트-복원 체계로 연결되어 자동 복구를 트리거한다. ACP 체크포인트 프로토콜은 에이전트의 이전 정상 실행 지점을 저장하며, 재스폰 시 해당 체크포인트에서 복원하여 실패 직전 상태를 빠르게 재구성하고 불필요한 재실행을 방지한다. 이는 단순한 재시작이 아닌, 실패 직전의 컨텍스트를 보존한 상태에서의 복구로, 전체 파이프라인의 효율성을 유지하면서 장애 대응 속도를 극대화한다.

계층적 결과 흐름과 자원 거버넌스의 연쇄 방지 설계

OpenClaw는 Depth-2 워커가 Depth-1 오케스트레이터에 결과를 전달하고, Depth-1이 메인 에이전트에게 최종 결과를 보고하는 위계적 전달 체계를 채택했다. 각 레벨에서 필터·요약·변환이 발생하며 한 레벨의 실패가 다른 레벨의 실행을 차단하지 않는다. 이는 계층적 결과 흐름의 핵심 원리로, 개별 에이전트의 실패가 전체 파이프라인의 정지로 이어지지 않도록 보장한다. 또한 3단계 생성 제한(maxSpawnDepth: 1~5단계 중첩, maxConcurrent: 전역 병렬 상한 8개, maxChildrenPerAgent: 세션당 1~20개 생성 상한)이 무분별한 병렬 생성을 방지하여 자원 고갈 연쇄 장애를 구조적으로 억제한다. 오케스트레이터 브릿지는 격리된 컨텍스트 버블을 가진 서브에이전트들의 결과를 읽고 공통 발견 사항을 MEMORY.md에 기록하며, 서브에이전트가 시작 시 MEMORY.md를 읽어 이전 컨텍스트를 복원하는 명시적 통신 방식으로 정보 일관성을 유지한다. > 이 주제의 전체 맥락 방향성은 **8. 나는 더 이상 예전 방식으로 일하지 않는다.** 원본 글에 세밀하게 정리되어 있습니다. 더 깊게 탐구하고 싶다면 관련 내부 대표 문서(Pillar/Entity)를 참조하세요.

자주 묻는 질문

서브에이전트가 실패했을 때 전체 시스템이 멈추지 않는 이유는 무엇인가요?

각 서브에이전트는 완전히 고립된 컨텍스트 버블에서 실행되며, 프로세스 격리와 Memory Boundary 이중 구조로 실패가 전파되지 않습니다. watchdog가 정지를 감지하면 체크포인트에서 복원하고 Exponential Backoff로 재시작합니다.

체크포인트 복원이 단순히 재시작하는 것과 다른 점은 무엇인가요?

단순 재시작은 처음부터 다시 실행하지만, 체크포인트 복원은 실패 직전의 정상 실행 지점에서 컨텍스트를 보존한 상태로 복구합니다. 이로 인해 불필요한 재실행을 방지하고 전체 파이프라인 효율성을 유지하면서 장애 대응 속도를 극대화합니다.

계층적 결과 흐름이 왜 필요한가요?

Depth-2 워커 → Depth-1 오케스트레이터 → 메인 에이전트의 위계적 전달 체계는 각 레벨에서 필터·요약·변환을 발생시키며, 한 레벨의 실패가 다른 레벨의 실행을 차단하지 않도록 보장합니다. 개별 에이전트 실패가 전체 파이프라인 정지로 이어지지 않게 합니다.

3단계 생성 제한이 자원 고갈을 어떻게 방지하나요?

maxSpawnDepth(중첩 깊이), maxConcurrent(동시 실행 8개 상한), maxChildrenPerAgent(세션당 생성 상한)의 3가지 한도가 무분별한 병렬 생성을 억제합니다. 이로 인해 CPU, 메모리, 세션 수의 과도한 증가가 구조적으로 방지되어 자원 고갈 연쇄 장애를 예방합니다.

서브에이전트 풀의 자가 복구 아키텍처 결함 격리와 지속적 운영을 위한 설계 원리

이 글의 핵심 주장과 근거

결함 격리의 다층적 방어 구조: 프로세스와 메모리의 이중 장벽

자가치유 watchdog와 체크포인트 기반 복구 메커니즘

계층적 결과 흐름과 자원 거버넌스의 연쇄 방지 설계

자주 묻는 질문

관련 분석