جزئیات فنی تست آرتمیس ARTEMIS

جزئیات فنی ARTEMIS: عامل هوش مصنوعی پیشرفته در تست نفوذ سایبری
ARTEMIS، که مخفف Automated Red Teaming Engine with Multi-agent Intelligent Supervision است، یک چارچوب عامل هوش مصنوعی چندعامله (multi-agent) است که توسط پروژه Trinity دانشگاه استنفورد توسعه یافته. این سیستم برای اتوماسیون کشف آسیبپذیریها در شبکههای واقعی طراحی شده و در مطالعهای در دسامبر ۲۰۲۵، عملکردی برتر از اکثر متخصصان انسانی نشان داد. این مطلب به بررسی دقیق جنبههای فنی ARTEMIS میپردازد، بر اساس مقاله تحقیقاتی منتشرشده در arXiv و کد منبع باز آن در GitHub.
معماری کلی ARTEMIS
ARTEMIS یک سیستم چندعامله پیچیده است که شامل اجزای اصلی زیر میشود:
- ناظر سطح بالا (Supervisor): یک عامل اصلی که برنامهریزی کلی، مدیریت وظایف و تصمیمگیریهای استراتژیک را بر عهده دارد. این ناظر از لیست وظایف (task list)، سیستم یادداشتبرداری و خلاصهسازی هوشمند برای مدیریت طولانیمدت عملیات استفاده میکند.
- زیرعاملها (Sub-agents): ویژگی کلیدی ARTEMIS، توانایی ایجاد زیرعاملهای دلخواه و پویا است. وقتی آسیبپذیری احتمالی کشف میشود، ناظر بلافاصله یک زیرعامل تخصصی ایجاد میکند تا آن را در پسزمینه بررسی کند، در حالی که اسکن اصلی ادامه مییابد. این زیرعاملها با پرامپتهای سیستم پویا (dynamic system prompts) سفارشیسازی میشوند تا برای وظیفه خاص بهینه باشند.
- ماژول triage خودکار: برای بررسی و تأیید آسیبپذیریها، که نرخ گزارشهای معتبر را افزایش میدهد (در آزمایش، ۸۲ درصد گزارشها معتبر بودند).
این معماری اجازه میدهد ARTEMIS عملیات موازی (parallel exploitation) انجام دهد، چیزی که انسانها به دلیل نیاز به بررسی sequential نمیتوانند به راحتی انجام دهند.
ویژگیهای کلیدی فنی
- تولید پرامپت پویا (Dynamic Prompt Generation): برای هر زیرعامل، پرامپتهای سیستم اختصاصی تولید میشود تا تمرکز روی وظیفه خاص باشد. این ویژگی از کارهای مشابه در agentهای کدنویسی الهام گرفته شده.
- مدیریت زمینه طولانیمدت: استفاده از خلاصهسازی هوشمند و تغییر مدل ناظر در صورت نیاز برای افزایش تنوع و جلوگیری از توقف زودرس.
- اجرای سیستماتیک و موازی: ARTEMIS در enumeration سیستماتیک (اسکن جامع) و بهرهبرداری موازی برتری دارد. مثلاً استفاده از ابزارهای خط فرمان مانند nmap و curl برای دور زدن محدودیتهای مرورگر.
- triaging خودکار آسیبپذیریها: کاهش false positiveها با بررسی خودکار.
ARTEMIS دانش سایبری مدلهای پایه را افزایش نمیدهد، بلکه جریان اجرا و برنامهریزی را در محیطهای پیچیده بهبود میبخشد.
مدلهای زیرین و اجرا
ARTEMIS بر پایه مدلهای زبانی بزرگ (LLM) مانند مدلهای OpenAI (مانند GPT) یا از طریق OpenRouter اجرا میشود. کد منبع باز در GitHub (Stanford-Trinity/ARTEMIS) موجود است و با Docker اجرا میشود. نیاز به دسترسی به API مدلهای قدرتمند دارد و در محیط sandbox با دسترسی شبکه اجرا میشود.
دو پیکربندی اصلی:
- A1: سادهتر، هزینه حدود ۱۸ دلار در ساعت.
- A2: پیشرفتهتر با multi-agent کامل، هزینه حدود ۵۹ دلار در ساعت، اما عملکرد مشابه در کشف آسیبپذیری.
عملکرد در کشف آسیبپذیریها
در آزمایش روی شبکه دانشگاه استنفورد با حدود ۸۰۰۰ دستگاه:
- کشف ۹ آسیبپذیری معتبر در ۱۰ ساعت اول (از ۱۶ ساعت کل).
- نرخ اعتبار گزارشها: ۸۲ درصد.
- رتبه دوم کلی، برتر از ۹ نفر از ۱۰ هکر انسانی و تمام ۶ عامل AI دیگر (مانند Codex OpenAI و Claude Code Anthropic).
مزایا:
- کشف آسیبپذیریهایی که انسانها از دست دادند، مانند سرور قدیمی با HTTPS ناامن که مرورگرها بارگذاری نمیکردند (با curl دور زده شد).
- عملیات مداوم بدون خستگی.
محدودیتهای فنی
- مشکل با رابطهای گرافیکی (GUI): نمیتواند کلیک کند یا با عناصر بصری تعامل داشته باشد، که منجر به از دست دادن برخی آسیبپذیریهای حیاتی شد.
- نرخ false positive بالاتر: حدود ۱۸ درصد گزارشها نادرست.
- نیاز به راهنمایی برای برخی موارد: برخی آسیبپذیریها فقط با hints کشف شدند.
- عملکرد ضعیف در وظایف طولانی بدون ساختار مناسب: مدلهای عمومی اغلب refuse یا stall میکنند.
مقایسه با دیگر عوامل AI
عاملهای موجود مانند OpenAI Codex، Anthropic Claude Code، CyAgent و MAPTA عملکرد ضعیفی داشتند و اغلب بهتر از فقط ۲ هکر انسانی عمل نکردند. دلیل: عدم تخصص سایبری و مکانیسمهای refusal برای وظایف offensive.
ARTEMIS با طراحی اختصاصی برای امنیت سایبری، این مشکلات را حل کرده است.
نتیجهگیری: آینده ARTEMIS در امنیت سایبری
ARTEMIS نشاندهنده پیشرفت چشمگیر در agentهای خودکار برای تست نفوذ است. با هزینه پایین و توانایی موازی، میتواند تستهای امنیتی مداوم را ممکن کند. کد منبع باز آن اجازه توسعه بیشتر توسط جامعه را میدهد، اما محدودیتها نشان میدهد که هنوز نیاز به نظارت انسانی دارد. این سیستم نه تنها ابزار دفاعی قدرتمندی است، بلکه هشداری برای ریسکهای offensive AI.
(تعداد کلمات تقریبی: ۱۱۰۰)
کلمات کلیدی
۱. ARTEMIS
۲. multi-agent
۳. sub-agents
۴. dynamic prompts
۵. vulnerability discovery
۶. penetration testing
۷. Stanford Trinity
۸. automated triage
۹. parallel exploitation
۱۰. GUI limitations




