Từ Single Agent đến Multi-Agent Systems: Vì sao Agent-to-Agent (A2A) quan trọng?

Trí tuệ nhân tạo đã trải qua nhiều bước ngoặt quan trọng. Từ những hệ thống dựa trên luật đơn giản, chúng ta đã chứng kiến sự xuất hiện của các mô hình ngôn ngữ lớn (LLMs) có khả năng viết, suy luận và thậm chí lập trình. Giờ đây, AI đang tiến tới một kỷ nguyên mới với Agentic AI. Khi kết hợp cùng Agent-to-Agent (A2A) communication, chúng ta có được thế hệ hệ thống thông minh không chỉ làm theo lệnh, mà còn có thể phối hợp, thích ứng linh hoạt và hành động tự chủ.

1. Agentic AI là gì?

Trong những thế hệ AI trước đây, các hệ thống chủ yếu chỉ phản hồi theo yêu cầu, như chatbot theo kịch bản hoặc chương trình dựa trên luật. Agentic AI là bước tiến khác biệt: chúng không chỉ trả lời, mà còn có thể tự đặt mục tiêu, lập kế hoạch, học hỏi từ môi trường và thực thi nhiệm vụ. Có thể hình dung chúng như những “đồng nghiệp tự trị” thay vì công cụ thụ động.

2. Khi nào nên mở rộng từ Single-Agent sang Multi-Agent?

Ban đầu, việc sử dụng một agent duy nhất để thực hiện tất cả công việc có thể là lựa chọn hợp lý. Một agent có thể vừa điều hướng trình duyệt, xử lý tệp, vừa phân tích dữ liệu. Nhưng theo thời gian, khi độ phức tạp của nhiệm vụ tăng lên và số lượng công cụ cần tích hợp ngày càng nhiều, mô hình single-agent bộc lộ hạn chế:

  • Quá nhiều công cụ: agent lúng túng trong việc chọn công cụ nào, lúc nào cần dùng.
  • Quá nhiều ngữ cảnh: cửa sổ ngữ cảnh của agent ngày càng phình to, chứa đủ loại dữ liệu và tool.
  • Tỷ lệ lỗi tăng cao: agent thường cho kết quả kém chính xác hoặc sai lệch do gánh quá nhiều vai trò.

Khi bắt đầu tự động hóa nhiều tác vụ chuyên biệt như trích xuất dữ liệu, trực quan hóa hoặc tạo báo cáo, việc tách trách nhiệm ra cho nhiều agent chuyên môn hóa sẽ hợp lý hơn. Mỗi agent chỉ tập trung vào một miền công việc cùng bộ công cụ riêng, nhờ đó:

  • Nâng cao độ chính xác.
  • Giúp hệ thống dễ quản lý, bảo trì.
  • Tăng tính rõ ràng và hiệu quả trong phát triển.

3. Vậy A2A là gì? Vì sao quan trọng?

Đây chính là lúc Agent-to-Agent (A2A) communication trở thành chìa khóa. Nếu chỉ tách nhiều agent mà không có cơ chế giao tiếp, chúng sẽ hoạt động như những “ốc đảo” rời rạc. A2A cho phép các agent:

  • Trao đổi thông tin và trạng thái theo thời gian thực.
  • Phân công và điều phối công việc cho nhau.
  • Hợp tác đa chiều, kết hợp năng lực chuyên môn của từng agent thành sức mạnh tổng thể.

Khi kết hợp Agentic AI với A2A, chúng ta không chỉ có các tác nhân tự trị, mà còn có một hệ sinh thái tác nhân hợp tác — nơi mỗi agent vừa độc lập vừa phối hợp nhịp nhàng để xử lý những vấn đề phức tạp mà single-agent khó lòng đảm đương.

4. Bốn khả năng cốt lõi của A2A

A2A được thiết kế xoay quanh bốn năng lực nền tảng, đảm bảo sự tương tác hiệu quả và an toàn:

Khả năng Mô tả
Khám phá năng lực (Capability Discovery) Cho phép agent tìm hiểu xem đại diện nào có khả năng phù hợp thông qua file “Agent Card” mô tả kỹ năng và endpoint của agent đó.
Quản lý tác vụ (Task Management) Quản lý vòng đời tác vụ: từ trạng thái đang thực hiện, cần dữ liệu thêm, đến hoàn thành.
Hợp tác (Collaboration) Các agent có thể trao đổi ngữ cảnh, phản hồi, sản phẩm trung gian và hướng dẫn lẫn nhau.
Đàm phán trải nghiệm người dùng (UX Negotiation) Agent có thể điều chỉnh cách trao trả nội dung (text, form, video…) phù hợp với khả năng hiển thị của thiết bị hoặc agent nhận dữ liệu.

5. A2A hoạt động thế nào với các AI Agent?

Giao thức A2A được thiết kế dựa trên mô hình client–server, trong đó các agent giao tiếp với nhau qua giao thức web phổ biến như HTTP, sử dụng thông điệp có cấu trúc định dạng JSON. Cách tiếp cận này vừa tận dụng được hạ tầng sẵn có, vừa mang lại sự thống nhất trong cách các agent trao đổi dữ liệu.

Để hiểu rõ hơn, ta sẽ phân tích các thành phần cốt lõi của A2A, bao gồm khái niệm agent “opaque” (tạm dịch: agent “mờ”), sau đó xem xét cách một tương tác điển hình diễn ra.

Các thành phần chính của A2A

Agent Card
Đây là một file JSON thường được đặt tại địa chỉ dễ nhận biết (ví dụ: /.well-known/agent.json). Trong đó mô tả chi tiết năng lực, kỹ năng, URL endpoint và yêu cầu xác thực của agent. Có thể coi Agent Card như một “CV dạng máy đọc” giúp các agent khác biết được có nên tương tác với agent này hay không.

A2A Server
Là agent đảm nhận vai trò server, cung cấp endpoint HTTP tuân theo giao thức A2A. Đây chính là “remote agent” – nhận yêu cầu từ phía client và xử lý tác vụ. Khả năng của server được công bố thông qua Agent Card.

A2A Client
Là ứng dụng hoặc hệ thống AI đóng vai trò client, sử dụng dịch vụ của A2A. Client chịu trách nhiệm tạo và phân phối tác vụ tới các server thích hợp dựa trên năng lực mà Agent Card công bố. Đây chính là “client agent” điều phối toàn bộ workflow bằng cách kết hợp nhiều server chuyên biệt.

Task (Tác vụ)
Đơn vị công việc trung tâm trong A2A. Mỗi task có mã định danh riêng (ID) và trải qua nhiều trạng thái như đã gửi, đang xử lý, đã hoàn thành… Tác vụ là “container” chứa toàn bộ công việc được yêu cầu và kết quả trả về.

Message (Thông điệp)
Là các lượt trao đổi giữa client và server trong phạm vi một task. Thông điệp bao gồm nhiều Part để truyền tải nội dung.

Part (Phần nội dung)
Đơn vị nội dung cơ bản trong một Message hoặc Artifact, có thể ở nhiều dạng:

  • TextPart: văn bản thuần hoặc văn bản có định dạng.
  • FilePart: dữ liệu nhị phân, có thể là file inline hoặc tham chiếu qua URI.
  • DataPart: dữ liệu JSON có cấu trúc, ví dụ form điền hoặc bảng.

Artifact (Tạo phẩm)
Kết quả đầu ra mà agent sinh ra trong quá trình xử lý một task. Artifact cũng bao gồm nhiều Part, và đóng vai trò sản phẩm cuối cùng mà server trả về cho client.

Khái niệm Agent “Opaque”

Google khi mô tả A2A có nhắc đến thuật ngữ “opaque agent”, khiến nhiều người tò mò. Trong ngữ cảnh này, “opaque” nghĩa là:

  • Agent chỉ cần công bố có thể làm gì, chứ không cần tiết lộ cách làm như thế nào.
  • Các thuật toán độc quyền hoặc dữ liệu nội bộ có thể giữ bí mật.
  • Một agent có thể được thay thế bằng agent khác, miễn là hỗ trợ cùng bộ năng lực.
  • Doanh nghiệp có thể tích hợp agent bên thứ ba mà không lo lộ bí mật hay giảm tính bảo mật.

Cách tiếp cận này giúp việc xây dựng hệ thống đa agent trở nên linh hoạt và an toàn hơn: vừa cho phép cộng tác giữa nhiều agent khác nhau, vừa duy trì tiêu chuẩn bảo mật và bảo toàn tri thức riêng của tổ chức.

6. Quy trình giao tiếp A2A

Khi các AI agent giao tiếp qua A2A, chúng tuân theo một chuỗi bước rõ ràng và có cấu trúc:

6.1. Giai đoạn khám phá (Discovery Phase)

Người dùng đặt câu hỏi cho agent chính: “Bạn có thể giúp tôi sắp xếp chuyến công tác đến London tháng tới không?”
Agent chính nhận ra rằng mình cần hỗ trợ từ các agent chuyên biệt — đặt vé máy bay, khách sạn và hoạt động địa phương. Lúc này, agent này (client) sẽ tìm kiếm và đọc Agent Card của các agent khác để xác định ai có năng lực phù hợp cho từng nhiệm vụ.

6.2. Khởi tạo tác vụ (Task Initiation)

Khi đã “chiêu mộ” đủ đội ngũ, agent chính sẽ bắt đầu phân công việc. Ví dụ, nó gửi yêu cầu đến agent chuyên đặt vé: “Tìm chuyến bay từ 29/4 đến 4/5 đến London.”
Về mặt kỹ thuật, đây là một request đến endpoint (thường là POST /tasks/send) để tạo một task mới với ID duy nhất, kèm theo thông điệp ban đầu mô tả công việc cần thực hiện.

6.3. Xử lý (Processing)

Agent đặt vé (server/remote agent) bắt đầu tìm chuyến phù hợp. Trong quá trình này, có thể xảy ra nhiều tình huống:

  • Hoàn thành ngay và trả về artifact: “Đây là danh sách các chuyến bay.”
  • Yêu cầu thêm dữ liệu, chuyển task sang trạng thái input-required: “Bạn có muốn chọn hãng hàng không cụ thể không?”
  • Khởi chạy tác vụ dài hơi, chuyển trạng thái sang working: “Tôi đang so sánh giá để tìm lựa chọn tốt nhất.”

6.4. Hội thoại nhiều lượt (Multi-turn Conversations)

Nếu cần làm rõ, client và server sẽ trao đổi thêm trong cùng một task ID. Ví dụ:

  • Server: “Bạn có chấp nhận nối chuyến không?”
  • Client: “Không, chỉ chọn chuyến bay thẳng.”

6.5. Cập nhật trạng thái (Status Updates)

Với tác vụ kéo dài, A2A hỗ trợ nhiều cách để cập nhật tiến độ:

  • Polling: client định kỳ kiểm tra trạng thái task.
  • Server-Sent Events (SSE): server truyền cập nhật liên tục nếu client đăng ký.
  • Push notification: server chủ động gửi cập nhật đến callback URL nếu được cung cấp.

6.6. Hoàn tất tác vụ (Task Completion)

Khi công việc xong, server đánh dấu task là completed và trả artifact chứa kết quả. Nếu gặp sự cố, task có thể bị đánh dấu failed hoặc canceled.

Trong quá trình này, agent chính có thể đồng thời làm việc với nhiều agent chuyên biệt khác như khách sạn, vận chuyển, hoạt động giải trí. Cuối cùng, nó sẽ tổng hợp tất cả kết quả thành một lịch trình đầy đủ và trình bày cho người dùng.

Kết luận

A2A không chỉ cho phép các AI agent “trò chuyện” về cùng một nhiệm vụ. Nó còn giúp nhiều agent phối hợp chặt chẽ, tận dụng thế mạnh chuyên môn riêng để đạt được mục tiêu chung. Client agent đóng vai trò như “người điều phối”, đảm bảo kết quả cuối cùng phong phú và hiệu quả hơn nhiều so với khi chỉ dựa vào một agent đơn lẻ.

Top bài viết trong tháng

Lên đầu trang

FORM ỨNG TUYỂN

Click or drag a file to this area to upload.
File đính kèm định dạng .docs/.pdf/ và nhỏ hơn 5MB