Phần mềm chưa bao giờ được thiết kế cho AI agent, nhưng agent đang dần trở thành người dùng chính
Đăng ngày 29 tháng 4, 2026 ... views
Suốt nhiều năm làm việc với phần mềm, mình luôn thấy người dùng chỉ có hai dạng: con người, hoặc một ứng dụng khác được thiết kế cho con người. Nhưng gần đây, mình để ý thấy có một loại người dùng thứ ba đang âm thầm thay thế cả hai — AI agent.
Mình vừa dành vài tiếng để xem mấy buổi nói chuyện ở Google Next '26. Một bài của Ali Furman từ PwC nói về việc Gen Z và Gen Alpha đang định hình lại thương mại. Một bài khác là cuộc trò chuyện giữa Yasmeen Ahmad từ Google và Farhan Thawar từ Shopify, bàn về việc toàn bộ data và software stack đang được lật ngược lại để phù hợp với agent. Nhìn bề ngoài, hai bài này nói về hai chuyện khác nhau. Nhưng càng ngẫm, mình càng thấy rõ chúng thực ra là hai nửa của cùng một câu chuyện.
Một bên, AI đang trở thành cánh cửa chính dẫn vào thương mại. Bên kia, toàn bộ kiến trúc của cách phần mềm được xây dựng và sử dụng đang được viết lại — xoay quanh một thứ không phải con người.
Nên trong bài này, mình muốn kết nối hai mạch đó lại. Không phải kiểu đào sâu kỹ thuật, mà là cách để mình suy nghĩ xem điều gì sẽ thay đổi khi người dùng mà chúng ta luôn thiết kế cho — con người ngồi bấm nút — không còn là người điều khiển hệ thống nữa.
Sự thay đổi từ phía cầu đang tạo ra một áp lực rất thật lên phía cung. Nếu khách hàng tìm thấy sản phẩm của bạn qua một AI agent, thì agent đó — chứ không phải con người — mới là khách hàng của bạn. Và agent thì không hành xử giống con người.

Giỏ hàng giờ là group chat của gia đình
Ali Furman mở đầu bằng hai ví dụ. Một bé gái 11 tuổi tự thêm son bóng vào giỏ hàng online của mẹ. Một cậu bé 13 tuổi đặt đồ ăn tối qua app giao hàng. Trong rất nhiều trường hợp, bố mẹ thậm chí không hề biết.
Nghiên cứu của PwC cho thấy điều đó là thật. Gần 1/4 trẻ Gen Alpha — từ 14 tuổi trở xuống — đã tự đặt hàng qua app mua sắm mà không cần ai giúp. 38% thiếu niên dùng các công cụ AI mỗi ngày, chủ yếu cho mục đích giải trí.
Mình thích cách Furman đặt vấn đề:
Giỏ hàng giờ là group chat của gia đình.

Một đứa trẻ rành công nghệ đã định hình nhu cầu chi tiêu trong nhà từ rất lâu, trước cả khi nó có thẻ tín dụng hay đi làm. Thương hiệu nào còn đang thiết kế cho "phụ huynh" thì đang bỏ lỡ người ra quyết định thật sự. Nó giúp mình định hình lại khái niệm về "người mua hàng" thật sự trong một gia đình.
Feed giờ chính là kệ hàng
Sự dịch chuyển thứ hai còn lớn hơn. AI đang dần trở thành nơi đầu tiên người ta tìm đến để khám phá sản phẩm.
Có một con số thực sự làm mình bất ngờ: lưu lượng giới thiệu từ AI tới các nhà bán lẻ tăng hơn 700% so với năm trước. 60% người tiêu dùng đã dùng các nền tảng AI để tìm kiếm và khám phá thương hiệu, sản phẩm. Chúng ta đang bước vào cái mà Furman gọi là (thương mại do agent dẫn dắt) — nơi AI không chỉ giúp bạn mua sắm, mà còn đi mua thay bạn.
Bạn tìm. Bạn lướt. Bạn click. Bạn quyết định — qua rất nhiều giao diện.
Nếu bạn là một thương hiệu, hệ quả khá khó chịu. Người mua có thể không bao giờ ghé website của bạn, không nhìn thấy trang chủ, không lướt qua cái feed mà bạn đã thiết kế công phu. Thứ mà AI nhìn thấy là dữ liệu sản phẩm đã được cấu trúc hóa — và nó tự quyết định có nên đề xuất cho bạn hay không. Vậy là SEO kiểu mới giờ trở thành chuyện để máy đọc được — và "kệ hàng" kiểu mới không còn nằm trên trang web, mà nằm ngay trong một bước suy luận của mô hình.
Riêng điều đó thôi đã đủ để ngồi nghĩ rồi. Nhưng nó cũng chỉ là phần nổi của một cú dịch chuyển lớn hơn nhiều đang diễn ra ở dưới.
Kiến trúc cũ không được thiết kế cho việc này
Đây là chỗ bài nói của Yasmeen Ahmad thực sự "thấm" với mình.
Quan sát của chị ấy: trong khoảng một, hai thập kỷ qua, chúng ta đã xây dựng dữ liệu và phần mềm cho hai loại người dùng. Con người, và các ứng dụng truyền thống được làm cho con người. Cả hai đều chậm và có hành vi có thể dự đoán trước. Con người mất vài giây để click, vài phút để đọc một biểu đồ, vài ngày để ra một quyết định. Nên chúng ta xây dashboard, UI, nút bấm — về cơ bản là làm chậm công nghệ lại để khớp với tốc độ của con người. Một câu SQL chạy 45 giây cũng chẳng sao — người dùng đi pha cà phê là vừa.
Còn các ứng dụng thì được xây trên những API cứng nhắc. Một khi API ra đời rồi thì nó đông cứng lại. Ai từng làm trên một nền tảng tồn tại lâu đều biết điều này — chỉ cần đổi một API thôi là mọi thứ phía sau gãy hết.
Giờ nhìn lại bức tranh đó nhưng đổi người dùng thành agent.
Mình rất tâm đắc với câu nói này của Yasmeen:
Agent không truy vấn, nó suy luận.
Một agent không click một lần là xong. Nó lặp. Nó thử, kiểm chứng, làm rõ, thử lại. Cùng một thao tác mà con người chỉ click một lần, agent có thể gọi một API từ 10 - 20 lần. Thống kê gần đây từ các API gateway đã cho thấy điều này — những đợt tăng đột biến rất mạnh, và không phải vì con người click nhanh hơn. Mà vì agent đã bắt đầu "online". 10 đến 20 lần API mỗi "click", nhân thêm với nhiều bước suy luận, cuối cùng là tiêu tốn tài nguyên tính toán gấp 100 lần cho mỗi yêu cầu.
Đó là lúc bạn nhận ra kiến trúc cũ sẽ không thể tự điều chỉnh để thích nghi — nó sẽ gãy đổ hoàn toàn.
Vì sao stack cũ không trụ được
Càng nghĩ, mình càng thấy các điểm yếu bắt đầu lộ diện rõ rệt hơn. Đây không phải là một vấn đề riêng lẻ — nó là cả một mảng.
Điểm thú vị không nằm ở chỗ một tầng nào đó "có vấn đề." Mà là mọi tầng đều được tinh chỉnh cho một loại người dùng chậm và có hành vi dự đoán trước được. Khi đổi người dùng, tự nhiên cả stack đều lệch chuẩn.

Yasmeen mô tả chiến lược của Google như một cuộc "thay máu" ở ba tầng chính: reasoning engine, orchestration, và trust fabric. Ở mỗi tầng, chúng ta đều phải định nghĩa lại hoàn toàn vai trò mà tầng đó thực sự phải làm.
Reasoning engine — bộ máy suy luận
Đây là chỗ giao diện, dữ liệu và compute phải bắt đầu hoạt động như một thể thống nhất.
Phần về giao diện là câu mình thích nhất:
CLI bỗng "sexy" trở lại.
Suốt nhiều năm, ngành công nghiệp luôn tập trung vào những tầng trên của stack — UI đẹp hơn, flow mượt hơn, ít ma sát hơn cho con người. Agent lật ngược điều đó. Agent nói chuyện bằng code. Agent thích terminal, script, và truy cập API trực tiếp. Khi agent gặp một API bị hỏng, nó có thể tự viết một bản vá và chạy giải pháp tạm. Khi cần một công cụ chưa có, nó có thể nhảy vào sandbox, viết Python, test, rồi xóa code đi sau khi xong việc. Đó là một loại "người dùng" rất khác với thứ chúng ta đã thiết kế bấy lâu.
Phần về dữ liệu còn thú vị hơn. Trong mười năm qua, giới công nghệ đã đặt cược tất cả vào SQL engine — vắt kiệt hiệu năng và hiệu quả từ các truy vấn quan hệ. Thế nhưng SQL không phải là "mảnh đất" lý tưởng cho agent. Chúng hoạt động theo intent (ý định) chứ không phải theo các câu lệnh tường minh. Intent cần nhiều hơn các hàng và cột. Nó cần vector embedding để tìm tương tự, graph để tìm quan hệ, dữ liệu quan hệ cho bản ghi có cấu trúc, và xử lý dữ liệu phi cấu trúc cho văn bản và media — tất cả ở cùng một chỗ, không có cú nhảy nào ở giữa.
Một ví dụ rất "người thật việc thật" từ bài nói: Make My Trip, công ty du lịch online lớn nhất Ấn Độ, muốn xây một trợ lý lên lịch trình multi-modal, kích hoạt bằng giọng nói. Họ đang dùng MongoDB cho dữ liệu phi cấu trúc, Quadrant cho vector, Elasticsearch cho search, và một hệ quan hệ cho phần còn lại. Bạn không thể xây một trải nghiệm tương tác mượt mà trên một stack rời rạc như vậy. Họ chuyển sang Spanner — nơi vector, graph, AI inferencing và SQL truyền thống đều ở chung một engine — và giảm độ phức tạp vận hành tới 75%.
Tầng compute thì khép lại bức tranh. Agent suy nghĩ bằng những token vô hình. Một câu lệnh có thể sinh ra hàng vạn token suy luận khi agent đi qua một cây quyết định trong đầu. Chip thiết kế cho tốc độ con người tự nhiên trở thành nút thắt cho các vòng suy luận nhiều bước. Đây là lý do phải tách inference khỏi training và nén bộ nhớ — để quá trình suy luận không bị gián đoạn.
Nói gọn lại sự thay đổi tư duy: từ một stack được xây cho hiệu quả lưu trữ, sang một stack được xây cho hiệu quả suy luận.
Orchestration: từ chỉ thị sang ý định
Nếu reasoning engine là cỗ máy, thì orchestration là cách bạn dùng tốc độ đó để làm gì.
Thập kỷ vừa qua chạy trên code chỉ thị (imperative) — từng tác vụ, từng cú click. Mô hình mới là kỹ thuật theo intent. Bạn định nghĩa kết quả mong muốn, rồi để AI tự tìm đường đi. Mà không phải một AI duy nhất — là cả một "đàn" agent chuyên biệt cùng được kích hoạt để hoàn thành mục tiêu đó.
Ví dụ làm mọi thứ trở nên rõ ràng: tưởng tượng eo biển Hormuz đóng cửa, đồng thời có một đợt phong tỏa song song ở Biển Đỏ. Vận tải biển toàn cầu phải dừng lại và đổi tuyến qua Mũi Hảo Vọng, kéo dài thêm 14 ngày. Trong thế giới cũ, một cuộc chạy nước rút 72 tiếng bắt đầu — phòng tác chiến, các nhà phân tích hì hục kéo CSV, rồi ba ngày sau một vị lãnh đạo mới bước vào phòng họp với một bộ slide trình chiếu. Lúc đó thì nhiều khi đã quá muộn, và hàng triệu đô đã đi tong rồi.
Trong thế giới mới, intent đơn giản chỉ là: bảo vệ biên lợi nhuận của hàng bị ảnh hưởng.
Một cuộc chạy nước rút 72 tiếng của con người, nén lại thành dưới 3 giây. Đó là lúc khái niệm "agentic" không còn là một từ khóa sáo rỗng với mình nữa — nó là một thay đổi cấu trúc về cách một tổ chức có thể phản ứng.
Nhưng Yasmeen có một ý quan trọng. Mô hình thôi thì chưa làm nên chuyện gì. Mô hình là cỗ máy. Để biến mô hình thành kết quả thật, bạn cần một (lớp khung điều phối). Chị so sánh nó với internet thời sơ khai. Mạng internet đã có từ trước rồi, nhưng không ai dùng được. Cho tới khi trình duyệt web ra đời, thì mới làm cho mạng internet trở nên dễ tiếp cận và gần gũi với người dùng hơn. Agentic harness đóng đúng vai trò đó với các mô hình AI.
Harness là thứ giúp đàn agent thực sự phối hợp để đạt một mục tiêu thực, thay vì chỉ sinh ra văn bản về mục tiêu đó.
Một ví dụ thứ hai làm rõ thêm. Infinite, một nền tảng tài chính phi tập trung, vận hành một đàn agent mỗi khi có người yêu cầu một chiến lược tài chính. Một discovery agent giúp nhận diện các rủi ro thanh khoản trên toàn thế giới. Một risk agent kiểm tra smart contract trong vài mili-giây. Một execution agent vẽ ra đường định tuyến để giảm trượt giá. Một verification agent giám sát toàn bộ chuỗi và sẵn sàng huỷ giao dịch nếu các con số đổi giữa chừng. 20 phút làm việc của con người trên nhiều hệ thống, nén thành một hành động tức thì.
Trust fabric và bài toán một triệu agent
Khi đã có đàn agent, câu hỏi tiếp theo dĩ nhiên là: làm sao để quản trị tụi nó đây?
Đây là chỗ câu chuyện không còn về năng suất nữa, mà về quản trị. Yasmeen gọi đây là bài toán một triệu agent. Các doanh nghiệp lớn đang nhanh chóng tiến tới con số 100,000 đến 500,000 agent — rồi sớm là một triệu. Theo dõi từng con đang làm gì, đánh giá xem nó có làm đúng không, và đáp ứng các yêu cầu pháp lý ở quy mô đó — không có khuôn mẫu nào từ phần mềm truyền thống vừa với việc này cả.
Hai ý từ bài nói đã thay đổi cách mình nghĩ về chuyện này.
Thứ nhất: trong thế giới cũ, đánh giá là một cánh cổng. Code qua được unit test thì cho lên production. Trong thế giới agentic, đánh giá không còn là việc làm một lần — mà là một thói quen vận hành liên tục. Chị ấy ví với việc phát triển thuốc — vượt qua thử nghiệm trong phòng thí nghiệm vẫn chưa đủ; bạn còn phải theo dõi sau khi thuốc ra thị trường để xem có tác dụng phụ nào chưa lộ ra trong thử nghiệm không. Agent cũng vậy. Hành vi của nó "ngoài đời" có thể trôi dạt theo thời gian, và bạn cần một lớp quan sát chạy liên tục, không có ngày kết thúc.
Thứ hai: thiết lập những "lằn ranh đỏ" qua quy tắc "2/3".
Một agent vừa đọc được dữ liệu nhạy cảm, vừa chạy được code, lại còn hành động tự chủ — nó hoàn toàn có thể đọc báo cáo tài chính, viết một script, rồi gửi mail cho đối thủ. Cho nên hệ thống cần một cái chặn — một guardian (người canh gác). Và điều thú vị là người canh gác đó không nhất thiết phải là con người nữa. Nó có thể là một agent khác.
Deutsche Telekom đã làm đúng như vậy. Họ xây một guardian — một đàn agent giám sát lưu lượng mạng và đề xuất các thay đổi thời gian thực cho mạng 5G (ví dụ khi có concert trong khu vực). Trước khi bất kỳ thay đổi nào được đẩy lên hạ tầng thật, "vệ sĩ" này sẽ đánh giá xem hành động tự chủ đó có thực sự an toàn hay không. Kết quả là họ đã rút ngắn thời gian xử lý các sự cố mạng lớn từ vài tiếng xuống chưa đầy 1 phút — một bước nhảy vọt 95% mà không hề hy sinh tính bảo mật.
Niềm tin giờ là một tính năng, do một agent khác đảm nhiệm việc giám sát. Đây là một mô hình mình tin sẽ còn xuất hiện rất nhiều.
Shopify thực sự đang làm gì
Cuộc trò chuyện với Farhan từ Shopify làm tất cả những điều trên trở nên rất cụ thể.
Mình rất ấn tượng với câu chuyện anh kể khi "vọc" thử một agentic harness chạy trên Claude — kiểu "LLM kèm bộ công cụ" có thể chạy trên máy cá nhân. Anh nhờ nó đặt bàn ăn tối vào mỗi thứ Sáu hàng tuần cho hai vợ chồng lúc 7 giờ. Mô hình không có sẵn công cụ cho việc đó. Thế là nó tự xây. Nó xin một Twilio API key, viết một voice server, gọi điện cho anh để test, gặp lỗi half-duplex, xóa code đi, viết lại theo full-duplex, gọi lại lần nữa, rồi đổi giọng khi anh không thích.
Đoạn đó giúp mình thấy rõ sự khác biệt giữa "AI như chatbot" và "AI như một người dùng thực thụ." Một chatbot trả lời câu hỏi của bạn. Một agent thì tự xây luôn cái công cụ còn thiếu để hành động trên câu hỏi đó.
Bên trong Shopify, hai hệ thống cho thấy việc này diễn ra ở quy mô lớn như thế nào.
River là agent nội bộ đọc Slack, GSuite, GitHub, hệ thống chăm sóc khách hàng — tức là toàn bộ hệ thống của công ty — và trả lời các câu hỏi dựa trên toàn bộ dữ liệu đó. Có hai lựa chọn thiết kế làm mình ấn tượng. River chỉ hoạt động trong các kênh công khai, để bất kỳ ai cũng có thể thấy các lãnh đạo khác đang hỏi gì. Và khi River trả lời sai, ai đó sẽ sửa nó ngay trong kênh công khai — và mọi truy vấn sau đó đều được hưởng lợi từ phần sửa đó.
Đó là một thay đổi nhỏ, nhưng nó định hình lại cách tri thức luân chuyển trong công ty. Năm người không còn ôm năm câu trả lời cũ kĩ cho cùng một câu hỏi nữa. Chỉ cần một người sửa agent một lần, tất cả những người sau đều có câu trả lời mới.
Pulse là phiên bản hướng tới người bán (merchants) của cùng một ý tưởng. Thay vì đợi người bán đặt câu hỏi, Pulse chạy như một nhịp tim trên từng cửa hàng. Nó có thể âm thầm phát hiện ra những bức ảnh sản phẩm có độ phân giải kém, hoặc sản phẩm bán chạy nhất đã hết hàng cả tuần, hoặc một thành phần giao diện đang làm trang web chậm và làm giảm tỉ lệ chuyển đổi. Rồi nó nói cho bạn biết. Agent tự đến tìm bạn, thay vì đợi bạn gọi.

Phần kiến trúc dữ liệu phía dưới mới là cái mình thích nhất. Farhan lập luận rằng bạn không cần phải dồn hết mọi thứ về một hệ thống thì agent mới dùng được. Shopify có BigQuery, MySQL, Yugabyte, và Spanner chạy song song. Họ đặt server (và sau đó là skills) trước mỗi cái. Agent không cần biết dữ liệu đang nằm rải rác — lớp skills khiến tất cả trông như một tấm vải liền mạch.
Đây là con đường thực dụng hơn nhiều so với "xây lại tầng dữ liệu trước rồi mới thêm agent." Nó cũng giải thích vì sao MCP server và skills bỗng dưng trở thành nền tảng — chúng là chỗ nối giữa các hệ thống cũ cứng nhắc và những agent cần hành động xuyên qua chúng.
Bản chất của sự thay đổi
Nhìn rộng ra khỏi những ví dụ cụ thể này, mình thấy một sự thật ngày càng rõ ràng: chúng ta không chỉ đơn thuần là "đắp" thêm AI vào phần mềm cũ. Chúng ta đang xây lại stack để người dùng chính của phần mềm đó không còn là con người nữa.
Mọi tầng trong stack đang được "đảo ngược" để phục vụ agent. Tầng giao diện (CLI thay vì UI). Tầng dữ liệu (engine multi-modal — xử lý đa dạng loại dữ liệu như văn bản, hình ảnh, âm thanh — thay vì chỉ SQL). Tầng compute (silicon tối ưu cho inference). Tầng quản trị (đánh giá liên tục thay vì cánh cổng một lần). Và ở phía người tiêu dùng, nhu cầu cho việc này đã có rồi. AI đã là cánh cửa chính cho thương mại, không phải là chuyện của tương lai nữa.
Điều mình thấy thực sự hữu ích là chuyện này không chỉ là chuyện về mô hình. Nó là chuyện về kiến trúc. Mô hình là cỗ máy. Harness là trình duyệt. Người chiến thắng kiểu mới không phải là công ty mua nhiều license phần mềm nhất — mà là công ty có hệ thống dễ đọc nhất, dễ gọi nhất, và đáng tin cậy nhất với một người dùng không phải con người.

Một vài điều mình rút ra được
- Chúng ta đang phải thiết kế cho một thế hệ người dùng mới — agent đang âm thầm trở thành "khách hàng" chính của rất nhiều phần mềm
- Agent không hành xử giống con người: nó lặp, suy luận, và gọi API 10 đến 20 lần cho thứ mà trước đây con người chỉ click một lần
- Sự khác biệt đó cộng dồn lại thành khoảng 100 lần tài nguyên tính toán cho mỗi yêu cầu — đủ để bóp gãy các kiến trúc cũ
- SQL thôi là không đủ nữa — reasoning engine cần vector, graph, dữ liệu quan hệ và phi cấu trúc cùng làm việc ở một chỗ
- Chúng ta đang chuyển từ "SaaS" sang "agents as a service" — lớp giao diện không bị xóa bỏ, nó chỉ bị xếp sau
- Orchestration đang chuyển từ kiểu chỉ thị từng bước sang đàn agent hoạt động theo intent, với một harness bao quanh
- Niềm tin đang trở thành thứ phải duy trì liên tục, chứ không phải một cánh cổng kiểm tra một lần — và "vệ sĩ" lý tưởng nhất cho một agent, thường lại chính là một agent khác
- Quy tắc "hai trên ba" là một rào chắn hữu ích — đọc dữ liệu nhạy cảm, chạy code, hoạt động tự chủ, chỉ được chọn tối đa hai
- CLI bỗng "sexy" trở lại vì agent nói chuyện bằng code, chứ không phải bằng nút bấm — và nếu thiếu công cụ nào, agent sẽ tự viết ra công cụ đó
- Xây dựng hạ tầng tốt hơn là xây dựng tính năng — khi bạn còn chưa biết agent sẽ giải quyết được những bài toán thực tế nào
- Lưu lượng giới thiệu từ AI tới các nhà bán lẻ tăng hơn 700% so với năm trước, nghĩa là việc "để máy đọc được" đang dần quan trọng ngang ngửa với SEO truyền thống
Điều đọng lại với mình nhiều nhất chính là gạch đầu dòng cuối cùng đó. Chúng ta đã bỏ ra rất nhiều thời gian để tối ưu phần mềm cho sự chú ý của con người — UI đẹp, quy trình trực quan, trải nghiệm mượt mà. Nhưng "khách hàng" quan trọng nhất của những gì chúng ta xây tiếp theo, có thể sẽ chẳng bao giờ nhìn thấy một pixel nào mà chúng ta vẽ ra. Những thương hiệu và nền tảng thích nghi nhanh nhất, có lẽ không phải là những người có thiết kế đẹp nhất. Mà là những người có API, schema và nội dung dễ đọc nhất với một cỗ máy biết suy luận. Một ý nghĩ thật lạ lùng, và cũng thật đáng để chúng ta phải suy ngẫm.
Nguồn tham khảo
- From algorithms to agents: How Gen Z, Gen Alpha, and AI are rewiring commerce — Ali Furman, PwC (Google Cloud Next '26). Nguồn cho ý "giỏ hàng giờ là group chat của gia đình", hành vi mua sắm của Gen Z / Gen Alpha, con số 700% lưu lượng giới thiệu từ AI, và khái niệm agentic commerce.
- An inside look at the evolution of agent development — Yasmeen Ahmad (Google) & Farhan Thawar (Shopify), Google Cloud Next '26. Nguồn cho ba tầng đảo ngược (reasoning engine, orchestration, trust fabric), case Make My Trip / Spanner, kịch bản eo biển Hormuz, ẩn dụ agentic harness, quy tắc "hai trên ba", RAN guardian của Deutsche Telekom, và hai hệ thống River + Pulse của Shopify.