(Nguồn ảnh: Daniel Rubino)
Những điều bạn cần biết
- Đầu tháng này, Microsoft đã công bố một tiêu chuẩn đánh giá mới có tên là Windows Agent Arena, được thiết kế để cung cấp một nền tảng để kiểm tra các tác nhân AI trong môi trường hệ điều hành Windows thực tế.
- Các tiêu chuẩn đánh giá ban đầu cho thấy các tác nhân AI đa phương thức có tỷ lệ thành công hiệu suất trung bình là 19,5% so với mức hiệu suất trung bình của con người là 74,5%.
- Tiêu chuẩn đánh giá này là mã nguồn mở và cung cấp một hướng đi cho nghiên cứu chuyên sâu, có thể cải thiện đáng kể sự phát triển của các tác nhân AI. Tuy nhiên, vẫn còn nhiều lo ngại về bảo mật và hiệu suất.
Với sự xuất hiện và áp dụng rộng rãi của AI, công nghệ này đang nhanh chóng chuyển đổi từ các lời nhắc dựa trên văn bản và hình ảnh đơn giản. Giám đốc điều hành NVIDIA, Jensen Huang, dự đoán rằng giai đoạn tiếp theo của AI sẽ bị chi phối bởi ô tô tự lái và robot hình người và chúng ta đã thấy các tập đoàn công nghệ lớn như Tesla đạt được những bước tiến đáng kể trên mặt trận đó.
Trong vài tuần qua, chúng ta đã thấy Giám đốc điều hành Salesforce, Marc Benioff, chỉ trích Microsoft với tuyên bố rằng họ đã gây bất lợi lớn cho ngành công nghiệp AI. “Copilot chỉ là Microsoft Clippy mới,” Benioff nói thêm. “Nó không hoạt động hoặc mang lại giá trị.”
Giám đốc điều hành Salesforce cũng đã tận dụng cơ hội này để quảng cáo công ty là “nhà cung cấp AI lớn nhất thế giới” với khả năng thực hiện “vài nghìn tỷ giao dịch AI mỗi tuần.” Trong trường hợp bạn bỏ lỡ, Microsoft gần đây đã thông báo Copilot Studio sẽ sớm hỗ trợ việc tạo ra các tác nhân tự động. Giống như dịch vụ Agentforce của Salesforce, các tác nhân Copilot của Microsoft sẽ giúp tự động hóa các tác vụ trên CNTT, tiếp thị, bán hàng, dịch vụ khách hàng và tài chính.
Benioff coi thông báo của Microsoft là một dấu hiệu cho thấy công ty đang hoảng loạn. “Copilot là một thất bại vì Microsoft thiếu dữ liệu và mô hình bảo mật doanh nghiệp để tạo ra trí tuệ doanh nghiệp thực sự,” Giám đốc điều hành Salesforce nói thêm. “Ai muốn Clippy 2.0 nào?”
Điều thú vị hơn là Microsoft đã công bố một tiêu chuẩn đánh giá mới có tên là Windows Agent Arena vào đầu tháng này. Cụ thể, tiêu chuẩn đánh giá này được thiết kế để thúc đẩy việc kiểm tra các tác nhân AI trong môi trường hệ điều hành Windows. Do đó, tiêu chuẩn đánh giá này có khả năng đẩy nhanh sự phát triển của các trợ lý AI với các khả năng tiên tiến và tinh vi để xử lý các tác vụ phức tạp trên nhiều ứng dụng khác nhau.
Theo nghiên cứu:
“Các mô hình ngôn ngữ lớn cho thấy tiềm năng đáng kể để hoạt động như các tác nhân máy tính, nâng cao năng suất của con người và khả năng truy cập phần mềm trong các tác vụ đa phương thức đòi hỏi lập kế hoạch và lý luận. Tuy nhiên, việc đo lường hiệu suất của tác nhân trong môi trường thực tế vẫn là một thách thức.”
Windows Agent Arena là gì và tầm quan trọng của nó trong cuộc cách mạng AI?
“Chúng tôi đã tự động hóa 150 tác vụ với Tác nhân AI, chỉ cần sao chép chúng tôi” – Microsoft AI – YouTube
Như đã nêu ở trên, Windows Agent Arena cung cấp một nền tảng để kiểm tra các tác nhân AI trong môi trường hệ điều hành Windows thực tế, bao gồm các ứng dụng như Microsoft Edge, Microsoft Paint, Đồng hồ, trình phát đa phương tiện VLC, v.v.
Theo Microsoft:
“Chúng tôi điều chỉnh khung OSWorld để tạo hơn 150 tác vụ Windows đa dạng trên các miền đại diện yêu cầu khả năng của tác nhân trong việc lập kế hoạch, hiểu màn hình và sử dụng công cụ. Tiêu chuẩn đánh giá của chúng tôi cũng có thể mở rộng và có thể được song song hóa liền mạch trong Azure để đánh giá tiêu chuẩn đánh giá đầy đủ chỉ trong 20 phút.”
Microsoft Research đã phát triển một tác nhân đa phương thức có tên là Navi để khám phá các khả năng của khung. Mô hình AI được yêu cầu thực hiện một số tác vụ trong tiêu chuẩn đánh giá Windows Agent Arena, bao gồm biến một trang web thành tệp PDF và đặt nó trên màn hình chính. Các tiêu chuẩn đánh giá được chia sẻ cho thấy tác nhân đa phương thức có tỷ lệ thành công hiệu suất trung bình là 19,5%, trái ngược với mức hiệu suất trung bình của con người là 74,5%.
Mặc dù tiêu chuẩn đánh giá cho thấy việc tự động hóa một số tác vụ nhất định bằng AI có thể là một bước tiến tại thời điểm này, nhưng nó cung cấp một nền tảng đáng tin cậy để cải thiện các tác nhân AI.
Quyền riêng tư và bảo mật tiếp tục là mối quan tâm của hầu hết người dùng. Ví dụ, tính năng Windows Recall gây tranh cãi của Microsoft đã gây ra lo ngại cho hầu hết người dùng Windows, khiến các nhà quản lý phải xem xét kỹ lưỡng. Gã khổng lồ công nghệ đột ngột thu hồi tính năng gây tranh cãi này để tinh chỉnh trải nghiệm bằng cách làm cho nó an toàn hơn. Tính năng này sẽ sớm được phát hành, nhưng người dùng có thể gỡ cài đặt nó.
Tương tự, các tác nhân AI như Navi tiếp tục gây lo ngại cho người dùng khi chúng trở nên tinh vi hơn. Khi các công cụ trở nên tiên tiến hơn, chúng sẽ có nhiều quyền truy cập hơn vào các ứng dụng thường chứa thông tin đăng nhập cá nhân của người dùng. Nó có thể gây ra mối đe dọa đáng kể, đặc biệt là khi tin tặc đang áp dụng các thủ đoạn tinh vi, bao gồm cả AI, khiến các cuộc tấn công của chúng trở nên khó phát hiện hơn.
Windows Agent Arena là mã nguồn mở và mang đến nhiều cơ hội nghiên cứu hơn, cuối cùng thúc đẩy sự phát triển nhanh chóng của các mô hình đáng tin cậy và có khả năng. Trong khi trả lời các mối quan tâm về bảo mật và hiệu suất, các nhà nghiên cứu của Microsoft đứng sau nền tảng này đã nói với Windows Central:
“Tác nhân điều khiển máy tính của chúng tôi, có tên là ‘Navi’, là mã nguồn mở và dự án nghiên cứu của chúng tôi tận dụng các mô hình từ OpenAI, chẳng hạn như GPT-4V, cùng với Phi3 của Microsoft. Mặc dù cả Windows Agent Arena và Navi đều là mã nguồn mở, nhưng các mô hình cụ thể được sử dụng là riêng biệt và được duy trì bởi các nhà cung cấp tương ứng của chúng.
Sự chênh lệch giữa hiệu suất của hệ thống AI và trí thông minh ở cấp độ con người vẫn là một thách thức đáng kể trên toàn ngành. Chúng tôi đang nỗ lực giải quyết vấn đề này thông qua việc quản lý dữ liệu liên tục, tinh chỉnh và tối ưu hóa, đạt được tiến bộ ổn định hướng tới việc thu hẹp khoảng cách này.
Phương pháp tiếp cận AI có trách nhiệm của chúng tôi ưu tiên các nguyên tắc đạo đức, với quyền riêng tư và an toàn là hàng đầu. Chúng tôi đảm bảo rằng các tác nhân AI tránh truy cập trái phép hoặc rò rỉ thông tin và người dùng vẫn giữ quyền kiểm soát để hiểu, chỉ đạo hoặc ghi đè các hành động của AI. Khi chúng tôi tiến bộ trong lĩnh vực này, cam kết của chúng tôi vẫn kiên định: xây dựng AI tôn trọng quyền riêng tư, thúc đẩy sự công bằng và đóng góp tích cực cho xã hội.”
Ở một nơi khác, Anthropic gần đây đã công bố API mới có tên là “Computer Use” trong phiên bản beta mở. Thông qua API, các nhà phát triển có thể “hướng dẫn Claude sử dụng máy tính theo cách mọi người làm – bằng cách nhìn vào màn hình, di chuyển con trỏ, nhấp vào nút và nhập văn bản.”
Ưu đãi Black Friday sớm tốt nhất
- Lenovo Yoga Slim 7x (X Elite) | $999.99 tại Best Buy (Tiết kiệm $200!)
- LG Curved OLED 32 (QHD, 240Hz) | $889.99 tại Amazon (Tiết kiệm $610!)
- Gói Amazon Fire TV Xbox Game Pass | $74.99 tại Amazon (Tiết kiệm $62!)
- Alienware m16 R2 (RTX 4060) | $1,399.99 tại Dell (Tiết kiệm $300!)
- HP Omen 27qs (QHD, 240Hz) | $299.99 tại Best Buy (Tiết kiệm $130!)
- Loa Soundbar 2.1 kênh cho TV & Màn hình | $44.99 tại Walmart (Tiết kiệm $55!)
- HP OMEN Transcend 14 (RTX 4050) | $1,099.99 tại HP (Tiết kiệm $500!)
- Sennheiser Momentum 4 ANC | $274.95 tại Amazon (Tiết kiệm $125!)
- LG C4 OLED 4K TV (42-inches) | $999.99 tại Best Buy (Tiết kiệm $400!)