Dạo này thấy anh em rục rịch chơi OpenClaw nhiều, nhưng đa phần đều đứng hình ở bài toán tìm nguồn API. Tự build dàn máy chạy Local thì đốt tiền phần cứng, còn lấy thẳng tài khoản Claude Code hay Gemini CLI ra làm proxy thì rủi ro “bay màu” cực cao. Đầu năm nay cả Anthropic lẫn Google đều vừa càn quét một mẻ rồi.
Vấn đề này thực ra xử lý khá mượt. Dưới đây là những option tôi đang dùng thực chiến, có cả hàng free 100% lẫn loại tốn chưa bằng cốc cafe mỗi tháng.
Tiêu chuẩn chọn API của tôi rất khắt khe:
Model phải đủ khôn (chạy mấy con 7B phí thời gian).
Bảo mật dữ liệu tuyệt đối (OpenClaw nó đọc data liên tục, dùng API rác lộ hết thông tin dự án/khách hàng).
không lo khóa tài khoản.
Anh em tham khảo ngay các đường hướng dưới đây:
# DÀN API FREE 100% (NGON – BỔ – RẺ)
1. Groq: Tốc độ bàn thờ
Đây là nguồn free tôi xài nhiều nhất hàng ngày. Đầu năm 2025 NVIDIA múc luôn công ty này rồi nên API dạo này chạy cực kỳ ổn định.
Điểm ăn tiền nhất là tốc độ: Model GPT-OSS nó vọt lên tới 500 token/s, cảm giác nhả chữ gần như tức thì. Bản Free không cần add thẻ tín dụng, cho dùng Kimi k2, GPT-OSS, Llama 3.3 70B. Hạn mức 1.000 requests/ngày, 30 RPM (quá đủ cho cá nhân).
Kinh nghiệm: Viết code thì gọi Kimi k2, hỏi đáp chung chung thì xài GPT-OSS là mượt nhất.
Cách cài: Vào console.groq.com đăng ký, tạo API key (bắt đầu bằng chữ gsk_) là vã luôn.
2. NVIDIA NIM: Xài “chùa” Model khủng
Chương trình Developer của NVIDIA đang mở free khá nhiều API hàng tuyển, bao gồm Kimi k2.5 (1 nghìn tỷ tham số – top 1 mã nguồn mở hiện nay) và GPT-OSS-120b.
Giới hạn là 40 QPM, nhưng thực tế tuỳ size model. Mấy con quá to như k2.5 thỉnh thoảng hơi ngáo, anh em xài mốc 100B đổ lại là ngon nhất.
Cách cài: Vào build.nvidia.com đăng ký bằng Mail + SĐT, tìm model cần dùng rồi bấm Deploy → Get API Key (key bắt đầu bằng nvapi-).
# ĐẦU TƯ TÍ TI – HIỆU SUẤT X NHIỀU LẦN
1. OpenRouter: Nạp $10 mở khóa hạn mức khủng
Đây là trạm trung chuyển (Aggregator). Ưu điểm là vô vàn model để chọn, kể cả mấy con ngách.
Tài khoản free thì bị bóp (20 RPM, 50 lần/ngày). Nhưng mẹo ở đây là anh em nạp đúng 10$ vào tài khoản. Số tiền này coi như “tiền cọc”, không hề bị trừ nếu anh em chỉ gọi các model free (giống cơ chế GitHub Copilot). Nạp xong là hạn mức bung lên 1.000 lần/ngày.
2. Google AI Pro: Vô đối về Context Window (Đọc hiểu dài)
Cách này hơi loằng ngoằng chút nhưng P/P (hiệu năng/giá) cực đỉnh, hợp cho task cần nhồi nhiều tài liệu.
Anh em mua gói Google AI Pro ($19.99/tháng), nó sẽ tặng kèm tư cách Premium bên Google Developer Program, mỗi tháng ném cho anh em $10 Cloud credits. Lấy $10 này đập vào gọi Gemini API (qua AI Studio hay Vertex đều ok). Vì anh em đang dùng ở luồng trả phí nên nó mở tốc độ cực thoáng (Gemini 2.5 Pro đc ~150 RPM).
Tính theo giá Gemini 2.5 Flash rẻ bèo hiện tại, $10 này chạy được hơn 15 triệu input tokens. Và quan trọng nhất: Khả năng đọc hiểu 1 triệu token (1M context) của Gemini thì các nhà khác hiện tại gọi bằng cụ.
# VÙNG XÁM: DÙNG OAUTH CỦA OPENAI CODEX
Cách này dành cho anh em có tài khoản ChatGPT Plus ($20/tháng). Nó cho phép OpenClaw gọi model Codex thông qua chuẩn OAuth, trừ thẳng vào quota của gói Plus chứ không tính tiền token lẻ.
Rủi ro: OpenAI không cấm nhưng cũng chưa bao giờ công khai ủng hộ việc dùng tool bên thứ 3 để “bào” gói Plus. Đầu 2026 Anthropic đã khóa cửa chiêu này với Claude, OpenAI thì vẫn đang nhắm mắt làm ngơ, nhưng không ai nói trước được tương lai.
# TÔI ĐANG SETUP THẾ NÀO?
Để gánh team cho Vin Media Global, tôi kẹp API Anthropic + OpenAI Codex OAuth làm chủ lực. Các task lặt vặt hàng ngày thì đẩy qua Groq và NVIDIA NIM cho tiết kiệm.
Thực ra chi phí chạy API giờ rẻ bèo. Cái khoai nhất của hệ thống Agentic là phải xây được luồng Fallback (Cắm nhiều API, chết con này hệ thống tự động switch sang con khác mà không bị gián đoạn).
Nguồn : Thân Công Hải
