ให้ตัวแทน LLM ควบคุมเบราว์เซอร์ด้วยเซิร์ฟเวอร์ MCP ที่รับรู้โทเค็น
scout, พัฒนาโดย Felixgeelhaar, เป็นเซิร์ฟเวอร์ Model Context Protocol ที่ให้เอเจนต์ AI เข้าถึงเว็บสดอย่างมีการควบคุม มันเชื่อมต่อโมเดลภาษาเข้ากับเซสชันเบราว์เซอร์เพื่อให้พวกเขาสามารถนำทางหน้าเว็บ, โต้ตอบกับข้อมูลนำเข้า, และดึงข้อมูลที่มีโครงสร้างสำหรับการสร้างข้อความและโค้ดที่มีบริบท แอปนี้มุ่งเน้นไปที่การสังเกตหน้าเว็บที่กระชับและการสร้างภาพที่มีการทำเครื่องหมายผ่านภาพหน้าจอที่มีการบันทึกและเครื่องมือที่กำหนดเป้าหมาย มันเหมาะสำหรับนักพัฒนา, นักวิจัย AI, และผู้ใช้ที่มีความสามารถที่ต้องการบริบทเว็บแบบเรียลไทม์สำหรับการทำงานของเอเจนต์.
คุณสามารถใช้มันทำงานอะไรได้บ้าง?
scout ให้เครื่องมือที่ออกแบบมาสำหรับการทำงานบนเว็บที่ขับเคลื่อนโดยตัวแทน. เซิร์ฟเวอร์เปิดเผยเครื่องมือเฉพาะทางมากกว่า 66 รายการที่ครอบคลุมการนำทาง, การจัดการหลายแท็บ, การดึงข้อมูล, และการจับคู่ฟอร์มที่อิงจากป้ายชื่อ ผลลัพธ์ทั่วไปได้แก่การเดินทางผ่านไซต์แบบโปรแกรม, การกรอกข้อมูลโดยใช้เครื่องหมายการเข้าถึง, และการคืนค่าบันทึกที่มีโครงสร้างที่ LLM สามารถนำไปใช้ในผลลัพธ์ข้อความหรือโค้ดได้ ชุดเครื่องมือมุ่งเป้าไปที่การทำงานอัตโนมัติของเบราว์เซอร์มากกว่าการทำงานด้วย GUI แบบแมนนวล.
การสังเกตหน้าเว็บมีความกระชับและแม่นยำเพียงใด?
บริการจะคืนค่าภาพหน้าที่คำนึงถึงโทเค็นแทน HTML ดิบ. scout ส่งออก JSON ที่มีโครงสร้างและการเปรียบเทียบ DOM เพื่อแสดงการเปลี่ยนแปลงสถานะของหน้า ซึ่งช่วยลดปริมาณบริบทที่ส่งไปยังโมเดล การยึดโยงภาพมีให้ในรูปแบบภาพหน้าจอที่มีการบันทึกหมายเลขเพื่อให้ตัวแทนสามารถอ้างอิงองค์ประกอบที่มีการโต้ตอบเฉพาะแทนที่จะเป็นพิกัด การควบคุมเบราว์เซอร์พื้นฐานใช้การดำเนินการที่บริสุทธิ์ของ Chrome DevTools Protocol สำหรับการจัดการหน้าโดยตรง.
ข้อกำหนดในการป้อนข้อมูลและโฮสต์มีผลต่อการใช้งานอย่างไร?
การปรับใช้และความเข้ากันได้ของลูกค้ากำหนดว่า scout เหมาะสมที่ไหน. เซิร์ฟเวอร์ทำงานเป็นไฟล์ไบนารี Go ที่เชื่อมโยงแบบสถิตเดียวที่ทำงานบน macOS, Windows, และ Linux. มันเชื่อมต่อกับลูกค้าใด ๆ ที่ใช้ MCP interface เช่นลูกค้าบางรายที่เน้นเดสก์ท็อปและโค้ด LLM. สถาปัตยกรรมนี้ลบการทำงานภายนอกเช่น Node.js หรือ Python ในขณะที่ผูกเครื่องมือเข้ากับสภาพแวดล้อมที่มีลูกค้าที่รองรับ MCP.
การตั้งค่าและการรวมเข้ากับการทำงานของนักพัฒนานั้นเป็นไปได้หรือไม่?
การรวมเข้าช่วยเหลือผู้ใช้ทางเทคนิคและท่อส่งที่มุ่งเน้นตัวแทน. ไบนารีที่ไม่มีการพึ่งพาช่วยให้การติดตั้งง่ายขึ้นและลดความกังวลเกี่ยวกับการทำงานของบุคคลที่สาม ซึ่งผู้ใช้สังเกตว่าช่วยเร่งการเริ่มต้น การออกแบบที่มุ่งเน้นตัวแทนให้ความสำคัญกับการสังเกตที่หนาแน่นและเกี่ยวข้องกับโมเดลมากกว่าความถูกต้องของหน้า ดังนั้นการรวม scout เข้ากับเซสชันอัตโนมัติต้องการความคุ้นเคยกับการกระตุ้นตัวแทน, การเปรียบเทียบ DOM, และแนวคิดการทำงานอัตโนมัติของเบราว์เซอร์มากกว่าวิธีการเก็บข้อมูลเว็บแบบมาตรฐาน.
ทางเลือกที่ใช้งานได้จริงสำหรับผู้สร้างที่ดำเนินการเซสชันตัวแทนด้วยบริบทเว็บจริง
ข้อเสนอแนะแบบผู้ใช้ภายในชุมชน MCP เน้นการติดตั้งที่ง่ายและการลดจำนวนโทเค็นที่วัดได้ในระหว่างการดำเนินการตัวแทนที่ยาวนาน ทำให้ scout เป็นตัวเลือกที่เหมาะสมสำหรับทีมที่กำลังปรับแต่งต้นทุนบริบทของโมเดล คาดหวังความพยายามในการกำหนดค่าและการออกแบบตัวแทนก่อนการใช้งานในผลิตภัณฑ์ และตรวจสอบข้อมูลที่ดึงออกมาในงานที่มีความเสี่ยงสูงแทนที่จะถือว่าผลลัพธ์เป็นข้อมูลที่เชื่อถือได้.