Google DeepMind ने अपना नया और एडवांस्ड AI मॉडल Gemini 2.5 Computer Use Model लॉन्च किया है, जो अब कंप्यूटर और मोबाइल की स्क्रीन पर इंसानों की तरह काम कर सकता है। यानी ये AI अब forms भर सकता है, बटन क्लिक कर सकता है, dropdowns और filters handle कर सकता है, और यहां तक कि logins के पीछे भी काम कर सकता है।
कंपनी ने बताया कि ये मॉडल अब preview में Google AI Studio और Vertex AI Studio के ज़रिए डेवलपर्स के लिए उपलब्ध है।
क्या है Gemini 2.5 Computer Use Model?
Gemini 2.5 Computer Use Model असल में Gemini 2.5 Pro का एक specialized version है। इसका मकसद है AI को इतना स्मार्ट बनाना कि वो graphical user interfaces (UI) को खुद से समझ सके और human-like interaction कर सके।
मतलब, अब AI सिर्फ APIs से नहीं बल्कि सीधे स्क्रीन पर दिख रहे elements से भी interact कर पाएगा — जैसे कोई इंसान ब्राउज़र पर काम करता है
कैसे काम करता है ये मॉडल?
Google ने बताया कि यह मॉडल एक loop process में चलता है।
- पहले यूज़र की रिक्वेस्ट ली जाती है (जैसे – “ये फॉर्म भर दो” या “इस वेबसाइट से डेटा निकालो”)।
- सिस्टम एक स्क्रीनशॉट और recent actions का रिकॉर्ड मॉडल को देता है।
- Gemini 2.5 Computer Use Model उस इनपुट को analyze करके तय करता है कि कौन सा action लेना है – क्लिक, टाइप या स्क्रॉल।
- ये action client-side कोड के जरिए execute होता है।
- फिर एक नया स्क्रीनशॉट लेकर model को भेजा जाता है।
ये प्रोसेस तब तक चलता है जब तक task पूरा न हो जाए या यूज़र इसे रोक न दे।
Read Official Article – Click Here
कहाँ कर सकता है कमाल?
यह मॉडल वेब ब्राउज़र्स के लिए optimized है, लेकिन Google का कहना है कि इसमें mobile UI control के लिए भी काफी potential है।
अभी ये desktop operating systems को कंट्रोल करने के लिए डिज़ाइन नहीं किया गया है।
Google ने कुछ डेमो भी दिखाए हैं — जैसे:
- Pet-care CRM system में डेटा ट्रांसफर करना
- Sticky notes को categories में organize करना
Performance और Accuracy
Google DeepMind के अनुसार, Gemini 2.5 Computer Use Model ने कई web और mobile benchmarks में शानदार प्रदर्शन किया है, जैसे:
- Online-Mind2Web
- WebVoyager
- AndroidWorld
कंपनी ने बताया कि मॉडल ने 70% से ज्यादा accuracy और लगभग 225 सेकंड की low latency के साथ काम किया, जो मौजूदा सभी AI systems से बेहतर है।
Safety को लेकर Google की तैयारी
DeepMind ने माना कि ऐसे AI मॉडल जो कंप्यूटर कंट्रोल कर सकते हैं, उनमें misuse या unexpected behavior का रिस्क रहता है।
इसीलिए, Gemini 2.5 Computer Use Model में strong safety features डाले गए हैं।
- हर action से पहले एक safety check service चलती है।
- डेवलपर्स ये सेट कर सकते हैं कि कोई risky काम करने से पहले AI user से confirmation मांगे या उसे refuse कर दे।
- Model ऐसे actions से दूर रहता है जो सिस्टम को नुकसान पहुंचा सकते हैं, जैसे CAPTCHAs bypass करना या sensitive data access करना।
डेवलपर्स के लिए बड़ी सुविधा
जो डेवलपर्स automation, AI assistants, या testing tools बनाते हैं, उनके लिए ये मॉडल गेम-चेंजर साबित हो सकता है।
Google की कुछ internal teams ने इसे अपने प्रोजेक्ट्स में use भी किया है, जैसे:
- Google Payments platform में testing errors को 60% तक घटाया गया।
- Automation tools में data parsing accuracy में 18% improvement देखी गई।
कैसे करें इस्तेमाल?
Gemini 2.5 Computer Use Model अभी public preview में है।
डेवलपर्स इसे इस्तेमाल कर सकते हैं:
- Google AI Studio और Vertex AI के ज़रिए,
- या फिर Browserbase demo environment में।
DeepMind ने developers को encourage किया है कि वे इस model का इस्तेमाल करके AI agents बनाएं और feedback साझा करें।
निष्कर्ष
Google DeepMind का Gemini 2.5 Computer Use Model AI टेक्नोलॉजी में एक बड़ा कदम है।
अब AI सिर्फ सोचने या जवाब देने तक सीमित नहीं रहेगा — बल्कि वो खुद से वेबसाइट्स और ऐप्स चला सकेगा।
अगर इसे सुरक्षित तरीके से implement किया गया, तो ये आने वाले वक्त में AI-powered automation का नया युग शुरू कर सकता है।