Gemini 2.5 Computer Use Model कैसे काम करता है?

यह मॉडल एक लूप में काम करता है। पहले यूज़र की रिक्वेस्ट, वेबसाइट का स्क्रीनशॉट और पिछली क्रियाओं की जानकारी मॉडल को दी जाती है। फिर Gemini 2.5 Computer Use Model तय करता है कि आगे कौन सा एक्शन लेना है — जैसे क्लिक, टाइप या स्क्रॉल। ये प्रक्रिया तब तक चलती है जब तक टास्क पूरा नहीं हो जाता।

क्या Gemini 2.5 Computer Use Model सुरक्षित है?

हां, Google DeepMind ने इसमें कई सुरक्षा फीचर्स शामिल किए हैं। हर एक्शन से पहले सेफ्टी चेक होता है, और डेवलपर्स यह सेट कर सकते हैं कि कोई रिस्की काम करने से पहले मॉडल यूज़र से कन्फर्मेशन मांगे या उसे रोक दे। इससे AI के गलत इस्तेमाल या सिस्टम को नुकसान से बचाया जा सकता है।

Google DeepMind Gemini 2.5 Computer Use Model AI interacting with computer interface

Technology

Google DeepMind ने लॉन्च किया Gemini 2.5 Computer Use Model, अब AI खुद से वेबसाइट्स और ऐप्स चलाएगा

Written by Vijay More

October 8, 2025

Google DeepMind ने अपना नया और एडवांस्ड AI मॉडल Gemini 2.5 Computer Use Model लॉन्च किया है, जो अब कंप्यूटर और मोबाइल की स्क्रीन पर इंसानों की तरह काम कर सकता है। यानी ये AI अब forms भर सकता है, बटन क्लिक कर सकता है, dropdowns और filters handle कर सकता है, और यहां तक कि logins के पीछे भी काम कर सकता है।

कंपनी ने बताया कि ये मॉडल अब preview में Google AI Studio और Vertex AI Studio के ज़रिए डेवलपर्स के लिए उपलब्ध है।

क्या है Gemini 2.5 Computer Use Model?

Gemini 2.5 Computer Use Model असल में Gemini 2.5 Pro का एक specialized version है। इसका मकसद है AI को इतना स्मार्ट बनाना कि वो graphical user interfaces (UI) को खुद से समझ सके और human-like interaction कर सके।

मतलब, अब AI सिर्फ APIs से नहीं बल्कि सीधे स्क्रीन पर दिख रहे elements से भी interact कर पाएगा — जैसे कोई इंसान ब्राउज़र पर काम करता है

कैसे काम करता है ये मॉडल?

Google ने बताया कि यह मॉडल एक loop process में चलता है।

पहले यूज़र की रिक्वेस्ट ली जाती है (जैसे – “ये फॉर्म भर दो” या “इस वेबसाइट से डेटा निकालो”)।
सिस्टम एक स्क्रीनशॉट और recent actions का रिकॉर्ड मॉडल को देता है।
Gemini 2.5 Computer Use Model उस इनपुट को analyze करके तय करता है कि कौन सा action लेना है – क्लिक, टाइप या स्क्रॉल।
ये action client-side कोड के जरिए execute होता है।
फिर एक नया स्क्रीनशॉट लेकर model को भेजा जाता है।

ये प्रोसेस तब तक चलता है जब तक task पूरा न हो जाए या यूज़र इसे रोक न दे।

Read Official Article – Click Here

कहाँ कर सकता है कमाल?

यह मॉडल वेब ब्राउज़र्स के लिए optimized है, लेकिन Google का कहना है कि इसमें mobile UI control के लिए भी काफी potential है।
अभी ये desktop operating systems को कंट्रोल करने के लिए डिज़ाइन नहीं किया गया है।

Google ने कुछ डेमो भी दिखाए हैं — जैसे:

Pet-care CRM system में डेटा ट्रांसफर करना
Sticky notes को categories में organize करना

Performance और Accuracy

Google DeepMind के अनुसार, Gemini 2.5 Computer Use Model ने कई web और mobile benchmarks में शानदार प्रदर्शन किया है, जैसे:

Online-Mind2Web
WebVoyager
AndroidWorld

कंपनी ने बताया कि मॉडल ने 70% से ज्यादा accuracy और लगभग 225 सेकंड की low latency के साथ काम किया, जो मौजूदा सभी AI systems से बेहतर है।

Safety को लेकर Google की तैयारी

DeepMind ने माना कि ऐसे AI मॉडल जो कंप्यूटर कंट्रोल कर सकते हैं, उनमें misuse या unexpected behavior का रिस्क रहता है।
इसीलिए, Gemini 2.5 Computer Use Model में strong safety features डाले गए हैं।

हर action से पहले एक safety check service चलती है।
डेवलपर्स ये सेट कर सकते हैं कि कोई risky काम करने से पहले AI user से confirmation मांगे या उसे refuse कर दे।
Model ऐसे actions से दूर रहता है जो सिस्टम को नुकसान पहुंचा सकते हैं, जैसे CAPTCHAs bypass करना या sensitive data access करना।

डेवलपर्स के लिए बड़ी सुविधा

जो डेवलपर्स automation, AI assistants, या testing tools बनाते हैं, उनके लिए ये मॉडल गेम-चेंजर साबित हो सकता है।
Google की कुछ internal teams ने इसे अपने प्रोजेक्ट्स में use भी किया है, जैसे:

Google Payments platform में testing errors को 60% तक घटाया गया।
Automation tools में data parsing accuracy में 18% improvement देखी गई।

कैसे करें इस्तेमाल?

Gemini 2.5 Computer Use Model अभी public preview में है।
डेवलपर्स इसे इस्तेमाल कर सकते हैं:

Google AI Studio और Vertex AI के ज़रिए,
या फिर Browserbase demo environment में।

DeepMind ने developers को encourage किया है कि वे इस model का इस्तेमाल करके AI agents बनाएं और feedback साझा करें।

निष्कर्ष

Google DeepMind का Gemini 2.5 Computer Use Model AI टेक्नोलॉजी में एक बड़ा कदम है।
अब AI सिर्फ सोचने या जवाब देने तक सीमित नहीं रहेगा — बल्कि वो खुद से वेबसाइट्स और ऐप्स चला सकेगा।
अगर इसे सुरक्षित तरीके से implement किया गया, तो ये आने वाले वक्त में AI-powered automation का नया युग शुरू कर सकता है।