কয়েক দশক ধরে, ব্যবসাগুলি ব্যাক-অফিস কাজ, ডেটা এন্ট্রি, বিলিং প্রক্রিয়া এবং অন্যান্য পুনরাবৃত্তিমূলক কর্মপ্রবাহগুলিকে স্বয়ংক্রিয় করার চেষ্টা করেছে। কিন্তু সফ্টওয়্যার বিকশিত হওয়ার পরেও, প্রকৃত এন্ড-টু-এন্ড অটোমেশন বেশিরভাগ উদ্যোগের জন্য অধরা থেকে যায়। এখন, লার্জ ল্যাঙ্গুয়েজ মডেলের (LLMs) দ্রুত উত্থানের সাথে এবং যুক্তি ও স্বায়ত্তশাসিতভাবে কাজ করতে সক্ষম "AI এজেন্টদের" উত্থানের সাথে, একটি ক্রমবর্ধমান বিশ্বাস যে 2025 সাল হতে পারে সেই বছর হতে পারে আমরা এন্টারপ্রাইজ অটোমেশনে একটি উল্লেখযোগ্য অগ্রগতি দেখতে পাব।
স্যাম অল্টম্যান প্রকাশ্যে বলেছেন যে "2025 সালে, আমরা প্রথম এআই এজেন্টদের কর্মশক্তিতে যোগদান করতে এবং কোম্পানিগুলির আউটপুটকে বস্তুগতভাবে পরিবর্তন করতে দেখতে পারি," যখন মার্ক বেনিওফ সেলসফোর্সকে "এজেন্টফোর্স" এর দিকে এগিয়ে নিয়ে যাচ্ছেন ভবিষ্যতের প্রত্যাশায় যেখানে অনেক সাংগঠনিক প্রক্রিয়া অর্পণ করা হয়েছে। বিশেষ এজেন্টদের কাছে। এই ভবিষ্যদ্বাণীগুলি একটি কেন্দ্রীয় প্রশ্ন উত্থাপন করে: এআই এজেন্টরা কি বাস্তব-বিশ্ব এন্টারপ্রাইজ সিস্টেমের জটিল বাধাগুলি অতিক্রম করতে পারে? এই নিবন্ধে, আমরা এন্টারপ্রাইজ অটোমেশনের অনন্য অসুবিধাগুলি পরীক্ষা করব এবং আজকের কিছু প্রতিশ্রুতিশীল (কিন্তু এখনও পরিপক্ক) সমাধানগুলি অন্বেষণ করব। আমরা Salesforce (SFDC)-এ একটি আপাতদৃষ্টিতে সরল কর্মপ্রবাহের সাথে হ্যান্ড-অন টেস্টগুলি ভাগ করব — একটি নতুন অ্যাকাউন্টের জন্য একটি রিসেলার অর্ডার তৈরি করা — যা পর্দার আড়ালে থাকা জটিলতা প্রকাশ করে৷
কাগজে, স্বয়ংক্রিয় এন্টারপ্রাইজের কাজগুলি সোজা মনে হয়: লগ ইন করার জন্য একটি স্ক্রিপ্ট স্পিন করুন, ফর্মগুলি পূরণ করুন এবং "জমা দিন" এ ক্লিক করুন৷ অনুশীলনে, জটিলতা বিস্ময়কর। এন্টারপ্রাইজগুলি সেলসফোর্স, এসএপি, ওরাকল এবং প্রচুর স্বদেশী সমাধানের মতো রেকর্ডের অগণিত সিস্টেমের উপর নির্ভর করে। প্রতিটি সিস্টেমের নিজস্ব অনুমতি, প্রমাণীকরণ প্রবাহ এবং কাস্টম ব্যবসায়িক যুক্তি রয়েছে। আরও কি, এই সিস্টেমগুলি প্রায়শই ভারী কাস্টমাইজ করা হয়। বিশেষায়িত UIs, অতিরিক্ত ডেটা ক্ষেত্র এবং বেসপোক ওয়ার্কফ্লোগুলি দেখা সাধারণ যা ব্যবসা থেকে ব্যবসায় আলাদা।
MuleSoft এবং Deloitte দ্বারা একটি যৌথ জরিপ অনুসারে, বড় উদ্যোগগুলি দৈনিক ক্রিয়াকলাপগুলিকে সমর্থন করার জন্য গড়ে 976টি ভিন্ন সিস্টেম ব্যবহার করতে পারে ( উত্স )৷ এই ফ্র্যাগমেন্টেশন মানে একটি অটোমেশন টুলকে একাধিক সিস্টেমের সাথে কথা বলতে হবে, প্রতিটির নিজস্ব সূক্ষ্মতা সহ; কিছু শক্তিশালী API সহ, অন্যরা কোনটিই নেই। প্রায়শই, সবচেয়ে সহজ কাজগুলির মধ্যে পুরানো, লিগ্যাসি অ্যাপ্লিকেশন এবং নতুন ক্লাউড-ভিত্তিক পরিষেবাগুলি জুড়ে ডেটা ব্রিজ করা জড়িত। এমনকি সেলসফোর্সের মতো স্ট্যান্ডার্ড প্ল্যাটফর্মগুলিও গোলকধাঁধায় পরিণত হতে পারে একবার কাস্টম ওয়ার্কফ্লো এবং থার্ড-পার্টি ইন্টিগ্রেশন চালু হয়ে গেলে।
এই পটভূমিতে, এলএলএম-চালিত এজেন্টরা আরও নমনীয় পদ্ধতির প্রতিশ্রুতি দেয়: তারা ডেটা পার্স করতে পারে, পরবর্তী পদক্ষেপগুলি সম্পর্কে যুক্তি দিতে পারে এবং এমনকি জটিল GUI গুলি নেভিগেট করতে পারে — অন্তত তত্ত্বে। কিন্তু আপনি নিম্নলিখিত উদাহরণে দেখতে পাবেন, মানুষের সাহায্য ছাড়াই একটি বেসিক সেলসফোর্স ওয়ার্কফ্লো করার জন্য একজন এআই এজেন্ট পাওয়ার বাস্তবতা অনেকের উপলব্ধি করার চেয়ে আরও জটিল।
ছবি করুন যে আপনি সেলসফোর্স ব্যবহার করে এমন একটি বাইক উৎপাদনকারী কোম্পানির বিক্রয় সহযোগী। আপনি এইমাত্র "নর্দার্ন ট্রেইল সাইক্লিং" নামে একটি নতুন রিসেলারের কাছে $5,000-এ 1টি বড় Dynamo X1 বাইক বিক্রি করেছেন৷ আপনার কাজ হল:
1 - সেলসফোর্সে প্রমাণীকরণ করুন (প্রদত্ত শংসাপত্র সহ)।
2 - রিসেলারের জন্য একটি নতুন অ্যাকাউন্ট তৈরি করুন৷
3 - একটি রিসেলার অর্ডার তৈরি করুন এবং লাইন আইটেম (বাইক) যোগ করুন।
4 - অনুমোদনের জন্য ম্যানুফ্যাকচারিং-এ সেই অর্ডার জমা দিন।
একটি সফল সম্পাদনের জন্য, আমরা আশা করছি চূড়ান্ত ফলাফল অনুসরণের মত হবে:
এটা যথেষ্ট সহজ বলে মনে হচ্ছে, কিন্তু শয়তান বিস্তারিত আছে. কোম্পানির Salesforce উদাহরণটি কাস্টমাইজ করা হয়েছে: এটি একটি কাস্টম "রিসেলার অর্ডার" অবজেক্ট এবং ফ্লো ব্যবহার করে, পণ্য যোগ করার জন্য একটি বিশেষ ড্র্যাগ-এন্ড-ড্রপ বৈশিষ্ট্য এবং কোনও স্পষ্ট লেবেল ছাড়াই একটি লুকানো "উৎপাদনে জমা দিন" পদক্ষেপ ব্যবহার করে। তারা কীভাবে পরিমাপ করে তা দেখতে আমি বেশ কয়েকটি উদীয়মান এআই-চালিত অটোমেশন পদ্ধতি ব্যবহার করে এই দৃশ্যটি পরীক্ষা করেছি।
Claude Computer Use হল Anthropic থেকে একটি নতুন বৈশিষ্ট্য, যা Claude 3.5 Sonnet v2 এর সাথে প্রবর্তিত হয়েছে । এটি ক্লাউডকে "দেখতে" এবং "নিয়ন্ত্রণ" করার জন্য একটি সম্পূর্ণ কন্টেইনারাইজড ডেস্কটপ পরিবেশ দেওয়ার মাধ্যমে স্ট্যান্ডার্ড LLM ফাংশন-কলিং প্যারাডাইমকে আরও এক ধাপ এগিয়ে নিয়ে যায়। এটি স্ক্রিনশট ক্যাপচার করতে পারে, চাক্ষুষ/স্থানিক যুক্তির মাধ্যমে তাদের ব্যাখ্যা করতে পারে এবং মাউস ক্লিক, স্ক্রোল এবং কীস্ট্রোকের মতো OS-স্তরের ক্রিয়া সম্পাদন করতে পারে।
একজন ব্যবহারকারীর দৃষ্টিকোণ থেকে, আপনি ক্লাউডকে একটি উচ্চ-স্তরের কাজ দেন ("সেলসফোর্সে লগ ইন করুন এবং এই রিসেলার অর্ডার তৈরি করুন"), এবং ক্লড ঠিক এটি করার চেষ্টা করে৷ এটি একটি ক্রম মাধ্যমে loops:
সিস্টেম প্রম্পটে কোনো পরিবর্তন ছাড়াই অ্যানথ্রপিকের রেফারেন্স বাস্তবায়ন চালানোর সহজ পদ্ধতির সাথে শুরু করা যাক। এখানে ইন্টারঅ্যাকশনের শুরুতে প্রাথমিক প্রম্পট, ক্লডের প্রস্তাবিত পরিকল্পনা এবং এটি যে ডেস্কটপের সাথে ইন্টারঅ্যাকশন শুরু করছে তা দেখাচ্ছে।
ক্লডের কন্টেইনারাইজড ডেস্কটপ পর্যবেক্ষণ প্রাথমিকভাবে চিত্তাকর্ষক ছিল। এটি ব্রাউজারটি খুলেছে, Salesforce URL পরিদর্শন করেছে, প্রদত্ত শংসাপত্রের সাথে লগ ইন করেছে এবং "অ্যাকাউন্টস"-এ নেভিগেট করেছে। এটি নিখুঁতভাবে বাইক প্রোডাকশন কোম্পানির জন্য একটি নতুন অ্যাকাউন্ট তৈরি করেছে, ফর্মে সঠিক বিবরণ ইনপুট করেছে, তারপর একটি নতুন রিসেলার অর্ডার তৈরি করার চেষ্টা করেছে৷ বাইকটি যুক্ত করার জন্য কাস্টম ড্র্যাগ-এন্ড-ড্রপ ইন্টারফেসের মুখোমুখি না হওয়া পর্যন্ত জিনিসগুলি মসৃণভাবে চলছিল। সিস্টেমটি একটি পিক্সেল-ভিত্তিক ড্র্যাগ-এন্ড-ড্রপ করার চেষ্টা করে আটকে গেছে।
কিছু ব্যর্থতার পরে, এটি একটি বিকল্প পদ্ধতি খুঁজে বের করার চেষ্টা করেছিল (যেমন একটি লুকানো "আইটেম যোগ করুন" বোতাম)। "সম্পাদনা" বোতাম দিয়ে এটির প্রথম প্রচেষ্টা সফল হয়নি৷
“আমি সম্পাদনা ডায়ালগে লক্ষ্য করেছি পণ্য যোগ করার কোন পরিষ্কার উপায় নেই। অন্য বিকল্প আছে কিনা দেখতে রিসেলার অর্ডার ড্রপডাউনে ক্লিক করে আমাকে একটি ভিন্ন পদ্ধতির চেষ্টা করতে দিন”।
এটি অবশেষে "সম্পর্কিত" ট্যাবের মাধ্যমে নতুন আইটেম যোগ করার একটি উপায় আবিষ্কার করে তার পথ খুঁজে পেয়েছে - শুধুমাত্র যখন অ্যাপের গতিশীল ট্রিগারগুলি স্বয়ংক্রিয়ভাবে মোট অর্ডার আপডেট করবে না তখনই ব্যর্থ হবে৷ SFDC অ্যাপের ডেভেলপাররা এই কোড পাথের বিকাশ সম্পূর্ণ করেনি, আশা করে যে মানব ব্যবহারকারী শুধু ড্র্যাগ অ্যান্ড ড্রপ পদ্ধতি অনুসরণ করবে। সংক্ষেপে, প্রবাহটি মানুষের জন্য ডিজাইন করা হয়েছিল, কোনও এআই এজেন্টের জন্য নয়।
ক্লড তারপরে "উৎপাদনে জমা দিন" বোতামটি সনাক্ত করার চেষ্টা করেছিলেন, যা একটি কাস্টম ট্যাবের নীচে চাপা পড়েছিল। সেই পদক্ষেপের পূর্ব জ্ঞানের অভাবে, এটি আরও কয়েক মিনিটের জন্য ধাক্কা খেয়েছিল। শেষ পর্যন্ত, আমাকে হস্তক্ষেপ করতে হয়েছিল, ম্যানুয়ালি অর্ডারে সাইকেল যোগ করতে হয়েছিল এবং ক্লদকে প্রাসঙ্গিক বোতামে নির্দেশ করতে হয়েছিল। মোটামুটি 10 মিনিটের পরে এবং প্রায় $0.80 ব্যবহার খরচ, প্রক্রিয়াটি এখনও সম্পূর্ণরূপে স্বয়ংক্রিয় ছিল না। অ্যানথ্রোপিক কেন এই বৈশিষ্ট্যটিকে পরীক্ষামূলক বলে তা দেখা সহজ ছিল: কম্পিউটার ব্যবহার সত্যিকারের উত্পাদন-প্রস্তুত হওয়ার আগে অনেকগুলি বাস্তব-বিশ্বের রেলপথ এবং উন্নতি প্রয়োজন।
এর রুক্ষ প্রান্ত সত্ত্বেও, ধারণাটি উত্তেজনাপূর্ণ। GUI ইন্টারঅ্যাকশনের জন্য দৃষ্টি-ভিত্তিক AI দ্রুত উন্নতি করছে, এবং অনুমানের জন্য খরচ বক্ররেখা দ্রুত হ্রাস পাচ্ছে। একটি সাম্প্রতিক a16z গবেষণা পরামর্শ দেয় যে একই কর্মক্ষমতার জন্য, LLM খরচ প্রতি বছর প্রায় 10x কমছে। নীতিগতভাবে, ক্লাউডের ভবিষ্যত সংস্করণগুলি ড্র্যাগ-এন্ড-ড্রপের মতো ভিজ্যুয়াল/স্থানিক কাজগুলিতে দ্রুত, সস্তা এবং আরও সঠিক হতে পারে।
তবুও মৌলিক সমস্যাটি রয়ে গেছে যে এন্টারপ্রাইজ UI, বিশেষ করে পুরানো বা ভারী কাস্টমাইজ করা, খুব কমই অটোমেশনকে মাথায় রেখে তৈরি করা হয়। পিক্সেল-স্তরের মিথস্ক্রিয়া ভঙ্গুর। লেআউট বা ডায়নামিক পপ-আপে সামান্য পরিবর্তন পুরো প্রবাহকে ভেঙে দিতে পারে। দৃশ্যত গ্রাউন্ডেড GUI ফ্রেমওয়ার্কগুলির চারপাশে ক্রমবর্ধমান গবেষণাও রয়েছে, তবে শত শত বিভিন্ন কর্মপ্রবাহের জন্য এই উত্পাদন-গ্রেড তৈরি করা একটি প্রধান উদ্যোগ।
একটি বিকল্প পদ্ধতি হল "ভিজ্যুয়াল বাউন্ডিং বাক্সগুলি" সম্পূর্ণরূপে উপেক্ষা করা। যদি আপনার টার্গেট অ্যাপ্লিকেশন একটি ওয়েব ব্রাউজারে চলে, আপনি স্ক্রিনশট এবং পিক্সেল-ভিত্তিক ইন্টারঅ্যাকশন এড়িয়ে, DOM স্তরে স্বয়ংক্রিয় করতে পারেন। যদিও নাট্যকার এবং সেলেনিয়ামের মতো ঐতিহ্যবাহী হেডলেস ব্রাউজারগুলি প্রায়শই পরীক্ষার কাঠামোর সাথে যুক্ত থাকে, একটি নতুন প্রজন্মের এআই ব্যবহার-কেস-কেস-কেন্দ্রিক হেডলেস ব্রাউজারগুলি আবির্ভূত হচ্ছে। এই নতুন প্ল্যাটফর্মগুলি আরও গতিশীল, LLM-চালিত মিথস্ক্রিয়া সক্ষম করতে নাট্যকার এবং সেলেনিয়ামের উপরে তৈরি করে।
BrowserBase যেমন একটি উদাহরণ. এটি একটি অবকাঠামো প্ল্যাটফর্ম হিসাবে কাজ করে যা কনটেইনারগুলি পরিচালনা করার জন্য বিকাশকারীদের প্রয়োজন ছাড়াই ব্রাউজার সেশনগুলি হোস্ট এবং স্কেল করে। ইন্টারঅ্যাকশন প্যাটার্নটি একটি পৃষ্ঠার HTML বিষয়বস্তুকে তাদের xPaths-এ ম্যাপ করা উপাদানগুলিতে (যেমন, ফর্ম, বোতাম) পার্স করার চারপাশে ঘোরে এবং এই কাঠামোটিকে আপনার পছন্দের একটি LLM-এ পাস করে। LLM তারপরে চালানোর জন্য প্লেরাইটের কোডের পরবর্তী সেট তৈরি করে, প্রথাগত GUI ক্লিকের পরিবর্তে কোডের মাধ্যমে DOM-এর সাথে ইন্টারঅ্যাকশনের অনুমতি দেয়। কারণ এটি সম্পূর্ণরূপে হেডলেস, এটি একটি সম্পূর্ণ "ডেস্কটপ পরিবেশ" পদ্ধতির তুলনায় প্রসঙ্গ দৈর্ঘ্য ছোট এবং লেটেন্সি কম রেখে কম বা কোনো স্ক্রিনশট ব্যবহার করে না।
খুব সম্প্রতি, BrowserBase তার স্টেজহ্যান্ড ওপেন-সোর্স লাইব্রেরি পাঠিয়েছে যাতে ডেভেলপারদের জন্য জিনিসগুলো সহজ হয়। আসল মডেলে, ইন্টারঅ্যাকশনগুলি এখনও খুব ম্যানুয়াল ছিল, যার জন্য ডেভেলপারদের হেডলেস ব্রাউজারের নিম্ন-স্তরের বিশদগুলির সাথে কাজ করতে হবে, যার মধ্যে সরাসরি প্লেরাইটের কোড লেখা এবং এইচটিএমএল ম্যানুয়ালি পার্স করা সহ। স্টেজহ্যান্ডের সাহায্যে, ব্রাউজারবেস একটি উচ্চ স্তরের বিমূর্ততা প্রদান করে, যা ডেভেলপারদের "নেভিগেট" বা "এক্সট্রাক্ট" এর মতো অভিপ্রায়-ভিত্তিক প্রাকৃতিক ভাষা কমান্ড ব্যবহার করতে দেয়। এই পদ্ধতিটি কাঁচা এইচটিএমএলকে উপাদানগুলিতে রূপান্তর করার জন্য কিছু প্রক্রিয়াকরণের জন্যও বেক করে, যা এলএলএম-এর জন্য কাজগুলি পরিচালনা করা সহজ করে তোলে। যাইহোক, ব্যবহারকারীদের এখনও তাদের নিজস্ব অর্কেস্ট্রেশন স্তর তৈরি করতে হবে ওয়ার্কফ্লোগুলিকে সংযুক্ত করতে এবং পরিচালনা করতে, কারণ স্টেজহ্যান্ড নিজেই অন্তর্নির্মিত অর্কেস্ট্রেশন অফার করে না।
ব্রাউজারবেস পরীক্ষা করার জন্য, আমি তাদের বিকাশকারী খেলার মাঠ ব্যবহার করেছি, যা প্লেরাইট কোড লেখার জন্য একটি কনসোল এবং স্বয়ংক্রিয়ভাবে সেই স্ক্রিপ্টগুলি তৈরি করতে একটি LLM প্রম্পট লেখক সরবরাহ করে। ধারণাটি হল মাল্টি-স্টেপ নেভিগেশন করা — লগ ইন করুন, একটি অ্যাকাউন্ট তৈরি করুন, একটি রিসেলার অর্ডার তৈরি করুন৷ কিন্তু প্ল্যাটফর্ম আশা করে যে আপনি নিজেই পদক্ষেপগুলি অর্কেস্ট্রেট করবেন। ক্লডকে দেওয়া একই প্রম্পট দিয়ে শুরু করে, ব্রাউজারবেস হোঁচট খেয়েছিল কারণ এটি মাল্টি-স্টেপ ফ্যাশনে যুক্তি দিতে পারে না। তাই আমি প্রতিটি পদক্ষেপের জন্য একটি প্রাকৃতিক ভাষা প্রম্পট প্রদান করতে এবং জেনারেট করা নাট্যকার কোডটি যা উদ্দেশ্য ছিল তা করছে কিনা তা পর্যবেক্ষণ করতে এগিয়ে গেলাম। নীচের স্ক্রিনশটে, আপনি প্রম্পটের সিরিজ এবং তাদের তৈরি করা নাট্যকার কোড দেখতে পারেন।
অনুশীলনে, আমি খেলার মাঠের ব্রাউজার পরিবেশ এবং এইচটিএমএল ফর্মগুলির মধ্যে মাঝে মাঝে ভুলভাবে বিভক্ত হয়ে পড়েছিলাম যা পূরণ করা প্রয়োজন। বোতামগুলি অদ্ভুতভাবে রেন্ডার করা হয়েছে, অপেক্ষার সময় বাড়ানো হয়েছে, এবং ফর্ম ক্ষেত্রগুলি প্রত্যাশিতভাবে লোড হয়নি। এইসব সমস্যা থাকা সত্ত্বেও, এলএলএম-জেনারেট করা নাট্যকার কোড লগ ইন করতে, একটি অ্যাকাউন্ট তৈরি করতে এবং রিসেলার অর্ডার ফর্মটি আংশিকভাবে পূরণ করতে পেরেছিল। যাইহোক, ড্র্যাগ-এন্ড-ড্রপ আইটেম যোগ করার জন্য আবার হোঁচট খায়। আমি হাল ছেড়ে দেওয়ার আগে এটি নিয়ে প্রায় সাত মিনিট কাটিয়েছি। এটা স্পষ্ট যে প্ল্যাটফর্মটি এখনও এই ধরনের অটোমেশনের জন্য উপযুক্ত নয়। এটি সম্ভবত ওয়েব স্ক্র্যাপিং ব্যবহারের ক্ষেত্রে সবচেয়ে ভাল কাজ করে।
স্কাইভার্ন হল আরও সব-ই-এক মাথাবিহীন পদ্ধতি যা ডিফল্টরূপে অর্কেস্ট্রেশন যোগ করে। ব্রাউজারবেসের বিপরীতে, যার জন্য ব্যবহারকারীদের ম্যানুয়ালি পদক্ষেপগুলি সংজ্ঞায়িত এবং পরিচালনা করতে হয়, স্কাইভার্ন বাক্সের বাইরে অর্কেস্ট্রেশন পরিচালনা করার চেষ্টা করে। হুডের অধীনে, এটি ব্রাউজারবেসের অনুরূপভাবে কাজ করে - যেমনটি তাদের ওপেন-সোর্স কোডে দেখা যায় - তবে একটি ওয়েব এজেন্টও যোগ করে যা অর্কেস্ট্রেট করতে পারে এবং পদক্ষেপগুলি সম্পর্কে যুক্তি দিতে পারে৷ এর মধ্যে একটি ঐচ্ছিক দৃষ্টি মোড রয়েছে যা সিদ্ধান্ত গ্রহণে সহায়তা করার জন্য নিষ্কাশিত উপাদান এবং তাদের xPaths এর পাশাপাশি LLM-এ স্ক্রিনশট পাঠায়।
BrowserBase-এ ম্যানুয়াল ধাপ তৈরির সীমাবদ্ধতাগুলিকে মোকাবেলা করার জন্য, আমি স্কাইভার্নকে এর পরিচালিত পরিষেবা ব্যবহার করে পরীক্ষা করার সিদ্ধান্ত নিয়েছি, বিশেষভাবে ওয়ার্কফ্লো মোডে ফোকাস করে। এই মোডটি বহু-পদক্ষেপ প্রক্রিয়ার জন্য ডিজাইন করা হয়েছে, এবং আমি মূল্যায়ন করতে চেয়েছিলাম যে এটি আমাদের Salesforce কর্মপ্রবাহের সাথে কতটা ভালো পারফর্ম করে। দুর্ভাগ্যবশত, রানটি 15টিরও বেশি যুক্তিমূলক পদক্ষেপ এবং $1 ক্রেডিট দুই-ফ্যাক্টর প্রমাণীকরণ (2FA) প্রক্রিয়ায় আটকে গেছে। Skyvern-এর হোস্ট করা আইপি ফ্ল্যাগ করা হয়েছিল, 2FA ট্রিগার করে, এবং পরিস্থিতি বাইপাস করার জন্য ম্যানুয়ালি কোড সরবরাহ বা কুকি শেয়ার করার কোন উপায় ছিল না। এটি এন্টারপ্রাইজ সেটিংসে প্রমাণীকরণের চলমান চ্যালেঞ্জকে হাইলাইট করে এবং আন্ডারস্কোর করে কেন অ্যাননের মতো স্টার্টআপগুলি শুধুমাত্র এআই এজেন্টদের জন্য প্রমাণীকরণ সমাধানগুলিতে ফোকাস করার জন্য আবির্ভূত হচ্ছে।
Skyvern এর দল প্ল্যাটফর্মটিকে সহজ, ছোট কাজের জন্য উপযুক্ত হিসাবে অবস্থান করে, যোগাযোগ ফর্ম অটোমেশন প্রাথমিক সমর্থিত ব্যবহারের ক্ষেত্রে। অন্যান্য সম্ভাব্য ব্যবহারের ক্ষেত্রে (যেমন চাকরি, চালান) এখনও "প্রশিক্ষণে" হিসাবে তালিকাভুক্ত করা হয়েছে, যা নির্দেশ করে যে প্ল্যাটফর্মটি এন্টারপ্রাইজ ওয়ার্কফ্লোগুলির আরও জটিল প্রয়োজনের পরিবর্তে সাধারণ ব্যবহারের ক্ষেত্রে ফোকাসড অটোমেশন দিয়ে শুরু করছে। প্রতিশ্রুতি দেওয়ার সময়, এটি স্পষ্ট যে স্কাইভার্ন তার বিকাশের এই পর্যায়ে কম জটিল পরিস্থিতিগুলির জন্য আরও উপযুক্ত।
হেডলেস ব্রাউজারগুলি পিক্সেল-স্তরের অনুমান এড়িয়ে যায়, যা প্রায়শই কম ত্রুটি এবং দ্রুত সম্পাদনের দিকে পরিচালিত করে। কিন্তু যত তাড়াতাড়ি আপনি ড্র্যাগ-এন্ড-ড্রপ বা জটিল একক-পৃষ্ঠার অ্যাপের মতো উন্নত বৈশিষ্ট্যগুলিতে আঘাত করেন, আপনাকে আংশিক স্ক্রিনশট বিশ্লেষণ বা বিশেষ কোডে ফিরে যেতে হতে পারে। ব্রাউজারগুলিও 2FA এবং IP কালো তালিকাভুক্ত হতে পারে। মাল্টি-টেন্যান্ট এন্টারপ্রাইজ অ্যাপ্লিকেশনগুলির জন্য, একা প্রমাণীকরণ করা কঠিন হতে পারে এবং আপনার এখনও কাস্টম অর্কেস্ট্রেশন স্তরগুলির প্রয়োজন হতে পারে।
আরেকটি সীমাবদ্ধতা হল যে এই প্ল্যাটফর্মগুলি প্রতিবার ওয়ার্কফ্লো চালানোর সময় এলএলএম-এর মাধ্যমে গতিশীলভাবে কোড তৈরি করার উপর নির্ভর করে। যেহেতু LLMগুলি সহজাতভাবে অ-নির্ধারণবাদী, তাই আউটপুট করা কোড রান জুড়ে পরিবর্তিত হতে পারে, এটি নিরীক্ষা বা ধারাবাহিকতা যাচাই করা চ্যালেঞ্জিং করে তোলে। এই অনির্দেশ্যতার কারণে সমস্যা দেখা দিতে পারে, বিশেষ করে সংবেদনশীল কর্মপ্রবাহে। যদিও ক্যাশিং জেনারেটেড কোড কিছু প্ল্যাটফর্মের জন্য রোডম্যাপে রয়েছে বলে মনে হচ্ছে, এটি এলএলএমগুলির জন্য উল্লেখযোগ্য চ্যালেঞ্জ তৈরি করেছে। এমনকি অনুমানের সময় প্রম্পট বা ব্যাচ প্রক্রিয়াকরণে সামান্য পরিবর্তন সম্পূর্ণ ভিন্ন ফলাফল আনতে পারে, ক্যাশিং প্রক্রিয়াকে জটিল করে তোলে।
সামগ্রিকভাবে, হেডলেস ব্রাউজিং সম্পূর্ণ GUI ম্যানিপুলেশনের চেয়ে সস্তা এবং আরও স্থিতিশীল হতে পারে, তবে এটি একটি যাদুকর সমাধান থেকে অনেক দূরে। অনেক সমাধান, যেমন BrowserBase এবং Skyvern, "সবকিছু স্বয়ংক্রিয় করার জন্য একটি প্ল্যাটফর্ম" হওয়ার পরিবর্তে সংকীর্ণ ব্যবহারের ক্ষেত্রে (যেমন, ফর্ম, ডেটা নিষ্কাশন) উপর ফোকাস করছে।
তৃতীয় পন্থা হল ওয়েব পৃষ্ঠাটিকে সম্পূর্ণভাবে বাইপাস করা নেটওয়ার্ক কলগুলিকে আটকে দেওয়া যা আপনি যখন চারপাশে ক্লিক করেন তখন ঘটে। আপনি যদি আপনার ব্রাউজার পাঠানো অনুরোধগুলি ক্যাপচার করতে পারেন তবে আপনি সেই কলগুলিকে কোডে পুনর্গঠন করতে পারেন। নীতিগতভাবে, এটি অগোছালো UI-ভিত্তিক পদক্ষেপগুলি এড়িয়ে যায় এবং নিশ্চিত করে যে আপনি একই ব্যাকএন্ড লজিকটি আপনার অ্যাপ্লিকেশন ব্যবহার করছেন। এই প্রবণতাটি সম্পূর্ণ নতুন নয়, কারণ রিভার্স-ইঞ্জিনিয়ারিং এপিআইগুলি দীর্ঘকাল ধরে রয়েছে। যাইহোক, অভিনব সংযোজন নেটওয়ার্ক অনুরোধগুলি সম্পর্কে যুক্তি দেওয়ার জন্য একটি AI এজেন্টকে অন্তর্ভুক্ত করছে, প্রক্রিয়াটিকে আরও বুদ্ধিমান এবং অভিযোজনযোগ্য করে তুলছে।
কয়েক মাস আগে, Integuru নামে একটি পণ্য হ্যাকারনিউজে চালু হয়েছে এবং এটির ওপেন-সোর্স পদ্ধতি এবং অভিনব পদ্ধতির জন্য মনোযোগ আকর্ষণ করেছে। এর সম্ভাবনার দ্বারা আগ্রহী হয়ে, আমি এটি পরীক্ষা করার সিদ্ধান্ত নিয়েছি, এটির আকর্ষণীয় গ্রাফ-ভিত্তিক পদ্ধতি এবং নেটওয়ার্ক অনুরোধগুলি সম্পর্কে যুক্তির জন্য এআই এজেন্টদের একীকরণ দ্বারা আঁকা। অটোমেশনের সময় এবং খরচ মারাত্মকভাবে কমানোর প্রতিশ্রুতি এটিকে অন্বেষণ করার জন্য একটি বাধ্যতামূলক বিকল্প করে তুলেছে।
Integuru এর সংগ্রহস্থল তুলনামূলকভাবে নতুন কিন্তু প্রতিশ্রুতি দেখায়। এর মূল অংশে, এটি একটি টাস্কের সময় ক্রোমিয়ামে সমস্ত নেটওয়ার্ক ট্র্যাফিক এবং কুকিজ রেকর্ড করে৷ এটি তারপরে অনুরোধগুলির একটি গ্রাফ উপস্থাপনা তৈরি করে, কোন পৃষ্ঠাগুলিকে কোন শেষ পয়েন্টগুলি বলে তা ম্যাপিং করে৷ এই গ্রাফটি ব্যবহার করে, এটি একটি ট্রাভার্সাল সঞ্চালন করে, প্রতিটি নোডের জন্য কোড জেনারেট করতে এটিকে একটি LLM-এ পাস করে যা একই অনুরোধগুলি পুনরায় প্লে করে, আপনার গতিশীল পরামিতিগুলি (যেমন "বাইক প্রোডাকশন কোম্পানি") প্রয়োজন অনুসারে ইনজেকশন করে এবং নির্ভরতার ভিত্তিতে সেগুলিকে একত্রিত করে। এই পদ্ধতিটি তাত্ত্বিকভাবে অটোমেশন প্রক্রিয়াটিকে উল্লেখযোগ্যভাবে প্রবাহিত করতে পারে।
অনুশীলনে, যাইহোক, এটি আমাদের ব্যবহারের ক্ষেত্রে ভাল কাজ করেনি, বেশিরভাগ প্রসঙ্গ উইন্ডো সীমাবদ্ধতার কারণে। এলএলএম কার্যকরভাবে পরিচালনা করার জন্য প্রবাহটি খুব দীর্ঘ হতে পারে। এমনকি সরাসরি লগইন কুকিজ এম্বেড করে এবং হোমপেজ থেকে শুরু করে প্রক্রিয়াটিকে শর্ট-সার্কিট করার প্রচেষ্টাও সফল হয়নি। যদিও আমি সন্দেহ করি যে আমার নিম্ন-স্তরের ওপেনএআই এপিআই কী এই সমস্যাগুলিতে অবদান রেখেছে, এটি স্পষ্ট যে ইন্টিগুরু এখনও তার প্রাথমিক দিনগুলিতে রয়েছে। সম্ভাবনা আছে, কিন্তু পণ্য আরও পরিমার্জন প্রয়োজন. এর ডেমো (যেমন রবিনহুড থেকে ট্যাক্স ডকুমেন্ট ডাউনলোড করা) সহজ প্রবাহ সহ আধুনিক ওয়েব ফ্রেমওয়ার্কগুলিতে সবচেয়ে ভাল কাজ করেছে। সেলসফোর্স, এর জটিল ফ্রন্ট এন্ড এবং গোলকধাঁধা কাস্টম অবজেক্ট সহ, ত্রুটিগুলি চালু করেছে।
যে বলে, এই পদ্ধতি এখনও একটি সর্বজনীন সমাধান নয়. সমস্ত পদক্ষেপ রেকর্ড করার প্রয়োজনীয়তা এর নমনীয়তাকে সীমিত করে, এবং এটি নির্দিষ্ট প্রবাহের জন্য আগে থেকেই কোড তৈরি করার আরও স্থির পদ্ধতির দিকে ঝুঁকে যায়, যা এক দশক আগে জনপ্রিয় নিয়ম-ভিত্তিক RPA টুলের কথা মনে করিয়ে দেয়। এটি একটি মৌলিক সীমাবদ্ধতাকে হাইলাইট করে: নেটওয়ার্ক অনুরোধে AI যুক্তি যুক্ত করা উত্তেজনাপূর্ণ এবং API নেই এমন সিস্টেমের সাথে একীভূত হওয়ার দরজা খুলে দিতে পারে, এটি এখনও গতিশীল, বৈচিত্র্যময় কর্মপ্রবাহের পরিবর্তে আরও নিয়ন্ত্রিত বা পুনরাবৃত্তিমূলক কাজের জন্য উপযুক্ত। এন্টারপ্রাইজ পরিবেশ।
সেলসফোর্সে এআই-চালিত অটোমেশন সম্পর্কে কোনও কথোপকথন AgentForce উল্লেখ না করে সম্পূর্ণ হবে না, সেলসফোর্স ইকোসিস্টেমের ভিতরে "এজেন্ট" তৈরি করার জন্য মার্ক বেনিওফের বড় বাজি৷ আমরা উপরে পরীক্ষিত অন্যান্য সমাধানগুলির বিপরীতে, যা ডেভেলপার-কেন্দ্রিক এবং বিভিন্ন সিস্টেম জুড়ে কর্মপ্রবাহ স্বয়ংক্রিয় করার লক্ষ্যে, AgentForce একটি নিম্ন-কোড, বিশেষত Salesforce-এর জন্য এমবেডেড সমাধান হিসাবে অবস্থান করছে। এটি অনেকগুলি উপাদান একসাথে প্যাকেজ করে এবং সেলসফোর্স প্ল্যাটফর্মের মধ্যে সমগ্র প্রবাহের উপর ফোকাস করে।
ধারণাটি হল এমন এজেন্ট তৈরি করা যা সম্পূর্ণরূপে সেলসফোর্সে থাকে এবং আপনার কাস্টমাইজেশনের উপর নির্ভর করে। ব্যবহারকারীরা একজন এজেন্টের সাধারণ বিবরণ সংজ্ঞায়িত করে, বিষয় বরাদ্দ করে এবং সংশ্লিষ্ট ক্রিয়াগুলি লিঙ্ক করে যা কোডে বা Salesforce UI-এর মাধ্যমে সংজ্ঞায়িত পূর্বনির্মাণ প্রবাহ। অনুমতি, ব্যবহারকারীর ভূমিকা এবং নির্দেশাবলী তারপরে এজেন্টকে কাজ করতে সক্ষম করার জন্য সেট আপ করা হয়। এই ধারণাটি তাত্ত্বিকভাবে ব্যবসাগুলিকে তাদের বিদ্যমান সেলসফোর্স ডেটা এবং ওয়ার্কফ্লোগুলিকে বিস্তৃত কোডিং ছাড়াই অটোমেশন চালাতে সুবিধা দিতে দেয়।
আমি আমাদের ইবাইক রিসেলার অর্ডার উদাহরণের সাথে সরাসরি AgentForce পরীক্ষা করতে চেয়েছিলাম। দুর্ভাগ্যবশত, আইনস্টাইন (এআই বৈশিষ্ট্য) অ্যাক্সেস প্রয়োজন, যা বিনামূল্যে বিকাশকারী অ্যাকাউন্টে উপলব্ধ নয়। পরিবর্তে, আমি কাল্পনিক "কোরাল বিচ রিসোর্ট" অ্যাপের মাধ্যমে তাদের 30-মিনিটের খেলার মাঠ অন্বেষণ করেছি। পরীক্ষার কাজটি ছিল একটি রিজার্ভেশন তৈরিকে স্বয়ংক্রিয় করার জন্য একটি এজেন্টকে কনফিগার করা, একটি প্রক্রিয়া যা আমাদের ইবাইকের দৃশ্যে রিসেলার অর্ডারের সাথে কিছুটা সাদৃশ্যপূর্ণ।
সেটআপটি বেশ জড়িত ছিল, একাধিক পদক্ষেপের প্রয়োজন ছিল: অনুমতিগুলি সংজ্ঞায়িত করা, বিষয়গুলি সক্ষম করা, পূর্বনির্মাণ ক্রিয়াগুলির সাথে সংযোগ করা, ডেটা ক্ষেত্রগুলি ম্যাপ করা এবং নির্দেশাবলী স্পষ্ট করা৷ কম-কোড সমাধান হিসাবে বিপণন করার সময়, এটি স্পষ্ট হয়ে ওঠে যে সেলসফোর্সের জটিলতা সম্পর্কে গুরুত্বপূর্ণ জ্ঞান প্রয়োজন। যদি একটি কোম্পানির Salesforce উদাহরণে ভালভাবে নথিভুক্ত কাস্টম ক্ষেত্র এবং প্রি-কনফিগার করা অ্যাকশন ফ্লো না থাকে, তাহলে প্রাথমিক উত্তোলন যথেষ্ট হতে পারে। বাস্তবসম্মতভাবে, বেশিরভাগ ব্যবসার সম্ভবত এই এজেন্টগুলিকে সম্পূর্ণরূপে বাস্তবায়ন এবং অপ্টিমাইজ করার জন্য সিস্টেম ইন্টিগ্রেটর বা পরামর্শদাতা আনতে হবে।
AgentForce এর নিয়ম-ভিত্তিক প্রকৃতিও দাঁড়িয়েছে। অটোমেশন সঠিকভাবে কাজ করার জন্য ব্যবহারকারীদের অবশ্যই সাবধানে ম্যাপ করতে হবে যে কোন ক্ষেত্রগুলি পূরণ করা হয়েছে বা পাস করা হয়েছে, এটি কিছু AI-চালিত প্ল্যাটফর্মের তুলনায় আরও বেশি হ্যান্ড-অন করে। যদিও এই পদ্ধতিটি নির্ভুলতা নিশ্চিত করে, এটি শক্তিশালী সেলসফোর্স দক্ষতা এবং বিদ্যমান অবকাঠামোর উপর নির্ভরতাকে শক্তিশালী করে।
যদিও AgentForce নিজেকে সেলসফোর্সের ইকোসিস্টেমের মধ্যে সীমাবদ্ধ রাখে, এর সুবিধা এবং অসুবিধা উভয়ই রয়েছে। একদিকে, এটি একটি প্যাকেজড সমাধান যা একটি একক প্ল্যাটফর্মের মধ্যে প্রমাণীকরণ, ব্যবহারকারীর অনুমতি, টুল সংজ্ঞা এবং অর্কেস্ট্রেশন যুক্তিকে একীভূত করে। অন্যদিকে, অনেক এন্টারপ্রাইজ ওয়ার্কফ্লো একাধিক সিস্টেমে বিস্তৃত, এবং AgentForce-এর নীরব প্রকৃতি বিস্তৃত অটোমেশন প্রয়োজনের জন্য এর প্রয়োগযোগ্যতা সীমিত করে। মার্ক বেনিওফ বলেছেন যে শত শত গ্রাহক ইতিমধ্যে AgentForce ব্যবহার করার জন্য চুক্তি স্বাক্ষর করেছে, তাই এর বিবর্তন পর্যবেক্ষণের যোগ্য হবে।
এই পরীক্ষাগুলি থেকে, এটা স্পষ্ট যে বর্তমান AI এজেন্ট সমাধানগুলি বহু-পদক্ষেপের কাজগুলি সম্পর্কে যুক্তি এবং একটি পরিকল্পনা তৈরি করার একটি শালীন কাজ করতে পারে। আসল চ্যালেঞ্জ হল একটি অগোছালো, বাস্তব-বিশ্বের পরিবেশে মৃত্যুদন্ড কার্যকর করা যাতে এই সিস্টেমগুলি সত্যিকারভাবে কীভাবে আচরণ করে সে সম্পর্কে উপজাতীয় জ্ঞান। গ্রাফিকাল UI গুলি মানুষের মিথস্ক্রিয়ার জন্য তৈরি করা হয়েছিল, এবং প্রতিটি এন্টারপ্রাইজের কাস্টম লজিক জটিলতার একটি ছোট ব্ল্যাক হোলের মতো। এমনকি যদি আপনি হেডলেস অ্যাপ্রোচের জন্য GUI এড়িয়ে যান বা ব্যাকএন্ড এপিআইগুলিকে রিভার্স-ইঞ্জিনিয়ার করেন, তবুও আপনি এজ কেস, প্রমাণীকরণ বাধা, হারের সীমা বা গতিশীল কর্মপ্রবাহের মুখোমুখি হন যা সেরা এলএলএমগুলিকে ফেলে দেয়।
অবশিষ্ট চ্যালেঞ্জগুলি প্রধানত প্রকৌশলগত সমস্যা: শক্তিশালী সরঞ্জাম তৈরি করা, এন্টারপ্রাইজ সিস্টেমের সাথে গভীরভাবে একীভূত করা, পাহারী স্থাপন করা এবং নির্ভরযোগ্য পর্যবেক্ষণ এবং অর্কেস্ট্রেশন কাঠামো তৈরি করা। এগুলি নিবেদিত প্রচেষ্টা এবং বিশেষীকরণের সাথে সমাধানযোগ্য। আজকের এলএলএমগুলি ইতিমধ্যে এক বছর আগে যা উপলব্ধ ছিল তার চেয়ে অনেক বেশি যুক্তির ক্ষমতা প্রদর্শন করে এবং তাদের খরচ দ্রুত হ্রাস পাচ্ছে। এই ক্ষমতাগুলি কার্যকরভাবে স্থাপন করার জন্য প্রয়োজনীয় অবকাঠামো এবং প্রক্রিয়াগুলি নির্মাণের দিকে এখন ফোকাস করা উচিত।
তবুও এই অসুবিধাগুলি স্থির অগ্রগতি ঘটতে পারে না। আমরা ইতিমধ্যেই বিশেষায়িত, উল্লম্বভাবে ফোকাসড AI অটোমেশন (যেমন SDR বা গ্রাহক সহায়তা এজেন্ট) দেখছি যা একটি নিয়ন্ত্রিত ডোমেনে উচ্চ নির্ভুলতা প্রদান করতে পারে। এই একক-ব্যবহারের অটোমেশনগুলির প্রতিটি পরিপক্ক হওয়ার সাথে সাথে আমরা সেগুলিকে বৃহত্তর কর্মপ্রবাহের মধ্যে একসাথে শৃঙ্খলিত দেখতে পারি। এটি শেষ পর্যন্ত হতে পারে কিভাবে আমরা বড় উদ্যোগে শেষ থেকে শেষ অটোমেশন ক্র্যাক করি: একক সাধারণ-উদ্দেশ্য এজেন্ট সবকিছু করার আশা না করে একাধিক বিশেষ এজেন্টকে একত্রিত করে। আপাতত, একটি স্ক্র্যাচ এজেন্ট তৈরির ROI সর্বোচ্চ-আয়তনের কাজগুলি ছাড়া সকলের জন্য পেন্সিল আউট নাও হতে পারে।
এই পরীক্ষা থেকে একটি পাঠ হল বিশেষীকরণের গুরুত্ব। একটি একক ডোমেনে কাছাকাছি-নিখুঁত নির্ভরযোগ্যতা অর্জন করা (উদাহরণস্বরূপ, NetSuite-এ চালান তৈরি করা) উল্লেখযোগ্য সূক্ষ্ম-টিউনিং লাগে। স্টার্টআপ বা অভ্যন্তরীণ দল যারা একটি বিশেষ ওয়ার্কফ্লোতে ফোকাস করে তারা একটি বিস্তৃত, জেনেরিক সমাধানের চেয়ে আরও ভাল অভিজ্ঞতা প্রদান করতে পারে। আমরা ইতিমধ্যেই "উল্লম্ব এজেন্টদের" একটি তরঙ্গ দেখতে পাচ্ছি যেগুলি ফিনান্স, লজিস্টিকস, এইচআর বা সাপ্লাই চেইনের লক্ষ্যযুক্ত কাজগুলি মোকাবেলা করে৷ প্রতিটি এজেন্ট গভীরভাবে একত্রিত হবে, সম্ভবত UI অটোমেশনকে একত্রিত করবে যেখানে সম্ভব হলে সরাসরি API কলের সাথে সাথে ডোমেন-নির্দিষ্ট ফলব্যাক লজিক এবং গার্ডেল।
বড় প্রশ্ন থেকে যায়: 2025 কি সত্যিই সেই বছর হবে যখন এই এজেন্টরা মূলধারায় যাবে, নাকি আমরা দীর্ঘ রানওয়ের দিকে তাকিয়ে আছি? প্রযুক্তি দ্রুত এগিয়ে চলেছে, এবং আশাবাদ প্রচুর। কিন্তু কোড জেনারেশন ভালো হয়ে গেলে যেমন সফটওয়্যার ইঞ্জিনিয়াররা অদৃশ্য হয়ে যায়নি, আমরা সম্ভবত সব প্রক্রিয়ার জন্য "হ্যান্ডস-ফ্রি" এন্টারপ্রাইজ অটোমেশন দেখতে পাব না। পরিবর্তে, আমরা বিশেষায়িত পকেটে পুনরাবৃত্ত উন্নতি দেখতে পাব, অবশেষে সেগুলিকে আংশিক অটোমেশনের মোজাইক হিসাবে একসাথে সেলাই করে।
স্বায়ত্তশাসিত AI এজেন্টদের ধারণাটি সন্দেহাতীতভাবে বাধ্যতামূলক, বিশেষ করে এন্টারপ্রাইজ সেটিংসে যেখানে পুনরাবৃত্তিমূলক কাজগুলি প্রচুর। সম্ভাব্য সুবিধাগুলি - সময় বাঁচানো, ত্রুটিগুলি হ্রাস করা এবং কর্মীদের আরও সৃজনশীল এবং কৌশলগত কাজের উপর ফোকাস করতে সক্ষম করা - প্রচুর। যাইহোক, যদিও এআই এজেন্টদের ভিত্তিগত ক্ষমতা শক্তিশালী, ব্যাপকভাবে গ্রহণের পথটি অন্তর্নিহিত গবেষণার অগ্রগতির পাশাপাশি ইঞ্জিনিয়ারিং চ্যালেঞ্জগুলি কাটিয়ে ওঠার উপর নির্ভর করে।
সঠিক অবকাঠামো তৈরি করা গুরুত্বপূর্ণ: শক্তিশালী টুলিং, নির্ভরযোগ্য ইন্টিগ্রেশন এবং ডোমেন-নির্দিষ্ট সমাধান সু-সংজ্ঞায়িত গার্ডেল এবং অর্কেস্ট্রেশন স্তরগুলির সাথে। বাস্তব-বিশ্বের এন্টারপ্রাইজ সিস্টেমের জটিলতার জন্য বিশেষ সমাধানের প্রয়োজন, এবং এখানেই উল্লম্ব এজেন্টরা এক্সেল করতে পারে। সংকীর্ণ, সু-সংজ্ঞায়িত কর্মপ্রবাহের উপর মনোনিবেশ করা দলগুলিকে তাদের সমাধানগুলিকে উচ্চ মাত্রার নির্ভুলতা এবং নির্ভরযোগ্যতায় পরিমার্জিত করতে দেয়, প্রতিটি ডোমেনের অনন্য চ্যালেঞ্জগুলিকে মোকাবেলা করে৷ সময়ের সাথে সাথে, এই বিশেষ এজেন্টগুলি আন্তঃসংযোগ করতে পারে, অটোমেশনের একটি বিস্তৃত নেটওয়ার্ক তৈরি করে।
2025 চিত্তাকর্ষক অগ্রগতি এবং ক্রমবর্ধমান সংখ্যক পাইলট প্রোগ্রাম নিয়ে আসতে পারে। অটোপাইলটে চলমান বিশ্বের চেয়ে, আমরা নির্দিষ্ট সমস্যা মোকাবেলায় লক্ষ্যযুক্ত, অত্যন্ত কার্যকর অটোমেশনগুলি দেখতে পাব। সম্পূর্ণ এন্টারপ্রাইজ অটোমেশনের দিকে যাত্রা হবে পুনরাবৃত্তিমূলক, বিশেষীকরণ এবং সহযোগিতা দ্বারা চালিত। গতিবেগ তৈরি হচ্ছে, এবং এই ইঞ্জিনিয়ারিং চ্যালেঞ্জগুলি সমাধান করা এন্টারপ্রাইজ উদ্ভাবনের পরবর্তী তরঙ্গের জন্য পথ তৈরি করবে।
(DALL-E তে ফিচার ইমেজ ক্রেডিট)