ছোট চিপস, বড় মাথাব্যথা

ছোট চিপস, বড় মাথাব্যথা

যেহেতু কম্পিউটার চিপগুলির ক্ষুদ্র সুইচগুলি কয়েকটি পরমাণুর প্রস্থে সঙ্কুচিত হয়েছে, চিপগুলির নির্ভরযোগ্যতা বিশ্বের সবচেয়ে বড় নেটওয়ার্কগুলি চালান তাদের জন্য আরেকটি উদ্বেগের কারণ হয়ে দাঁড়িয়েছে৷ অ্যামাজন, ফেসবুক, টুইটার এবং অন্যান্য অনেক সাইটগুলির মতো কোম্পানিগুলি গত বছর ধরে আশ্চর্যজনক বিভ্রাটের সম্মুখীন হয়েছে৷

বিভ্রাটের বিভিন্ন কারণ রয়েছে, যেমন প্রোগ্রামিং ভুল এবং নেটওয়ার্কে যানজট। কিন্তু ক্রমবর্ধমান উদ্বেগ রয়েছে যে ক্লাউড-কম্পিউটিং নেটওয়ার্কগুলি বৃহত্তর এবং আরও জটিল হয়ে উঠেছে, তারা এখনও নির্ভরশীল, সবচেয়ে মৌলিক স্তরে, কম্পিউটার চিপগুলির উপর যা এখন কম নির্ভরযোগ্য এবং কিছু ক্ষেত্রে কম অনুমানযোগ্য।

গত বছরে, Facebook এবং Google উভয়ের গবেষকরা কম্পিউটার হার্ডওয়্যার ব্যর্থতার বর্ণনা দিয়ে গবেষণা প্রকাশ করেছেন যার কারণগুলি সনাক্ত করা সহজ ছিল না। সমস্যাটি, তারা যুক্তি দিয়েছিল, সফ্টওয়্যারে ছিল না - এটি বিভিন্ন কোম্পানির তৈরি কম্পিউটার হার্ডওয়্যারে কোথাও ছিল। গুগল তার গবেষণায় মন্তব্য করতে অস্বীকার করে, যখন ফেসবুক তার গবেষণায় মন্তব্যের জন্য অনুরোধ ফেরত দেয়নি।

"তারা এই নীরব ত্রুটিগুলি দেখছে, মূলত অন্তর্নিহিত হার্ডওয়্যার থেকে আসছে," বলেছেন শুভাশীষ মিত্র, স্ট্যানফোর্ড ইউনিভার্সিটির বৈদ্যুতিক প্রকৌশলী যিনি কম্পিউটার হার্ডওয়্যার পরীক্ষায় বিশেষজ্ঞ। ক্রমবর্ধমানভাবে, মিত্র বলেছেন, লোকেরা বিশ্বাস করে যে উত্পাদন ত্রুটিগুলি এই তথাকথিত নীরব ত্রুটিগুলির সাথে যুক্ত যা সহজে ধরা যায় না।

গবেষকরা উদ্বিগ্ন যে তারা বিরল ত্রুটি খুঁজে পাচ্ছেন কারণ তারা বড় এবং বড় কম্পিউটিং সমস্যাগুলি সমাধান করার চেষ্টা করছেন, যা তাদের সিস্টেমকে অপ্রত্যাশিত উপায়ে চাপ দেয়।

যে কোম্পানিগুলো বড় ডেটা সেন্টার চালায় তারা এক দশকেরও বেশি আগে পদ্ধতিগত সমস্যার রিপোর্ট করতে শুরু করে। 2015 সালে, ইঞ্জিনিয়ারিং প্রকাশনা আইইইই স্পেকট্রামে, টরন্টো বিশ্ববিদ্যালয়ের হার্ডওয়্যার নির্ভরযোগ্যতা অধ্যয়নকারী কম্পিউটার বিজ্ঞানীদের একটি দল রিপোর্ট করেছে যে প্রতি বছর গুগলের মিলিয়ন কম্পিউটারের 4% এর মতো ত্রুটির সম্মুখীন হয়েছে যা সনাক্ত করা যায়নি এবং এর ফলে তাদের অপ্রত্যাশিতভাবে বন্ধ করতে.

একটি মাইক্রোপ্রসেসরে যেখানে কোটি কোটি ট্রানজিস্টর রয়েছে — অথবা ট্রিলিয়ন ক্ষুদ্র সুইচগুলির সমন্বয়ে গঠিত একটি কম্পিউটার মেমরি বোর্ড যা প্রতিটি 1 বা 0 সংরক্ষণ করতে পারে — এমনকি ক্ষুদ্রতম ত্রুটিও সেই সিস্টেমগুলিকে ব্যাহত করতে পারে যা এখন নিয়মিতভাবে প্রতি সেকেন্ডে কোটি কোটি গণনা করে।

সেমিকন্ডাক্টর যুগের শুরুতে, প্রকৌশলীরা মহাজাগতিক রশ্মির সম্ভাবনা নিয়ে উদ্বিগ্ন ছিলেন যে মাঝে মাঝে একটি একক ট্রানজিস্টর ফ্লিপ করে এবং একটি গণনার ফলাফল পরিবর্তন করে। এখন তারা চিন্তিত যে সুইচগুলি ক্রমবর্ধমানভাবে কম নির্ভরযোগ্য হয়ে উঠছে। ফেসবুকের গবেষকরা এমনকি যুক্তি দেন যে সুইচগুলি আরও বেশি পরিশ্রুত হয়ে উঠছে এবং কম্পিউটার মেমরি বা প্রসেসরের জীবনকাল আগের বিশ্বাসের চেয়ে কম হতে পারে।

ক্রমবর্ধমান প্রমাণ রয়েছে যে প্রতিটি নতুন প্রজন্মের চিপগুলির সাথে সমস্যাটি আরও খারাপ হচ্ছে। চিপ নির্মাতা অ্যাডভান্সড মাইক্রো ডিভাইসের 2020 সালে প্রকাশিত একটি প্রতিবেদনে দেখা গেছে যে সেই সময়ের সবচেয়ে উন্নত কম্পিউটার মেমরি চিপগুলি পূর্ববর্তী প্রজন্মের তুলনায় প্রায় 5.5 গুণ কম নির্ভরযোগ্য ছিল। এএমডি প্রতিবেদনে মন্তব্য করার অনুরোধের জবাব দেয়নি।

এই ত্রুটিগুলি ট্র্যাক করা চ্যালেঞ্জিং, বলেছেন ডেভিড ডিটজেল, একজন অভিজ্ঞ হার্ডওয়্যার ইঞ্জিনিয়ার যিনি এস্পেরান্তো টেকনোলজিসের চেয়ারম্যান এবং প্রতিষ্ঠাতা, ক্যালিফোর্নিয়ার মাউন্টেন ভিউতে কৃত্রিম বুদ্ধিমত্তা অ্যাপ্লিকেশনের জন্য ডিজাইন করা একটি নতুন ধরণের প্রসেসরের নির্মাতা৷ তিনি বলেছিলেন যে তার কোম্পানির নতুন চিপ, যা সবেমাত্র বাজারে পৌঁছেছে, 28 বিলিয়ন ট্রানজিস্টর দিয়ে তৈরি 1,000 প্রসেসর রয়েছে।

তিনি চিপটিকে একটি অ্যাপার্টমেন্ট বিল্ডিংয়ের সাথে তুলনা করেছেন যা সমগ্র মার্কিন যুক্তরাষ্ট্রের পৃষ্ঠকে বিস্তৃত করবে। ডিটজেলের রূপক ব্যবহার করে, মিত্রা বলেছিলেন যে নতুন ত্রুটিগুলি খুঁজে পাওয়াটা সেই বিল্ডিংয়ের একটি অ্যাপার্টমেন্টে একক চলমান কলের সন্ধান করার মতো ছিল, যেটি কেবল তখনই কাজ করে যখন বেডরুমের আলো জ্বলে এবং অ্যাপার্টমেন্টের দরজা খোলা থাকে।

এখন অবধি, কম্পিউটার ডিজাইনাররা চিপগুলিতে বিশেষ সার্কিট যুক্ত করে হার্ডওয়্যার ত্রুটিগুলি মোকাবেলা করার চেষ্টা করেছেন যা ত্রুটিগুলি সংশোধন করে। সার্কিটগুলি স্বয়ংক্রিয়ভাবে খারাপ ডেটা সনাক্ত করে এবং সংশোধন করে। এটি একসময় অত্যন্ত বিরল সমস্যা হিসেবে বিবেচিত হত। কিন্তু বেশ কয়েক বছর আগে, গুগল প্রোডাকশন দলগুলি এমন ত্রুটিগুলি রিপোর্ট করতে শুরু করেছিল যেগুলি নির্ণয় করা খুব কঠিন ছিল৷ তাদের রিপোর্ট অনুসারে গণনার ত্রুটিগুলি মাঝে মাঝে ঘটবে এবং পুনরুত্পাদন করা কঠিন ছিল।

গবেষকদের একটি দল সমস্যাটি ট্র্যাক করার চেষ্টা করেছিল এবং গত বছর তারা তাদের ফলাফল প্রকাশ করেছিল। তারা উপসংহারে পৌঁছেছে যে কোম্পানির বিশাল ডেটা সেন্টার, লক্ষ লক্ষ প্রসেসর "কোর" এর উপর ভিত্তি করে তৈরি কম্পিউটার সিস্টেমগুলি নতুন ত্রুটির সম্মুখীন হয়েছে যা সম্ভবত কয়েকটি কারণের সংমিশ্রণ ছিল: ছোট ট্রানজিস্টর যা শারীরিক সীমার কাছাকাছি এবং অপর্যাপ্ত পরীক্ষার।

তাদের গবেষণাপত্র "কোর যে গণনা করা যায় না," গুগল গবেষকরা উল্লেখ করেছেন যে সমস্যাটি যথেষ্ট চ্যালেঞ্জিং ছিল যে তারা ইতিমধ্যেই এটি সমাধানের জন্য কয়েক দশকের প্রকৌশল সময়ের সমতুল্য উত্সর্গ করেছে৷

আধুনিক প্রসেসর চিপগুলি কয়েক ডজন প্রসেসর কোর দ্বারা গঠিত, ইঞ্জিনগুলি গণনা করে যা কাজগুলিকে ভেঙে ফেলা এবং সমান্তরালভাবে সমাধান করা সম্ভব করে। গবেষকরা খুঁজে পেয়েছেন কোরগুলির একটি ক্ষুদ্র উপসেট কদাচিৎ এবং শুধুমাত্র কিছু নির্দিষ্ট অবস্থার অধীনে ভুল ফলাফল তৈরি করে। তারা আচরণকে বিক্ষিপ্ত বলে বর্ণনা করেছে। কিছু ক্ষেত্রে, কম্পিউটিংয়ের গতি বা তাপমাত্রা পরিবর্তন করা হলেই কোরগুলি ত্রুটি তৈরি করবে।

গুগলের মতে, প্রসেসর ডিজাইনে জটিলতা বৃদ্ধি ব্যর্থতার একটি গুরুত্বপূর্ণ কারণ ছিল। কিন্তু প্রকৌশলীরা আরও বলেছেন যে ছোট ট্রানজিস্টর, ত্রিমাত্রিক চিপস এবং নতুন ডিজাইন যা শুধুমাত্র কিছু ক্ষেত্রে ত্রুটি তৈরি করে সবই সমস্যায় অবদান রাখে।

গত বছর প্রকাশিত একটি অনুরূপ গবেষণাপত্রে, Facebook গবেষকদের একটি গ্রুপ উল্লেখ করেছে যে কিছু প্রসেসর নির্মাতাদের পরীক্ষায় উত্তীর্ণ হবে কিন্তু তারপরে তারা যখন মাঠে ছিল তখন ব্যর্থতা প্রদর্শন করতে শুরু করে।

ইন্টেল এক্সিকিউটিভরা বলেছেন যে তারা গুগল এবং ফেসবুকের গবেষণাপত্রের সাথে পরিচিত এবং হার্ডওয়্যার ত্রুটি সনাক্তকরণ এবং সংশোধন করার জন্য নতুন পদ্ধতি বিকাশের জন্য উভয় সংস্থার সাথে কাজ করছে।

ব্রায়ান জর্গেনসেন, ইন্টেলের ডেটা প্ল্যাটফর্ম গ্রুপের ভাইস প্রেসিডেন্ট, বলেছেন যে গবেষকরা যে দাবিগুলি করেছেন তা সঠিক ছিল এবং "শিল্পের কাছে তারা যে চ্যালেঞ্জটি তৈরি করছে তা হল সঠিক জায়গা।"

তিনি বলেন যে ইন্টেল সম্প্রতি ডেটা সেন্টার অপারেটরদের জন্য স্ট্যান্ডার্ড, ওপেন-সোর্স সফ্টওয়্যার তৈরি করতে সহায়তা করার জন্য একটি প্রকল্প শুরু করেছে। সফ্টওয়্যারটি তাদের পক্ষে হার্ডওয়্যার ত্রুটিগুলি খুঁজে বের করা এবং সংশোধন করা সম্ভব করবে যা চিপগুলিতে অন্তর্নির্মিত সার্কিট দ্বারা সনাক্ত করা যাচ্ছে না।

চ্যালেঞ্জটি গত বছর আন্ডারস্কোর করা হয়েছিল, যখন ইন্টেলের বেশ কয়েকজন গ্রাহক তাদের সিস্টেমের দ্বারা সৃষ্ট অনাবিষ্কৃত ত্রুটি সম্পর্কে নীরবে সতর্কতা জারি করেছিল। Lenovo, বিশ্বের বৃহত্তম ব্যক্তিগত কম্পিউটার নির্মাতা, তার গ্রাহকদের জানিয়েছিল যে ইন্টেলের Xeon প্রসেসরের বেশ কয়েকটি প্রজন্মের ডিজাইন পরিবর্তনের মানে হল যে চিপগুলি একটি বড় সংখ্যক ত্রুটি তৈরি করতে পারে যা আগের ইন্টেল মাইক্রোপ্রসেসরের তুলনায় সংশোধন করা যাবে না।

ইন্টেল এই সমস্যা সম্পর্কে প্রকাশ্যে কথা বলেনি, তবে জর্গেনসেন সমস্যাটি স্বীকার করেছে এবং বলেছে যে এটি এখন সংশোধন করা হয়েছে। কোম্পানিটি তার নকশা পরিবর্তন করেছে।

কম্পিউটার প্রকৌশলীরা কীভাবে চ্যালেঞ্জে সাড়া দেবেন তা নিয়ে বিভক্ত। একটি ব্যাপক প্রতিক্রিয়া হল নতুন ধরণের সফ্টওয়্যারের চাহিদা যা সক্রিয়ভাবে হার্ডওয়্যার ত্রুটিগুলির জন্য নজরদারি করে এবং সিস্টেম অপারেটরদের পক্ষে হার্ডওয়্যার অপসারণ করা সম্ভব করে তোলে যখন এটি হ্রাস পেতে শুরু করে। এটি নতুন স্টার্টআপগুলির জন্য একটি সুযোগ তৈরি করেছে যা সফ্টওয়্যার সরবরাহ করে যা ডেটা সেন্টারে অন্তর্নিহিত চিপগুলির স্বাস্থ্যের উপর নজরদারি করে৷

এরকম একটি অপারেশন হল TidalScale, লস গ্যাটোস, ক্যালিফোর্নিয়ার একটি কোম্পানি, যেটি হার্ডওয়্যার বিভ্রাট কমানোর চেষ্টাকারী সংস্থাগুলির জন্য বিশেষ সফ্টওয়্যার তৈরি করে৷ এর প্রধান নির্বাহী গ্যারি স্মারডন পরামর্শ দিয়েছেন যে টাইডালস্কেল এবং অন্যরা একটি প্রভাবশালী চ্যালেঞ্জের মুখোমুখি হয়েছে।

"এটি কিছুটা ইঞ্জিন পরিবর্তন করার মতো হবে যখন একটি বিমান এখনও উড়ছে," তিনি বলেছিলেন।

Next Post Previous Post