اگر در روزهای گذشته از «هوشزی» استفاده کرده باشید، احتمالاً با اختلال یا قطعی سرویس مواجه شدهاید. با توجه به اینکه امروز بیش از ۲۰۰ هزار نفر از این چتبات استفاده میکنند، طبیعی است که این اتفاقها برای خیلیها سؤالبرانگیز باشد.
در این نوشته میخواهیم بدون پیچیدگی و بهصورت شفاف توضیح بدهیم چه اتفاقی افتاد، چه چیزهایی تحت تأثیر قرار گرفت و الان در چه وضعیتی هستیم.
ماجرا از کجا شروع شد؟
داستان از ۱۲ اسفند ۱۴۰۴ شروع شد. جایی که بخشی از تأسیسات برقی دیتاسنتری که «هوشزی» روی آن میزبانی میشد، مورد حمله قرار گرفت. در ابتدا تصور میکردیم با یک اختلال محدود روبهرو هستیم، اما کمتر از یک روز بعد، در شب ۱۳ اسفند، حمله دوم اتفاق افتاد.
اینبار شرایط متفاوت بود. سرویس بهطور کامل از دسترس خارج شد و مشخص شد که هم سرورهای اصلی و هم بخشی از زیرساختهای پشتیبان آسیب دیدهاند. همین موضوع باعث شد فرآیند بازگرداندن سرویس، ساده و سریع نباشد.
چه چیزی از دست رفت؟
یکی از سختترین بخشهای این اتفاق، از دست رفتن بخشی از دادهها بود.
این دادهها مربوط به بازهای بودند که همزمان با شروع دفاع مقدس سوم بود. علاوه بر آن، بخشی از سرورهای مرتبط با زیرساخت هوش مصنوعی هم آسیب دیدند؛ چیزی که مستقیماً روی کیفیت پاسخها و پایداری سیستم تأثیر گذاشت.
با این حال، همهچیز از بین نرفته است. تیم فنی از همان ابتدا روی بازیابی دادهها و بازسازی سرویس تمرکز کرد و بخش قابل توجهی از سیستم با استفاده از بکاپها و بازسازی مجدد، به وضعیت عملیاتی برگشت.
تصمیم مهم: جابهجایی زیرساخت
بعد از این اتفاقات، مشخص بود که ادامه کار روی همان زیرساخت نیازمند زمان زیادی برای بازسازی است. به همین دلیل تصمیم گرفتیم کل سیستم را به یک محیط پایدارتر منتقل کنیم.
در ۵ فروردین ۱۴۰۵، «هوشزی» به دیتاسنتر دانشگاه صنعتی شریف منتقل شد. این جابهجایی یکی از مهمترین قدمها برای بازگشت سرویس بود و خوشبختانه خیلی سریع نتیجه داد.
فقط یک روز بعد، در ۶ فروردین، سرویس دوباره در دسترس قرار گرفت و کاربران توانستند از آن استفاده کنند.
اما ماجرا همینجا تمام نشد
در حالی که همهچیز در حال بازگشت به حالت عادی بود، بامداد ۱۷ فروردین یک حمله دیگر اینبار به زیرساخت جدید انجام شد و دوباره باعث اختلال در سرویس شد.
این اتفاق نشان داد که با یک مشکل مقطعی طرف نیستیم و باید نگاه جدیتری به امنیت و پایداری زیرساخت داشته باشیم.
الان در چه وضعیتی هستیم؟
واقعیت این است که هنوز در حال تثبیت شرایط هستیم. اما چند اتفاق مهم در همین مدت افتاده:
زیرساخت در حال بازطراحی است تا وابستگیها کمتر و تابآوری بیشتر شود. سیستمهای بکاپ تقویت شدهاند و بخشهای آسیبدیده زیرساخت هوش مصنوعی در حال بازسازی و بهینهسازی هستند.
هدف ما فقط بازگرداندن سرویس نیست، بلکه ساختن نسخهای پایدارتر از «هوشزی» است که در شرایط مشابه کمتر دچار اختلال شود.
چند کلمه با کاربران هوشزی
ما بهخوبی میدانیم که قطعی سرویس چقدر میتواند آزاردهنده باشد، مخصوصاً وقتی بخشی از کار یا زندگی روزمرهتان به آن وابسته است.
با این حال، در تمام این مدت تلاش کردهایم ارائه سرویس رایگان متوقف نشود و تیمها با تمام توان روی حل مشکلات کار کنند.
حمایت و صبوری شما در این مدت واقعاً برای ما ارزشمند بوده و نقش مهمی در ادامه مسیر دارد.
مسیر پیشرو
اتفاقات اخیر برای ما فقط یک بحران نبود، بلکه یک نقطه بازنگری جدی بود.
در ادامه مسیر، تمرکز اصلی ما روی این خواهد بود که:
- زیرساختی پایدارتر و امنتر بسازیم
- کیفیت پاسخهای چتبات را بهبود بدهیم
- و تجربهای قابل اتکا برای کاربران ایجاد کنیم
در نهایت، هدف ما این است که «هوشزی» فقط به وضعیت قبل برنگردد، بلکه از این مرحله قویتر از گذشته خارج شود.