CrowdStrike Outage: 5 ประเด็นสำคัญเพื่อเสริมสร้างความยืดหยุ่นของข้อมูลในองค์กรของคุณ

เมื่อวันที่ 19 กรกฎาคม 2024 CrowdStrike พยายามอัปเดต "Falcon Sensor" เพื่อตรวจจับภัยคุกคามและป้องกันอุปกรณ์ แต่เกิดปัญหาระบบล่ม ทำให้ Microsoft Windows จำนวน 8.5 ล้านเครื่องรับผลกระทบจากเหตุการณ์นี้ ซึ่งสร้างความวุ่นวายในระบบ IT และการทำงานทั้วโลก แม้ว่าเหตุการณ์นี้จะไม่เกี่ยวกับการโจมตีทางไซเบอร์หรือมัลแวร์ แต่ก็แสดงให้เห็นว่าการมีแผนสำรองข้อมูลและการมีระบบกู้คืนที่ดีเป็นสิ่งสำคัญสำหรับการป้องกันการหยุดชะงักในการทำงานของธุรกิจ

CrowdStrike สร้างผลกระทบทั่วโลกทันที

การหยุดทำงานของระบบถูกตรวจพบครั้งแรกในออสเตรเลีย โดยที่ "หน้าจอสีน้ำเงินแห่งความตาย" แพร่กระจายไปยัง Windows ทั่วโลก ทำให้เกิดการหยุดชะงักกับผู้ใช้อย่างมากและยังส่งผลกระทบถึงบริษัทและผู้ให้บริการสำคัญๆด้วย เช่นธุรกิจด้านการเงิน IT การผลิตและอื่นๆ Wall Street Journal ได้รายงานว่ามีการยกเลิกเที่ยวบินประมาณ 2,600 เที่ยวในสหรัฐอเมริกา และเที่ยวบินมากกว่า 4,200 เที่ยวทั่วโลกต้องเปลี่ยนไปใช้วิธีเช็คอินแบบ manual

ระยะเวลาการกู้คืน (RTO) ส่งผลกระทบต่อการดำเนินธุรกิจนานแค่ไหน

หลังเหตุการณ์นี้ CrowdStrike ให้การซัพพอร์ตด้านเทคนิคและปล่อยแพตช์เพื่อช่วยฟื้นฟูการทำงานของระบบต่างๆ แต่บางระบบไม่สามารถถูกกู้คืนได้โดยอัตโนมัติผ่านโปรแกรมซ่อมแซม ผู้ดูแลระบบ IT จะต้องบูตอุปกรณ์ที่ได้รับผลกระทบทุกเครื่องด้วยตนเองใน safe mode และลบอัปเดตที่มีปัญหาของ CrowdStrike ออก

แม้ว่า Microsoft จะเสนอวิธีแก้ปัญหา "ลดกระบวนการ" ภายในวันถัดมา ซึ่งช่วยลบไฟล์ที่มีปัญหาโดยอัตโนมัติ แต่งานนี้ยังคงเป็นกระบวนการที่ใช้เวลานาน เพราะว่าผู้ดูแลระบบต้องบูตอุปกรณ์แต่ละเครื่องด้วยตนเองให้เข้าสู่ WinPE ผ่าน USB 

Downtime ทำให้เกิดการหยุดชะงักในการดำเนินงาน การสูญเสียประสิทธิภาพการทำงาน ค่าใช้จ่ายที่เพิ่มเติม ความเสี่ยงที่เพิ่มขึ้น และก่อให้เกิดประสบการณ์ที่ไม่ดีต่อผู้ใช้และอาจทำให้ชื่อเสียงขององค์กรเสื่อมเสีย

สร้างแผนป้องกันข้อมูลที่แข็งแกร่งเพื่อรักษาความต่อเนื่องทางธุรกิจตลอดเวลา

  1. การสำรองข้อมูลอย่างครอบคลุม: การใช้กลยุทธ์การสำรองข้อมูลที่ครอบคลุมแหล่งข้อมูลและอุปกรณ์อย่างสม่ำเสมอ เป็นสิ่งสำคัญสำหรับองค์กรทุกขนาด โดยเฉพาะธุรกิจที่ดำเนินงานข้ามหลายแพลตฟอร์ม
  2. การทดสอบการกู้คืนข้อมูลอย่างสม่ำเสมอ: ความล้มเหลวของอุปกรณ์และระบบเป็นสิ่งที่ไม่สามารถคาดการณ์ได้ เพราะฉะนั้น การทดสอบความสามารถในการกู้คืนข้อมูลสำรองเป็นสิ่งสำคัญในการตรวจสอบความมีประสิทธิภาพและความพร้อมใช้งานของแผนการกู้คืนจากภัยพิบัติ
  3. การกู้คืน VM ทันที: การจำลองบริการเสมือน (virtualizing services) และการกู้คืนการดำเนินงานโดยเร็วที่สุดจะช่วย ลดเวลาหยุดทำงานและรักษาความต่อเนื่องทางธุรกิจ
  4. การกู้คืนข้ามแพลตฟอร์ม: ในกรณีของ CrowdStrike มีแค่แพลตฟอร์มเดียวที่ได้รับผลกระทบ ธุรกิจสามารถลดความเสี่ยงข้อมูลสูญหายได้โดยตรวจสอบให้แน่ใจว่าข้อมูล แอปพลิเคชัน และระบบทั้งหมดสามารถถูกกู้คืนและใช้งานได้ในหลายสภาพแวดล้อม
  5. การสำรองข้อมูลและการกู้คืนข้อมูลนอกสถานที่: นอกเหนือจากการสำรองข้อมูลในสถานที่แล้ว การสำรองข้อมูลนอก สถานที่จะช่วยลดความเสี่ยงของการสูญเสียข้อมูลได้ หากบริษัทได้ใช้การสำรองข้อมูลบนคลาวด์นอกสถานที่ในระหว่างเหตุการณ์ของ CrowdStrike บริษัทสามารถกลับมาให้บริการได้ง่ายจากไซต์สำรองนอกสถานที่นั้น

การสำรองข้อมูลเป็นกุญแจสำคัญในการฟื้นฟูข้อมูล

การสำรองข้อมูลที่ปลอดภัยและการมีแผนการกู้คืนระบบเป็นขั้นตอนสำคัญสำหรับธุรกิจที่มุ่งสู่การเปลี่ยนแปลงทางดิจิทัล (digital transformation) เหตุการณ์ CrowdStrike เน้นย้ำถึงความสำคัญของการสร้างกลยุทธ์การสำรองข้อมูลที่มีประสิทธิภาพและการทดสอบการสำรองข้อมูลเป็นประจำเพื่อรักษาความต่อเนื่องเมื่อเผชิญกับสถานการณ์ที่ไม่คาดคิด

เขียนโดย Tony Lin, Product Marketing Manager, Synology

ใหม่กว่า เก่ากว่า