4 วิธีที่เราออกแบบโครงสร้างพื้นฐานของ AWS สำหรับ Generative AI

 

เราได้สร้างนวัตกรรมใหม่บนพื้นฐานของโครงสร้างพื้นฐานของเราเพื่อรองรับ Generative AI


Generative AI หรือเทคโนโลยีปัญญาประดิษฐ์แบบสร้างสรรค์ ได้เปลี่ยนแปลงโลกของเราอย่างรวดเร็วเสมือนเกิดขึ้นในพริบตา ภายในระยะเวลาเพียงไม่กี่เดือน การใช้งานเทคโนโลยีใหม่นี้กลายเป็นเรื่องปกติสำหรับบุคคลและองค์กรต่าง ๆ ในการเพิ่มประสิทธิภาพการตัดสินใจ ปรับปรุงประสบการณ์ของลูกค้า และส่งเสริมความคิดสร้างสรรค์และนวัตกรรม อย่างไรก็ตาม โครงสร้างพื้นฐานที่ขับเคลื่อน Generative AI นั้นไม่ได้ถูกพัฒนาขึ้นในช่วงเวลาอันสั้น แต่เป็นผลสืบเนื่องมาจากการพัฒนาอย่างต่อเนื่องยาวนานหลายปี


AI และ Machine Learning (ML) เป็นสิ่งที่ Amazon ให้ความสำคัญมานานกว่า 25 ปีแล้ว ความสามารถหลายอย่างของ Amazon ที่ลูกค้าใช้งานอยู่ประจำวันนั้นขับเคลื่อนด้วยเทคโนโลยี ML เช่น การแนะนำสินค้าและการตัดสินใจเกี่ยวกับการจัดการบรรจุภัณฑ์ ภายใน อะเมซอน เว็บ เซอร์วิสเซส (Amazon Web Services: AWS) เราได้มุ่งเน้นที่จะนำความรู้และความสามารถเหล่านี้มาสู่ลูกค้าของเรา โดยการนำ ML มาไว้ในมือของนักพัฒนา นักวิทยาศาสตร์ข้อมูล และผู้เชี่ยวชาญต่าง ๆ ปัจจุบัน Generative AI ได้กลายเป็นธุรกิจที่มีรายได้หลายพันล้านดอลลาร์สำหรับ AWS แล้ว โดยมีลูกค้ากว่า 100,000 รายจากหลากหลายอุตสาหกรรม อาทิ adidas, New York Stock Exchange, Pfizer, Ryanair และ Toyota กำลังใช้บริการ AI และ ML ของ AWS เพื่อสร้างประสบการณ์ใหม่ให้กับลูกค้าของตน นอกจากนี้ โมเดล Generative AI ชั้นนำจำนวนมากก็ได้รับการฝึกฝนและใช้งานบน AWS เช่นกัน


งานทั้งหมดนี้ได้รับการสนับสนุนจากโครงสร้างพื้นฐานระดับโลกของ AWS ซึ่งประกอบด้วยศูนย์ข้อมูล เครือข่ายระดับโลก และชิปปัญญาประดิษฐ์ได้รับการออกแบบเป็นพิเศษ ไม่มีอัลอัลกอริธึมใดสามารถบีบอัดประสบการณ์ได้ และเนื่องจาก AWS มีประสบการณ์ในการสร้างศูนย์ข้อมูลขนาดใหญ่มาเป็นเวลากว่า 15 ปี และสร้างเซิร์ฟเวอร์ที่มี GPU มาแล้วกว่า 12 ปี ดังนั้น AWS จึงมีโครงสร้างพื้นฐาน AI ที่มีขนาดใหญ่และพร้อมใช้งานอยู่แล้ว


AWS ยังคงพัฒนาและปรับปรุงโครงสร้างพื้นฐานที่แข็งแกร่งของเราอย่างต่อเนื่อง เพื่อให้ทันต่อการเปลี่ยนแปลงอย่างรวดเร็วของโลก นอกจากนี้ เรายังคงนำเสนอนวัตกรรมใหม่ ๆ โดยเฉพาะอย่างยิ่งสำหรับเทคโนโลยี Generative AI ต่อไปนี้เป็นวิธีการสำคัญบางประการที่เรากำลังนำนวัตกรรมมาใช้กับโครงสร้างพื้นฐานระดับโลกของเรา เพื่อสนับสนุนการใช้งาน Generative AI ในวงกว้าง


1. การส่งมอบการเชื่อมต่อเครือข่ายขนาดใหญ่ที่มีความหน่วงต่ำ

โมเดล Generative AI ต้องการข้อมูลจำนวนมากในการฝึกเพื่อให้สามารถทำงานได้อย่างมีประสิทธิภาพ ยิ่งโมเดลมีขนาดใหญ่และซับซ้อนมากเท่าไร ระยะเวลาในการฝึกก็จะยาวนานขึ้นเท่านั้น เมื่อเวลาในการฝึกเพิ่มขึ้น ไม่เพียงแต่จะส่งผลให้ต้นทุนการดำเนินงานสูงขึ้นเท่านั้น แต่ยังชะลอความก้าวหน้าในการพัฒนานวัตกรรมด้วย เครือข่ายแบบดั้งเดิมไม่สามารถรองรับความต้องการความหน่วงต่ำ (low latency) และขนาดข้อมูลที่ใหญ่ซึ่งจำเป็นสำหรับการฝึกโมเดล Generative AI ได้อย่างเพียงพอ


ที่ AWS เราทำงานอย่างต่อเนื่องเพื่อลดความหน่วงของเครือข่ายและเพิ่มประสิทธิภาพให้กับลูกค้า วิธีการของเรามีความพิเศษเนื่องจากเราได้พัฒนาอุปกรณ์เครือข่ายและระบบปฏิบัติการเครือข่ายของเราเองสำหรับทุกชั้นของสถาปัตยกรรม ตั้งแต่การ์ดเครือข่าย สวิตช์ท็อปออฟแรค เครือข่ายภายในศูนย์ข้อมูล เราเตอร์ที่เชื่อมต่อกับอินเทอร์เน็ต ไปจนถึงเราเตอร์หลัก วิธีการนี้ไม่เพียงให้เราควบคุมการปรับปรุงด้านความปลอดภัย ความน่าเชื่อถือ และประสิทธิภาพสำหรับลูกค้าได้มากขึ้นเท่านั้น แต่ยังช่วยให้เราสามารถนำนวัตกรรมใหม่ ๆ มาใช้ได้อย่างรวดเร็วกว่าผู้อื่น ตัวอย่างเช่น ในปี 2562 เราได้นำเสนอ Elastic Fabric Adapter (EFA) ซึ่งเป็นการ์ดเครือข่ายที่ AWS พัฒนาขึ้นเองและให้ความสามารถในการบายพาสระบบปฏิบัติให้กับ Amazon EC2 instances ทำให้ลูกค้าสามารถรันแอปพลิเคชันที่ต้องการการสื่อสารระหว่างโหนดในระดับสูงได้ในระดับขนาดใหญ่ EFA ใช้ Scalable Reliable Datagram (SRD) ซึ่งเป็นโปรโตคอลการสื่อสารเครือข่ายประสิทธิภาพสูงและเวลาหน่วงต่ำที่ AWS ออกแบบมาโดยเฉพาะสำหรับ AWS


ล่าสุด เราได้เร่งพัฒนาเครือข่ายใหม่สำหรับงาน Generative AI ที่มีประสิทธิภาพสูงขึ้น เครือข่าย UltraCluster รุ่นแรกที่สร้างในปี 2563 สามารถรองรับ GPU ได้ถึง 4,000 ตัว โดยมีค่าความหน่วงระหว่างเซิร์ฟเวอร์เพียง 8 ไมโครวินาที เครือข่าย UltraCluster 2.0 รุ่นใหม่ สามารถรองรับ GPU มากกว่า 20,000 ตัว และลดความหน่วงลงได้ถึง 25% ทั้งนี้ การพัฒนาเครือข่ายรุ่นใหม่นี้ใช้เวลาเพียง 7 เดือนเท่านั้น ซึ่งความรวดเร็วในการพัฒนาเป็นไปได้เนื่องจากการลงทุนในอุปกรณ์เครือข่ายและซอฟต์แวร์ที่ออกแบบเองมาหลายปีแล้ว ภายในบริษัท เรามักเรียกเครือข่าย UltraCluster 2.0 ว่า '10p10u' เนื่องจากมีอัตราการรับส่งข้อมูลสูงถึงหลายสิบพีตาบิตต่อวินาที และมีเวลารอบรับส่งน้อยกว่า 10 ไมโครวินาที เครือข่ายใหม่นี้ช่วยลดระยะเวลาในการฝึกโมเดลภาษาขนาดใหญ่ (LLM) ได้อย่างน้อย 15% เมื่อเทียบกับเครือข่ายรุ่นก่อนหน้า


2. การปรับปรุงประสิทธิภาพการใช้พลังงานในศูนย์ข้อมูลของเราอย่างต่อเนื่อง

การฝึกและรันโมเดล AI ใช้พลังงานเป็นจำนวนมาก ดังนั้น ความพยายามในการเพิ่มประสิทธิภาพการใช้พลังงานจึงมีความสำคัญอย่างยิ่ง AWS มุ่งมั่นที่จะดำเนินธุรกิจอย่างมีประสิทธิภาพเพื่อลดผลกระทบต่อสิ่งแวดล้อม นอกจากเป็นสิ่งที่ถูกต้องที่ควรทำสำหรับชุมชนและโลกของเราแล้ว การลดผลกระทบต่อสิ่งแวดล้อมยังช่วยให้ AWS สามารถลดต้นทุนได้ด้วย และเราสามารถส่งผ่านประโยชน์จากการประหยัดต้นทุนเหล่านี้ไปยังลูกค้า เราได้มุ่งมั่นปรับปรุงประสิทธิภาพการใช้พลังงานในโครงสร้างพื้นฐานของศูนย์ข้อมูลเป็นเวลานานหลายปีแล้วที่ ตัวอย่างเช่น

  • การเพิ่มประสิทธิภาพการไหลเวียนของอากาศและอายุการใช้งานของสื่อทำความเย็นในระบบทำความเย็นของศูนย์ข้อมูล
  • การใช้วิธีการจำลองขั้นสูงเพื่อทำความเข้าใจว่าศูนย์ข้อมูลจะทำงานอย่างไรก่อนที่จะสร้าง และเพื่อปรับปรุงวิธีการวางตำแหน่งเซิร์ฟเวอร์ในแร็คและในห้องข้อมูล ทำให้เราสามารถใช้ประโยชน์จากพลังงานได้อย่างมีประสิทธิภาพสูงสุด
  • การสร้างศูนย์ข้อมูลให้มีการปล่อยคาร์บอนต่ำ โดยใช้คอนกรีตและเหล็กที่มีคาร์บอนต่ำ และเปลี่ยนไปใช้น้ำมันพืชไฮโดรเทรทสำหรับเครื่องกำเนิดไฟฟ้าสำรอง


งานวิจัยใหม่จาก Accenture ชี้ให้เห็นว่าความพยายามในการปรับปรุงประสิทธิภาพของโครงสร้างพื้นฐานคลาวด์ก่อให้เกิดผลดี งานวิจัยประมาณการว่าโครงสร้างพื้นฐานของ AWS มีประสิทธิภาพสูงกว่าระบบภายในองค์กรถึง 4.1 เท่า และเมื่อมีการปรับใช้งานบน AWS อย่างเหมาะสม ปริมาณก๊าซเรือนกระจกที่ปล่อยออกมาจากงานที่เกี่ยวข้องสามารถลดลงได้มากถึง 99% อย่างไรก็ตาม แม้จะมีความก้าวหน้าดังกล่าว เรายังไม่สามารถหยุดพัฒนาได้ เนื่องจากความต้องการใช้พลังงานมีแนวโน้มเพิ่มขึ้นอย่างต่อเนื่อง


ชิป AI สามารถทำการคำนวณทางคณิตศาสตร์ได้อย่างรวดเร็ว ทำให้มีความสำคัญสำหรับโมเดล ML อย่างไรก็ตาม ชิปเหล่านี้ยังปล่อยความร้อนมากกว่าชิปประเภทอื่น ๆ ดังนั้น เซิร์ฟเวอร์ AI ใหม่ที่ต้องการพลังงานสูงกว่า 1,000 วัตต์ต่อชิปจะต้องใช้ระบบระบายความร้อนด้วยของเหลว อย่างไรก็ดี AWS มีบางบริการที่ใช้โครงสร้างพื้นฐานด้านเครือข่ายและพื้นที่จัดเก็บข้อมูล ซึ่งไม่จำเป็นต้องใช้ระบบระบายความร้อนด้วยของเหลว ดังนั้น การใช้ของเหลวระบายความร้อนสำหรับโครงสร้างพื้นฐานเหล่านี้จึงเป็นการใช้พลังงานอย่างไม่มีประสิทธิภาพ การออกแบบศูนย์ข้อมูลล่าสุดของ AWS ได้ผสานการระบายความร้อนด้วยอากาศที่ได้รับการปรับแต่ง เข้ากับความสามารถในการระบายความร้อนด้วยของเหลวสำหรับชิปเซ็ต AI ที่มีประสิทธิภาพสูงสุด อย่าง NVIDIA Grace Blackwell Superchips การออกแบบระบบระบายความร้อนแบบหลายรูปแบบที่ยืดหยุ่นนี้ ทำให้เราสามารถดึงประสิทธิภาพการทำงานได้อย่างเต็มที่ ไม่ว่าจะเป็นการประมวลผลงานทั่วไปหรือโมเดล AI/ML ทีมงานของเราได้ออกแบบศูนย์ข้อมูลอย่างละเอียดรอบด้าน ตั้งแต่การวางผังแร็ค ระบบจ่ายกระแสไฟฟ้า ไปจนถึงเทคนิคการระบายความร้อน เพื่อให้สามารถใช้พลังงานได้อย่างมีประสิทธิภาพสูงสุดอย่างต่อเนื่อง ไม่ว่าปริมาณงานประมวลผลจะมากน้อยเพียงใด


3. ความปลอดภัยถือเป็นพื้นฐานที่สำคัญ

หนึ่งในคำถามที่ลูกค้าถามบ่อยที่สุดเมื่อพวกเขาอยากเริ่มใช้งานเทคโนโลยี Generative AI คือ พวกเขาจะปกป้องข้อมูลที่มีความละเอียดอ่อนและสำคัญของตนได้อย่างไร ที่ AWS ความปลอดภัยเป็นสิ่งสำคัญสูงสุด และได้ถูกสร้างขึ้นเป็นส่วนหนึ่งในทุกสิ่งที่เราทำ โครงสร้างพื้นฐานของเราได้รับการเฝ้าระวังอย่างต่อเนื่องตลอด 24 ชั่วโมง เมื่อข้อมูลมีการเคลื่อนย้ายระหว่างศูนย์ข้อมูลของเรา ข้อมูลนั้นจะถูกเข้ารหัสในระดับเครือข่ายพื้นฐานเพื่อความปลอดภัย ซึ่งแตกต่างจากบริการคลาวด์อื่น ๆ ที่อาจไม่ได้มีมาตรฐานความปลอดภัยในระดับเดียวกัน ด้วยเหตุนี้จึงทำให้บริษัทจำนวนมากเลือกที่จะใช้บริการ AI บน AWS


AWS ได้รับการออกแบบให้เป็นโครงสร้างพื้นฐานระบบคลาวด์ที่มีความปลอดภัยและน่าเชื่อถือสูงสุดในระดับโลก เราใช้หลักการสำคัญ 3 ประการในการรักษาความปลอดภัยของโครงสร้างพื้นฐาน AI ดังนี้ 1) การแยกข้อมูล AI ออกจากผู้ให้บริการโครงสร้างพื้นฐานอย่างสมบูรณ์ ซึ่งหมายความว่าผู้ให้บริการโครงสร้างพื้นฐานจะไม่สามารถเข้าถึงเนื้อหาของลูกค้าและข้อมูล AI เช่น ค่าน้ำหนักของโมเดล AI และข้อมูลที่ผ่านการประมวลผลด้วยโมเดลได้เลย 2) ความสามารถสำหรับลูกค้าในการแยกข้อมูล AI ออกจากตนเอง ซึ่งหมายความว่าข้อมูลจะไม่สามารถเข้าถึงได้จากผู้ใช้และซอฟต์แวร์ของลูกค้าเอง และ 3) การป้องกันการสื่อสารของโครงสร้างพื้นฐาน หมายถึงการสื่อสารระหว่างอุปกรณ์ในโครงสร้างพื้นฐานสำหรับ ML accelerator จะต้องได้รับการป้องกันด้วยมาตรการรักษาความปลอดภัยที่เข้มงวด เพื่อป้องกันการเข้าถึงโดยไม่ได้รับอนุญาต


ในปี 2560 เราได้เปิดตัว AWS Nitro System ซึ่งเป็นการออกแบบฮาร์ดแวร์และซอฟต์แวร์เฉพาะที่ช่วยปกป้องรหัสและข้อมูลของลูกค้าจากการเข้าถึงโดยไม่ได้รับอนุญาตในระหว่างการประมวลผล AWS Nitro System ตอบสนองหลักการแรกของโครงสร้างพื้นฐาน Secure AI โดยแยกข้อมูล AI ของลูกค้าออกจากผู้ปฏิบัติงานของ AWS หลักการที่สองได้รับการตอบสนองโดยโซลูชันที่ผสานรวมระหว่าง AWS Nitro Enclaves และ AWS Key Management Service (AWS KMS) ด้วยเทคโนโลยีเหล่านี้ ลูกค้าสามารถเข้ารหัสข้อมูล AI ที่ละเอียดอ่อนโดยใช้คีย์ที่พวกเขาเป็นเจ้าของและควบคุม จัดเก็บข้อมูลนั้นในสถานที่ที่พวกเขาเลือก และส่งข้อมูลที่ได้รับการเข้ารหัสแล้วอย่างปลอดภัยไปยังพื้นที่สำหรับการประมวลผลที่แยกออกมาโดยเฉพาะเพื่อประมวลผลข้อมูล ตลอดกระบวนการนี้ ข้อมูล AI ที่ละเอียดอ่อนจะถูกเข้ารหัสและแยกออกจากผู้ใช้และซอฟต์แวร์ของตัวเองบน EC2 instance และผู้ปฏิบัติงานของ AWS ไม่สามารถเข้าถึงข้อมูลนี้ได้ ก่อนหน้านี้ Nitro Enclaves ทำงานเฉพาะใน CPU เมื่อไม่นานมานี้ เราได้ก้าวไปอีกขั้นหนึ่งด้วยการประกาศแผนการขยายความสามารถของ Nitro ให้รองรับการเข้ารหัสแบบ end-to-end ผสานร่วมกับ ML accelerator และ GPU ในระดับสูงสุด ซึ่งตอบสนองหลักการข้อที่สาม


4. ชิป AI ของ AWS

ชิปที่ขับเคลื่อน Generative AI นั้นมีความสำคัญอย่างยิ่ง เนื่องจากส่งผลต่อความรวดเร็ว ต้นทุนที่ต่ำ และความยั่งยืนในการฝึกและใช้งานโมเดล AWS มุ่งมั่นนำนวัตกรรมมาใช้เพื่อลดต้นทุนของบริการต่าง ๆ มาเป็นเวลานานหลายปี ซึ่งบริการด้าน AI ก็ไม่ได้มีข้อแตกต่าง โดยการช่วยลูกค้าให้สามารถควบคุมต้นทุนได้อย่างมีประสิทธิภาพ ทำให้เรามั่นใจได้ว่า AI สามารถเข้าถึงได้จากลูกค้าทุกขนาดและทุกอุตสาหกรรม ในช่วงหลายปีที่ผ่านมา AWS ได้ออกแบบชิป AI ของตนเองขึ้นมา ได้แก่ AWS Trainium และ AWS Inferentia ชิปเหล่านี้ถูกสร้างขึ้นมาโดยเฉพาะเพื่อให้ได้ประสิทธิภาพและราคาที่ดีเยี่ยม ทำให้การฝึกและใช้งานโมเดล Generative AI มีประสิทธิภาพในการใช้พลังงานสูงขึ้น AWS Trainium ถูกออกแบบมาเพื่อเพิ่มประสิทธิภาพในการฝึกโมเดล ML โดยสามารถเพิ่มความเร็วได้ถึง 50% และลดต้นทุนลงได้เมื่อเทียบกับการใช้ Amazon EC2 instances ที่เหมาะสำหรับการฝึกอื่น ๆ ในขณะที่ AWS Inferentia ช่วยให้โมเดลสามารถสร้างการคาดการณ์ได้อย่างรวดเร็วและมีต้นทุนที่ต่ำกว่า โดยมีประสิทธิภาพราคาที่ดีกว่าถึง 40% เมื่อเทียบกับการใช้ Amazon EC2 instances สำหรับการคาดการณ์อื่น ๆ ความต้องการใช้ชิป AI ของ AWS จึงมีค่อนข้างสูง เนื่องจากมีประสิทธิภาพราคาที่ดีกว่าทางเลือกอื่น ๆ ที่มีอยู่ Trainium2 เป็นชิป AI รุ่นที่สามของ AWS และจะให้บริการในปีนี้ Trainium2 ถูกออกแบบมาให้มีความเร็วในการฝึกสูงกว่ารุ่นก่อนหน้า โดยมีความเร็วในการฝึกสูงกว่าชิป Trainium รุ่นแรกถึง 4 เท่า และสามารถนำไปใช้งานใน EC2 UltraClusters ได้ถึง 100,000 ชิป ด้วยประสิทธิภาพที่เพิ่มขึ้นนี้ จะทำให้สามารถฝึก foundation models และโมเดลภาษาขนาดใหญ่ได้อย่างรวดเร็วภายในเสี้ยววินาที นอกจากนี้ Trainium2 ยังช่วยเพิ่มประสิทธิภาพการใช้พลังงานได้ถึง 2 เท่า


นอกจากนี้ AWS ยังร่วมมือกับพาร์ทเนอร์ชั้นนำ เช่น NVIDIA, Intel, Qualcomm และ AMD เพื่อนำเสนอ accelerator ที่หลากหลายที่สุดบนคลาวด์สำหรับแอปพลิเคชัน ML และ Generative AI โดย AWS จะพัฒนานวัตกรรมอย่างต่อเนื่องเพื่อสร้างชิปรุ่นใหม่ที่มีประสิทธิภาพสูงและคุ้มค่าต่อการลงทุนมากขึ้นสำหรับลูกค้า


ในยุคที่เทคโนโลยี AI กำลังเติบโตอย่างรวดเร็ว องค์กรต่าง ๆ จำเป็นต้องเลือกใช้โครงสร้างพื้นฐานด้านคอมพิวเตอร์ที่เหมาะสม เพื่อลดต้นทุนและรับประกันประสิทธิภาพสูงสุด ที่ AWS เราภูมิใจที่ได้นำเสนอโครงสร้างพื้นฐานที่มีความปลอดภัยสูง ประสิทธิภาพดีเยี่ยม ต้นทุนคุ้มค่า และประหยัดพลังงานอย่างมาก ซึ่งเหมาะสมอย่างยิ่งสำหรับการสร้างและขยายขีดความสามารถของแอปพลิเคชัน ML ให้แก่ลูกค้าของเรา

ใหม่กว่า เก่ากว่า