top of page

การทดสอบ Performance ของ Qwen 2.5 Local LLMs Model กับ GPU Nvidia เพื่อเป็นแนวทางการเลือกใช้สำหรับองค์กร

chakrit00

Updated: 14 minutes ago

สำหรับองค์กรที่สนใจในการนำ Local LLMs มาใช้ภายในองค์กร และกำลังวางแผนเลือกซื้อ Server GPU หรือพิจารณาการเช่าใช้บน Cloud GPU บทความนี้น่าจะเป็นประโยชน์สำหรับคุณ ทีมงาน Softnix R&D มีโซลูชันระบบ Private Generative AI ที่มาพร้อมฮาร์ดแวร์สำเร็จรูป เราจึงได้ทำการทดสอบเพื่อใช้ในการพิจารณาออกแบบและตอบโจทย์ความต้องการของลูกค้า ทั้งในด้านประสิทธิภาพและราคา


จากการทดสอบนี้ ทีมงานเลือกทดสอบกับ Model Qwen 2.5 ของ Alibaba ซึ่งเป็น LLM Local Model ที่มีประสิทธิภาพสูง และเป็น Based Model สำหรับการทำ Fine-tune ของ LLMs หลายตัวที่พัฒนาในประเทศไทย ที่รองรับภาษาไทย เราจึงคิดว่าผลการทดสอบนี้จะสามารถใช้พิจารณาได้ ในกรณีที่เลือกใช้ LLM Model อื่นๆที่ใช้ Based Model เป็น Qwen 2.5


การทดสอบประสิทธิภาพของ GPU Nvidia บนโมเดล Qwen 2.5-Coder


ทีมได้ทำการทดสอบ Nvidia GPU กับโมเดลต่างๆ เพื่อเปรียบเทียบประสิทธิภาพของแต่ละรุ่นว่ามีความแตกต่างกันอย่างไร โดยทีมเลือกใช้ Hugging Face Inference Endpoints ในการทดสอบระบบ รายละเอียดสามารถดูได้จากลิงก์ด้านล่างนี้ครับ



เราเลือกใช้ Nvidia GPU รุ่นต่างๆ ที่สามารถหาซื้อหรือเช่าได้ง่ายในปัจจุบัน ประกอบด้วย L4, L40s และ A100 โดยเราจะใช้

Model LLM ตัวเดียวกันทั้งหมด คือ Qwen2.5-Coder-7B-Instruct เหตุผลที่เลือกใช้ Model 7B

เนื่องจากต้องการทราบประสิทธิภาพของ L4 เพราะ L4 สามารถรัน Model 7B ได้เท่านั้น ไม่สามารถรัน 32B ได้


สำหรับ Context หรือข้อความที่ใช้ทดสอบเป็น Input จะเหมือนกันทุก Model โดยใช้คำว่า

"Why Is the Sky Blue?" และจะเพิ่มข้อความเล็กน้อยว่า "please answer in 'xxx' tokens" เพื่อป้องกันไม่ให้ model ใช้ Cache ในการตอบ โดย Model จะพยายามตอบให้ใกล้เคียงกับจำนวน tokens ที่กำหนด หลังจากนั้นจะจับเวลาโดยรอ Response จาก LLM ที่ stream tokens มาจนถึง token สุดท้าย ซึ่งทำให้ค่าที่ได้เป็นค่าจากการนับ token สุดท้าย ไม่ได้นับจาก token แรก


เปรียบเทียบประสิทธิภาพ GPU รุ่นต่างๆ ของ Nvidia


สำหรับ Nvidia รุ่นที่นำมาทดสอบนั้นก็คือ


  • Nvidia L4 · 1x GPU · 24 GB

  • Nvidia L40S · 1x GPU · 48 GB

  • Nvidia L4 · 4x GPUs · 96 GB

  • Nvidia A100 · 1x GPU · 80 GB

  • Nvidia L40S · 4x GPUs · 192 GB


และผลที่ได้จากการทดสอบก็คือรูปดังต่อไปนี้




จากผลการทดสอบพบว่า

  1. L4 เป็นรุ่นที่ช้าที่สุด โดยใช้เวลา 10-12 วินาทีที่ 200 Token/s

  2. L40S x 1 GPU Card ช้ากว่า L4x4 GPUs Cards เล็กน้อย

  3. A100 มีความเร็วมากกว่า L4x4 GPUs Cards

  4. L40S x 4 GPUs Cards มีความเร็วมากกว่า A100 เล็กน้อย ซึ่งเป็นรุ่นที่เร็วที่สุดในการทดสอบนี้


หรืออธิบายง่าย ๆ ก็คือ ถ้ากราฟความชันสูงหมายถึงช้านั่นเองครับ และจากรูปเมื่อแปลงเป็น Token/s จะได้ผลลัพธ์ดังนี้

Model

GPU

GPU Card

Token/s

Qwen/Qwen2.5-Coder-7B-Instruct

Nvidia L4

1

15.43 token/s

Qwen/Qwen2.5-Coder-7B-Instruct

Nvidia L40S

1

40.42 token/s

Qwen/Qwen2.5-Coder-7B-Instruct

Nvidia L4

4

48.04 token/s

Qwen/Qwen2.5-Coder-7B-Instruct

Nvidia A100

1

70.33 token/s

Qwen/Qwen2.5-Coder-7B-Instruct

Nvidia L40S

4

85.53 token/s



โดยจำนวน Token/s ยิ่งมากยิ่งดี ซึ่งจากกราฟจะพบว่า

  • L40S (4 GPUs) เร็วที่สุดแต่ไม่ได้ทิ้งห่าง A100 มากนัก

  • L4 (1 GPU) และ L40S (1 GPU) ความเร็วต่างกันถึง 2.7 ~ 3 เท่า

  • ส่วน L4 (4 GPUs) ทำความเร็วได้ดีกว่า L4 (1 GPU) ถึง 3.11 เท่า

  • A100 (1 GPU) ทำความเร็วได้มากกว่า L4 (1 GPU) ถึง 4.55 เท่า

  • L40S (4 GPUs) ทำความเร็วได้มากกว่า L4 (1 GPU) ถึง 5.54 เท่า


เปรียบเทียบความเร็วของ Qwen 2.5-Coder 32B และ 7B


หลังจากได้ทำการทดสอบจาก Hugging Face Inference Services บน Cloud แล้ว เราได้ทำการทดสอบจากเครื่อง Internal Server ของเราที่มีอยู่ โดยมี GPU Nvidia L4x2 GPUs Card และใช้เครื่อง HPE DL380 Gen 11 (2U) 16 Core เพื่อเปรียบเทียบกับ Qwen 2.5-Coder 32B และ Qwen 2.5-Coder 7B ว่ามีความเร็ว Token/s ต่างกันเท่าไหร่ ซึ่งก็ได้ผลลัพธ์ดังรูปต่อไปนี้




ซึ่งผลลัพธ์คือ

  • Qwen 2.5-coder:7B สามารถตอบคำถามได้ประมาณ 500 Tokens แต่

  • Qwen2.5-Coder:7B ที่รันบน L4x2 สามารถทำความเร็วได้ถึง 43.37 Token/s ซึ่งเร็วกว่าประมาณ 4 เท่าเมื่อเทียบกับ Qwen2.5-coder:32B

  • Qwen2.5-Coder:7B ที่รันบน L4x2 สามารถทำความเร็วได้ถึง 43.37 Token/s ในขณะที่ L4x4 ทำได้ 48.04 Token/s ซึ่ง L4x4 มีความเร็วมากกว่า L4x2 เล็กน้อย


หมายเหตุ: การตั้งค่าสภาพแวดล้อมและเซิร์ฟเวอร์มีผลต่อผลลัพธ์การทดสอบ เช่น การใช้งาน L4x2 GPUs บนเซิร์ฟเวอร์ DL380 Gen 11 ให้ประสิทธิภาพที่แตกต่างเล็กน้อยเมื่อเทียบกับการรัน L4x4 GPUs บน Hugging Face Endpoint


บทสรุป

Qwen2.5-Coder ที่นำมาทดสอบมีรุ่น 32b และ 7b โดยทีมทดสอบพบว่า 32B มีความเร็วมากกว่าประมาณ 4 เท่า สำหรับรุ่น 7b พบว่า Nvidia L40S (4 GPUs) มีความเร็วสูงสุด (85.53 token/s) และเร็วกกว่า Nvidia L4 (1 GPU) ถึง 5.54 เท่า ขณะที่ Nvidia A100 (1 GPU) ก็มีประสิทธิภาพเหนือกว่า Nvidia L4 (1 GPU) ถึง 4.55 เท่า ทั้งนี้ขึ้นอยู่กับปริมาณการใช้งานในแต่ละวัน หวังว่าบทความนี้จะเป็นประโยชน์สำหรับผู้ที่กำลังมองหา GPU เพื่อ Inference LLM ในองค์กรของท่านครับผม

31 views0 comments

Comments

Rated 0 out of 5 stars.
No ratings yet

Add a rating
bottom of page