?

معايير الانتشار المستقر: أي وحدة معالجة الرسومات التي تعمل AI أسرع (تم تحديثها)

سنصل إلى بعض أرقام الأداء الحسابية النظرية الأخرى في لحظة ، ولكن مرة أخرى فكر في RTX 2080 TI و RTX 3070 TI كمثال. . . . ينطبق نفس المنطق على مقارنات أخرى مثل 2060 و 3050 ، أو 2070 Super و 3060 Ti.

?

? لقد جئت إلى المكان المناسب.

لا شك أن الانتشار المستقر هو أداة توليد فن AI سريعة وبديهية مثل Dall-E و Midjourney. نتائجها مثيرة للإعجاب ، لذلك لديها ملايين المستخدمين الآن. ومع ذلك ، إذا كنت ترغب في استخدامه على جهاز الكمبيوتر الخاص بك ، فتأكد من الوفاء بالمتطلبات ، خاصة عندما يتعلق الأمر ببطاقات الرسومات. .

. إنها ضرورية لإنشاء فن من الذكاء الاصطناعى على مستوى تجاري أو مهني أكثر.

أدوات AI الأساسية

صفقة حصرية 10000 ائتمانات مكافأة مجانية

. . .

جرب القوة الكاملة لمولد محتوى الذكاء الاصطناعى الذي يقدم نتائج متميزة بالثواني. . .

فقط 0 دولار.00015 لكل كلمة!

وينستون كاشف AI

وينستون AI: كاشف الذكاء الاصطناعي الأكثر ثقة. Winston AI هي الصناعة التي تقود أداة الكشف عن محتوى الذكاء الاصطناعي للمساعدة في التحقق. اقرأ أكثر

.

… . يكتشف عبر رسائل البريد الإلكتروني ومستندات Google ومواقع الويب. اقرأ أكثر

. دليل الكمبيوتر المدعوم من القارئ. . يتعلم أكثر

هل تحتاج إلى بطاقة رسومات من الانتشار المستقر حتى تعمل? ? هيا نكتشف.

?

. لأحد الحد الأدنى ، انظر إلى نماذج NVIDIA من 8 إلى 10 غيغابايت. .

ستعمل وحدة معالجة الرسومات على انتشار مستقر دون مواجهة مشكلات مثل سرعة الاستجابة أبطأ. إن القول بأن الانتشار المستقر يعمل بشكل حصري على بطاقة الرسومات لن يكون خطأ. . .

هل من الممكن تشغيل انتشار مستقر على وحدة معالجة الرسومات AMD?

. ومع ذلك ، لاستخدام AMD ، تأكد من أن لديك نموذجًا فوق RX470. .

الأسئلة الشائعة

يمكن أن يعمل الانتشار المستقر على معالجات Apple Mac?

. ومع ذلك ، فإنه يدعم فقط نماذج M1 و M1 المستندة إلى السيليكون. . حتى نموذج M1 و M2 الأقدم سيكون على ما يرام إذا كان يفي بالمتطلبات.

. . لذلك ، من أجل الانتشار المستقر ، من الأفضل أن يكون لديك وحدة معالجة الرسومات. . .

. . إذا كنت بحاجة إلى أفكار حول أي شخص يذهب إليه ، تحقق من جولة أفضل بطاقات الرسومات هنا.

معايير الانتشار المستقر: أي وحدة معالجة الرسومات التي تعمل AI أسرع (تم تحديثها)

. . ?

لقد قمنا بتقييم الانتشار المستقر ، وهو منشئ صور AI شهير ، على أحدث NVIDIA ، AMD ، وحتى Intel GPUs لمعرفة كيف تتراكم. ! . الملخص القصيرة هو أن وحدات معالجة الرسومات في NVIDIA هي ROOST ، مع تصميم معظم البرامج باستخدام CUDA وغيرها من أدوات NVIDIA. .

لقد انتهى الأمر باستخدام ثلاثة مشاريع نشر مستقرة مختلفة لاختبارنا ، في الغالب لأنه لا توجد حزمة واحدة تعمل على كل وحدة معالجة الرسومات. بالنسبة إلى NVIDIA ، اخترنا إصدار Webui التلقائي 1111 ؛ كان أداء أفضل ، وكان لديه المزيد من الخيارات ، وكان من السهل الجري الجري. .. . الوظيفة الأساسية.

إخلاء المسئولية بالترتيب. لم نرمز لأي من هذه الأدوات ، لكننا بحثنا عن الأشياء التي كان من السهل الجري (تحت Windows) والتي يبدو أنها محسّنة بشكل معقول. . وفي الوقت نفسه ، كانت نتائج RTX 40-Series أقل في البداية ، لكن جورج SV8ARJ قدم هذا الإصلاح ، حيث أعطى استبدال Pytorch Cuda DLLS دفعة صحية للأداء.

نتائج AMD هي أيضًا حقيبة مختلطة: تعمل RDNA 3 GPU بشكل جيد للغاية في حين أن وحدات معالجة الرسومات RDNA 2 تبدو متواضعة إلى حد ما. .AI أخبرنا أنهم ما زالوا يعملون على نماذج “ضبط” لـ RDNA 2 ، والتي يجب أن تعزز الأداء قليلاً (يحتمل أن تكون مضاعفة) بمجرد توفرها. أخيرًا ، على وحدات معالجة الرسومات Intel ، على الرغم من أن الأداء النهائي يبدو أنه يصطف بشكل لائق مع خيارات AMD ، في الممارسة العملية ، يكون الوقت الذي يقدم تحدث أشياء خلفية إضافية تبطئها.

. .يستخدم نسخة قرش الذكاء الاصطناعى SD2.1 ، في حين يستخدم أوتوماتيكي 1111 و Openvino SD1..1 على أوتوماتيكي 1111). .

. , أطول لإكمال). إنها نفس المطالبات ولكن استهداف 2048×1152 بدلاً من 512×512 استخدمناها في معاييرنا. لاحظ أنه تم اختيار الإعدادات التي اخترناها للعمل في جميع مشاريع SD الثلاثة ؛ تتوفر بعض الخيارات التي يمكن أن تحسن الإنتاجية فقط في بناء Automatic 1111 ، ولكن المزيد حول ذلك لاحقًا. فيما يلي الإعدادات ذات الصلة:

موجب إيجابي:
مدينة steampunk postapocalyptic ، الاستكشاف ، السينمائي ، الواقعية ، التفصيلية المفرطة ، التفاصيل الواقعة الواقعة ، الضوء الحجمي ، (((التركيز)) ، الزاوية الواسعة ، (((مضاءة بألوان زاهية))) ، ((((النباتات))) ، البرق ، الكروم ، الدمار ، الدمار ، الستائر ، الأنقاض


(((ضبابي))) ، ((ضبابية)) ، (((مظلم))) ، ((أحادي اللون)) ، الشمس ، ((عمق المجال)))))



.

خوارزمية أخذ العينات:
بعض متغيرات Euler (الأجداد في Automatic 1111 ، Shark Euler منفصلة على AMD)

لا يبدو أن خوارزمية أخذ العينات تؤثر بشكل كبير على الأداء ، على الرغم من أنها يمكن أن تؤثر على الإخراج. .

فيما يلي نتائج اختبارنا لـ AMD RX 7000/6000-Series و NVIDIA RTX 40/3. لاحظ أن كل وحدة معالجة الرسومات NVIDIA لها نتيجتين ، واحدة تستخدم النموذج الحسابي الافتراضي (أبطأ وفي الأسود) والثانية باستخدام مكتبة “Xformers” الأسرع من Facebook (أسرع والأخضر).

. . .

تسقط الأمور بطريقة متسقة إلى حد ما من أفضل البطاقات في GPUs NVIDIA ، من 3090 إلى 3050. وفي الوقت نفسه ، يربط AMD’s RX 7900 XTX RTX 3090 TI (بعد إعادة الاختبار الإضافية) بينما يربط RX 7900 XT RTX 3080 TI. تبدو بطاقات 7900 جيدة جدًا ، في حين تنتهي كل بطاقة RTX 30-Series بتغلب على أجزاء AMD من RX 6000 (في الوقت الحالي). أخيرًا ، يأتي وحدة معالجة الرسومات Intel Arc تقريبًا تقريبًا ، حيث تمكنت A770 فقط من تفوق RX 6600. .

يمكن أن تضاعف التحسينات المناسبة الأداء على بطاقات RX 6000-Series. إيماءة.. الحديث عن إيماءة..52 IT/S على 4090 ، 13…76 في 3090 – لم نتمكن من اختبار البطاقات الأخرى حيث يجب تمكينها أولاً).

استنادًا إلى أداء 7900 بطاقة باستخدام النماذج المضبوطة ، نحن فضوليون أيضًا حول بطاقات NVIDIA ومقدار الاستفادة من نوى الموترات الخاصة بهم. على الورق ، يحتوي 4090 على أكثر من خمسة أضعاف أداء RX 7900 XTX – و 2.7 أضعاف الأداء حتى لو كنا نخفض ندرة. في الممارسة العملية ، لا يتجاوز 4090 الآن حوالي 50 ٪ فقط من XTX مع الإصدارات التي استخدمناها (وهذا ينخفض ​​إلى 13 ٪ فقط إذا حذفنا نتيجة Xformers الأقل الدقة). ينطبق هذا المنطق نفسه أيضًا على بطاقات Intel’s Arc.

تقدم وحدات معالجة الرسومات ARC الخاصة بـ Intel حاليًا نتائج مخيبة للآمال للغاية ، خاصة وأنها تدعم عمليات FP16 XMX (MATRIX) التي يجب أن توفر ما يصل إلى 4x الإنتاجية كحسابات FP32 العادية. نشك في أن مشروع الانتشار المستقر الحالي Openvino الذي استخدمناه أيضًا يترك الكثير من المجال للتحسين. بالمناسبة ، إذا كنت ترغب في محاولة تشغيل SD على وحدة معالجة الرسومات القوس ، لاحظ أنه يتعين عليك تحرير “stable_diffusion_engine.ملف PY “وتغيير” وحدة المعالجة المركزية “إلى” GPU ” – وإلا فلن يستخدم بطاقات الرسومات للحسابات ويستغرق وقتًا أطول إلى حد كبير.

بشكل عام ، باستخدام الإصدارات المحددة ، فإن بطاقات RTX 40-Series من NVIDIA هي الأسرع خيار ، تليها بطاقة 7900 ، ثم وحدة معالجة الرسومات RTX 30-Series. الأداء الضعيف RX 6000-Series ، و GPUs ARC تبدو سيئة بشكل عام. يمكن أن تتغير الأمور بشكل جذري مع البرامج المحدثة ، وبالنظر إلى شعبية الذكاء الاصطناعى ، نتوقع أن تكون مسألة وقت فقط قبل أن نرى ضبطًا أفضل (أو العثور على المشروع الصحيح الذي تم ضبطه بالفعل لتقديم أداء أفضل).

أجرينا أيضًا بعض الاختبارات على وحدات معالجة الرسومات القديمة ، وتحديداً بنية Turing الخاصة بـ Nvidia (RTX 20 و GTX 16) و AMD’s RX 5000-Series. فشل RX 5600 XT ، لذلك توقفنا مع الاختبار في RX 5700 ، وكان GTX 1660 Super بطيئًا بما يكفي لدرجة أننا لم نشعر بالحاجة إلى إجراء أي اختبار إضافي لأجزاء الطبقة السفلية. لكن النتائج هنا مثيرة للاهتمام للغاية.

. هذا لا يحدث عادة ، وفي الألعاب حتى الفانيليا 3070 تميل إلى التغلب على البطل السابق. والأهم من ذلك ، أن هذه الأرقام تشير إلى أن تحسينات “sparsity” في Nvidia في بنية Ampere لا يتم استخدامها على الإطلاق – أو ربما لا تنطبق ببساطة.

. لا تدعم نوى 2080 TISOR Tensor SPARSITY ولديها ما يصل إلى 108 tflops من حساب FP16. يدعم RTX 3070 TI التباعد مع 174 tflops من FP16 ، أو 87 TFLOPS FP16 بدون تباين. حقيقة أن 2080 Ti يتفوق على 3070 Ti تشير بوضوح إلى أن التباين ليس عاملاً. ينطبق نفس المنطق على مقارنات أخرى مثل 2060 و 3050 ، أو 2070 Super و 3060 Ti.

أما بالنسبة لبطاقات RDNA من AMD ، RX 5700 XT و 5700 ، هناك فجوة واسعة في الأداء. أراضي 5700 XT قبل 6650 XT ، ولكن 5700 تهبط تحت 6600. على الورق ، يجب أن تصل بطاقة XT إلى 22 ٪ أسرع. ومع ذلك ، في اختبارنا ، يكون أسرع بنسبة 37 ٪. في كلتا الحالتين ، لا يوجد أي من وحدات معالجة الرسومات NAVI 10 القديمة بشكل خاص في معايير الانتشار المستقر الأولي لدينا.

أخيرًا ، يجب أن يكون GTX 1660 Super on Paper حوالي 1/5 الأداء النظري لـ RTX 2060 ، باستخدام نوى الموتر على الأخير. إذا استخدمنا أداء التظليل مع FP16 (Turing لديها ضعف الإنتاجية على رمز التظليل FP16) ، فإن الفجوة تضيق إلى عجز 22 ٪ فقط. ولكن في اختبارنا ، فإن GTX 1660 Super يبلغ حوالي 1/10 سرعة RTX 2060.

مرة أخرى ، ليس من الواضح بالضبط مدى تحسين أي من هذه المشاريع. ليس من الواضح أيضًا ما إذا كانت هذه المشاريع تستفيد تمامًا من أشياء مثل نوى NVIDIA الموتر أو النوى XMX من Intel. على هذا النحو ، اعتقدنا أنه سيكون من المثير للاهتمام أن ننظر إلى الحد الأقصى للأداء النظري (TFLOPS) من وحدة معالجة الرسومات المختلفة. يعرض الرسم البياني التالي أداء FP16 النظري لكل وحدة معالجة الرسومات (النظر فقط في بطاقات الرسومات الأكثر حداثة) ، باستخدام نوى الموتر/المصفوفة عند الاقتضاء عند الاقتضاء. تشمل نتائج NVIDIA أيضًا ندرة – في الأساس القدرة على تخطي الضربات بمقدار 0 لما يصل إلى نصف الخلايا في مصفوفة ، والتي من المفترض أن تكون متكررة للغاية مع أعباء عمل التعلم العميق.

من الواضح أن نوى الموترات على nvidia تحزم لكمة (القضبان الرمادية/السوداء بدون تفوق) ، ومن الواضح أن اختبار الانتشار المستقر لدينا لا يتطابق تمامًا مع هذه الأرقام – ولا حتى قريبًا. على سبيل المثال ، على الورق RTX 4090 (باستخدام FP16) أسرع بنسبة 106 ٪ من RTX 3090 TI ، بينما كان في اختباراتنا أسرع بنسبة 43 ٪ بدون Xformers ، و 50 ٪ أسرع مع Xformers. .

في هذه الأثناء ، انظر إلى وحدات معالجة الرسومات القوس. يجب أن توفر نوى المصفوفة الخاصة بهم أداءً مشابهًا لـ RTX 3060 TI و RX 7900 XTX ، إعطاء أو خذ ، مع A380 حول RX 6800. في الممارسة العملية ، لا تقع وحدات معالجة الرسومات القوس بالقرب من تلك العلامات. أسرع أرض وحدات معالجة الرسومات A770 بين RX 6600 و RX 6600 XT ، يقع A750 خلف RX 6600 ، و A380 حوالي ربع سرعة A750. لذا ، فهي حوالي ربع الأداء المتوقع ، وهو أمر منطقي إذا لم يتم استخدام نوى XMX.

النسب الداخلية على قوس تنظر إلى اليمين ، رغم ذلك. يبلغ أداء الحساب النظري على A380 حوالي ربع A750 ، وهذا هو المكان الذي يهبط فيه من حيث أداء الانتشار المستقر الآن. .

الشيء الآخر الذي يجب ملاحظته هو أن الحساب النظري على AMD’s RX 7900 XTX/XT قد تحسن كثيرًا مقارنةً بـ RX 6000-Series. سيتعين علينا أن نرى ما إذا كانت نماذج السلسلة 6000 المضبوطة تغلق الفجوات ، مثل إيماءة.قالت الذكاء الاصطناعى إنها تتوقع تحسنًا 2x في الأداء على RDNA 2. لم يكن عرض النطاق الترددي للذاكرة عاملاً حاسمًا ، على الأقل لدقة الهدف 512×512 التي استخدمناها – نماذج 3080 10 جيجابايت و 12 جيجابايت قريبة نسبيًا معًا.

فيما يلي نظرة مختلفة على أداء FP16 النظري ، وتركز هذه المرة فقط على ما يمكن أن تفعله وحدة معالجة الرسومات المختلفة عبر حسابات التظليل. تعمل Ampere و ADA من Nvidia على تشغيل FP16 بنفس سرعة FP32 ، حيث يمكن ترميز الافتراض FP16 لاستخدام نوى الموتر. .

. شيء إضافي. الذي يقودنا إلى مخطط أخير.

يوضح هذا المخطط النهائي نتائج اختبار الدقة العليا لدينا. لم نختبر وحدات معالجة الرسومات AMD الجديدة ، حيث اضطررنا إلى استخدام Linux على بطاقات AMD RX 6000-Series ، ويبدو أن سلسلة RX 7000 تحتاج إلى نواة Linux الأحدث ولم نتمكن من العمل. ولكن تحقق من نتائج RTX 40-Series ، مع استبدال DLLs الشعلة.

أصبح RTX 4090 الآن أسرع بنسبة 72 ٪ من 3090 Ti بدون Xformers ، وأسرع بنسبة 134 ٪ مع Xformers. 4080 يتفوق أيضا على 3090 TI بنسبة 55 ٪/18 ٪ مع/بدون Xformers. كان 4070 Ti أبطأ بنسبة 22 ٪ من 3090 Ti بدون Xformers ، ولكن أسرع بنسبة 20 ٪ مع Xformers.

.

في نهاية المطاف ، هذه في أحسن الأحوال لقطة في وقت أداء الانتشار المستقر. نشهد تحديثات متكررة للمشروع ، ودعم مكتبات تدريب مختلفة ، وأكثر من ذلك. .

ابق في طليعة

انضم إلى الخبراء الذين قرأوا أجهزة توم للمسار الداخلي على أخبار Tech PC Actususiast – ولديهم لأكثر من 25 عامًا. سنرسل الأخبار العاجلة ومراجعات متعمقة من وحدات المعالجة المركزية ، وحدات معالجة الرسومات ، و AI ، وأجهزة Maker وأكثر مباشرة إلى صندوق الوارد الخاص بك.

من خلال تقديم معلوماتك ، فإنك توافق على الشروط والأحكام وسياسة الخصوصية وتبلغ من العمر 16 عامًا أو أكثر.

جاريد والتون

Jarred Walton هو محرر كبير في Tom’s Hardware يركز على كل شيء GPU. لقد كان يعمل كصحفي تقني منذ عام 2004 ، ويكتب لـ Anandtech و Maximum PC و PC Gamer. من أول S3 Virge “Decelerators” إلى وحدات معالجة الرسومات اليوم ، فإن JARRED تظل مع جميع أحدث اتجاهات الرسومات وهي تسأل عن أداء اللعبة.