Czy potrzebuję GPU do stabilnej dyfuzji?

. . RTX 3070 TI obsługuje rzadkość z 174 TFLOPS FP16 lub 87 TFLOPS FP16 bez rzadkości. . Ta sama logika dotyczy innych porównań, takich jak 2060 i 3050, lub 2070 super i 3060 ti.

Czy potrzebuję GPU do stabilnej dyfuzji?

Zastanawiasz się, czy potrzebujesz GPU do stabilnej dyfuzji? .

. Jego wyniki są imponujące, więc ma teraz miliony użytkowników. . Mówiąc o tym, porozmawiamy o tym, czy stabilna dyfuzja może działać bez GPU, czy nadal potrzebujesz karty graficznej, aby poprawnie funkcjonować.

GPU lub karty graficzne to małe kawałki technologii, które poważnie uaktualnią każdą grę lub kreatywne doświadczenie zawodowe. .

Niezbędne narzędzia AI

Na marce treści AI wszędzie tam, gdzie tworzysz. . .

. . .

Tylko 0 USD.00015 za słowo!

Winston AI: Najbardziej zaufany detektor AI. Winston AI to wiodące w branży narzędzie wykrywania treści AI, które pomaga sprawdzić zawartość AI generowaną za pomocą Chatgpt, GPT-4, Bard, Bing Chat, Claude i wiele innych LLMS. Czytaj więcej

Tylko 0 USD.

Oryginalność… . .

. . .

Czy potrzebujesz karty graficznej ze stabilnej dyfuzji, aby działała? Lub może wymienić drugiego? Dowiedzmy Się.

?

. Aby uzyskać minimum, spójrz na modele NVIDIA 8-10 GB. Ponadto upewnij się, że masz 16 GB pamięci RAM w systemie komputerowym, aby uniknąć niestabilności.

. . . .

?

. . .

FAQ

?

Tak, stabilna dyfuzja obsługuje książki Apple Mac. . Każdy model wcześniej nie jest dla najlepszych wyników. Nawet starszy model M1 i M2 będzie w porządku, jeśli spełni wymagania.

Posiadanie GPU jest obowiązkowym wymogiem w dzisiejszym świecie technologicznym. . Dlatego w przypadku stabilnej dyfuzji najlepiej mieć GPU. Chociaż istnieje kilka sposobów na uruchomienie go bez procesora graficznego, nie są one tak niezawodne, jak się wydaje. Pamiętaj więc, aby mieć dobrą kartę graficzną przed uruchomieniem stabilnej dyfuzji dla najlepszych wyników.

Karta graficzna jest również ogólnie dobrym pomysłem na jak najlepiej wykorzystać komputer. Dziesięciokrotnie poprawiają gry i kreatywne doświadczenia. .

Stabilna referencyjna dyfuzja: który GPU działa najszybciej (zaktualizowany)

. Większość z tych narzędzi opiera się na złożonych serwerach z dużą ilością sprzętu do szkolenia, ale korzystanie z przeszkolonej sieci poprzez wnioskowanie można wykonać na komputerze, korzystając z karty graficznej. ?

. Jeśli przez przypadek próbowałeś uzyskać stabilną dyfuzję na własnym komputerze, możesz mieć pewne atrament, jak złożone – lub proste! . Krótkie podsumowanie polega na tym, że GPU NVIDIA rządzi kuropatorem, a większość oprogramowania zaprojektowała przy użyciu CUDA i innych narzędzi NVIDIA. .

. . GPU AMD testowano za pomocą NOD.. brakuje. Uruchomienie GPU Arc Intela było nieco trudniejsze z powodu braku wsparcia, ale stabilna dyfuzja Openvino dała nam trochę podstawowa funkcjonalność.

. Nie kodowaliśmy żadnego z tych narzędzi, ale szukaliśmy rzeczy, które były łatwe do uruchomienia (w systemie Windows), które również wydawały się być rozsądnie zoptymalizowane. . .

. Ukłon.. .

. Ukłon.Wersja rekina AI używa SD2.1, podczas gdy automatyczne 1111 i Openvino używają SD1.4 (choć możliwe jest włączenie SD2.1 na automatycznych 1111). Ponownie, jeśli masz pewną wiedzę na temat stabilnej dyfuzji i chcesz polecić różne projekty open source, które mogą działać lepiej niż to, co użyliśmy, daj nam znać w komentarzach (lub po prostu wysyłanie e -maila).

. Powyższa galeria została wygenerowana przy użyciu automatycznego WebUI 1111 na GPU NVIDIA, z wynikami o wyższej rozdzielczości (to dużo wymaga, dużo . To te same podpowiedzi, ale celowanie w 2048×1152 zamiast 512×512, których użyliśmy do naszych punktów porównawczych. Zauważ, że wybrane przez nas ustawienia zostały wybrane do pracy nad wszystkimi trzema projektami SD; Niektóre opcje, które mogą poprawić przepustowość, są dostępne tylko w wersji automatycznej 1111, ale więcej o tym później.


Postapokaliptyczne miasto steampunk, eksploracja, kinowa, realistyczna, hiper szczegółowa, fotorealistyczne maksymalne detale, światło objętościowe, (((focus))), szerokokątne kąt, (((jasno oświetlone)), (((((((((((”Vegetation))), Błyskawica , Winorośle, zniszczenie, dewastacja, wiosłuj, ruiny

Negatywna monit:

Kroki:
100

Bezpłatne wskazówki klasyfikatora:
.0

Algorytm próbkowania:

Algorytm pobierania próbek nie wydaje się mieć głównie wydajności, chociaż może wpływać na wyjście. .

Oto wyniki z naszego testowania serii AMD RX 7000/6000, NVIDIA RTX 40/30 Series i GPU serii ARC ARC. Należy zauważyć, że każdy procesor graficzny NVIDIA ma dwa wyniki, jeden używa domyślnego modelu obliczeniowego (wolniej i w kolorze czarnym), a drugi przy użyciu szybszej biblioteki „xformers” z Facebooka (szybciej i na zielono).

. . .

Rzeczy spadają w dość spójny sposób z najlepszych kart dla GPU Nvidia, od 3090 do 3050. . 7900 kart wygląda całkiem nieźle, podczas gdy każda karta serii RTX 30 kończy się na pokonaniu części serii RX 6000 AMD (na razie). . .

Właściwe optymalizacje mogą podwoić wydajność kart RX 6000. Ukłon.AI twierdzi, że powinien był dostroić modele dla rDNA 2 w najbliższych dniach, w którym to momencie ogólna pozycja powinna zacząć lepiej korelować z teoretyczną wydajnością. ..52 IT/s na 4090, 13.31 na 4080, 11.41 na 3090 ti i 10..

. Na papierze 4090 ma ponad pięć razy więcej niż RX 7900 XTX – i 2.7 -krotność wydajności, nawet jeśli dyskontujemy niedobór. . .

GPU ARC Intel zapewnia obecnie bardzo rozczarowujące wyniki, zwłaszcza że obsługują one operacje FP16 XMX (Matrix), które powinny dostarczyć do 4x przepustowości jako zwykłe obliczenia FP32. Podejrzewamy, że obecny stabilny projekt dyfuzji Openvino, którego użyliśmy, pozostawia również dużo miejsca na ulepszenie. Nawiasem mówiąc, jeśli chcesz spróbować uruchomić SD na GPU ARC, pamiętaj, że musisz edytować „Stable_diffusion_engine.Plik PY ‘i zmień „CPU” na „GPU” – w przeciwnym razie nie użyje kart graficznych do obliczeń i nie zajmie znacznie dłużej.

. . Radykalnie może się zmienić z zaktualizowanym oprogramowaniem, a biorąc pod uwagę popularność sztucznej inteligencji, spodziewamy się, że to tylko kwestia czasu, zanim zobaczymy lepsze strojenie (lub znajdziemy odpowiedni projekt, który jest już dostrojony, aby zapewnić lepszą wydajność).

. RX 5600 XT nie powiodło się, więc zakończyliśmy testowanie na RX 5700, a GTX 1660 Super był wystarczająco powolny, że nie czuliśmy potrzeby przeprowadzania żadnych dalszych testów części o niższym poziomie. .

. To zwykle się nie dzieje, aw meczach nawet wanilia 3070 ma tendencję do pokonania byłego mistrza. .

. Rdzenie tensorowe 2080 TI nie obsługują rzadkości i mają do 108 TFLPS FP16. . . Ta sama logika dotyczy innych porównań, takich jak 2060 i 3050, lub 2070 super i 3060 ti.

Jeśli chodzi o karty RDNA AMD, RX 5700 XT i 5700, istnieje szeroka luka w wydajności. . . Jednak w naszych testach jest 37% szybciej. Tak czy inaczej, żaden ze starszych GPU Navi 10 nie jest szczególnie wykonujący w naszych początkowych stabilnych testach porównawczych.

. Jeśli używamy wydajności shadera z FP16 (Turing ma podwójną przepustowość w kodzie shadera FP16), luka zwęża się tylko do 22% deficytu. .

Znowu nie jest jasne, jak zoptymalizowane jest którekolwiek z tych projektów. . Jako takie, pomyśleliśmy, że interesujące byłoby spojrzenie na maksymalną wydajność teoretyczną (TFLOPS) z różnych GPU. . .

. Na przykład na papierze RTX 4090 (za pomocą FP16) jest do 106% szybciej niż RTX 3090 TI, podczas gdy w naszych testach było 43% szybciej bez XFormers, a 50% szybciej dzięki XFormers. Zwróć również uwagę, że zakładamy stabilny projekt dyfuzji, którego użyliśmy (automatyczne 1111), nie wykorzystuje nowych instrukcji FP8 na temat GPU ADA Lovelace, co może potencjalnie podwoić wydajność w 40-serii RTX 40.

. . W praktyce ARC GPU nie są w pobliżu tych znaków. . .

. . Najprawdopodobniej GPU ARC używają shaders do obliczeń, w pełnym trybie precyzyjnym FP32 i brakuje dodatkowych optymalizacji.

Inną rzeczą do zauważenia jest to, że teoretyczne obliczenie na AMD RX 7900 XTX/XT znacznie się poprawiło w porównaniu z serią RX 6000. .AI powiedział, że oczekuje około 2 -krotnej poprawy wydajności na RDNA 2. .

Oto inne spojrzenie na teoretyczną wydajność FP16, tym razem koncentrując się tylko na tym, co różne GPU mogą zrobić za pomocą obliczeń shader. Ampere i ADA architektury ADA działają FP16 z tą samą prędkością co FP32, ponieważ założenie jest FP16. Natomiast GPU AMD i Intel mają podwójną wydajność w obliczeniach shaderowych FP16 w porównaniu z FP32.

Oczywiście to drugie spojrzenie na obliczenie FP16 nie pasuje do naszej faktycznej wydajności lepszej niż wykres z rdzeniami tensor i macierzy, ale być może istnieje dodatkowa złożoność w konfigurowaniu obliczeń macierzy, a zatem wymaga pełnej wydajności. . Co prowadzi nas na ostatnią mapę.

. . .

RTX 4090 jest teraz 72% szybciej niż 3090 Ti bez XFormers, a aż 134% szybciej z XFormers. 4080 pokonuje również 3090 ti o 55%/18% z/bez XFormers. Co ciekawe 4070 ti było 22% wolniejsze niż 3090 ti bez xformersów, ale 20% szybciej z xformers.

.

. Widzimy częste aktualizacje projektów, obsługę różnych bibliotek szkoleniowych i więcej. Więcej informacji na temat tego tematu zobaczymy w nadchodzącym roku, mam nadzieję, że z lepiej zoptymalizowanym kodem dla wszystkich różnych procesorów GPU.

Pozostań na najnowocześniejszym krawędzi

Dołącz do ekspertów, którzy czytają sprzęt Toma dla wewnętrznej ścieżki w entuzjastach wiadomości na PC – i mają od ponad 25 lat. Wyślemy najświeższe wiadomości i dogłębne recenzje procesorów, GPU, AI, Maker Hardware i więcej prosto do Twojej skrzynki odbiorczej.

.

Jarred Walton jest starszym redaktorem Tom’s Hardware, koncentrując się na wszystkim GPU. . Od pierwszego S3 Virge „3D Delelerators” po dzisiejsze GPU, Jarred nadąża za wszystkimi najnowszymi trendami graficznymi i jest tym, który zapytał o wydajność gry.