Obsah
- Prehľad výkonnosti Mali-G77
- Zoznámte sa s Valhallom, nástupcom spoločnosti Bifrost
- Vo vnútri vykonávacieho motora
- Mapovač textúr Quad
- Spojte všetko v Mali-G77
Popri svojom novom jadre procesorov Cortex-A77 predstavil Arm novú generáciu GPU určenú pre smartfóny novej generácie smart telefónov. Mali-G77, ktorý sa nesmie zamieňať s novým zobrazovacím procesorom Mali-D77, predstavuje odchod architektúry Arm Bifrost od spoločnosti Arm a prechod na Valhall.
O okamih sa dostaneme k jemným detailom novej architektúry. Najprv sa dostaneme k tomu, čo by používatelia mali očakávať z hľadiska zvýšenia výkonu.
Prehľad výkonnosti Mali-G77
Arm sa môže pochváliť až 40-percentným zvýšením grafického výkonu so zariadeniami Mali-G77 novej generácie v porovnaní s dnešnými modelmi Mali-G76. Toto číslo zohľadňuje proces, ako aj architektonické vylepšenia. Mali-G77 je konfigurovateľný od 7 do 16 shaderových jadier a každé jadro je takmer rovnako veľké ako jadro G76. To znamená, že smartfóny vyššej kategórie sa pravdepodobne budú dodávať s podobnými počtami GPU ako dnes - niekde v období mladistvých. Je to užitočné, čo nám umožňuje vykonať určité špekulatívne hodnotenia výkonnosti na základe existujúcich čipových súprav.
Pri pohľade na populárny benchmark na Manhattane GFXBench sa zvýšením výkonu o 40 percent otvára značný náskok oproti hardvéru súčasnej generácie. Čip Adreno novej generácie Qualcomm bude potrebovať svoj vlastný významný upgrade výkonu, aby si udržal rovnaké podmienky. Zdá sa, že tabuľky sú v prospech Arm.
Architektúra je múdra, herný výkon sa zvyšuje o 20 až 40%, zatiaľ čo strojové učenie sa zvyšuje o 60%
Na základe tohto dosť surového ballparkingu vyzerá 10jadrový model Mali-G77 (konfigurácia, ktorú často vidíme od spoločnosti Huawei), takmer na hrane špičkového mobilného grafického hardvéru tejto generácie. 12jadrová konfigurácia, ktorá sa zvyčajne vyskytuje v Exynos od spoločnosti Samsung, poskytuje veľký náskok pre najnovšiu GPU spoločnosti Arm. Skutočné referenčné hodnoty budú samozrejme závisieť od ďalších faktorov vrátane procesného uzla, pamäte cache GPU, konfigurácie pamäte LPDDR a typu aplikácie, ktorú testujete. Zoberte teda vyššie uvedený graf so silnou dávkou soli.
Pokiaľ ide o samotnú novú architektúru, Arm uvádza, že model Mali-G77 ponúka v priemere 30% zlepšenie energetickej účinnosti a hustoty výkonu. Vďaka podpore produktov INT8 dot existuje aj obrovský 60-percentný nárast pre aplikácie strojového učenia. Očakávania týkajúce sa herného výkonu sú stanovené niekde medzi 20 až 40% zvýšením v závislosti od názvu a typu ponúkaného grafického pracovného zaťaženia.
Aby sme presne pochopili, ako Arm dosiahol tento výkon, pozdvihnite sa hlbšie do architektúry.
Zoznámte sa s Valhallom, nástupcom spoločnosti Bifrost
Vahall je skalárna architektúra GPU druhej generácie Arm. Je to 16-široký program warpového vykonávania, čo v podstate znamená, že GPU vykonáva 16 inštrukcií paralelne na cyklus, na spracovateľskú jednotku, na jadro. V Bifroste je to od 4 do 8 širokých.
Medzi ďalšie nové architektonické prvky patrí dynamické plánovanie inštrukcií spravované výlučne v hardvéri a úplne nová sada inštrukcií, ktorá zachováva prevádzkovú rovnocennosť s Bifrostom. Medzi ďalšie patrí podpora kompresného formátu AFBC1.3 spoločnosti Arm, ciele vykresľovania FP16, vrstvené vykresľovanie a výstupy shaderu vrcholu.
Mali-G77 robí paralelne o 33% viac ako G76.
Kľúče na pochopenie hlavných architektonických zmien sa nachádzajú skúmaním vykonávacej jednotky vo vnútri jadra. Táto časť GPU je zodpovedná za drvenie čísel.
Vo vnútri vykonávacieho motora
V jadre Bifrost obsahovalo každé jadro GPU tri alebo dva výkonné motory v prípade niektorých návrhov nižšej triedy Mali-G52. Každý stroj obsahuje i-cache, súbor registra a riadiacu jednotku osnovy. V Mali-G72 zvláda každý motor 4 pokyny za cyklus, ktorý sa v minulom roku zvýšil na 8 v Mali-G76. Rozmiestnenie po týchto troch jadrách umožňuje 12 a 24 32-bitové inštrukcie s 32-bitovou pohyblivou rádovou čiarkou (FP32) spojené s viacnásobným akumuláciou (FMA) za cyklus.
S Valhall a Mali-G77 je v každom jadre GPU iba jeden vykonávací motor. Rovnako ako predtým, aj v tomto motore sa nachádza riadiaca jednotka osnovy, register a icache, ktoré sa teraz delia medzi dve spracovateľské jednotky. Každá procesorová jednotka spracováva 16 osnovových inštrukcií za cyklus, čo predstavuje celkovú priepustnosť 32 inštrukcií FPMA FMA na jadro. To predstavuje 33-percentné zvýšenie výkonu inštrukcií v prípade Mali-G76.
Rameno prešlo z troch na iba jednu výkonnú jednotku na jadro GPU, ale v jadre G77 sú teraz dve procesorové jednotky.
Každá z týchto spracovateľských jednotiek navyše obsahuje dva nové matematické funkčné bloky. Nová konvertná jednotka (CVT) spracováva základné pokyny pre celé číslo, logiku, vetvu a konverziu. Jednotka špeciálnych funkcií (SFU) zrýchľuje celočíselné násobenie, delenia, druhú odmocninu, logaritmy a ďalšie komplexné celočíselné funkcie.
Štandardná jednotka FMA zaznamenala niekoľko vylepšení, ktoré podporujú 16 inštrukcií FP32 na cyklus, 32 FP16 alebo 64 INT8 bodových pokynov k produktu. Tieto optimalizácie vedú k 60% zvýšeniu výkonu v aplikáciách strojového učenia.
Mapovač textúr Quad
Ďalšou kľúčovou zmenou v modeli Mali-G77 je zavedenie mapovača štvorcových textúr, oproti dvojitým textúrovým mapovačom v predchádzajúcej generácii. Mapovač textúr je zodpovedný za mapovanie 3D polygónov v scéne do 2D reprezentácie, ktorú vidíte na obrazovke. Je zodpovedný za vzorkovanie, interpoláciu a filtrovanie na vyhladenie uhlového a pohyblivého obsahu, aby sa zabránilo ostrým hranám s nízkou kvalitou.
Nízke náklady na vyhladzovanie zostávajú na mieste, aby pomohli pri kvalite obrazu, ale zdvojnásobenie výkonu textúr je tu hlavnou výhodou. Texturová jednotka teraz spracúva 4 dvojmenné texty za hodinu z 2 predtým, 2 trojmiestne texty za hodiny a zvláda rýchlejšie filtrovanie FP16 a FP32.
Mapovač štvorcovej textúry je rozdelený na dve cesty, čím poskytuje kratšie potrubie pre vlákna, ktoré zasiahnu obsah v pamäti cache. Chýbajúca cesta, ktorá spracováva konverziu formátu a dekompresiu textúry, predstavuje širšie rozhranie pre vyrovnávaciu pamäť L2. Je to užitočné aj pre pracovné zaťaženie strojového učenia, ktoré si môže často vyžadovať vytiahnutie nových údajov z pamäte.
Spojte všetko v Mali-G77
Arm urobil niekoľko ďalších vylepšení pre Mali-G77, aby sa časovo zhodovali s hlavnými zmenami v architektúre Valhall. Riadiaci blok je zjednodušený vďaka návrhu jedinej vykonávacej jednotky, zatiaľ čo interný dynamický plánovač vlastne umožňuje flexibilnejšie vydávanie inštrukcií vo vnútri každého jadra. S vyššou priepustnosťou v každom jadre je dátový tok tiež kratší a nižší v latencii, až na iba 4 cykly od 8 predtým.
Nový dizajn je tiež lepšie zladený s rozhraním Vulkan API a zjednodušuje deskriptory vodičov, aby znížili režijné náklady vodiča, čím sa zvýši výkonnosť „na kov“.
Stručne povedané, Mali-G72 a Valhall uskutočňujú od Bifrostu dôležité zmeny, ktoré sľubujú významné zvýšenie výkonu aplikácií pre hry a strojové učenie. Dôležité je, že dizajn zapadá do rovnakých rozpočtov na napájanie a oblasť ako Bifrost, čo zaisťuje, že mobilné zariadenia budú schopné ponúknuť vyšší špičkový výkon bez obáv z nákladov na teplo, energiu a kremík. Na základe projekcií výkonnosti by mal byť Mali-G77 schopný dať Adreno budúci generál Qualcommu za svoje peniaze dobrý beh.