Vælg side

Forsøgte det: AMD GCN - Introduktion til Radeon HD 7970 og HD 7950

Tiden er inde til, at vi endelig introducerer AMD GCN (Graphics Core Next) -arkitekturen og dens to mest magtfulde repræsentanter, Radeon HD 7970 og Radeon HD 7950.

GCN-artikellogoer

Af HD 7950 hyldede vi straks to af dem, så vi havde også mulighed for at teste CrossFireX, og vi udførte også tunede målinger med begge kort. Selvfølgelig sendte vi også et antal racere mod de to nye kanoner for at se, hvor meget kortene var accelereret i forhold til den forrige generation GeForces og Radeons. 


Inden vi går ind i deltagerne og testene, ser vi nærmere på GCN-arkitekturen og overtager funktionerne i HD 7970 og HD 7950.

 alle kortæsker 2k

 Grafik Core Næste

I maj 2007 introducerede AMD Radeon HD 2900 XT-grafikkortet, som allerede var bygget på en samlet skyggearkitektur. Som det viste sig, havde designet en række mangler, men problemerne blev næsten fuldstændigt elimineret på tidspunktet for Radeon HD 4000-serien, hvilket gav virksomheden fodfæste på markedet for desktop-grafikkort. På dette tidspunkt kunne det ses, at der var behov for radikale ændringer nu. HD 6900 "Cayman" -serien betragtes som det første skridt. Her er de tidligere 5-vejs superscalar processorer (VLIW5) blevet erstattet af 4-vejs processorer (VLIW4), og Cayman var den første chip til at håndtere flere uafhængige instruktionsstrømme. Den anden store innovation var introduktionen af ​​de to “grafikmotorer”, der fordoblede opsætningskapaciteten for trekanten - øget tessellating power - og antallet af nogle elementer (Rasterizer, Hierarchical Z, Tessellator). Han blev genstand for vores næste niveau test i dag. Takket være en arkitektur kaldet Graphics Core Next (GCN) er skyggearrays, der arbejder med VLIW-instruktioner hidtil anvendt, blevet forældede, erstattet af såkaldte Compute Units (CU'er). GCN debuterede i Radeon HD 7900 “Tahiti” -familien.

19 md

Interessant, men ikke overraskende, har Tahiti GPU'er opnået enestående transistortætheder takket være TSMCs produktionsteknologi med 28 nm båndbredde - de indeholder 365 milliarder transistorer pr. 4,3 kvadratmillimeter. Én beregningsenhed indeholder fire SIMD'er og en skalarenhed. AMDs flagskib Radeon HD 7970 "Tahiti XT" fungerer med 32 aktive CU'er, forudsat i alt 2048 shader-processorer (fire 16-vejs SIMD'er, 64 ALU'er). I betragtning af generationernes fremskridt hidtil synes dette ikke at være en enestående værdi ved første øjekast, men af ​​hensyn til bedre effektivitet og udnyttelse vil vi gerne sige, at det ikke er værd at ved et uheld drage vidtrækkende konklusioner af denne teknisk indikator. Teoretisk kan en CU udføre så meget som en enkelt Cayman SIMD-enhed. Et stort problem med tidligere generationer er dataafhængighed (på hinanden følgende instruktioner afhænger af data), hvilket har fået brugen til at svinge kraftigt. GCN-arkitekturen er også et skridt fremad på dette område, fordi den eliminerer tidligere erfarne afhængigheder gennem strømbehandling. Fordelene er kun i nøgleord: planlægning, fejlretning, estimering af forventet ydeevne og driverudvikling er også blevet radikalt enklere og mere gennemsigtig. 

24

36 mdIkke kun indeholder en CU fire SIMD-enheder, men den har også sin egen planlægger, 340 KB bufferlagring og en struktureringsklynge. Dette er summen af ​​4 × 64 KB vektorregisteret, 64 KB Local Data Share, det 4 KB skalarregister og 16 KB kapacitet på første niveau cache. Billedet ovenfor viser en anden komponent, der absolut er værd at nævne, og det er den såkaldte "Branch & Message Unit", som spiller en rolle i mere effektiv programstyring.
Efter at have oplysningerne hidtil, lad os gennemgå nøgleparametrene i "Tahiti XT" -grafikprocessoren igen: 32 CU (2048 shader-processorer, 128 SIMD'er), 128 struktureringsenheder, 512 Load-Store-enheder og i alt 8,2 MB cache. Så pigens holdning var anderledes med det samme, selvom vi lige var begyndt at "klæde af".

35 mdFront-end

Med hensyn til frontend kan vi se signifikante forskelle sammenlignet med NVIDIA GF110s arkitektur. Ledelse sker dybest set ikke på niveau med CU'er. Denne opgave udføres af Command Processor og Asynchronous Compute Engine (ACE). Chippen har fået to geometriske motorer, der foruden Geometry-Assembler, Vertex-Assembler, også rummer niende generation af tessellatorenheder. Kommunikation med CU'er lettes af Global Data Share (GDS), hvorigennem disse enheder også kan dele data med hinanden. Frontend sektionen indeholder to rasterizers - du kan se layoutet nedenfor.

37

ROP'er og hukommelsesgrænseflade
AMD Tahiti indeholder 8 ROP-klynger - på dette tidspunkt fandt vi et match med Cayman-chippen. Hver sådan "matrix" indeholder fire ROP-enheder og 16 Z-samplere. Det er vigtigt at nævne, at hver klynge fik sin egen cache. En anden større ændring har fundet sted: der er ikke længere en direkte forbindelse til hukommelsescontrolleren. Flytningen er beregnet til at forbedre fleksibilitet og brugervenlighed, som vi måske ser i sammenhæng med Pitcairn ... ROP'er kan skrive til 768 KB L2-cache, som igen kan læses af flere enheder. Hukommelsesgrænsefladen modtager et glædeligt billede. De seks 64-bit hukommelsescontrollere har en samlet kapacitet på 384 bits. Vi vil bare tilføje et ord til dette. Langt om længe! Standardstørrelsen på videohukommelsen er 3072 MB, men i teorien er 1536 MB og 6 GB også mulige.

Vi håber, at vores læsere ikke tager det i et dårligt navn, men på dette tidspunkt vil vi udtrykke vores personlige mening om backend-området. Forholdet mellem Barts, som har fungeret rigtig godt, og Cayman-chippen, som viser relativt beskedne resultater, antyder, at det "generelle problem" med AMD-chips er den stramme ROP-kapacitet. Der er heller ikke gjort fremskridt på Tahiti her, mens sider stadig kunne skrives om andre nyheder på chippen med en vis overdrivelse. ROP'ernes rolle er især fremtrædende under spilene, under GPGPU-opgaver og applikationer bliver de anden violinister. Det er også sikkert, at dette afsnit bruger et stort antal transistorer, hvilket naturligvis også afspejles i chipens størrelse.

 

AMDs forbedringer hidtil har stort set tjent spillernes behov. Nu har der været en drejning på mindst 90 grader, og det er blevet et stærkt vejkryds for at imødekomme professionelle behov for at bruge GPU mere bredt. Selvfølgelig er dette ikke et problem, da vi dybest set taler om et meget groft niveau af ydeevne, som helt sikkert vil modstå forsøgene med moderne spil i et par år. Ifølge rygter behandler ikke kun AMD, men også NVIDIA ROP'er snævert med Kepler.

At udvide hukommelsesbussen var et prisværdigt skridt. Faktisk havde designerne lidt valg. Ure kan ikke længere øges markant, men chippen sulter efter data. Efter vores mening kunne dette træk alene have øget ydeevnen under spil med op til 15 procent.

44DirectX 11.1 og PCI Express 3.0
PCI-Express 3.0-standarden øger hastigheden fra 16 GB / sekund til 32 GB / sekund, hvilket fordobler dataoverførselshastigheden på PCIe 2.0. Bundkortproducenter "bidte straks på emnet", men uanset hvor meget de vil, giver kontakten ikke nogen væsentlig fordel i øjeblikket. PCIe 3.0 er et vigtigt våben ud fra et markedsføringsperspektiv, en obligatorisk standard for AMD og NVIDIA og en anden "pengefælde" for brugerne.
DirectX 11.1 kan starte sin erobring med følgende Windows-operativsystem, som indeholder mindre rettelser og optimeringer. I henhold til officielt materiale kan vi forvente indbygget stereo 3D-support og mere effektiv rasterisering fra den nye API. Desværre er det måske mest interessante punkt, der diskuterer, hvordan fleksibilitet og den udbredte anvendelighed af grafikhardware kan forbedres, ikke blevet detaljeret.

31 md

Grafik-Core-Next-arkitekturen ser stort set sådan ud. Selvfølgelig tjener chippen ikke kun spillernes behov, men har også plads til professionelle opgaver. Tahitis teoretiske beregningsmæssige ydeevne (til beregninger med dobbelt præcision) er 947 GFLOP, fire gange højere for flydende punktoperationer med en enkelt præcision. Derudover har minderne ECC-understøttelse, og GPU'en er godt bekendt med DirectCompute 11.1, OpenCL 1.2 C ++ AMP API'er.27 Nye funktioner: Zero-Core
Generelt er Radeon HD 7900-niveau top-rovdyr vant til at forbruge som et tabubelagt emne, men AMD-ingeniører mangler opfindsomhed. Ideen er enkel, men god, men ikke ny. Hvis du forlader computeren i lang tid, men af ​​en eller anden grund ikke vil slukke for den, kan du muligvis kun lade skærmen være i standbytilstand. Takket være ZeroCore Power-teknologien, med displayet slukket, kan hele grafikkontrolleren slukkes, og der kræves ingen aktiv køling i denne form. Fordelene er overbevisende: nul støj, 3 watt strømforbrug. Det vil være en ubetydelig faktor for mange, men proceduren for firevejs Crossfire-systemer lukker ikke-primære grafikkort ned, hvilket reducerer din elregning betydeligt - selvom nogen, der tænker på en sådan samling, kun gør noget for at tackle energieffektivitet.

21a

20

Eyefinity 2.0
En af de interessante funktioner i den nye version er, at den giver dig mulighed for at føre konferencesamtaler med flere skærme med multibåndslyd. Procedurens officielle navn er Discrete Digital Multi-Point (DDM) Audio. Radeon HD 7970 kan tilsluttes til tre skærme på samme tid, som kan modtage en otte-kanals lydstrøm. Dette er muligvis ikke af interesse specifikt for hjemmebrugere, men det er et godt eksempel på, hvor mange områder den nye kanon kan bruges i. Catalyst-drevet udvikler sig også, hvilket f.eks. Gør det lettere at placere bakken og give dig mulighed for at kompilere brugerdefinerede opløsninger. Det er værd at nævne, at Full HD stereo 3D-indhold også kan ses i Eyefinity-tilstand. 

29 md

UVD og VCE
UVD 3.0 tilbyder allerede hardwareacceleration til DivX / Xvid, MPEG-4 del 2 MVC-indhold, og Video Code Engine (VCE) svarer næsten til AMD's hurtige synkroniseringsvideo. VCE er stand-alone hardware og er kun designet til at fremskynde transkodningen af ​​H.264-videoer. Motoren er langsommere end skyggeprocessorerne i grafikprocessoren, men meget mere energieffektiv. Der er to tilstande tilgængelige for brugerne. Først fungerer kun VCE, hvilket i sig selv er hurtigere end de fleste CPU'er. I dette tilfælde oplever vi ingen afmatning, vi kan indlæse videokortet eller centralenheden uden problemer. Den anden mulighed er hybridtilstand. De aritmetiske-logiske enheder i VCE og GPU'en hopper til opgaven sammen. Dette "ægteskab" har naturligvis en god effekt på kodningshastigheden, men i så fald skal du ikke blive overrasket, hvis dit yndlingsspil skifter til "slideshow" -tilstand.

32

Nu hvor vi er opmærksomme på teorien og tallene, lad os stifte bekendtskab med de tre GCN-modeller i testen!