Vælg side

Vi testede Bulldozer: FX-8150 og tre 990FX bundkort på testbænken

Vi testede Bulldozer: FX-8150 og tre 990FX bundkort på testbænken

Technologia

Chippen er lavet på GlobalFoundries '32nm SHP-knude. For bulldozere er den tidligere introducerede SOI blevet kombineret med Intels HKMG (High-K Metal Gate), som kan hjælpe med at bekæmpe lækstrøm. Arkitekturen er godt designet til at opnå høje urhastigheder (“Speed ​​racer”), hvilket gør modelområdet sandsynligvis helt blottet for produkter under 3 GHz. Alle de centrale enheder på det gamle sprog er Black Edition, derfor er det nu ikke specifikt markeret.

Lad os på dette tidspunkt tage en lille omvej og også se på den anden side af mønten. Den hurtigste quad-core Phenom II-processor tikker ved 3,7 GHz, og 1100T baseret på den seks-core Thuban-chip tikker ved 3,3 GHz. Til sammenligning er 32nm AMD FX-8150's baseskud næsten skuffende lavt, og kun 4,2 GHz "niveauet" af Turbo Core er acceptabelt, hvilket straks lover et 10-15% effektoverskud (nej). XbitLabs ventilerede for et år siden, at Bulldozer krydsede 3,5 GHz-uret, som kom sammen, men på trods af en række glider. Det synes korrekt at antage, at der stadig er alvorlige problemer med produktionen og produktionen af ​​den nye kanon, som har en betydelig indvirkning på ydeevnen.

amd_bulldozer_seks-speed
Det andet heltal øger kun modulets størrelse med 12 procent. [+]

Baseret på mange års erfaring blev endda et grundlæggende koncept født, som var baseret på følgende: centrale enheder udfører fastpunktsoperationer med en gennemsnitlig hastighed på over 80 procent. Heraf kan det ses, at beregninger med flydende punkt er til stede i meget mindre grad i "tusindben". I designet er der følgelig tilsluttet to heltalskerner, som har deres egen cache på første niveau, men som allerede er nødt til at dele cache på andet niveau og flydende punktenhed. AMD har navngivet enheden som et modul.

amd_bulldozer_one_module
Et modul [+]

Ifølge interne målinger øger det andet heltal stort set modulets størrelse i ubetydelig grad, i modsætning hertil kan det ideelt set medføre en præstationsforøgelse på op til 80%. Den del af den primære cache, der er ansvarlig for data, er direkte forbundet med processorer (størrelse 16 Kbyte, forsinkelse 4 ur), men 64 Kbyte-cache designet til at gemme instruktioner er allerede delt mellem integralerne.

1_modul_hvad_som
Gravning dybere [+]

Baseret på testresultaterne er L1-datacachen ikke kun for lille, men endda langsom, og det er sammen ikke en særlig god kombination. Størrelsen på lagring på andet niveau, der deles i modulet, er tilfredsstillende, men dets latenstid er høj, 25-27 cyklusser. Det er let at forestille sig, at en større L1-cache og en hurtigere L2 (12-15 cyklusser) ville forbedre processorens ydeevne med 10-20%.

Ikke overraskende er at opnå 8 MB L3 heller ikke med lysets hastighed (65 cyklusser). Sammenfattende vil Bulldozer-cache-systemet ikke være verdens ottende vidunder.

instruktioner
I instruktionssættet labyrint [+]

Bulldozer har i øjeblikket det bredeste sæt instruktionssæt understøttelse: MMX, SSE, SSE2, SSE3, SSE4A, SSSE3, SSE4.1, SSE4.2, AVX, AES, FMA4, XOP, PCLMULQDQ og selvfølgelig 64-bit udvidelse. Af de to innovationer (FMA4, XOP) er FMA4 af stor betydning på HPC-markedet, og XOP tilbyder en lille fordel i forhold til multimedieapplikationer. Så vidt vi ved, understøtter den nyeste version af x264 allerede de nye instruktions sæt. Forældet 3DNow! support er afbrudt, jeg tror, ​​det forårsager ikke mange læsere søvnløse nætter.

Det er kendt at bruge din Intel VT til at få adgang til x86 virtuel hukommelse. IOMMU øger systemvirtualiseringsydelsen markant, men overraskende nok understøtter Intels avancerede løsninger (Core i5-2600K, i7-2600K) ikke denne teknologi, og denne “sorte cirkel” inkluderer nuværende Sandy Bridge E-løsninger. Igen en ekstra service sammenlignet med direkte konkurrence, selv om dens anvendelighed for den gennemsnitlige bruger er tvivlsom.

40
Turbo Core i teorien [+]

Turbo Core er også blevet forbedret ved at arbejde med flere uråbninger og tilpasse sig endnu bedre til forskellige niveauer af udnyttelse. Hvis alle kerner er aktive, men flydende enheder ikke er i brug i øjeblikket, aktiveres Turbo Core 2.0-uret. Proceduren ændrer dynamisk klokkesignalerne fra kernerne som en funktion af belastningen, inaktive ressourcer, moduler og komponenter inde i modulet kan frakobles, så i dette område forstår du ikke en klage til forsiden af ​​huset. Desværre kaster softwaresiden af ​​sagen dig grundigt i suppen.

i praksis
Praktisk implementering [+]

Windows 7 Scheduler er mildt sagt ikke den mest effektive måde at tildele opgaver på, fordi det ofte veksler fordelingen af ​​opgaver mellem kerner. Den næste version af operativsystemet løser problemet, og der rettes snart en løsning til dette system, så - i ekstreme tilfælde kan det være 15-25 procent - vi får snart 2-10% mere ydelse. En anden meget god fordel vil være, at tomgangsforbruget kan reduceres med 4-5 watt, fordi modulerne kan forblive i farten længere.

bulldozerwin8_og_bf3
"Se ikke på dine tænder for en gave til ydeevne" [+]

bulldozerbf3betafx

"Transformationen" under Battlefield 3 [+]

Battlefield 3 viser også godt, hvor meget en vis optimering hjælper en processor. I dette spil kan den i øjeblikket mest kraftfulde FX-serieprocessor opnå ydeevnen til Core i7-2600k.

FX-seriens processorer leveres med en Socket AM3 + -kapsling og er anbragt i AMDs 9-serie chipset-bundkort. Orientering lettes også af stikkets farve, som for det meste er sort. For at implementere den uendeligt soniske Scorpius-platform har vi brug for en processor i FX-serien, et bundkort med et 9-serie chipsæt og et Radeon HD 6000-serien grafikkort. Bulldozer har en dual-channel DDR1866-hukommelsescontroller, der understøtter 3 MHz-moduler.

phenomu_folulk

AMD FX-8150 med en Phenom II X4 970 BE - ovenfra [+]

Afslutningsvis vil vi gerne tilføje endnu en interessant tilføjelse. Det faktum, at arbejdet udført af Bulldozer-baserede processorer pr. Ur (instruktioner pr. Cyklus) i gennemsnit er faldet noget sammenlignet med sin forgænger, har skabt alvorlig kontrovers. Nogle forestiller sig straks arkitekturens fald, andre viser lignende eksempler fra fortiden. Lad os i denne henseende som altid begrænse os til fakta. Programmører i dag er i stigende grad klar over fordelene ved multi-core optimering. Med en 8-cylindret motor, der dybest set leverer god ydelse, tænker vi sjældent på, hvad den kan gøre med 1 cylinder.

phenomualulk

AMD FX-8150 med en Phenom II X4 970 BE - bund [+]

Eksemplet er ikke det bedste, men det kan kaste lys over pointen. Vi hævder ikke, at vi vil udnytte otte heltalskerner tæt, men Turbo Core 2.0 målretter mod det højest mulige ursignal (4,2 GHz). Hvad der kun er tilgængeligt i tilfælde af K10.5 på bekostning af "blodig sved" betragtes her som et "basisur". Der er heller ingen tvivl om, at implementeringen af ​​AVX, FMA og XOP har kostet et betydeligt sæt transistorer. Grundlæggende om arkitekturen bruges i flere segmenter (server, desktop PC), så dette virkede som et obligatorisk trin, men i dag ser vi endnu mindre af fordelene (især i et desktop-miljø).

socket_2k

Liggende i sengen [+]

Ideelt set (FMA4 + AVX) føles Bulldozer virkelig meget elementær, leverer overraskende ydeevne og sætter tingene i et andet lys med det samme. Ifølge målinger fra den tyske HT4U udfører AMD FX-1.1 under C-Ray 8150-gengivelsesapplikationen på de samme 15 sekunder som Intel Core i7 990X. Det er nøjagtigt halvdelen af ​​den tid, det tog en AMD Phenom II X6 1100T-processor at udføre jobbet. Vi vil bemærke i parentes, at vi også vejede den anden ekstreme, Super PI.