Определение Xeon Phi и таблица процессоров

Xeon Phi
произведенный	С 2010 по 2020
Максимум.Тактовая частотапроцессора	1,053 ГГц – 1,7 ГГц
Сердечники	57-61 (серия X100); 64-72 (серия x200);
L1 кеш	32 КБ на ядро
L2 кеш	512 КБ на ядро
Транзисторы	22 нм транзисторы ( Tri-Gate ); 14 нм транзисторы ( Tri-Gate )
Архитектура	x86-64
расширения	AVX , AVX2 , расширенные векторные расширения 512;
Sockets	PCIe 3.0 x16; LGA3647;
Торговые марки)	Xeon Phi 3100; Xeon Phi 5100; Xeon Phi 7100; Xeon Phi 7200; ;

Первоначально в виде дополнительных карт на основе PCIe в июне 2013 года было объявлено о продукте второго поколения под кодовым названием Knights Landing . Эти чипы второго поколения могут использоваться в качестве автономного ЦП, а не просто в качестве дополнительной карты.

Tianhe-2 суперкомпьютер использует процессоры Xeon Phi.

В июне 2013 года суперкомпьютер Tianhe-2 в Национальном суперкомпьютерном центре в Гуанчжоу (NSCC-GZ) был объявлен самым быстрым суперкомпьютером в мире (по состоянию на июнь 2018 года он является № 4). Для достижения 33,86 петаФЛОПС использовались сопроцессоры Intel Xeon Phi и процессоры Ivy Bridge -EP Xeon.

История

Кодовое имя	Технология	Комментарии
Knights Ferry	45 нм	предлагается как карта PCIe; полученный из проекта Larrabee
Knights Corner	22 нм	полученный из P54C; блок векторной обработки; первое устройство, которое будет объявлено как Xeon Phi
Knights Landing	14 нм	полученный из Silvermont / Airmont (Intel Atom); AVX-512
Knights Hill	10 нм	отменен
Knights Hill	14 нм	почти идентичен Knights Landing, но оптимизирован для глубокого обучения

Background

Микроархитектуры Лараби (в разработке с 2006 года) представил очень широкие (512 бит) SIMD единиц на х86 конструкцию процессора на основе архитектуры, продолжается до кэша-когерентного мультипроцессорной системы подключены через кольцевую шину память; каждое ядро было способно к четырехсторонней многопоточности. Из-за дизайна, предназначенного как для графических процессоров, так и для вычислений общего назначения, чипы Larrabee также включали специализированное оборудование для выборки текстур. Проект по выпуску продукта GPU для розничной торговли непосредственно из исследовательского проекта Larrabee был прекращен в мае 2010 года.

Другим современным исследовательским проектом Intel, реализующим архитектуру x86 на многоядерном процессоре, был « Одночиповый облачный компьютер » (прототип, представленный в 2009 году ), конструкция, имитирующая центр обработкиданных облачных вычислений на одном кристалле с несколькими независимыми ядрами: Конструкция прототипа включала 48 ядер на чип с аппаратной поддержкой селективного управления частотой и напряжением ядер для максимизации энергоэффективности и включала ячеистую сеть для обмена сообщениями между чипами. В дизайне отсутствовали согласованные с кэшем ядра, и основное внимание уделялось принципам, которые позволили бы масштабировать проект до гораздо большего числа ядер.

Терафлопс исследований Чип (прототип представила 2007 ) представляет собой экспериментальный 80-ядерный чип с двумя с плавающей точкой единиц на ядро, реализующих 96-битный VLIW архитектуру вместо архитектуры x86. В рамках проекта были исследованы методы межкорпусной связи, управления питанием для каждого чипа и достигнут 1,01 TFLOPS при 3,16 ГГц, потребляющих 62 Вт энергии.

Knights Ferry

31 мая 2010 года было объявлено о выпуске платы-прототипа Intel Integrated Core (MIC) под названием Knights Ferry , в которой используется процессор под кодовым названием Aubrey Isle . Продукт считается производным от проекта Larrabee и других исследований Intel, включая однокристальный облачный компьютер ,

Продукт разработки предлагался в виде карты PCIe с 32 ядрами по порядку до 1,2 ГГц с четырьмя потоками на ядро, 2 ГБ памяти GDDR5, и 8 МБ когерентной кэш-памяти L2 (256 КБ на ядро с 32 КБ кэш-памяти L1). ), и потребляемая мощность ~ 300 Вт построенная при 45 нм процессе. В ядре Aubrey Isle 1024-битная кольцевая шина (512-битная двунаправленная) соединяет процессоры с основной памятью. Производительность одной платы превысила 750 GFLOPS. Прототипы плат поддерживают только инструкции с плавающей запятой одинарной точности.

Первоначальные разработчики включали ЦЕРН , Корейский институт научно-технической информации (KISTI) и Суперкомпьютерный центр Лейбница . В число поставщиков оборудования для опытных плат входили IBM, SGI, HP, Dell и другие.

Knights Corner

Knights Corner линии продукт изготовлен по размеру процесса 22 нм, используя Intel, Tri-ворота технологии с более чем 50 ядер на чип, и является первым многих сердечники коммерческим продуктом компании Intel.

В июне 2011 года SGI объявила о партнерстве с Intel для использования архитектуры MIC в своих высокопроизводительных вычислительных продуктах. В сентябре 2011 года было объявлено, что Техасский центр расширенных вычислений (TACC) будет использовать карты Knights Corner в своем суперкомпьютере 10 petaFLOPS «Stampede», обеспечивающем 8 petaFLOPS вычислительной мощности. Согласно «Stampede: комплексная вычислительная среда Petascale», «MIC второго поколения Intel (Knights Landing) будут добавлены, когда они станут доступны, что увеличит совокупную пиковую производительность Stampede по крайней мере до 15 PetaFLOPS».

15 ноября 2011 года Intel представила раннюю кремниевую версию процессора Knights Corner.

5 июня 2012 года Intel выпустила программное обеспечение с открытым исходным кодом и документацию по Knights Corner.

18 июня 2012 года корпорация Intel объявила на международной конференции суперкомпьютеров в Гамбурге 2012 года, что Xeon Phi будет торговой маркой, используемой для всех продуктов, основанных на архитектуре Many Integrated Core. В июне 2012 года Cray объявил, что будет предлагать 22 нм чипы Knight’s Corner (маркированные как «Xeon Phi») в качестве совместного процессор в своих системах «Каскад».

В июне 2012 года ScaleMP объявил об обновлении виртуализации, позволяющем Xeon Phi в качестве прозрачного расширения процессора, позволяющего старому коду MMX / SSE работать без изменений кода. Важным компонентом ядра сопроцессора Intel Xeon Phi является блок векторной обработки (VPU). VPU имеет новый 512-битный набор инструкций SIMD, официально известный как Intel Initial Many Core Instructions (Intel IMCI). Таким образом, VPU может выполнять 16 одинарной(SP) или 8 двойной точности(DP) операций за цикл. VPU также поддерживает команды Fusion Multiply-Add (FMA) и, следовательно, может выполнять 32 SP или 16 DP операций с плавающей запятой за цикл. Он также обеспечивает поддержку целых чисел. VPU также имеет модуль расширенного математического анализа (EMU), который может выполнять такие операции, как обратный, квадратный корень и логарифм, что позволяет выполнять эти операции векторным способом с высокой пропускной способностью. EMU работает путем вычисления полиномиальных приближений этих функций.

12 ноября 2012 года Intel анонсировала два семейства сопроцессоров Xeon Phi, использующих процесс 22 нм: Xeon Phi 3100 и Xeon Phi 5110P. Xeon Phi 3100 будет способен выполнять более 1 терафлопс с инструкциями двойной точности с плавающей запятой и пропускной способностью памяти 240 Гбит / с при 300 Вт. Xeon Phi 5110P будет способен к 1,01 терафлопсам команд с плавающей запятой двойной точности с пропускной способностью памяти 320 Гбит / с при 225 Вт. Xeon Phi 7120P будет способен к 1,2 терафлопсам команд с плавающей запятой двойной точности с Пропускная способность памяти 352 Гбит / с при 300 Вт.

17 июня 2013 года Tianhe-2 суперкомпьютер был объявлен по TOP500 , как самый быстрый в мире. Tianhe-2 использовала процессоры Intel Ivy Bridge Xeon и Xeon Phi для достижения 33,86 петаФЛОПС. Он был самым быстрым в списке в течение двух с половиной лет, наконец, в ноябре 2015 года.

Дизайн и программирование

Ядра Knights Corner основаны на модифицированной версии дизайна P54C , используемой в оригинальном Pentium. Основой архитектуры Intel MIC является использование унаследованного x86 путем создания x86-совместимой многопроцессорной архитектуры, которая может использовать существующие программные средства распараллеливания. Инструменты программирования включают OpenMP ,OpenCL , Cilk / Cilk Plus и специализированные версии Intel Fortran, C ++ и математических библиотек.

Элементы дизайна, унаследованные от проекта Larrabee, включают x86 ISA, 4- сторонний SMT на ядро, 512-битные блоки SIMD, кэш инструкций L1 32 КБ, кэш данных L1 32 КБ, когерентный кэш L2 (512 КБ на ядро ) и сверхширокая кольцевая шина, соединяющая процессоры и память.

Документацию по набору инструкций Knights Corner можно получить в Intel.

модели

Серия Xeon Phi X100	схватывается нации	Ядра (Темы)	Часы (МГц)		L2 Cache	объем памяти					Пик DP Compute (GFLOPS)	TDP (W)	Охлаждающая система	Фактор формы	Вышел
Серия Xeon Phi X100	схватывается нации	Ядра (Темы)	База	Turbo	L2 Cache	система		кана- Нелс		BW ГБ / с	Пик DP Compute (GFLOPS)	TDP (W)	Охлаждающая система	Фактор формы	Вышел
Xeon Phi 3110X	SE3110X	61 (244)	1053	–	30,5 МБ	6 ГБ	GDDR5 ECC	6х	Dual Channe	240	1028	300	Голая доска	PCIe 2.0 x16 карта	Ноябрь 2012
Xeon Phi 3110X	SE3110X	61 (244)	1053	–	30,5 МБ	8 ГБ		8х		320	1028	300	Голая доска		Ноябрь 2012
Xeon Phi 3120A	SC3120A	57 (228)	1100	–	28,5 МБ	6 ГБ		6х		240	1003	300	Вентилятор / теплоотвод		17 июня 2013 г.
Xeon Phi 3120P	SC3120P	57 (228)	1100	–	28,5 МБ	6 ГБ		6х		240	1003	300	Пассивный радиатор		17 июня 2013 г.
Xeon Phi 31S1P	BC31S1P	57 (228)	1100	–	28,5 МБ	8 ГБ		8х		320	1003	270	Пассивный радиатор		17 июня 2013 г.
Xeon Phi 5110P	SC5110P	60 (240)	1053	–	30,0 МБ	8 ГБ		8х		320	1011	225	Пассивный радиатор		12 ноября 2012 г.
Xeon Phi 5120D	SC5120D	60 (240)	1053	–	30,0 МБ	8 ГБ		8х		352	1011	245	Голая доска	SFF 230-контактная карта	17 июня 2013 г.
Xeon Phi 5120D	BC5120D	60 (240)	1053	–	30,0 МБ	8 ГБ		8х		352	1011	245	Голая доска	SFF 230-контактная карта	17 июня 2013 г.
Xeon Phi SE10P	SE10P	61 (244)	1100	–	30,5 МБ	8 ГБ		8х		352	1074	300	Пассивный радиатор	PCIe 2.0 x16 карта	12 ноября 2012 г.
Xeon Phi SE10X	SE10X	61 (244)	1100	–	30,5 МБ	8 ГБ		8х		352	1074	300	Голая доска		12 ноября 2012 г.
Xeon Phi 7110P	SC7110P	61 (244)	1250	???	30,5 МБ	16 Гб		8х		352	1220	300	Пассивный радиатор		???
Xeon Phi 7110X	SC7110X	61 (244)	1250	???	30,5 МБ	16 Гб		8х		352	1220	300	Голая доска		???
Xeon Phi 7120A	SC7120A	61 (244)	1238	1333	30,5 МБ	16 Гб		8х		352	1208	300	Вентилятор / теплоотвод		6 апреля 2014 г.
Xeon Phi 7120D	SC7120D	61 (244)	1238	1333	30,5 МБ	16 Гб		8х		352	1208	270	Голая доска	SFF 230-контактная карта	Март 2014
Xeon Phi 7120P	SC7120P	61 (244)	1238	1333	30,5 МБ	16 Гб		8х		352	1208	300	Пассивный радиатор	PCIe 2.0 x16 карта	17 июня 2013 г.
Xeon Phi 7120X	SC7120X	61 (244)	1238	1333	30,5 МБ	16 Гб		8х		352	1208	300	Голая доска	PCIe 2.0 x16 карта	17 июня 2013 г.

Knights Landing

Кодовое название для продукта MIC архитектуры второго поколения от Intel. Корпорация Intel впервые официально представила подробности о своих продуктах Intel Xeon Phi второго поколения 17 июня 2013 года. Intel заявила, что следующее поколение продуктов на базе архитектуры Intel MIC будет доступно в двух вариантах: в виде сопроцессора или хост-процессор (CPU) и изготавливаться с использованием 14 нм техпроцесса Intel . Продукты Knights Landing будут включать встроенную встроенную память для значительно большей пропускной способности памяти.

Knights Landing содержит до 72 ядер Airmont (Atom) с четырьмя потоками на ядро, с использованием сокета LGA 3647 поддерживающего до 384 ГБ «далекой» оперативной памяти DDR4 2133 и 8–16 ГБ стековых ». рядом “3D MCDRAM” , версия Hybrid Memory Cube . Каждое ядро имеет два 512-разрядных векторных блока и поддерживает инструкции SIMX AVX-512, в частности, Основополагающие инструкции Intel AVX-512 (AVX-512F) с инструкциями по обнаружению конфликтов Intel AVX-512 (AVX-512CD), Intel AVX-512 Exponential и Взаимные инструкции (AVX-512ER) и инструкции Intel AVX-512 для предварительной выборки (AVX-512PF).

Национальный энергетический научно – исследовательский вычислительный центр объявил , что Фаза 2 своей новейшей системы суперкомпьютеров «Cori» будет использовать Knights Landing Xeon Phi сопроцессоры.

20 июня 2016 года Intel выпустила семейство продуктов Intel Xeon Phi x200 на основе архитектуры Knights Landing, подчеркнув его применимость не только для традиционных рабочих нагрузок моделирования, но и для машинного обучения . Модельный ряд, анонсированный при запуске, включал только Xeon Phi загрузочного форм-фактора, но две его версии: стандартные процессоры и процессоры с интегрированной структурой архитектуры Intel Omni-Path . Последний обозначается суффиксом F в номере модели. Ожидается, что интегрированная структура обеспечит большую задержку при более низкой стоимости, чем дискретные высокопроизводительные сетевые карты.

14 ноября 2016 года 48-й список TOP500 содержал 10 систем, использующих платформы Knights Landing.

PCIe на базе сопроцессора вариант Landing Найта никогда не предлагал общий рынок и был прекращен в августе 2017. Это включало 7220A, 7240P и 7220P сопроцессор карту.

Intel объявила о прекращении выпуска продукции летом 2018 года

модели

Все модели могут повысить свои пиковые скорости, добавив 200 МГц к своей базовой частоте при работе только с одним или двумя ядрами. При работе от трех до максимального количества ядер чипы могут повышать частоту только на 100 МГц выше базовой частоты. Все чипы работают с высоким AVX-кодом на частоте, уменьшенной на 200 МГц.

Xeon Phi 7200 Series	номер sSpec	Ядра (Темы)	Часы (МГц)		L2 Cache	MCDRAM Память		Память DDR4		Пик DP Compute	TDP (W)	Soc- кет	Дата выпуска	номер части
Xeon Phi 7200 Series	номер sSpec	Ядра (Темы)	База	Turbo	L2 Cache	Количество	BW	Количество	BW	Пик DP Compute	TDP (W)	Soc- кет	Дата выпуска	номер части
Xeon Phi 7210	SR2ME (B0)	64 (256)	1300	1500	32 МБ	16 Гб	400+ ГБ / с	384 ГБ	102,4 Гбит / с	2662 GFLOPS	215	SVLCLGA3647	20 июня 2016 г.	HJ8066702859300
Xeon Phi 7210	SR2X4 (B0)										215			HJ8066702859300
Xeon Phi 7210F	SR2X5 (B0)										230			HJ8066702975000
Xeon Phi 7230	SR2MF (B0)										215			HJ8066702859400
Xeon Phi 7230	SR2X3 (B0)										215			HJ8066702859400
Xeon Phi 7230F	SR2X2 (B0)										230			HJ8066702269002
Xeon Phi 7250	SR2MD (B0)	68 (272)	1400	1600	34 МБ					3046 GFLOPS	215			HJ8066702859200
Xeon Phi 7250	SR2X1 (B0)										215			HJ8066702859200
Xeon Phi 7250F	SR2X0 (B0)										230			HJ8066702268900
Xeon Phi 7290	SR2WY (B0)	72 (288)	1500	1700	36 МБ					3456 GFLOPS	245			HJ8066702974700
Xeon Phi 7290F	SR2WZ (B0)	72 (288)	1500	1700	36 МБ					3456 GFLOPS	260			HJ8066702975200

Knights Hill

Knights Hill был кодовым названием архитектуры MIC третьего поколения, для которой Intel объявила первые подробности на SC14. Он должен был быть изготовлен по 10 нм процессу.

Ожидалось, что Knights Hill будет использоваться в суперкомпьютере Aurora Министерства энергетики США , который будет развернут в Аргоннской национальной лаборатории . Однако, Аврора была отложена в пользу использования «продвинутой архитектуры» с акцентом на машинное обучение.

В 2017 году Intel объявила, что Knights Hill была отменена в пользу еще одной архитектуры, созданной с нуля, чтобы обеспечить возможность вычислений Exascale в будущем. Эта новая архитектура в настоящее время ожидается в 2020–2021 годах. Термины Exascale computing и высокопроизводительные вычисления (HPC) в то же время были связаны Intel с собственным термином Omni-Path Architecture (OPA) в публикациях.

Knights Mill

Knights Mill – это кодовое название Intel для продукта Xeon Phi, специализирующегося на глубоком обучении , впервые выпущенного в декабре 2017 года. Практически идентичный спецификациям для Knights Landing, Knights Mill включает в себя оптимизации для лучшего использования инструкций AVX-512 и позволяет 4 -way гиперпотоковый . Производительность с плавающей точкой одинарной и переменной точности увеличилась за счет производительности с плавающей точкой двойной точности.

модели

Xeon Phi 72×5 Series	номер sSpec	Ядра (Темы)	Часы (МГц)		L2 Cache	MCDRAM Память		Память DDR4		Пик DP Compute	TDP (W)	Soc- кет	Дата выпуска	Номер части
Xeon Phi 72×5 Series	номер sSpec	Ядра (Темы)	База	Turbo	L2 Cache	Количество	BW	Количество	BW	Пик DP Compute	TDP (W)	Soc- кет	Дата выпуска	Номер части
Xeon Phi 7235	SR3VF (A0)	64 (256)	1300	1400	32 МБ	16 Гб	400+ ГБ / с	384 ГБ	102,4 Гбит / с	TBA	250	SVLCLGA3647	4 квартал 2017	HJ8068303823900
Xeon Phi 7285	SR3VE (A0)	68 (272)	1300	1400	34 МБ				115,2 Гбит / с	TBA	250			HJ8068303823800
Xeon Phi 7295	SR3VD (A0)	72 (288)	1500	1600	36 МБ				115,2 Гбит / с	TBA	320			HJ8068303823700

Программирование

Исследователи выполнили эмпирическое исследование производительности и программируемости^, в котором авторы утверждают, что для достижения высокой производительности с помощью Xeon Phi по-прежнему нужна помощь программистов и что просто полагаться на компиляторы с традиционными моделями программирования по-прежнему далеко от реальности. Однако исследования в различных областях, таких как науки о жизни, глубокое обучение и компьютерная инженерия показали, что использование как параллельного, так и SIMD-параллелизма Xeon Phi достигает значительных ускорений.

Конкуренты

Nvidia Tesla , прямой конкурент на рынке высокопроизводительных вычислений
Прямые конкуренты AMD Radeon Pro и AMD Radeon Instinct на рынке высокопроизводительных вычислений

,