Параллельные программы. Пример блочно-циклического распределения плотной матрицы по решетке процессов.

Пример блочно-циклического распределения плотной матрицы по решетке процессов.

Приводимый в настоящем разделе пример является простейшей иллюстрацией блочно - циклического распределения плотной глобальной матрицы A по двумерной решетке процессов.

В соответствии с принятой схемой, сначала плотная матрица A размера M * N разделяется на блоки размера MB * NB начиная с левого верхнего угла этой матрицы. Эти блоки затем равномерно распределяются по каждому измерению решетки процессов. Точные математические соотношения, соответствующие такой схеме распределения, приводятся в разделе документации "Схема размещения в локальной памяти и блочно - циклическое отображение плотных матриц".

Таким образом каждый процесс владеет набором блоков, которые расположены в его локальной памяти рядом, в двумерном массиве, хранящемся по столбцам.

Ниже на рисунке показано разделение матрицы A размером 9 * 9 на блоки размером 2 * 2.

a₁₁ a₁₂ a₂₁ a₂₂	a₁₃ a₁₄ a₂₃ a₂₄	a₁₅ a₁₆ a₂₅ a₂₆	a₁₇ a₁₈ a₂₇ a₂₈	a₁₉ a₂₉
a₃₁ a₃₂ a₄₁ a₄₂	a₃₃ a₃₄ a₄₃ a₄₄	a₃₅ a₃₆ a₄₅ a₄₆	a₃₇ a₃₈ a₄₇ a₄₈	a₃₉ a₄₉
a₅₁ a₅₂ a₆₁ a₆₂	a₅₃ a₅₄ a₆₃ a₆₄	a₅₅ a₅₆ a₆₅ a₆₆	a₅₇ a₅₈ a₆₇ a₆₈	a₅₉ a₆₉
a₇₁ a₇₂ a₈₁ a₈₂	a₇₃ a₇₄ a₈₃ a₈₄	a₇₅ a₇₆ a₈₅ a₈₆	a₇₇ a₇₈ a₈₇ a₈₈	a₇₉ a₈₉
a₉₁ a₉₂	a₉₃ a₉₄	a₉₅ a₉₆	a₉₇ a₉₈	a₉₉

Далее показано отображение полученных блоков на решетку процессов размером 2 * 3 (двумерное блочно - циклическое распределение данных).

Чтобы понять, как распределятся изображенные выше блоки по процессам решетки, сначала напишем на каждой из клеток (блоков) рисунка координаты процессов, куда они должны быть распределены в соответствии с установленным блочно - циклическим распределением, описанным в разделе документации "Схема размещения в локальной памяти и блочно - циклическое отображение плотных матриц".

(0,0)	(0,1)	(0,2)	(0,0)	(0,1)
(1,0)	(1,1)	(1,2)	(1,0)	(1,1)
(0,0)	(0,1)	(0,2)	(0,0)	(0,1)
(1,0)	(1,1)	(1,2)	(1,0)	(1,1)
(0,0)	(0,1)	(0,2)	(0,0)	(0,1)

Пусть первый блок распределяется в процесс (0, 0). Тогда все блоки, расположенные с ним в той же строке будут распределяться в ту же строку решетки процессов, т.е. первая координата в этих клетках будет равна 0.

Вторая же координата (столбца решетки) будет циклически изменяться: 0, 1, 2, 0, 1, т.к. столбцов в решетке только 3 (с координатами 0, 1, 2).

Все блоки, расположенные с первым в том же самом столбце, будут распределяться в тот же самый столбец решетки процессов. Т.е. вторая координата в этих клетках будет равна 0. Первая же координата (строки решетки) будет циклически изменяться: 0, 1, 0, 1, 0, т.к. число строк в решетке только 2 (с координатами 0,1).

Другими словами, каждая координата независимо от другой (в строках - слева направо, а в столбцах - сверху вниз), циклически изменяется.

Если теперь мы соединим вместе (пристыкуем) все клетки (блоки), имеющие одинаковые координаты процесса, то получим массив элементов, который и должен расположиться в локальной памяти процесса с такими координатами.

Сборка клеток (блоков) с одинаковыми координатами делается так:

 - из этих клеток выбирается расположенная левее и выше всех;
 - к ней пристыковываются снизу клетки расположеннные в этом же
    столбце, тем самым получается первый столбец блоков;
 - затем берется клетка, расположенная правее в той же строке клеток,
    что и самая первая; к ней пристыковываются все расположенные ниже
    в том же столбце, тем самым получаем следующий столбец клеток;
 - после того, как собраны все столбцы клеток с одинаковыми
    координатами, пристыковываем их поочереди слева к первому столбцу.

Тем самым получаем единый двумерный массив, расположенный в локальной памяти процесса с указанными в клетках координатами.

Ниже представлено расположение элементов исходной матрицы во всех процессах решетки после завершения процесса блочно - циклического распределения. Вверху указаны номера столбцов решетки процессов, слева - номера строк решетки процессов.

	0		1		2
0	a₁₁ a₁₂ a₂₁ a₂₂	a₁₇ a₁₈ a₂₇ a₂₈	a₁₃ a₁₄ a₂₃ a₂₄	a₁₉ a₂₉	a₁₅ a₁₆ a₂₅ a₂₆
	a₅₁ a₅₂ a₆₁ a₆₂	a₅₇ a₅₈ a₆₇ a₆₈	a₅₃ a₅₄ a₆₃ a₆₄	a₅₉ a₆₉	a₅₅ a₅₆ a₆₅ a₆₆
	a₉₁ a₉₂	a₉₇ a₉₈	a₉₃ a₉₄	a₉₉	a₉₅ a₉₆
1	a₃₁ a₃₂ a₄₁ a₄₂	a₃₇ a₃₈ a₄₇ a₄₈	a₃₃ a₃₄ a₄₃ a₄₄	a₃₉ a₄₉	a₃₅ a₃₆ a₄₅ a₄₆
1	a₇₁ a₇₂ a₈₁ a₈₂	a₇₇ a₇₈ a₈₇ a₈₈	a₇₃ a₇₄ a₈₃ a₈₄	a₇₉ a₈₉	a₇₅ a₇₆ a₈₅ a₈₆

Ниже в таблице указаны характеристики локальных массивов для каждого из процессов решетки.

     Координаты
     процесса             LLD_A       LOCr ( M_A )       LOCc ( N_A )
    _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
         (0,0)                      5                     5                             4
         (0,1)                      5                     5                             3
         (0,2)                      5                     5                             2
 
         (1,0)                      4                     4                             4
         (1,1)                      4                     4                             3
         (1,2)                      4                     4                             2

Число строк LOCr и число столбцов LOCc матрицы A, которыми владеет (обладает) конкретный процесс, могут отличаться у разных процессов в решетке (процессов). Подобно этому, для каждого процесса в решетке процессов существует ведущая локальная размерность LLD. Ее величина может быть различной для разных процессов в решетке процессов. Например, как мы можем видеть на рисунке выше, локальный массив, хранящийся (расположенный) в строке решетки процессов с номером 0, должен иметь ведущую локальную размерность LLD не меньше 5, а хранящийся в строке с номером 1 - не меньше 4. Подробнее о ведущей локальной размерности LLD см. в разделе документации "Дескрипторы глобальных массивов".