從多個方面詳解numa node

來源：千鋒教育

發(fā)布人：xqq

時間： 2023-11-24 22:00:57 1700834457

一、numa node簡介

NUMA（Non-Uniform Memory Access，非一致性內(nèi)存訪問）是多處理器系統(tǒng)中常用的一種體系結(jié)構(gòu)，它的特點是有多個處理器和多個內(nèi)存區(qū)域，不同的處理器能夠訪問不同的內(nèi)存。在NUMA架構(gòu)中，每個CPU節(jié)點由一個或多個CPU和一個內(nèi)存子系統(tǒng)組成，這個內(nèi)存子系統(tǒng)僅能被節(jié)點上的CPU訪問。一個節(jié)點可能包含多個內(nèi)存子系統(tǒng)。

NUMA節(jié)點是一組物理內(nèi)存、CPU和其他設備的組合，它們通常由一個或多個處理器和它們要訪問的內(nèi)存單元組成。因為不同的處理器核心可以訪問不同的內(nèi)存，所以在NUMA系統(tǒng)中，一些處理器核心的運行速度可能會比其他的處理器核心慢得多。

二、NUMA的優(yōu)缺點

NUMA架構(gòu)的主要優(yōu)點在于它提供了更大的可擴展性和更快的內(nèi)存訪問速度。在一個傳統(tǒng)的對稱多處理（SMP）系統(tǒng)中，所有處理器都共享一個總線連接到主內(nèi)存，而在NUMA系統(tǒng)中，每個節(jié)點都可以訪問固定大小的物理內(nèi)存。這使得NUMA系統(tǒng)的可擴展性更高，因為每個節(jié)點可以獨立地訪問和擴展自己的內(nèi)存。

另一個優(yōu)點是更快的內(nèi)存訪問速度。在NUMA系統(tǒng)中，每個內(nèi)存子系統(tǒng)只服務于其本地節(jié)點上的處理器，這意味著當一個處理器需要訪問本地內(nèi)存時，它不需要經(jīng)過總線進行協(xié)調(diào)，并且可以直接從內(nèi)存子系統(tǒng)中獲取數(shù)據(jù)，這樣可以有效減少內(nèi)存訪問的延遲。

缺點在于復雜性。由于具有分布式和非均勻的性質(zhì)，NUMA設計和實現(xiàn)更加復雜，因為它需要在處理器和內(nèi)存之間進行更多的協(xié)調(diào)。對于NUMA應用程序來說，要充分利用多個節(jié)點，就需要進行一些額外的編程工作，這對于不熟悉NUMA架構(gòu)的開發(fā)人員來說可能會比較困難。

三、如何在Linux系統(tǒng)中使用NUMA

為了在Linux系統(tǒng)中使用NUMA，需要先了解系統(tǒng)中NUMA節(jié)點的狀況，可以使用numactl命令來查看。以下是一個示例：


$ numactl --hardware
available: 2 nodes (0-1)
node 0 cpus: 0 1
node 0 size: 512 MB
node 0 free: 325 MB
node 1 cpus: 2 3
node 1 size: 1024 MB
node 1 free: 512 MB

在這個輸出中，可以看到該系統(tǒng)有兩個NUMA節(jié)點（節(jié)點0和節(jié)點1），每個節(jié)點都有自己的CPU和內(nèi)存。節(jié)點0中有兩個CPU和512MB內(nèi)存，節(jié)點1中有兩個CPU和1GB內(nèi)存。情況可能會因為不同的系統(tǒng)而異，但是numactl命令可以作為了解NUMA配置的好工具。

在Linux中，可以使用Numa API來處理程序的內(nèi)存分配和線程綁定。下面的代碼示例使用Numa API來將線程分配到本地節(jié)點上：


#include 
#include 

void *thread_func(void *arg) {
    int node_id = *((int *) arg);
    /* 獲取可用的節(jié)點列表 */
    struct bitmask *bm = numa_allocate_cpumask();
    numa_bitmask_setbit(bm, node_id);
    numa_bind(bm);
    numa_free_cpumask(bm);
    /* 之后可以進行自己的線程操作 */
}

int main() {
    int num_threads = 4;
    pthread_t *threads = malloc(sizeof(pthread_t) * num_threads);
    int *node_ids = malloc(sizeof(int) * num_threads);
    /* 獲取可用的節(jié)點列表 */
    struct bitmask *bm = numa_get_available_nodes();
    for (int i = 0; i < num_threads; i++) {
        /* 選擇一個節(jié)點 */
        int node_id = numa_bitmask_next(bm, -1);
        node_ids[i] = node_id;
        numa_bitmask_clearall(bm);
        numa_bitmask_setbit(bm, node_id);
        pthread_create(&(threads[i]), NULL, thread_func, &(node_ids[i]));
    }
    for (int i = 0; i < num_threads; i++) {
        pthread_join(threads[i], NULL);
    }
    free(threads);
    free(node_ids);
}

四、NUMA的應用場景

NUMA架構(gòu)主要用于處理大型計算任務，特別是需要大量內(nèi)存和分布式異構(gòu)計算的任務。例如在科學計算和仿真中，數(shù)據(jù)通常比較大，需要在多個節(jié)點之間共享和傳輸。因此，NUMA架構(gòu)在高性能計算領域非常受歡迎。

在開發(fā)NUMA應用程序時，應該遵循以下幾個準則：

避免在節(jié)點之間頻繁移動內(nèi)存使用本地內(nèi)存訪問盡可能多的數(shù)據(jù) 盡可能使每個節(jié)點負責自己的數(shù)據(jù)和計算

五、總結(jié)

NUMA架構(gòu)提供了高可擴展性和快速內(nèi)存訪問的優(yōu)點，但也帶來了更大的復雜性和難以理解的挑戰(zhàn)。對于開發(fā)應用程序來說，要正確地利用NUMA的優(yōu)勢，需要深刻理解NUMA的內(nèi)部工作原理，以及如何在應用程序中顯式地處理內(nèi)存和線程綁定。

tags: numpydelete