abacus-develop/para__gemm_8h_source.html

#ifndef PARA_GEMM_H

#define PARA_GEMM_H

#include "source_base/module_device/device.h"

#include "source_base/module_device/memory_op.h"


#include <vector>

#ifdef __MPI

#include "mpi.h"

#endif


namespace ModuleBase

{

template <typename T, typename Device = base_device::DEVICE_CPU>


class PGemmCN

{

  public:

    PGemmCN();

    ~PGemmCN();


    void set_dimension(

#ifdef __MPI

        MPI_Comm comm_col,

        MPI_Comm comm_row,

#endif

        const int ncolA,

        const int LDA,

        const int ncolB,

        const int LDB,

        const int nrow,

        const int LDC,

        const int mode = 1);


    void multiply(const T alpha, const T* A, const T* B, const T beta, T* C);

#ifdef __MPI

    MPI_Comm col_world = MPI_COMM_NULL;

    MPI_Comm row_world = MPI_COMM_NULL;


    int col_rank = 0;

    int col_nproc = 1;

    int row_rank = 0;

    int row_nproc = 1;


    std::vector<int> colA_loc;

    int max_colA = 0;

    std::vector<int> colB_loc;

    int max_colB = 0;


    std::vector<MPI_Request> requests;

    std::vector<int> recv_counts;

    std::vector<int> displs;

    int size_C_local = 0;

    int size_C_global = 0;

    bool gatherC = true;

    bool divideCrow = false;

#endif

    int ncolA = 0;

    int ncolB = 0;

    int nrow = 0;

    int LDA = 0;

    int LDB = 0;

    int LDC = 0;

  private:

    void multiply_single(const T alpha, const T* A, const T* B, const T beta, T* C);

#ifdef __MPI

    void multiply_col(const T alpha, const T* A, const T* B, const T beta, T* C);

    void multiply_row(const T alpha, const T* A, const T* B, const T beta, T* C);

#endif

    using resmem_dev_op = base_device::memory::resize_memory_op<T, Device>;

    using delmem_dev_op = base_device::memory::delete_memory_op<T, Device>;

    using syncmem_dev_op = base_device::memory::synchronize_memory_op<T, Device, Device>;

    using syncmem_d2h_op = base_device::memory::synchronize_memory_op<T, base_device::DEVICE_CPU, Device>;

    using syncmem_h2d_op = base_device::memory::synchronize_memory_op<T, Device, base_device::DEVICE_CPU>;


#ifdef __MPI

  private:

    std::vector<T> isend_tmp_;

    std::vector<T> A_tmp_;

    std::vector<T> B_tmp_;

    std::vector<T> C_tmp_;

    std::vector<T> C_global_tmp_;

    T* C_local_tmp_ = nullptr;

    T* A_tmp_device_ = nullptr;

    T* B_tmp_device_ = nullptr;

#endif


};


} // namespace ModuleBase

#endif

ModuleBase::PGemmCN
this class is used to perform parallel matrix multiplication C = alpha * A^H * B + beta * C Here,...
Definition para_gemm.h:25

ModuleBase::PGemmCN::row_rank
int row_rank
rank in row_world
Definition para_gemm.h:65

ModuleBase::PGemmCN::nrow
int nrow
number of rows of A or B
Definition para_gemm.h:83

ModuleBase::PGemmCN::colA_loc
std::vector< int > colA_loc
[col_nproc] number of columns of A matrix in each proc
Definition para_gemm.h:68

ModuleBase::PGemmCN::col_nproc
int col_nproc
number of procs in col_world
Definition para_gemm.h:64

ModuleBase::PGemmCN::B_tmp_device_
T * B_tmp_device_
temperory memory for B
Definition para_gemm.h:111

ModuleBase::PGemmCN::C_local_tmp_
T * C_local_tmp_
temperory memory for C_local
Definition para_gemm.h:109

ModuleBase::PGemmCN::isend_tmp_
std::vector< T > isend_tmp_
temperory memory for sending data
Definition para_gemm.h:104

ModuleBase::PGemmCN::~PGemmCN
~PGemmCN()
Definition para_gemm.cpp:13

ModuleBase::PGemmCN::requests
std::vector< MPI_Request > requests
MPI request.
Definition para_gemm.h:73

ModuleBase::PGemmCN::A_tmp_
std::vector< T > A_tmp_
temperory memory for A
Definition para_gemm.h:105

ModuleBase::PGemmCN::multiply_row
void multiply_row(const T alpha, const T *A, const T *B, const T beta, T *C)
for mode = 3
Definition para_gemm.cpp:323

ModuleBase::PGemmCN::multiply
void multiply(const T alpha, const T *A, const T *B, const T beta, T *C)
calculate C = alpha * A^H * B + beta * C
Definition para_gemm.cpp:147

ModuleBase::PGemmCN::divideCrow
bool divideCrow
whether divide C_global to C_local
Definition para_gemm.h:79

ModuleBase::PGemmCN::max_colB
int max_colB
maximum number of columns of B matrix in all procs
Definition para_gemm.h:71

ModuleBase::PGemmCN::gatherC
bool gatherC
whether gather C_local to C_global
Definition para_gemm.h:78

ModuleBase::PGemmCN::row_world
MPI_Comm row_world
row communicator world
Definition para_gemm.h:61

ModuleBase::PGemmCN::set_dimension
void set_dimension(MPI_Comm comm_col, MPI_Comm comm_row, const int ncolA, const int LDA, const int ncolB, const int LDB, const int nrow, const int LDC, const int mode=1)
set the dimension of A, B, and C
Definition para_gemm.cpp:23

ModuleBase::PGemmCN::B_tmp_
std::vector< T > B_tmp_
temperory memory for B
Definition para_gemm.h:106

ModuleBase::PGemmCN::col_rank
int col_rank
rank in col_world
Definition para_gemm.h:63

ModuleBase::PGemmCN::size_C_global
int size_C_global
size of C_global, which is the global C matrix gathered from all procs
Definition para_gemm.h:77

ModuleBase::PGemmCN::PGemmCN
PGemmCN()
Definition para_gemm.cpp:9

ModuleBase::PGemmCN::col_world
MPI_Comm col_world
column communicator world
Definition para_gemm.h:60

ModuleBase::PGemmCN::ncolB
int ncolB
number of columns of B, which is a local matrix in each proc
Definition para_gemm.h:82

ModuleBase::PGemmCN::C_tmp_
std::vector< T > C_tmp_
temperory memory for C
Definition para_gemm.h:107

ModuleBase::PGemmCN::multiply_col
void multiply_col(const T alpha, const T *A, const T *B, const T beta, T *C)
for mode = 1 or 2
Definition para_gemm.cpp:191

ModuleBase::PGemmCN::A_tmp_device_
T * A_tmp_device_
temperory memory for A
Definition para_gemm.h:110

ModuleBase::PGemmCN::multiply_single
void multiply_single(const T alpha, const T *A, const T *B, const T beta, T *C)
for col_nproc == 1
Definition para_gemm.cpp:171

ModuleBase::PGemmCN::max_colA
int max_colA
maximum number of columns of A matrix in all procs
Definition para_gemm.h:69

ModuleBase::PGemmCN::LDC
int LDC
leading dimension of C, which can be C_local or C_global
Definition para_gemm.h:86

ModuleBase::PGemmCN::recv_counts
std::vector< int > recv_counts
receive counts for gathering C_local to C_global
Definition para_gemm.h:74

ModuleBase::PGemmCN::LDA
int LDA
leading dimension of A in each proc
Definition para_gemm.h:84

ModuleBase::PGemmCN::displs
std::vector< int > displs
displacements for gathering C_local to C_global
Definition para_gemm.h:75

ModuleBase::PGemmCN::colB_loc
std::vector< int > colB_loc
[col_nproc] number of columns of B matrix in each proc
Definition para_gemm.h:70

ModuleBase::PGemmCN::C_global_tmp_
std::vector< T > C_global_tmp_
temperory memory for C_global
Definition para_gemm.h:108

ModuleBase::PGemmCN::ncolA
int ncolA
number of columns of A, which is a local matrix in each proc
Definition para_gemm.h:81

ModuleBase::PGemmCN::LDB
int LDB
leading dimension of B in each proc
Definition para_gemm.h:85

ModuleBase::PGemmCN::row_nproc
int row_nproc
number of procs in row_world
Definition para_gemm.h:66

ModuleBase::PGemmCN::size_C_local
int size_C_local
size of C_local, which is a local matrix in each proc
Definition para_gemm.h:76

device.h

T
#define T
Definition exp.cpp:237

__MPI
#define __MPI

memory_op.h

ModuleBase
Definition array_pool.h:6

endif
base device SOURCES math_hegvd_test cpp endif() if(ENABLE_GOOGLEBENCH) AddTest(TARGET PERF_MODULE_HSOLVER_KERNELS LIBS parameter $
Definition CMakeLists.txt:10

base_device::memory::delete_memory_op
Definition memory_op.h:115

base_device::memory::resize_memory_op
Definition memory_op.h:17

base_device::memory::synchronize_memory_op
Definition memory_op.h:61