Barretenberg: src/barretenberg/common/thread.hpp Source File

#pragma once

#include "barretenberg/common/compiler_hints.hpp"

#include <atomic>

#include <barretenberg/env/hardware_concurrency.hpp>

#include <barretenberg/numeric/bitop/get_msb.hpp>

#include <functional>

#include <iostream>

#include <ranges>

#include <vector>


namespace bb {

#ifdef __wasm__

// Fixed number of workers in WASM environment

constexpr size_t PARALLEL_FOR_MAX_NESTING = 1;

#else

constexpr size_t PARALLEL_FOR_MAX_NESTING = 2;

#endif


// Useful for programatically benching different thread counts

// Note this is threadsafe and affects parallel_for's just in that thread if so.

void set_parallel_for_concurrency(size_t num_cores);

size_t get_num_cpus();


// For algorithms that need to be divided amongst power of 2 threads.


inline size_t get_num_cpus_pow2()

{

    return static_cast<size_t>(1ULL << numeric::get_msb(get_num_cpus()));

}


void parallel_for(size_t num_iterations, const std::function<void(size_t)>& func);

void parallel_for_range(size_t num_points,

                        const std::function<void(size_t, size_t)>& func,

                        size_t no_multhreading_if_less_or_equal = 0);


void parallel_for_heuristic(size_t num_points,

                            const std::function<void(size_t, size_t, size_t)>& func,

                            size_t heuristic_cost);


template <typename Func>

    requires std::invocable<Func, std::size_t>


void parallel_for_heuristic(size_t num_points, const Func& func, size_t heuristic_cost)

{

    parallel_for_heuristic(

        num_points,

        [&](size_t start_idx, size_t end_idx, BB_UNUSED size_t chunk_index) {

            for (size_t i = start_idx; i < end_idx; i++) {

                func(i);

            }

        },

        heuristic_cost);

}


template <typename Func, typename Accum>

    requires std::invocable<Func, std::size_t, Accum&>


std::vector<Accum> parallel_for_heuristic(size_t num_points,

                                          const Accum& initial_accum,

                                          const Func& func,

                                          size_t heuristic_cost)

{

    // thread-safe accumulators

    std::vector<Accum> accumulators(get_num_cpus(), initial_accum);

    parallel_for_heuristic(

        num_points,

        [&](size_t start_idx, size_t end_idx, size_t chunk_index) {

            for (size_t i = start_idx; i < end_idx; i++) {

                func(i, accumulators[chunk_index]);

            }

        },

        heuristic_cost);

    return accumulators;

}


const size_t DEFAULT_MIN_ITERS_PER_THREAD = 1 << 4;


struct MultithreadData {

    size_t num_threads;

    // index bounds for each thread

    std::vector<size_t> start;

    std::vector<size_t> end;

};


MultithreadData calculate_thread_data(size_t num_iterations,

                                      size_t min_iterations_per_thread = DEFAULT_MIN_ITERS_PER_THREAD);


size_t calculate_num_threads(size_t num_iterations, size_t min_iterations_per_thread = DEFAULT_MIN_ITERS_PER_THREAD);


size_t calculate_num_threads_pow2(size_t num_iterations,

                                  size_t min_iterations_per_thread = DEFAULT_MIN_ITERS_PER_THREAD);


namespace thread_heuristics {

// Rough cost of operations (the operation costs are derives in basics_bench and the units are nanoseconds)

// Field element (16 byte) addition cost

constexpr size_t FF_ADDITION_COST = 4;

// Field element (16 byte) multiplication cost

constexpr size_t FF_MULTIPLICATION_COST = 21;

// Field element (16 byte) inversion cost

constexpr size_t FF_INVERSION_COST = 7000;

// Group element projective addition number

constexpr size_t GE_ADDITION_COST = 350;

// Group element projective doubling number

constexpr size_t GE_DOUBLING_COST = 194;

// Group element scalar multiplication cost

constexpr size_t SM_COST = 50000;

// Field element (16 byte) sequential copy number

constexpr size_t FF_COPY_COST = 3;

// Fine default if something looks 'chunky enough that I don't want to calculate'

constexpr size_t ALWAYS_MULTITHREAD = 100000;

} // namespace thread_heuristics


struct ThreadChunk {

    size_t thread_index;

    size_t total_threads;


    auto range(size_t size, size_t offset = 0) const

    {

        if (total_threads == 0 || thread_index >= total_threads) {

            return std::views::iota(size_t{ 0 }, size_t{ 0 });

        }

        // Calculate base chunk size and remainder

        size_t chunk_size = size / total_threads;

        size_t remainder = size % total_threads;


        if (thread_index < remainder) {

            // Threads with index < remainder get chunk_size + 1 elements

            size_t start = thread_index * (chunk_size + 1);

            size_t end = start + chunk_size + 1;

            return std::views::iota(start + offset, end + offset);

        }

        // Threads with index >= remainder get chunk_size elements

        size_t start = remainder * (chunk_size + 1) + (thread_index - remainder) * chunk_size;

        size_t end = start + chunk_size;

        return std::views::iota(start + offset, end + offset);

    }


};


template <typename Func>

    requires std::invocable<Func, ThreadChunk>


void parallel_for(const Func& func)

{

    size_t total_threads = get_num_cpus();

    parallel_for(total_threads, [&](size_t thread_index) {

        func(ThreadChunk{ .thread_index = thread_index, .total_threads = total_threads });

    });

}


} // namespace bb

compiler_hints.hpp

BB_UNUSED
#define BB_UNUSED
Definition compiler_hints.hpp:30

offset
ssize_t offset
Definition engine.cpp:36

get_msb.hpp

hardware_concurrency.hpp

bb::numeric::get_msb
constexpr T get_msb(const T in)
Definition get_msb.hpp:47

bb::thread_heuristics::FF_COPY_COST
constexpr size_t FF_COPY_COST
Definition thread.hpp:153

bb::thread_heuristics::GE_ADDITION_COST
constexpr size_t GE_ADDITION_COST
Definition thread.hpp:147

bb::thread_heuristics::GE_DOUBLING_COST
constexpr size_t GE_DOUBLING_COST
Definition thread.hpp:149

bb::thread_heuristics::ALWAYS_MULTITHREAD
constexpr size_t ALWAYS_MULTITHREAD
Definition thread.hpp:155

bb::thread_heuristics::FF_ADDITION_COST
constexpr size_t FF_ADDITION_COST
Definition thread.hpp:141

bb::thread_heuristics::FF_MULTIPLICATION_COST
constexpr size_t FF_MULTIPLICATION_COST
Definition thread.hpp:143

bb::thread_heuristics::FF_INVERSION_COST
constexpr size_t FF_INVERSION_COST
Definition thread.hpp:145

bb::thread_heuristics::SM_COST
constexpr size_t SM_COST
Definition thread.hpp:151

bb
Entry point for Barretenberg command-line interface.
Definition acir_format_getters.cpp:6

bb::calculate_thread_data
MultithreadData calculate_thread_data(size_t num_iterations, size_t min_iterations_per_thread)
Calculates number of threads and index bounds for each thread.
Definition thread.cpp:212

bb::DEFAULT_MIN_ITERS_PER_THREAD
const size_t DEFAULT_MIN_ITERS_PER_THREAD
Definition thread.hpp:96

bb::get_num_cpus_pow2
size_t get_num_cpus_pow2()
Definition thread.hpp:25

bb::get_num_cpus
size_t get_num_cpus()
Definition thread.cpp:33

bb::PARALLEL_FOR_MAX_NESTING
constexpr size_t PARALLEL_FOR_MAX_NESTING
Definition thread.hpp:16

bb::calculate_num_threads
size_t calculate_num_threads(size_t num_iterations, size_t min_iterations_per_thread)
calculates number of threads to create based on minimum iterations per thread
Definition thread.cpp:238

bb::calculate_num_threads_pow2
size_t calculate_num_threads_pow2(size_t num_iterations, size_t min_iterations_per_thread)
calculates number of threads to create based on minimum iterations per thread, guaranteed power of 2
Definition thread.cpp:254

bb::parallel_for_heuristic
void parallel_for_heuristic(size_t num_points, const std::function< void(size_t, size_t, size_t)> &func, size_t heuristic_cost)
Split a loop into several loops running in parallel based on operations in 1 iteration.
Definition thread.cpp:171

bb::set_parallel_for_concurrency
void set_parallel_for_concurrency(size_t num_cores)
Definition thread.cpp:24

bb::parallel_for
void parallel_for(size_t num_iterations, const std::function< void(size_t)> &func)
Definition thread.cpp:111

bb::parallel_for_range
void parallel_for_range(size_t num_points, const std::function< void(size_t, size_t)> &func, size_t no_multhreading_if_less_or_equal)
Split a loop into several loops running in parallel.
Definition thread.cpp:141

std::get
constexpr decltype(auto) get(::tuplet::tuple< T... > &&t) noexcept
Definition tuple.hpp:13

bb::MultithreadData
Definition thread.hpp:98

bb::MultithreadData::end
std::vector< size_t > end
Definition thread.hpp:102

bb::MultithreadData::num_threads
size_t num_threads
Definition thread.hpp:99

bb::MultithreadData::start
std::vector< size_t > start
Definition thread.hpp:101

bb::ThreadChunk
Definition thread.hpp:158

bb::ThreadChunk::total_threads
size_t total_threads
Definition thread.hpp:160

bb::ThreadChunk::thread_index
size_t thread_index
Definition thread.hpp:159

bb::ThreadChunk::range
auto range(size_t size, size_t offset=0) const
Definition thread.hpp:161