library_for_cpp

This documentation is automatically generated by online-judge-tools/verification-helper

View the Project on GitHub Kazun1998/library_for_cpp

:heavy_check_mark: 離散フーリエ変換, 数論変換
(Modulo_Polynomial/Numeric_Theory_Translation.hpp)

Outline

畳み込みに関する計算及び, 応用例として, 形式的ベキ級数に関する演算を高速に行う.

Theory

$F$ を体とする. $F$ には原始 $n$ 乗根 $\zeta_n \in F$ が存在するとする.

このとき, $F$ における長さ $n$ の離散フーリエ変換 $\mathcal{F}_n: F^n \to F^n$ を

\[\mathcal{F}_n \boldsymbol{a} := W_n \boldsymbol{a}\]

で定義する. ただし, $W_n$ とは, 以下で定義される $F$ 係数の $n$ 次正方行列である.

\[W_n := \dfrac{1}{n} (\zeta_n^{ij})_{\substack{0 \leq i \lt n \\ 0 \leq j \lt n}}\]

また, 長さ $n$ の逆離散フーリエ変換 $\mathcal{F}^{-1}_n: F^n \to F^n$ を

\[\mathcal{F}^{-1}_n \boldsymbol{b} := W'_n \boldsymbol{b}\]

で定義する. ただし, $W’_n$ とは, 以下で定義される $F$ 係数の $n$ 次正方行列である.

\[W'_n := (\zeta_n^{-st})_{\substack{0 \leq s \lt n \\ 0 \leq t \lt n}}\]

このとき, $\mathcal{F}, \mathcal{F’}$ は有限次元の線形空間間の線形写像であり,

\[\begin{align*} \left(\mathcal{F}^{-1}_n \left(\mathcal{F}_n \boldsymbol{a} \right) \right)_i &= \sum_{t=0}^{n-1} \dfrac{1}{n} \zeta_n^{-it} \left(\mathcal{F}_n \boldsymbol{a} \right)_t \\ &= \dfrac{1}{n} \sum_{t=0}^{n-1} \zeta_n^{-it} \sum_{j=0}^{n-1} \zeta_n^{jt} a_j \\ &= \dfrac{1}{n} \sum_{j=0}^{n-1} a_j \left( \sum_{t=0}^{n-1} \zeta_n^{(j-i)t} \right) \\ &= \dfrac{1}{n} \sum_{j=0}^{n-1} a_j n \cdot \left[ i \equiv j \pmod{n} \right] \\ &= a_i \end{align*}\]

である. よって, $\mathcal{F}^{-1}$ は $\mathcal{F}$ の逆写像である. これは $W’_n$ が $W_n$ の逆写像であることを意味する.

畳み込み積との関係

$\boldsymbol{a}, \boldsymbol{b} \in F^n$ とする. $\boldsymbol{a}, \boldsymbol{b}$ の $\mathbb{Z}/n\mathbb{Z}$ に関する畳み込み演算を $a*b$ と定義する.

また, $\boldsymbol{a}, \boldsymbol{b} \in F^n$ における各点ごとの積を $\boldsymbol{a} \odot \boldsymbol{b}$ と書く.

ここで, フーリエ変換と畳み込み演算について, 以下の重大な式が成り立つ.

$\mathcal{F}_n(\boldsymbol{a} * \boldsymbol{b}) = \mathcal{F}_n \boldsymbol{a} \odot \mathcal{F}_n \boldsymbol{b}$

証明

$\boldsymbol{c} := \mathcal{F}_n\boldsymbol{a} \odot \mathcal{F}_n\boldsymbol{b}$ とおくことにする. このとき,

\[\begin{align*} c_t &= \left(\mathcal{F}_n\boldsymbol{a} \right)_t \left(\mathcal{F}_n\boldsymbol{b} \right)_t \\ &= \left(\sum_{i=0}^{n-1} \zeta_n^{it} a_i \right) \left(\sum_{j=0}^{n-1} \zeta_n^{it} b_j \right) \\ &= \sum_{i,j=0}^{n-1} \zeta_n^{(i+j)t} a_i b_j \\ &= \sum_{k=0}^{n-1} \zeta_n^{kt} \left(\sum_{\substack{0 \leq i \lt n \\ 0 \leq j \lt n \\ i+j \equiv k \pmod{n}}} a_i b_j \right) \\ &= \sum_{k=0}^{n-1} \zeta_n^{kt} (\boldsymbol{a} * \boldsymbol{b})_k \end{align*}\]

である.

すると,

\[\begin{align*} \left[\mathcal{F}_n^{-1} \left( \left(\mathcal{F}_n\boldsymbol{a} \right) \odot \left(\mathcal{F}_n \boldsymbol{b} \right) \right) \right]_i &= \mathcal{F}_n^{-1} \boldsymbol{c} \\ &= \dfrac{1}{n} \sum_{t=0}^{n-1} \zeta_n^{-it} c_t \\ &= \dfrac{1}{n} \sum_{t=0}^{n-1} \zeta_n^{-it} \left(\sum_{k=0}^{n-1} \zeta_n^{kt} (\boldsymbol{a} * \boldsymbol{b})_k \right) \\ &= \dfrac{1}{n} \sum_{t=0}^{n-1} \zeta_n^{(k-i)t} d_k \\ &= \dfrac{1}{n} \sum_{k=0}^{n-1} (\boldsymbol{a} * \boldsymbol{b})_k \left(\sum_{t=0}^{n-1} \zeta_n^{(k-i)t} \right) \\ &= \dfrac{1}{n} \sum_{k=0}^{n-1}(\boldsymbol{a} * \boldsymbol{b})_k \left[k \equiv i \pmod{n} \right] \\ &= d_i \end{align*}\]

である. よって,

\[\mathcal{F}_n^{-1} \left( \left(\mathcal{F}_n\boldsymbol{a} \right) \odot \left(\mathcal{F}_n \boldsymbol{b} \right) \right) = \boldsymbol{a} * \boldsymbol{b}\]

となる. $\mathcal{F}_n, \mathcal{F}^{-1}_n$ は逆写像の関係であるため,

\[\mathcal{F}_n(\boldsymbol{a} * \boldsymbol{b}) = \mathcal{F}_n \boldsymbol{a} \odot \mathcal{F}_n \boldsymbol{b}\]

が成り立つ.

$\square$

畳み込みの応用

離散フーリエ変換の有用な応用例として, 多項式の積を高速にことを可能にする.

多項式 $f,g \in F[x]$ をそれぞれ $n,m$ 次の多項式とする. このとき,

\[\boldsymbol{a} := \left([x^k] f \right)_{0 \leq k \lt n+m-1}, \quad \boldsymbol{b} := \left([x^k] g \right)_{0 \leq k \lt n+m-1}, \quad \boldsymbol{c} := \left([x^k] (fg) \right)_{0 \leq k \lt n+m-1}\]

とすると, $\boldsymbol{c} = \boldsymbol{a} * \boldsymbol{b}$ が成り立つ.

逆元

定数項が $0$ でない形式的ベキ級数 $f$ に対して, $fg=1$ となる形式的ベキ級数 $g$ がただ一つ存在する. この $g$ を $f$ の逆元といい, $g = f^{-1}$ とかく.

$g$ の $n$ 次までの係数を求めたい.

$g^{(n)}$ を以下を満たす多項式とする.

なお, $g$ の一意性から, $g^{(n)} = g \mod{x^n}$ である.

まず, $n = 1$ のときは $g^{(0)}$ は定数多項式である. これは

\[g^{(0)} = (f_0)^{-1}\]

である.

$g^{(n)}$ が求まっている時, $g^{(2n)}$ を求めたい.

$g$ と $g^{(n)}$ の関係性から, $g \equiv g^{(n)} \pmod{x^n}$ である. このとき,

\[0 = \left(g - g^{(n)} \right)^2 \equiv g^2 - 2 g g^{(n)} + \left(g^{(n)} \right)^2 \pmod{x^{2n}}\]

が成り立つ.

両辺に $f$ を掛けると, $fg=1$ であることに注意して, 整理すると,

\[g \equiv 2g^{(n)} - f \left(g^{(n)} \right)^2 \pmod{x^{2n}} \quad \cdots (*)\]

となる. よって,

\[g^{(2n)} = \left(2g^{(n)} - f \left(g^{(n)} \right)^2 \right) \mod{x^{2n}}\]

となる.

$g^{(N)}$ を求める計算量は, $T(2n) = T(n) + O(n \log n)$ を解くことにおよって, $T(N) = O(N \log N)$ 時間とわかる.

これでも求めれるが, 更に定数倍の高速化を行うことができる.

$fg^{(n)} \equiv 1 \pmod{x^n}$ であるため, ある形式的ベキ級数 $h^{(n)}$ が存在して,

\[fg^{(n)} = 1 + x^n h^{(n)}\]

と書ける. $(*)$ に代入すると,

\[g \equiv 2 g^{(n)} - \left(1 + x^n h^{(n)} \right) g^{(n)} = g^{(n)} - x^n g^{(n)} h^{(n)} \pmod{x^{2n}}\]

となる.

この式から, $g$ の $2n$ 未満の係数について, 以下が従う.

Depends on

Required by

Verified with

Code

#pragma once

#include"../template/template.hpp"
#include"Modulo_Polynomial.hpp"

template<typename F>
class Numeric_Theory_Translation {
    public:
    F primitive;
    vector<F> root, iroot, rate2, irate2, rate3, irate3;

    public:
    Numeric_Theory_Translation() {
        primitive = primitive_root();
        build_up();
    }

    private:
    F primitive_root(){
        if (F::Mod == 2) { return F(1); }
        if (F::Mod == 998244353) { return F(3); }

        vector<int> fac;
        int v = F::Mod - 1;

        for (int q = 2; q * q <= v; q++){
            int e = 0;
            while (v % q == 0){
                e++; v /= q;
            }

            if (e > 0) { fac.emplace_back(q); }
        }

        if (v > 1) { fac.emplace_back(v); }

        F g(2);
        while (true) {
            bool flag = true;
            for (int q: fac) {
                if (pow(g, (F::Mod - 1) / q) == 1){
                    flag = false;
                    break;
                }
            }
            if (flag) { break; }
            g += 1;
        }
        return g;
    }

    void build_up() {
        int x = ~(F::Mod - 1) & (F::Mod - 2);
        int rank2 = bit_length(x);

        root.resize(rank2 + 1); iroot.resize(rank2 + 1);
        rate2.resize(max(0, rank2 - 1)); irate2.resize(max(0, rank2 - 1));
        rate3.resize(max(0, rank2 - 2)); irate3.resize(max(0, rank2 - 2));

        root.back() = pow(primitive, (F::Mod - 1) >> rank2);
        iroot.back() = root.back().inverse();

        for (int i = rank2 - 1; i >= 0; i--){
            root[i] = root[i + 1] * root[i + 1];
            iroot[i] = iroot[i + 1] * iroot[i + 1];
        }

        F prod(1), iprod(1);
        for (int i = 0; i < rank2 - 1; i++){
            rate2[i] = root[i + 2] * prod;
            irate2[i] = iroot[i + 2] * prod;

            prod *= iroot[i + 2]; iprod *= root[i + 2];
        }

        prod = 1; iprod = 1;
        for (int i = 0; i < rank2 - 2; i++){
            rate3[i] = root[i + 3] * prod;
            irate3[i] = iroot[i + 3] * iprod;

            prod *= iroot[i + 3]; iprod *= root[i + 3];
        }
    }

    public:
    void ntt(vector<F> &A){
        int N = A.size();
        int h = ceil_log2(N);

        F I = root[2];
        for (int l = 0; l < h;){
            if (h - l == 1){
                int p = 1 << (h - l - 1);
                F rot(1);
                for (int s = 0; s < (1 << l); s++){
                    int offset = s << (h - l);
                    for(int i = 0; i < p; i++){
                        F x = A[i + offset], y = A[i + offset + p] * rot;
                        A[i + offset] = x + y;
                        A[i + offset + p] = x - y;
                    }

                    unless (s + 1 == (1 << l)){ rot *= rate2[bit_length(~s & -(~s)) - 1]; }
                }
                l++;
            } else {
                int p = 1 << (h - l - 2);
                F rot(1);
                for (int s = 0; s < (1 << l); s++){
                    F rot2 = rot * rot, rot3 = rot2 * rot;
                    int offset = s << (h - l);
                    for (int i = 0; i < p; i++){
                        F a0 = A[i + offset];
                        F a1 = A[i + offset + p] * rot;
                        F a2 = A[i + offset + 2 * p] * rot2;
                        F a3 = A[i + offset + 3 * p] * rot3;

                        F alpha = (a1 - a3) * I;

                        A[i + offset]         = a0 + a2 + a1 + a3;
                        A[i + offset + p]     = a0 + a2 - a1 - a3;
                        A[i + offset + 2 * p] = a0 - a2 + alpha;
                        A[i + offset + 3 * p] = a0 - a2 - alpha;
                    }

                    unless(s + 1 == 1 << l) { rot *= rate3[bit_length(~s & -(~s)) - 1]; }
                }
                l += 2;
            }
        }
    }

    public:
    void inverse_ntt(vector<F> &A){
        int N = A.size();
        int h = ceil_log2(N);

        F J = iroot[2];
        for (int l = h; l > 0;){
            if (l == 1){
                int p = 1 << (h - l);
                F irot(1);
                for (int s = 0; s < (1 << (l - 1)); s++){
                    int offset = s << (h - l + 1);
                    for(int i = 0; i < p; i++){
                        F x = A[i + offset], y = A[i + offset + p];
                        A[i + offset]   = x + y;
                        A[i + offset + p] = (x - y) * irot;
                    }

                    unless (s+1 == 1 << (l - 1) ) { irot *= irate2[bit_length(~s & -(~s)) -1]; }
                }
                l--;
            } else {
                int p = 1 << (h - l);
                F irot(1);
                for (int s=0; s<(1<<(l-2)); s++){
                    F irot2 = irot * irot, irot3 = irot2  *irot;
                    int offset=s<<(h-l+2);
                    for (int i = 0; i < p; i++){
                        F a0 = A[i + offset];
                        F a1 = A[i + offset + p];
                        F a2 = A[i + offset + 2 * p];
                        F a3 = A[i + offset + 3 * p];

                        F beta = (a2 - a3) * J;

                        A[i + offset]         = a0 + a2 + a1 + a3;
                        A[i + offset + p]     = (a0 - a1 + beta) * irot;
                        A[i + offset + 2 * p] = (a0 + a1 - a2 - a3) * irot2;
                        A[i + offset + 3 * p] = (a0 - a1 - beta) * irot3;
                    }

                    unless (s + 1 == 1 << (l - 2)) { irot *= irate3[bit_length(~s & -(~s)) - 1]; }
                }
                l-=2;
            }
        }

        F N_inv=F(N).inverse();
        for (int i=0; i<N; i++) A[i]*=N_inv;
    }

    vector<F> convolution(vector<F> A, vector<F> B){
        if (A.empty() || B.empty()) return vector<F>{};

        int M=A.size(), N=B.size(), L=M+N-1;
        if (min(M,N)<64){
            vector<F> C(L);
            for(int i=0; i<M; i++){
                for (int j=0; j<N; j++){
                    C[i+j]+=A[i]*B[j];
                }
            }
            return C;
        }

        int h=bit_length(L);
        int K=1<<h;

        vector<F> X(K), Y(K);
        copy(A.begin(), A.end(), X.begin());
        copy(B.begin(), B.end(), Y.begin());

        ntt(X); ntt(Y);
        for (int i=0; i<K; i++) X[i]*=Y[i];

        inverse_ntt(X); X.resize(L);
        return X;
    }

    vector<F> inverse(vector<F> P, int d) {
        int n = P.size();
        assert(!P.empty() && !P[0].is_zero());

        vector<F> G{P[0].inverse()};
        while (G.size() < d) {
            int m = G.size();
            vector<F> A(P.begin(), P.begin() + min(n, 2 * m));
            A.resize(2 * m);
            vector<F> B(G);
            B.resize(2 * m);

            ntt(A); ntt(B);
            for (int i = 0; i < 2 * m; i++) { A[i] *= B[i]; }

            inverse_ntt(A);
            A.erase(A.begin(), A.begin() + m);
            A.resize(2 * m);

            ntt(A);
            for (int i = 0; i < 2 * m; i++) { A[i] *= -B[i]; }

            inverse_ntt(A);

            G.insert(G.end(), A.begin(), A.begin() + m);
        }

        G.resize(d);
        return G;
    }

    vector<F> inverse(vector<F> P) { return inverse(P, P.size()); }

    vector<F> multiple_convolution(vector<vector<F>> A) {
        if (A.empty()) { return {1}; }

        deque<int> queue(A.size());
        iota(queue.begin(), queue.end(), 0);

        while (queue.size() > 1) {
            int i = queue.front(); queue.pop_front();
            int j = queue.front(); queue.pop_front();

            A[i] = convolution(A[i], A[j]);
            queue.emplace_back(i);
        }

        return A[queue.back()];
    }
};
#line 2 "Modulo_Polynomial/Numeric_Theory_Translation.hpp"

#line 2 "template/template.hpp"

using namespace std;

// intrinstic
#include <immintrin.h>

#include <algorithm>
#include <array>
#include <bitset>
#include <cassert>
#include <cctype>
#include <cfenv>
#include <cfloat>
#include <chrono>
#include <cinttypes>
#include <climits>
#include <cmath>
#include <complex>
#include <cstdarg>
#include <cstddef>
#include <cstdint>
#include <cstdio>
#include <cstdlib>
#include <cstring>
#include <deque>
#include <fstream>
#include <functional>
#include <initializer_list>
#include <iomanip>
#include <ios>
#include <iostream>
#include <istream>
#include <iterator>
#include <limits>
#include <list>
#include <map>
#include <memory>
#include <new>
#include <numeric>
#include <ostream>
#include <queue>
#include <random>
#include <set>
#include <sstream>
#include <stack>
#include <streambuf>
#include <string>
#include <tuple>
#include <type_traits>
#include <typeinfo>
#include <unordered_map>
#include <unordered_set>
#include <utility>
#include <vector>

// utility
#line 2 "template/utility.hpp"

using ll = long long;

// a ← max(a, b) を実行する. a が更新されたら, 返り値が true.
template<typename T, typename U>
inline bool chmax(T &a, const U b){
    return (a < b ? a = b, 1: 0);
}

// a ← min(a, b) を実行する. a が更新されたら, 返り値が true.
template<typename T, typename U>
inline bool chmin(T &a, const U b){
    return (a > b ? a = b, 1: 0);
}
#line 59 "template/template.hpp"

// math
#line 2 "template/math.hpp"

// 除算に関する関数

// floor(x / y) を求める.
template<typename T, typename U>
T div_floor(T x, U y){ return (x > 0 ? x / y: (x - y + 1) / y); }

// ceil(x / y) を求める.
template<typename T, typename U>
T div_ceil(T x, U y){ return (x > 0 ? (x + y - 1) / y: x / y) ;}

// x を y で割った余りを求める.
template<typename T, typename U>
T mod(T x, U y){
    T q = div_floor(x, y);
    return x - q * y ;
}

// x を y で割った商と余りを求める.
template<typename T, typename U>
pair<T, T> divmod(T x, U y){
    T q = div_floor(x, y);
    return {q, x - q * y};
}

// 四捨五入を求める.
template<typename T, typename U>
T round(T x, U y){
    T q, r;
    tie (q, r) = divmod(x, y);
    return (r >= div_ceil(y, 2)) ? q + 1 : q;
}

// 指数に関する関数

// x の y 乗を求める.
ll intpow(ll x, ll y){
    ll a = 1;
    while (y){
        if (y & 1) { a *= x; }
        x *= x;
        y >>= 1;
    }
    return a;
}

// x の y 乗を z で割った余りを求める.
ll modpow(ll x, ll y, ll z){
    ll a = 1;
    while (y){
        if (y & 1) { (a *= x) %= z; }
        (x *= x) %= z;
        y >>= 1;
    }
    return a;
}

// x の y 乗を z で割った余りを求める.
template<typename T, typename U>
T modpow(T x, U y, T z) {
    T a = 1;
    while (y) {
        if (y & 1) { (a *= x) %= z; }

        (x *= x) %= z;
        y >>= 1;
    }

    return a;
}

// vector の要素の総和を求める.
ll sum(vector<ll> &X){
    ll y = 0;
    for (auto &&x: X) { y+=x; }
    return y;
}

// vector の要素の総和を求める.
template<typename T>
T sum(vector<T> &X){
    T y = T(0);
    for (auto &&x: X) { y += x; }
    return y;
}

// a x + b y = gcd(a, b) を満たす整数の組 (a, b) に対して, (x, y, gcd(a, b)) を求める.
tuple<ll, ll, ll> Extended_Euclid(ll a, ll b) {
    ll s = 1, t = 0, u = 0, v = 1;
    while (b) {
        ll q;
        tie(q, a, b) = make_tuple(div_floor(a, b), b, mod(a, b));
        tie(s, t) = make_pair(t, s - q * t);
        tie(u, v) = make_pair(v, u - q * v);
    }

    return make_tuple(s, u, a);
}

// floor(sqrt(N)) を求める (N < 0 のときは, 0 とする).
ll isqrt(const ll &N) { 
    if (N <= 0) { return 0; }

    ll x = sqrt(N);
    while ((x + 1) * (x + 1) <= N) { x++; }
    while (x * x > N) { x--; }

    return x;
}

// floor(sqrt(N)) を求める (N < 0 のときは, 0 とする).
ll floor_sqrt(const ll &N) { return isqrt(N); }

// ceil(sqrt(N)) を求める (N < 0 のときは, 0 とする).
ll ceil_sqrt(const ll &N) {
    ll x = isqrt(N);
    return x * x == N ? x : x + 1;
}
#line 62 "template/template.hpp"

// inout
#line 1 "template/inout.hpp"
// 入出力
template<class... T>
void input(T&... a){ (cin >> ... >> a); }

void print(){ cout << "\n"; }

template<class T, class... Ts>
void print(const T& a, const Ts&... b){
    cout << a;
    (cout << ... << (cout << " ", b));
    cout << "\n";
}

template<typename T, typename U>
istream &operator>>(istream &is, pair<T, U> &P){
    is >> P.first >> P.second;
    return is;
}

template<typename T, typename U>
ostream &operator<<(ostream &os, const pair<T, U> &P){
    os << P.first << " " << P.second;
    return os;
}

template<typename T>
vector<T> vector_input(int N, int index){
    vector<T> X(N+index);
    for (int i=index; i<index+N; i++) cin >> X[i];
    return X;
}

template<typename T>
istream &operator>>(istream &is, vector<T> &X){
    for (auto &x: X) { is >> x; }
    return is;
}

template<typename T>
ostream &operator<<(ostream &os, const vector<T> &X){
    int s = (int)X.size();
    for (int i = 0; i < s; i++) { os << (i ? " " : "") << X[i]; }
    return os;
}

template<typename T>
ostream &operator<<(ostream &os, const unordered_set<T> &S){
    int i = 0;
    for (T a: S) {os << (i ? " ": "") << a; i++;}
    return os;
}

template<typename T>
ostream &operator<<(ostream &os, const set<T> &S){
    int i = 0;
    for (T a: S) { os << (i ? " ": "") << a; i++; }
    return os;
}

template<typename T>
ostream &operator<<(ostream &os, const unordered_multiset<T> &S){
    int i = 0;
    for (T a: S) { os << (i ? " ": "") << a; i++; }
    return os;
}

template<typename T>
ostream &operator<<(ostream &os, const multiset<T> &S){
    int i = 0;
    for (T a: S) { os << (i ? " ": "") << a; i++; }
    return os;
}
#line 65 "template/template.hpp"

// macro
#line 2 "template/macro.hpp"

// マクロの定義
#define all(x) x.begin(), x.end()
#define len(x) ll(x.size())
#define elif else if
#define unless(cond) if (!(cond))
#define until(cond) while (!(cond))
#define loop while (true)

// オーバーロードマクロ
#define overload2(_1, _2, name, ...) name
#define overload3(_1, _2, _3, name, ...) name
#define overload4(_1, _2, _3, _4, name, ...) name
#define overload5(_1, _2, _3, _4, _5, name, ...) name

// 繰り返し系
#define rep1(n) for (ll i = 0; i < n; i++)
#define rep2(i, n) for (ll i = 0; i < n; i++)
#define rep3(i, a, b) for (ll i = a; i < b; i++)
#define rep4(i, a, b, c) for (ll i = a; i < b; i += c)
#define rep(...) overload4(__VA_ARGS__, rep4, rep3, rep2, rep1)(__VA_ARGS__)

#define foreach1(x, a) for (auto &&x: a)
#define foreach2(x, y, a) for (auto &&[x, y]: a)
#define foreach3(x, y, z, a) for (auto &&[x, y, z]: a)
#define foreach4(x, y, z, w, a) for (auto &&[x, y, z, w]: a)
#define foreach(...) overload5(__VA_ARGS__, foreach4, foreach3, foreach2, foreach1)(__VA_ARGS__)
#line 68 "template/template.hpp"

// bitop
#line 2 "template/bitop.hpp"

// 非負整数 x の bit legnth を求める.
ll bit_length(ll x) {
    if (x == 0) { return 0; }
    return (sizeof(long) * CHAR_BIT) - __builtin_clzll(x);
}

// 非負整数 x の popcount を求める.
ll popcount(ll x) { return __builtin_popcountll(x); }

// 正の整数 x に対して, floor(log2(x)) を求める.
ll floor_log2(ll x) { return bit_length(x) - 1; }

// 正の整数 x に対して, ceil(log2(x)) を求める.
ll ceil_log2(ll x) { return bit_length(x - 1); }

// x の第 k ビットを取得する
int get_bit(ll x, int k) { return (x >> k) & 1; }

// x のビット列を取得する.
// k はビット列の長さとする.
vector<int> get_bits(ll x, int k) {
    vector<int> bits(k);
    rep(i, k) {
        bits[i] = x & 1;
        x >>= 1;
    }

    return bits;
}

// x のビット列を取得する.
vector<int> get_bits(ll x) { return get_bits(x, bit_length(x)); }
#line 2 "Modulo_Polynomial/Modulo_Polynomial.hpp"

#line 2 "Algebra/modint.hpp"

#line 4 "Algebra/modint.hpp"

template<int M>
class modint {
    public:
    static constexpr int Mod = M; 
    int64_t x;

    public:
    // 初期化
    constexpr modint(): x(0) {}
    constexpr modint(int64_t a): x((a % Mod + Mod) % Mod) {}

    // マイナス元
    modint operator-() const { return modint(-x); }

    // 加法
    modint& operator+=(const modint &b){
        if ((x += b.x) >= Mod) x -= Mod;
        return *this;
    }

    friend modint operator+(const modint &x, const modint &y) { return modint(x) += y; }

    // 減法
    modint& operator-=(const modint &b){
        if ((x += Mod - b.x) >= Mod) x -= Mod;
        return *this;
    }

    friend modint operator-(const modint &x, const modint &y) { return modint(x) -= y; }

    // 乗法
    modint& operator*=(const modint &b){
        (x *= b.x) %= Mod;
        return *this;
    }

    friend modint operator*(const modint &x, const modint &y) { return modint(x) *= y; }
    friend modint operator*(const int &x, const modint &y) { return modint(x) *= y; }
    friend modint operator*(const ll &x, const modint &y) { return modint(x) *= y; }

    // 除法
    modint& operator/=(const modint &b){ return (*this) *= b.inverse(); }

    friend modint operator/(const modint &x, const modint &y) { return modint(x) /= y; }

    modint inverse() const {
        int64_t s = 1, t = 0;
        int64_t a = x, b = Mod;

        while (b > 0) {
            int64_t q = a / b;

            a -= q * b; swap(a, b);
            s -= q * t; swap(s, t);
        }

        assert (a == 1);

        return modint(s);
    }

    // 比較
    friend bool operator==(const modint &a, const modint &b) { return (a.x == b.x); }
    friend bool operator==(const modint &a, const int &b) { return a.x == mod(b, Mod); }
    friend bool operator!=(const modint &a, const modint &b) { return (a.x != b.x); }

    // 入力
    friend istream &operator>>(istream &is, modint &a) {
        is >> a.x;
        a.x = (a.x % Mod + Mod) % Mod;
        return is;
    }

    // 出力
    friend ostream &operator<<(ostream &os, const modint &a) { return os << a.x; }

    bool is_zero() const { return x == 0; }
    bool is_member(ll a) const { return x == (a % Mod + Mod) % Mod; }
};

template<int Mod>
modint<Mod> pow(modint<Mod> x, long long n) {
    if (n < 0) { return pow(x, -n).inverse(); }

    auto res = modint<Mod>(1);
    for (; n; n >>= 1) {
        if (n & 1) { res *= x; }
        x *= x;
    }

    return res;
}
#line 5 "Modulo_Polynomial/Modulo_Polynomial.hpp"

template<typename mint>
class Modulo_Polynomial {
    public:
    int precision = 0;

    public:
    vector<mint> poly;
    Modulo_Polynomial(vector<mint> _poly, int precision): precision(precision) {
        if (_poly.size() > precision) { _poly.resize(precision); }
        poly = _poly;
    }

    Modulo_Polynomial() = default;
    Modulo_Polynomial(vector<mint> poly) : Modulo_Polynomial(poly, poly.size()) {}
    Modulo_Polynomial(int precision) : Modulo_Polynomial({}, precision) {}

    // 演算子の定義
    public:
    // マイナス元
    Modulo_Polynomial operator-() const {
        Modulo_Polynomial res(*this);
        for (auto &a : res.poly) { a = -a; }
        return res;
    }

    // 加法
    Modulo_Polynomial& operator+=(const Modulo_Polynomial &P){
        if (size() < P.size()) { resize(P.size()); }

        for (int i = 0; i < (int) P.poly.size(); i++) { poly[i] += P[i]; }
        reduce();

        return *this;
    }

    Modulo_Polynomial& operator+=(const mint &a){
        if (poly.empty()) { resize(1); }
        poly[0] += a;
        reduce();

        return *this;
    }

    friend Modulo_Polynomial operator+(const Modulo_Polynomial &lhs, const Modulo_Polynomial &rhs) { return Modulo_Polynomial(lhs) += rhs; }
    Modulo_Polynomial operator+(const mint &a) const { return Modulo_Polynomial(*this) += a; }

    // 減法
    Modulo_Polynomial& operator-=(const Modulo_Polynomial &P){
        if (size() < P.size()) { resize(P.size()); }

        for (int i = 0; i < (int) P.poly.size(); i++) { poly[i] -= P[i]; }
        reduce();

        return *this;
    }

    Modulo_Polynomial& operator-=(const mint &a){
        if (poly.empty()) { resize(1); }
        poly[0] -= a;
        reduce();

        return *this;
    }

    friend Modulo_Polynomial operator-(const Modulo_Polynomial &lhs, const Modulo_Polynomial &rhs) { return Modulo_Polynomial(lhs) -= rhs; }
    Modulo_Polynomial operator-(const mint &a) const { return Modulo_Polynomial(*this) -= a; }

    // スカラー倍
    Modulo_Polynomial& operator*=(const mint &a){
        for (int i = 0; i < size(); i++) { poly[i] *= a; }
        reduce();
        return *this;
    }

    Modulo_Polynomial operator*(const mint &a) const {return Modulo_Polynomial(*this) *= a;}

    friend Modulo_Polynomial operator*(const mint &a, const Modulo_Polynomial &P) {
        Modulo_Polynomial res(P);
        res *= a;
        return res;
    }

    // 積
    Modulo_Polynomial& operator*=(const Modulo_Polynomial &P) {
        int r = min({(int) (poly.size() + P.poly.size()) - 1, precision, P.precision});
        vector<mint> A(r);
        for (int i = 0; i < size(); i++) {
            for (int j = 0; j < P.size(); j++) {
                if (i + j < r) { A[i + j] += poly[i] * P.poly[j]; }
            }
        }

        poly = A;
        precision = min(precision, P.precision);
        return *this;
    }

    friend Modulo_Polynomial operator*(const Modulo_Polynomial &lhs, const Modulo_Polynomial &rhs) { return Modulo_Polynomial(lhs) *= rhs; }

    // スカラー除算
    Modulo_Polynomial& operator/=(const mint &a) {
        mint a_inv = a.inverse();
        for (int i = 0; i < size(); i++) { poly[i] *= a_inv; }
        return *this;
    }

    Modulo_Polynomial operator/(const mint &a) const { return Modulo_Polynomial(*this) /= a; }

    // index
    mint operator[] (int k) const { return (k < poly.size()) ? poly[k] : 0; }

    // istream
    friend istream &operator>>(istream &is, Modulo_Polynomial &P) {
        P.poly.resize(P.precision);
        for (int i = 0; i < (int)P.precision; i++) { is >> P.poly[i]; }
        return (is);
    }

    // ostream
    friend ostream &operator<<(ostream &os, const Modulo_Polynomial &P){
        for (int i = 0; i < (int)P.poly.size(); i++){
            os << (i ? " " : "") << P[i];
        }
        return os;
    }

    // poly で保持しているベクトルの長さを size にする.
    // size = -1 のときは, size = precision に変換される.
    void resize(int size = -1) {
        if (size == -1) { size = this -> precision; }
        size = min(size, this -> precision);
        poly.resize(size);
    }

    bool is_zero() const {
        for (auto &a: poly) { unless(a.is_zero()) {return false;} }
        return true;
    }

    // 高次に連なる 0 を削除する
    void reduce() {
        while (!poly.empty() && poly.back().is_zero()) { poly.pop_back(); }
    }

    // 保持している多項式の乗法の項の長さを求める
    int size() const { return poly.size(); }

    // 次数を求める (ゼロ多項式の時は -1)
    int degree() const {
        for (int d = size() - 1; d >= 0; d--) {
            unless(poly[d].is_zero()) { return d; }
        }
        return -1;
    }

    // 位数 (係数が非ゼロである次数の最小値)
    int order() const {
        for (int d = 0; d < size(); d++) {
            unless(poly[d].is_zero()) { return d; }
        }
        return -1;
    }
};
#line 5 "Modulo_Polynomial/Numeric_Theory_Translation.hpp"

template<typename F>
class Numeric_Theory_Translation {
    public:
    F primitive;
    vector<F> root, iroot, rate2, irate2, rate3, irate3;

    public:
    Numeric_Theory_Translation() {
        primitive = primitive_root();
        build_up();
    }

    private:
    F primitive_root(){
        if (F::Mod == 2) { return F(1); }
        if (F::Mod == 998244353) { return F(3); }

        vector<int> fac;
        int v = F::Mod - 1;

        for (int q = 2; q * q <= v; q++){
            int e = 0;
            while (v % q == 0){
                e++; v /= q;
            }

            if (e > 0) { fac.emplace_back(q); }
        }

        if (v > 1) { fac.emplace_back(v); }

        F g(2);
        while (true) {
            bool flag = true;
            for (int q: fac) {
                if (pow(g, (F::Mod - 1) / q) == 1){
                    flag = false;
                    break;
                }
            }
            if (flag) { break; }
            g += 1;
        }
        return g;
    }

    void build_up() {
        int x = ~(F::Mod - 1) & (F::Mod - 2);
        int rank2 = bit_length(x);

        root.resize(rank2 + 1); iroot.resize(rank2 + 1);
        rate2.resize(max(0, rank2 - 1)); irate2.resize(max(0, rank2 - 1));
        rate3.resize(max(0, rank2 - 2)); irate3.resize(max(0, rank2 - 2));

        root.back() = pow(primitive, (F::Mod - 1) >> rank2);
        iroot.back() = root.back().inverse();

        for (int i = rank2 - 1; i >= 0; i--){
            root[i] = root[i + 1] * root[i + 1];
            iroot[i] = iroot[i + 1] * iroot[i + 1];
        }

        F prod(1), iprod(1);
        for (int i = 0; i < rank2 - 1; i++){
            rate2[i] = root[i + 2] * prod;
            irate2[i] = iroot[i + 2] * prod;

            prod *= iroot[i + 2]; iprod *= root[i + 2];
        }

        prod = 1; iprod = 1;
        for (int i = 0; i < rank2 - 2; i++){
            rate3[i] = root[i + 3] * prod;
            irate3[i] = iroot[i + 3] * iprod;

            prod *= iroot[i + 3]; iprod *= root[i + 3];
        }
    }

    public:
    void ntt(vector<F> &A){
        int N = A.size();
        int h = ceil_log2(N);

        F I = root[2];
        for (int l = 0; l < h;){
            if (h - l == 1){
                int p = 1 << (h - l - 1);
                F rot(1);
                for (int s = 0; s < (1 << l); s++){
                    int offset = s << (h - l);
                    for(int i = 0; i < p; i++){
                        F x = A[i + offset], y = A[i + offset + p] * rot;
                        A[i + offset] = x + y;
                        A[i + offset + p] = x - y;
                    }

                    unless (s + 1 == (1 << l)){ rot *= rate2[bit_length(~s & -(~s)) - 1]; }
                }
                l++;
            } else {
                int p = 1 << (h - l - 2);
                F rot(1);
                for (int s = 0; s < (1 << l); s++){
                    F rot2 = rot * rot, rot3 = rot2 * rot;
                    int offset = s << (h - l);
                    for (int i = 0; i < p; i++){
                        F a0 = A[i + offset];
                        F a1 = A[i + offset + p] * rot;
                        F a2 = A[i + offset + 2 * p] * rot2;
                        F a3 = A[i + offset + 3 * p] * rot3;

                        F alpha = (a1 - a3) * I;

                        A[i + offset]         = a0 + a2 + a1 + a3;
                        A[i + offset + p]     = a0 + a2 - a1 - a3;
                        A[i + offset + 2 * p] = a0 - a2 + alpha;
                        A[i + offset + 3 * p] = a0 - a2 - alpha;
                    }

                    unless(s + 1 == 1 << l) { rot *= rate3[bit_length(~s & -(~s)) - 1]; }
                }
                l += 2;
            }
        }
    }

    public:
    void inverse_ntt(vector<F> &A){
        int N = A.size();
        int h = ceil_log2(N);

        F J = iroot[2];
        for (int l = h; l > 0;){
            if (l == 1){
                int p = 1 << (h - l);
                F irot(1);
                for (int s = 0; s < (1 << (l - 1)); s++){
                    int offset = s << (h - l + 1);
                    for(int i = 0; i < p; i++){
                        F x = A[i + offset], y = A[i + offset + p];
                        A[i + offset]   = x + y;
                        A[i + offset + p] = (x - y) * irot;
                    }

                    unless (s+1 == 1 << (l - 1) ) { irot *= irate2[bit_length(~s & -(~s)) -1]; }
                }
                l--;
            } else {
                int p = 1 << (h - l);
                F irot(1);
                for (int s=0; s<(1<<(l-2)); s++){
                    F irot2 = irot * irot, irot3 = irot2  *irot;
                    int offset=s<<(h-l+2);
                    for (int i = 0; i < p; i++){
                        F a0 = A[i + offset];
                        F a1 = A[i + offset + p];
                        F a2 = A[i + offset + 2 * p];
                        F a3 = A[i + offset + 3 * p];

                        F beta = (a2 - a3) * J;

                        A[i + offset]         = a0 + a2 + a1 + a3;
                        A[i + offset + p]     = (a0 - a1 + beta) * irot;
                        A[i + offset + 2 * p] = (a0 + a1 - a2 - a3) * irot2;
                        A[i + offset + 3 * p] = (a0 - a1 - beta) * irot3;
                    }

                    unless (s + 1 == 1 << (l - 2)) { irot *= irate3[bit_length(~s & -(~s)) - 1]; }
                }
                l-=2;
            }
        }

        F N_inv=F(N).inverse();
        for (int i=0; i<N; i++) A[i]*=N_inv;
    }

    vector<F> convolution(vector<F> A, vector<F> B){
        if (A.empty() || B.empty()) return vector<F>{};

        int M=A.size(), N=B.size(), L=M+N-1;
        if (min(M,N)<64){
            vector<F> C(L);
            for(int i=0; i<M; i++){
                for (int j=0; j<N; j++){
                    C[i+j]+=A[i]*B[j];
                }
            }
            return C;
        }

        int h=bit_length(L);
        int K=1<<h;

        vector<F> X(K), Y(K);
        copy(A.begin(), A.end(), X.begin());
        copy(B.begin(), B.end(), Y.begin());

        ntt(X); ntt(Y);
        for (int i=0; i<K; i++) X[i]*=Y[i];

        inverse_ntt(X); X.resize(L);
        return X;
    }

    vector<F> inverse(vector<F> P, int d) {
        int n = P.size();
        assert(!P.empty() && !P[0].is_zero());

        vector<F> G{P[0].inverse()};
        while (G.size() < d) {
            int m = G.size();
            vector<F> A(P.begin(), P.begin() + min(n, 2 * m));
            A.resize(2 * m);
            vector<F> B(G);
            B.resize(2 * m);

            ntt(A); ntt(B);
            for (int i = 0; i < 2 * m; i++) { A[i] *= B[i]; }

            inverse_ntt(A);
            A.erase(A.begin(), A.begin() + m);
            A.resize(2 * m);

            ntt(A);
            for (int i = 0; i < 2 * m; i++) { A[i] *= -B[i]; }

            inverse_ntt(A);

            G.insert(G.end(), A.begin(), A.begin() + m);
        }

        G.resize(d);
        return G;
    }

    vector<F> inverse(vector<F> P) { return inverse(P, P.size()); }

    vector<F> multiple_convolution(vector<vector<F>> A) {
        if (A.empty()) { return {1}; }

        deque<int> queue(A.size());
        iota(queue.begin(), queue.end(), 0);

        while (queue.size() > 1) {
            int i = queue.front(); queue.pop_front();
            int j = queue.front(); queue.pop_front();

            A[i] = convolution(A[i], A[j]);
            queue.emplace_back(i);
        }

        return A[queue.back()];
    }
};
Back to top page