use cublaslt #230

lucasavila00 · 2024-04-27T23:00:47Z

fn lt_mul(x: &Tensor, w: &QMatMul, lt: CublasLt) -> Result<Tensor> {
    // w.forward(x)
    match w {
        QMatMul::QTensor(ref qt) => {
            let w = qt.dequantize(x.device())?;

            let w = match *x.dims() {
                [b1, b2, _, _] => w.broadcast_left((b1, b2))?,
                [bsize, _, _] => w.broadcast_left(bsize)?,
                _ => w,
            };
            fused_batch_matmul(&w, &x, None, None, None, None, None, lt)

            // let w = match *x.dims() {
            //     [b1, b2, _, _] => w.broadcast_left((b1, b2))?.t()?,
            //     [bsize, _, _] => w.broadcast_left(bsize)?.t()?,
            //     _ => w.t()?,
            // };
            // x.matmul(&w)
        }
        QMatMul::Tensor(_) => todo!(),
    }
}


fn lt_mul(x: &Tensor, w: &QMatMul, lt: CublasLt) -> Result<Tensor> {
    // w.forward(x)
    match w {
        QMatMul::QTensor(ref qt) => {
            let w = qt.dequantize(x.device())?;

            // let w = match *x.dims() {
            //     [b1, b2, _, _] => w.broadcast_left((b1, b2))?,
            //     [bsize, _, _] => w.broadcast_left(bsize)?,
            //     _ => w,
            // };
            // fused_batch_matmul(&w, &x, None, None, None, None, None, lt)

            let w = match *x.dims() {
                [b1, b2, _, _] => w.broadcast_left((b1, b2))?.t()?,
                [bsize, _, _] => w.broadcast_left(bsize)?.t()?,
                _ => w.t()?,
            };
            x.matmul(&w)
        }
        QMatMul::Tensor(_) => todo!(),
    }
}

Candle already uses CublasLT

github-actions · 2024-04-27T23:01:08Z

Code Metrics Report

  ───────────────────────────────────────────────────────────────────────────────
Language                 Files     Lines   Blanks  Comments     Code Complexity
───────────────────────────────────────────────────────────────────────────────
Rust                        70     22354     1540       502    20312       1261
───────────────────────────────────────────────────────────────────────────────
Total                       70     22354     1540       502    20312       1261
───────────────────────────────────────────────────────────────────────────────
Estimated Cost to Develop 37,875
Estimated Schedule Effort 11.593474 months
Estimated People Required 4.888076
───────────────────────────────────────────────────────────────────────────────
Processed 738139 bytes, 0.738 megabytes (SI)
───────────────────────────────────────────────────────────────────────────────

use cublaslt

2a24ce5

lucasavila00 closed this Apr 27, 2024

lucasavila00 mentioned this pull request Apr 27, 2024

Quantized Mistral: Prompt processing slower than llama.cpp #153

Closed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

use cublaslt #230

use cublaslt #230

lucasavila00 commented Apr 27, 2024 •

edited

github-actions bot commented Apr 27, 2024

use cublaslt #230

use cublaslt #230

Conversation

lucasavila00 commented Apr 27, 2024 • edited

github-actions bot commented Apr 27, 2024

lucasavila00 commented Apr 27, 2024 •

edited