SV Overview

Mon May 29 13:27:25 2023 · or greater

for i = 0 to VL-1:
     VPR(RT)[i] = VPR[RA][i] + VPR(RB)[i]

for i = 0 to VL-1:
     GPR(RT+i) = GPR(RA+i) + GPR(RB+i)

function op_add(RT, RA, RB) # add not VADD!
  int id=0, irs1=0, irs2=0;
  for i = 0 to VL-1:
    ireg[RT+id] <= ireg[RA+irs1] + ireg[RB+irs2];
    if (!RT.isvec) break;
    if (RT.isvec)  { id += 1; }
    if (RA.isvec)  { irs1 += 1; }
    if (RB.isvec)  { irs2 += 1; }

if extra3_mode:
    spec = EXTRA3 # bit 2 s/v, 0-1 extends range
else:
    spec = EXTRA2 << 1 # same as EXTRA3, shifted
if spec[2]: # vector
     RA.isvec = True
     return (RA << 2) | spec[0:1]
else:         # scalar
     RA.isvec = False
     return (spec[0:1] << 5) | RA

function op_add(RT, RA, RB) # add not VADD!
  int id=0, irs1=0, irs2=0;
  predval = get_pred_val(FALSE, RT); # dest mask
  for i = 0 to VL-1:
    if (predval & 1<<i) # predication bit test
       ireg[RT+id] <= ireg[RA+irs1] + ireg[RB+irs2];
       if (!RT.isvec) break;
    if (RT.isvec)  { id += 1; }
    if (RA.isvec)  { irs1 += 1; }
    if (RB.isvec)  { irs2 += 1; }

function op_add(RT, RA, RB) # add not VADD!
  int id=0, irs1=0, irs2=0;
  predval = get_pred_val(FALSE, RT); # dest pred
  for i = 0 to VL-1:
    if (predval & 1<<i) # predication bit test
       ireg[RT+id] <= ireg[RA+irs1] + ireg[RB+irs2];
       if (!RT.isvec) break;
    else if zeroing:   # predicate failed
       ireg[RT+id] = 0 # set element  to zero
    if (RT.isvec)  { id += 1; }
    if (RA.isvec)  { irs1 += 1; }
    if (RB.isvec)  { irs2 += 1; }

typedef uint64_t reg_t;
reg_t int_regfile[32]; // standard scalar 32x 64bit

#pragma(packed)
typedef union {
    uint8_t  actual_bytes[8];
    uint8_t  b[0]; // array of type uint8_t
    uint16_t s[0]; // array of LE ordered uint16_t
    uint32_t i[0];
    uint64_t l[0]; // default Power ISA uses this
} reg_t;

reg_t int_regfile[128]; // SV extends to 128 regs

uint8_t reg_sram[8*128];
uint8_t *actual_bytes = &reg_sram[RA*8];
if elwidth == 8:
    uint8_t *b = (uint8_t*)actual_bytes;
    b[idx] = result;
if elwidth == 16:
    uint16_t *s = (uint16_t*)actual_bytes;
    s[idx] = result;
if elwidth == 32:
    uint32_t *i = (uint32_t*)actual_bytes;
    i[idx] = result;
if elwidth == default:
    uint64_t *l = (uint64_t*)actual_bytes;
    l[idx] = result;

   | byte0 | byte1 | byte2 | byte3 | byte4 | byte5 | byte6 | byte7 |
   | ----- | ----- | ----- | ----- | ----- | ----- | ----- | ----- |
r0 | b[0]  | b[1]  | b[2]  | b[3]  | b[4]  | b[5]  | b[6]  | b[7]  |
r1 | b[8]  | b[9]  | b[10] | b[11] | b[12] | b[13] | b[14] | b[15] |

   | byte0 | byte1 | byte2 | byte3 | byte4 | byte5 | byte6 | byte7 |
   | ----- | ----- | ----- | ----- | ----- | ----- | ----- | ----- |
r0 | s[0].b0  b1   | s[1].b0  b1   | s[2].b0  b1   |  s[3].b0  b1  |
r1 | s[4].b0  b1   | s[5].b0  b1   | s[6].b0  b1   |  unmodified   |

   | byte0 | byte1 | byte2 | byte3 | byte4 | byte5 | byte6 | byte7 |
   | ----- | ----- | ----- | ----- | ----- | ----- | ----- | ----- |
r0 | w[0].b0  b1      b2      b3   | w[1].b0  b1      b2      b3   |
r1 | w[2].b0  b1      b2      b3   | unmodified    unmodified      |

get_polymorphed_reg(reg, bitwidth, offset):
    reg_t res = 0;
    if (!reg.isvec): # scalar
        offset = 0
    if bitwidth == 8:
        reg.b = int_regfile[reg].b[offset]
    elif bitwidth == 16:
        reg.s = int_regfile[reg].s[offset]
    elif bitwidth == 32:
        reg.i = int_regfile[reg].i[offset]
    elif bitwidth == default: # 64
        reg.l = int_regfile[reg].l[offset]
    return res

set_polymorphed_reg(reg, bitwidth, offset, val):
    if (!reg.isvec): # scalar
        offset = 0
    if bitwidth == 8:
        int_regfile[reg].b[offset] = val
    elif bitwidth == 16:
        int_regfile[reg].s[offset] = val
    elif bitwidth == 32:
        int_regfile[reg].i[offset] = val
    elif bitwidth == default: # 64
        int_regfile[reg].l[offset] = val

for i = 0 to VL-1:
   src1 = get_polymorphed_reg(RA, srcwid, i)
   src2 = get_polymorphed_reg(RB, srcwid, i)
   result = src1 + src2 # actual add here
   set_polymorphed_reg(RT, destwid, i, result)

The operation MUST take place effectively at infinite precision:
actual precision determined by the operation and the operand widths

for i = 0 to VL-1:
   src1 = get_polymorphed_reg(RA, srcwid, i)
   src2 = get_polymorphed_reg(RB, srcwid, i)
   opwidth = max(srcwid, destwid) # usually
   result = op_add(src1, src2, opwidth) # at max width
   set_polymorphed_reg(rd, destwid, i, result)

  for i = 0 to VL-1:
   src1 = get_polymorphed_reg(RA, srcwid, i)
   src2 = get_polymorphed_reg(RB, srcwid, i)
   opwidth = max(srcwid, destwid)
   # srces known to be less than result width
   src1 = sign_extend(src1, srcwid, opwidth)
   src2 = sign_extend(src2, srcwid, opwidth)
   result = op_signed(src1, src2, opwidth) # at max width
   set_polymorphed_reg(rd, destwid, i, result)

for i = 0 to VL-1:
   src1 = get_polymorphed_reg(RA, srcwid, i)
   src2 = get_polymorphed_reg(RB, srcwid, i)
   opwidth = max(srcwid, destwid)
   # unsigned add
   result = op_add(src1, src2, opwidth) # at max width
   # now saturate (unsigned)
   sat = min(result, (1<<destwid)-1)
   set_polymorphed_reg(rd, destwid, i, sat)
   # set sat overflow
   if Rc=1:
      CR[i].ov = (sat != result)

for i = 0 to VL-1:
   src1 = get_polymorphed_reg(RA, srcwid, i)
   src2 = get_polymorphed_reg(RB, srcwid, i)
   opwidth = max(srcwid, destwid)
   # logical op, signed has no meaning
   result = op_xor(src1, src2, opwidth)
   # now saturate (signed)
   sat = min(result, (1<<destwid-1)-1)
   sat = max(result, -(1<<destwid-1))
   set_polymorphed_reg(rd, destwid, i, sat)

function op_add(RT, RA, RB) # add not VADD!
  int id=0, irs1=0, irs2=0;
  predval = get_pred_val(FALSE, rd);
  for i = 0 to VL-1:
    if (predval & 1<<i) # predication uses intregs
      for (s = 0; s < SUBVL; s++)
        sd = id*SUBVL + s
        srs1 = irs1*SUBVL + s
        srs2 = irs2*SUBVL + s
        ireg[RT+sd] <= ireg[RA+srs1] + ireg[RB+srs2];
      if (!RT.isvec) break;
    if (RT.isvec)  { id += 1; }
    if (RA.isvec)  { irs1 += 1; }
    if (RB.isvec)  { irs2 += 1; }

swizzle = get_swizzle_immed() # 12 bits
for (s = 0; s < SUBVL; s++)
    remap = (swizzle >> 3*s) & 0b111
    if remap == 0b000: continue            # skip
    if remap == 0b001: break               # end marker
    if remap == 0b010: ireg[rd+s] <= 0.0   # constant 0
    elif remap == 0b011: ireg[rd+s] <= 1.0 # constant 1
    else:                                  # XYZW
       sm = id*SUBVL + (remap-4)
       ireg[rd+s] <= ireg[RA+sm]

function op(RT, RS):
  ps = get_pred_val(FALSE, RS); # predication on src
  pd = get_pred_val(FALSE, RT); # ... AND on dest
  for (int i = 0, int j = 0; i < VL && j < VL;):
    if (RS.isvec) while (!(ps & 1<<i)) i++;
    if (RT.isvec) while (!(pd & 1<<j)) j++;
    reg[RT+j] = SCALAR_OPERATION_ON(reg[RS+i])
    if (RS.isvec) i++;
    if (RT.isvec) j++; else break

strncpy:
    c.mv a3, a0               # Copy dst
loop:
    setvli x0, a2, vint8    # Vectors of bytes.
    vlbff.v v1, (a1)        # Get src bytes
    vseq.vi v0, v1, 0       # Flag zero bytes
    vmfirst a4, v0          # Zero found?
    vmsif.v v0, v0          # Set mask up to and including zero byte.
    vsb.v v1, (a3), v0.t    # Write out bytes
    c.bgez a4, exit           # Done
    csrr t1, vl             # Get number of bytes fetched
    c.add a1, a1, t1          # Bump src pointer
    c.sub a2, a2, t1          # Decrement count.
    c.add a3, a3, t1          # Bump dst pointer
    c.bnez a2, loop           # Anymore?
exit:
    c.ret

if Rc=0: BO = inv<<2 | 0b00 # test CR.eq bit z/nz
for i in range(VL):
    # predication test, skip all masked out elements.
    if predicate_masked_out(i): continue # skip
    result = op(iregs[RA+i], iregs[RB+i])
    CRnew = analyse(result) # calculates eq/lt/gt
    # now test CR, similar to branch
    if CRnew[BO[0:1]] != BO[2]:
        VL = i+VLi # truncate: only successes allowed
        break
    # test passed: store result (and CR?)
    if not RC1: iregs[RT+i] = result
    if RC1 or Rc=1: crregs[offs+i] = CRnew

loop:
  sv.addi r0.v, r8.v, 5 # GPR(0+dststep) = GPR(8+srcstep) + 5
  sv.addi r0.v, r8, 5   # GPR(0+dststep) = GPR(8        ) + 5
  sv.addi r0, r8.v, 5   # GPR(0        ) = GPR(8+srcstep) + 5
  svstep.               # srcstep++, dststep++, CR0.eq = srcstep==VL
  beq loop

SV Overview

Introduction: SIMD and Cray Vectors

SV

Adding Scalar / Vector

Register "tagging"

Adding single predication

Predicate "zeroing" mode

Element Width overrides

Why a LE regfile?

Source and Destination overrides

Signed arithmetic

Saturation

Quick recap so far

SUBVL

Swizzle

Twin Predication

Exception-based Fail-on-first

Data-dependent fail-first

Vertical-First Mode

Instruction format

Conclusion