16 bit Compressed

Mon May 29 13:27:25 2023 · mutually exclusively incompatible

0 1 2 3 4 5 6 7 8 9 a b c d e f |
|major op | 11 bit vector prefix|
|16 bit opcode  alt vec. mode ^ |
| extra vector prefix if alt set|

0 1 2 3 4 5 6 7 8 9 a b c d e f |
|major op | what to do here   1 |
|16 bit    stay in 16bit mode 1 |
|16 bit    stay in 16bit mode 1 |
|16 bit       exit 16bit mode 0 |

|0 1 2 3 4 5 6 7 8 9 a b c d e f|
|major op..0| LO Half C space   |
|major op..1| HI Half C space   |
|N N N N N|<--11 bits C space-->|

| 0 | 1234 | 567  8 | 9abcde | f | explanation
| - | ---- | ------ | ------ | - | -----------
| EXT000/1 | Cmaj.m | fields | 0 | 10bit then v3.0B
| EXT000/1 | Cmaj.m | fields | 1 | 10bit then 16bit
| 0 | flds | Cmaj.m | fields | 0 | 16bit then v3.0B
| 0 | flds | Cmaj.m | fields | 1 | 16bit then 16bit
| 1 | flds | Cmaj.m | fields | 0 | 16b, 1x v3.0B, 16b
| 1 | flds | Cmaj.m | fields | 1 | 16b/imm then 16bit

| 01234    | 567  8 | 9  | a b | c  | d e | f | enc
| E01      | Cmaj.m | fld1     | fld2     | M | 10b
| E01      | Cmaj.m | offset              | M | 10b b
| E01      | 001.1  | S1 | fd1 | S2 | fd2 | M | 10b sub
| E01      | 111.m  | fld1     | fld2     | M | 10b LDST

| 0 | 1234 | 567  8 | 9  | a b | c  | d e | f | enc
| N | immf | Cmaj.m | fld1     | fld2     | M | 16b
| 1 | immf | Cmaj.m | fld1     | imm      | 1 | 16b imm
| N | fd3  | 001.1  | S1 | fd1 | S2 | fd2 | M | 16b sub
| N | fd4  | 111.m  | fld1     | fld2     | M | 16b LDST

  466 extsw r1,r1
  649 stw r1,1(r1)
  691 lwz r1,1(r1)
  705 cmpdi r1,1
  791 cmpwi r1,1
  794 addis r1,r1,1
 1474 std r1,1(r1)
 1846 li r1,1
 2031 mr r1,r1
 2473 addi r1,r1,1
 3012 nop
 3028 ld r1,1(r1)

| 0 | 1  | 2 | 3 4 | | 567.8 | 9ab  | cde | f |
| 1 | 0  | 0   0 0 | | 001.0 |      | 000 | 1 | TBD
| 1 | 0  |  sh2    | | 001.0 | RA   | sh  | 1 | sradi.
| 1 | 1  | 0   0 0 | | 001.0 |      | 000 | 1 | TBD
| 1 | 1  | 0 | sh2 | | 001.0 | RA   | sh  | 1 | srawi.
| 1 | 1  | 1 |     | | 001.0 | 000  | imm | 1 | TBD
| 1 | 1  | 1 | i2  | | 001.0 | RA!=0| imm | 1 | addis
| 1 | 0  | i2      | | 010.0 | 000  | imm | 1 | setvli
| 1 | 1  | i2      | | 010.0 | 000  | imm | 1 | setmvli
| 1 | i2           | | 010.0 | RA!=0| imm | 1 | addi
| 1 | 0  | i2      | | 010.1 | RA   | imm | 1 | cmpdi
| 1 | 1  | i2      | | 010.1 | RA   | imm | 1 | cmpwi
| 1 | 0  | i2      | | 011.0 | RT   | imm | 1 | ldspi
| 1 | 1  | i2      | | 011.0 | RT   | imm | 1 | lwspi
| 1 | 0  | i2      | | 011.1 | RT   | imm | 1 | stwspi
| 1 | 1  | i2      | | 011.1 | RT   | imm | 1 | stdspi
| 1 | i2 | RA      | | 100.0 | RT   | imm | 1 | stwi
| 1 | i2 | RA      | | 100.1 | RT   | imm | 1 | stdi
| 1 | i2 | RT      | | 101.0 | RA   | imm | 1 | ldi
| 1 | i2 | RT      | | 101.1 | RA   | imm | 1 | lwi
| 1 | i2 | RA      | | 110.0 | RT   | imm | 1 | fsti
| 1 | i2 | RA      | | 110.1 | RT   | imm | 1 | fstdi
| 1 | i2 | RT      | | 111.0 | RA   | imm | 1 | flwi
| 1 | i2 | RT      | | 111.1 | RA   | imm | 1 | fldi

| 16-bit mode | | 10-bit mode                 |
| 0 | 1 | 234 | | 567.8  | 9  ab | c   de | f |
| - | - | --- | | -----  | ----- | ------ | - |
| 0 | 0   000 | | 000.0  | 0  00 | 0   00 | 0 | illeg
| 0 | 0   000 | | 000.0  | 0  00 | 0   00 | 1 | nop

| 0 | 1 | 234 | | 567.8  | 9  ab | c   de | f |
| - | - | --- | | -----  | ----- | ------ | - |
| 1 | 0   000 | | 000.0  | 0  00 | 0   00 | 0 | nop
| 1 | 0   000 | | 000.0  | 0  00 | 0   00 | 1 | nop
| N | 1   000 | | 000.0  | 0  00 | 0   00 | M | attn

| 16-bit mode | | 10-bit mode                 |
| 0 | 1 | 234 | | 567.8  | 9  ab | c   de | f |
| - | - | --- | | -----  | ----- | ------ | - |
| N | offs2   | | 000.LK | offs!=0        | M | b, bl
| N |         | | 000.1  | 0  00 | 0   00 | M | TBD
| 1 | offs2   | | 000.LK | BI    | BO1 oo | 1 | bc, bcl
| N | BO3 BI3 | | 001.0  | LK BI | BO     | M | bclr, bclrl

| 16-bit mode  | | 10-bit mode               |
| 0 | 1  | 234 | | 567.8 | 9 a b | c d e | f |
| - | -- | --- | | ----- | ----- | ----- | - |
| N | SZ |  RB | | 001.1 | 1  RA | 0  RT | M | st
| N | SZ |  RB | | 001.1 | 1  RA | 1  RT | M | fst
| N | SZ |  RT | | 111.0 |  RA   |  RB   | M | ld
| N | SZ |  RT | | 111.1 |  RA   |  RB   | M | fld

| 16-bit mode | | 10-bit mode             |
| 0 | 1 | 234 | | 567.8 | 9ab | c d e | f |
| - | - | --- | | ----- | --- | ----- | - |
| N | 0 | RT  | | 010.0 | RB  | RA!=0 | M | add
| N | 0 | RT  | | 010.1 | RB  | RA|0  | M | sub.
| N | 0 | BF  | | 011.0 | RB  | RA|0  | M | cmpl

| 0 | 1 | 234 | | 567.8 | 9ab | cde   | f |
| - | - | --- | | ----- | --- | ----- | - |
| N | 1 | RA  | | 010.0 | RB  | RS    | M | sld.
| N | 1 | RA  | | 010.1 | RB  | RS!=0 | M | srd.
| N | 1 | RA  | | 010.1 | RB  | 000   | M | srad.
| N | 1 | BF  | | 011.0 | RB  | RA|0  | M | cmpw

| 16-bit mode | | 10-bit mode             |
| 0 | 1 | 234 | | 567.8 | 9ab | c d e | f |
| - | - | --- | | ----- | --- | ----- | - |
| N | 0 |  RT | | 100.0 | RB  | RA!=0 | M | and
| N | 0 |  RT | | 100.1 | RB  | RA!=0 | M | nand
| N | 0 |  RT | | 101.0 | RB  | RA!=0 | M | or
| N | 0 |  RT | | 101.1 | RB  | RA!=0 | M | nor/mr
| N | 0 |  RT | | 100.0 | RB  | 0 0 0 | M | popcnt
| N | 0 |  RT | | 100.1 | RB  | 0 0 0 | M | cntlz
| N | 0 |  RT | | 101.0 | RB  | 0 0 0 | M | extsw
| N | 0 |  RT | | 101.1 | RB  | 0 0 0 | M | not

| 0 | 1 | 234 | | 567.8 | 9ab | c d e | f |
| - | - | --- | | ----- | --- | ----- | - |
| N | 1 |  RT | | 100.0 | RB  | RA!=0 | M | TBD
| N | 1 |  RT | | 100.1 | RB  | RA!=0 | M | TBD
| N | 1 |  RT | | 101.0 | RB  | RA!=0 | M | xor
| N | 1 |  RT | | 101.1 | RB  | RA!=0 | M | eqv (xnor)
| N | 1 |  RT | | 100.0 | RB  | 0 0 0 | M | setvl.
| N | 1 |  RT | | 100.1 | RB  | 0 0 0 | M | cnttz
| N | 1 |  RT | | 101.0 | RB  | 0 0 0 | M | extsb
| N | 1 |  RT | | 101.1 | RB  | 0 0 0 | M | extsh

| 16-bit mode | | 10-bit mode             |
| 0 | 1 | 234 | | 567.8 | 9ab | c d e | f |
| - | - | --- | | ----- | --- | ----- | - |
| N |   |  RT | | 011.1 | RB  | RA!=0 | M | fsub.
| N | 0 |  RT | | 110.0 | RB  | RA!=0 | M | fadd
| N | 0 |  RT | | 110.1 | RB  | RA!=0 | M | fmul
| N | 0 |  RT | | 011.1 | RB  | 0 0 0 | M | fneg.
| N | 0 |     | | 110.0 |     | 0 0 0 | M | TBD
| N | 0 |     | | 110.1 |     | 0 0 0 | M | TND

| 0 | 1 | 234 | | 567.8 | 9ab | c d e | f |
| - | - | --- | | ----- | --- | ----- | - |
| N | 1 |     | | 011.1 |     | RA!=0 | M | TBD
| N | 1 |     | | 110.0 |     | RA!=0 | M | TBD
| N | 1 |  RT | | 110.1 | RB  | RA!=0 | M | fdiv
| N | 1 |  RT | | 011.1 | RB  | 0 0 0 | M | fabs.
| N | 1 |  RT | | 110.0 | RB  | 0 0 0 | M | fmr.
| N | 1 |     | | 110.1 |     | 0 0 0 | M | TBD

| 0 | 123 | 4 | | 567.8 | 9 ab | cde  | f |
| - | --- | - | | ----- | ---- | ---- | - |
| N | 101 | X | | 001.1 | 0 RA | Y RT | M | fp2int
| N | 110 | X | | 001.1 | 0 RA | Y RT | M | int2fp

| 16-bit mode| | 10-bit mode            |
| 0 | 123 | 4   | | 567.8 | 9 ab | cde | f |
| - | --- | --- | | ----- | ---- | --- | - |
| N | 000 | BF2 | | 001.1 | 0 BF | BFA | M | mcrf

| 0 | 1234 | | 567.8 | 9 ab | cde | f |
| - | ---- | | ----- | ---- | --- | - |
| N | 0010 | | 001.1 | 0 BA | BB  | M | crnor
| N | 0011 | | 001.1 | 0 BA | BB  | M | crandc
| N | 0100 | | 001.1 | 0 BA | BB  | M | crxor
| N | 0101 | | 001.1 | 0 BA | BB  | M | crnand
| N | 0110 | | 001.1 | 0 BA | BB  | M | crand
| N | 0111 | | 001.1 | 0 BA | BB  | M | creqv
| N | 1000 | | 001.1 | 0 BA | BB  | M | crorc
| N | 1001 | | 001.1 | 0 BA | BB  | M | cror

| 16-bit mode | | 10-bit mode             |
| 0 | 1 2 3 4 | | 567.8 | 9ab   | cde | f |
| - | ------- | | ----- | ----- | --- | - |
| N | 0 Bank2 | | 010.0 | CBank | 000 | M | cbank

| 0 | 1 | 234 | | 567.8 | 9 ab | cde  | f |
| - | ------- | | ----- | ---- | ---- | - |
| N | 1 | 111 | | 001.1 | 0 00 |  RT  | M | mtlr
| N | 1 | 111 | | 001.1 | 0 01 |  RT  | M | mtctr
| N | 1 | 111 | | 001.1 | 0 00 |  RA  | M | mflr
| N | 1 | 111 | | 001.1 | 0 01 |  RA  | M | mfctr
| N | 0 RA!=0 | | 000.0 | 0 00 |  000 | M | mtcr
| N | 1 RT!=0 | | 000.0 | 0 00 |  000 | M | mfcr

| 0 | 1 | 234 | | 567.8 | 9 ab | cde  | f |
| - | - | --- | | ----- | ---- | ---- | - |
| N | 1 | 111 | | 001.1 | 0 10 |      | M |
| N | 1 | 111 | | 001.1 | 0 11 |      | M |

8-bit first half of nop
Label:
8-bit second half of nop AKA switch to compressed mode
16-bit insns...

| byte 0 | byte 1 | byte 2 | byte 3 |
| v3.0B standard 32 bit instruction |
| EXT000 | 16 bit          | 16...  |
| .. bit | 8nop   | v3.0b stand...  |
| .. ard 32 bit   | EXT000 | 16...  |
| .. bit | 16 bit          | 8nop   |
| v3.0B standard 32 bit instruction |

objdump -d --no-show-raw-insn /bin/bash | sed 'y/\t/ /;
  s/^[ x0-9A-F]*: *\([a-z.]\+\) *\(.*\)/\1 \2 /p; d' |
  sed 's/\([, (]\)r[1-9][0-9]*/\1r1/g;
  s/\([ ,]\)-*[0-9]\+\([^0-9]\)/\11\2/g' | sort | uniq --count |
  sort -n | less

r0: constant zero/throw-away
r1: stack pointer
r2: thread-local storage pointer in 32-bit mode
r2: non-minimal TOC register
r10: EH return stack adjust register
r11: static chain pointer
r13: thread-local storage pointer in 64-bit mode
r30: minimal-TOC/-fPIC/-fpic base register
r31: frame pointer
lr: return address register

We allocate in the following order:

fp0     (not saved or used for anything)
fp13 - fp2  (not saved; incoming fp arg registers)
fp1     (not saved; return value)
fp31 - fp14 (saved; order given to save least number)
cr7, cr5    (not saved or special)
cr6     (not saved, but used for vector operations)
cr1     (not saved, but used for FP operations)
cr0     (not saved, but used for arithmetic operations)
cr4, cr3, cr2   (saved)
r9      (not saved; best for TImode)
r10, r8-r4  (not saved; highest first for less conflict with params)
r3      (not saved; return value register)
r11     (not saved; later alloc to help shrink-wrap)
r0      (not saved; cannot be base reg)
r31 - r13   (saved; order given to save least number)
r12     (not saved; if used for DImode or DFmode would use r13)
ctr     (not saved; when we have the choice ctr is better)
lr      (saved)
r1, r2, ap, ca  (fixed)
v0 - v1     (not saved or used for anything)
v13 - v3    (not saved; incoming vector arg registers)
v2      (not saved; incoming vector arg reg; return value)
v19 - v14   (not saved or used for anything)
v31 - v20   (saved; order given to save least number)
vrsave, vscr    (fixed)
sfp     (fixed)

| 0 | 1234 | 567  8 | 9abcde | f | explanation
| - | ---- | ------ | ------ | - | -----------
| EXT000/1 | Cmaj.m | fields | 0 | 10bit then v3.0B
| EXT000/1 | Cmaj.m | fields | 1 | 10bit then 16bit
| 0 | flds | Cmaj.m | fields | 0 | 16bit then v3.0B
| 0 | flds | Cmaj.m | fields | 1 | 16bit then 16bit
| 1 | flds | Cmaj.m | fields | 0 | 16b, 1x v3.0B, 16b
| 1 | flds | Cmaj.m | fields | 1 | 16b/imm then 16bit

# starting point for FSM
previ = v3.0B

if previ.mode == v3.0B:
    # previous was v3.0B, look for compressed tag
    if extc_id:
         # found it.  move to 10bit mode
         nexti.length = 16
         nexti.mode = 10bit
    else:
         # nope. stay in v3.0B
         nexti.length = 32
         nexti.mode = v3.0B

elif previ.mode == 10bit:
     # previous was v3.0B, move to v3.0B or 16bit?
    if M == 0:
         next.length = 32
         nexti.mode = v3.0B
     else:
         # otherwise stay in 16bit mode
         nexti.length = 16
         nexti.mode = 16bit

elif previ.mode == 16bit:
      # previous was 16bit, stay there or move?
      if M == 0:
         # back to v3.0B
         next.length = 32
         if N == 1:
              # ... but only for 1 insn
              nexti.mode = v3.0B_then_16bit
         else:
              nexti.mode = v3.0B
     else:
         # otherwise stay in 16bit mode
         nexti.length = 16
         nexti.mode = 16bit

# rest of FSM involving 3.0B to 16bit
# and back transitions left to implementor
# (or for someone else to add)

op_001_1 = insn[5:8] != 0b001.1
if mode == 10bit:
    decode_10bit(insn)
elif mode == 16bit:
    if N == 1 & M == 1 & op_001_1
        # see immediate opcodes table
        decode_16bit_immed_mode(insn)
    if op_001_1:
        # see CR and System tables
        # (16 bit ones at least)
        decode_16bit_cr_or_sys(insn)
    else:
        decode_16bit_nonimmed_mode(insn)

16 bit Compressed

ABI considerations

Opcode Allocation Ideas

Opcodes exploration (Attempt 1)

C Instruction Encoding types

Immediate Opcodes

Illegal, nop and attn

Branch

LD/ST

Arithmetic

Logical

Floating Point

Condition Register

System

Unallocated

Other ideas (Attempt 2)

8-bit mode-switching instructions, odd addresses for C mode

Other ideas (v3)

TODO

Use 2- rather than 3-register opcodes

Appendix

Analysis techniques and tools

gcc register allocation

Comparison to VLE

Compressed Decoder Phases

Phase 1

Phase 2: Compressed mode

Phase 2: v3.0B mode

Demo of encoding that's backward-compatible with PowerISA v3.1 in both LE and BE mode

Efficient Decoding Algorithm