RandomX: rewrote dataset read code

Unified code for AMD and Intel 1% faster on Intel 0.15% faster on AMD Ryzen
2021-05-20 12:45:42 +02:00 · 2021-05-20 12:45:42 +02:00 · ff82ca57f2
commit ff82ca57f2
parent 7f7b1fb073
10 changed files with 16 additions and 69 deletions
--- a/src/crypto/randomx/asm/program_prologue_linux.inc
+++ b/src/crypto/randomx/asm/program_prologue_linux.inc
@ -22,6 +22,7 @@
 	mov rsi, rdx                ;# uint8_t* scratchpad

 	mov rax, rbp
+	ror rbp, 32

 	;# zero integer registers
 	xor r8, r8
--- a/src/crypto/randomx/asm/program_prologue_win64.inc
+++ b/src/crypto/randomx/asm/program_prologue_win64.inc
@ -35,6 +35,7 @@
 	mov rbx, r9                 ;# loop counter

 	mov rax, rbp
+	ror rbp, 32

 	;# zero integer registers
 	xor r8, r8
--- a/src/crypto/randomx/asm/program_read_dataset.inc
+++ b/src/crypto/randomx/asm/program_read_dataset.inc
@ -1,17 +1,16 @@
+	mov ecx, ebp                       ;# ecx = ma
+	and ecx, RANDOMX_DATASET_BASE_MASK
+	xor r8, qword ptr [rdi+rcx]
+	ror rbp, 32                        ;# swap "ma" and "mx"
 	xor rbp, rax                       ;# modify "mx"
 	mov edx, ebp                       ;# edx = mx
 	and edx, RANDOMX_DATASET_BASE_MASK
 	prefetchnta byte ptr [rdi+rdx]
-	ror rbp, 32                        ;# swap "ma" and "mx"
-	mov edx, ebp                       ;# edx = ma
-	and edx, RANDOMX_DATASET_BASE_MASK
-	lea rcx, [rdi+rdx]                 ;# dataset cache line
-	xor r8,  qword ptr [rcx+0]
-	xor r9,  qword ptr [rcx+8]
-	xor r10, qword ptr [rcx+16]
-	xor r11, qword ptr [rcx+24]
-	xor r12, qword ptr [rcx+32]
-	xor r13, qword ptr [rcx+40]
-	xor r14, qword ptr [rcx+48]
-	xor r15, qword ptr [rcx+56]
+	xor r9,  qword ptr [rdi+rcx+8]
+	xor r10, qword ptr [rdi+rcx+16]
+	xor r11, qword ptr [rdi+rcx+24]
+	xor r12, qword ptr [rdi+rcx+32]
+	xor r13, qword ptr [rdi+rcx+40]
+	xor r14, qword ptr [rdi+rcx+48]
+	xor r15, qword ptr [rdi+rcx+56]
 	
--- a/src/crypto/randomx/asm/program_read_dataset_ryzen.inc
+++ b/src/crypto/randomx/asm/program_read_dataset_ryzen.inc
@ -1,17 +0,0 @@
-	mov rcx, rbp                       ;# ecx = ma
-	shr rcx, 32
-	and ecx, RANDOMX_DATASET_BASE_MASK
-	xor r8, qword ptr [rdi+rcx]
-	xor rbp, rax                       ;# modify "mx"
-	mov edx, ebp                       ;# edx = mx
-	and edx, RANDOMX_DATASET_BASE_MASK
-	prefetchnta byte ptr [rdi+rdx]
-	ror rbp, 32                        ;# swap "ma" and "mx"
-	xor r9,  qword ptr [rdi+rcx+8]
-	xor r10, qword ptr [rdi+rcx+16]
-	xor r11, qword ptr [rdi+rcx+24]
-	xor r12, qword ptr [rdi+rcx+32]
-	xor r13, qword ptr [rdi+rcx+40]
-	xor r14, qword ptr [rdi+rcx+48]
-	xor r15, qword ptr [rdi+rcx+56]
-