From mboxrd@z Thu Jan  1 00:00:00 1970
Return-Path: <ffmpeg-devel-bounces@ffmpeg.org>
Received: from ffbox0-bg.mplayerhq.hu (ffbox0-bg.ffmpeg.org [79.124.17.100])
	by master.gitmailbox.com (Postfix) with ESMTP id A8A8143D54
	for <ffmpegdev@gitmailbox.com>; Thu,  8 Sep 2022 12:56:16 +0000 (UTC)
Received: from [127.0.1.1] (localhost [127.0.0.1])
	by ffbox0-bg.mplayerhq.hu (Postfix) with ESMTP id 3D7F468BA9F;
	Thu,  8 Sep 2022 15:56:13 +0300 (EEST)
Received: from loongson.cn (mail.loongson.cn [114.242.206.163])
 by ffbox0-bg.mplayerhq.hu (Postfix) with ESMTP id 56FF168B9CB
 for <ffmpeg-devel@ffmpeg.org>; Thu,  8 Sep 2022 15:56:06 +0300 (EEST)
Received: from localhost (unknown [36.33.26.144])
 by localhost.localdomain (Coremail) with SMTP id
 AQAAf8DxPGs55hljnHEUAA--.21589S3; 
 Thu, 08 Sep 2022 20:55:21 +0800 (CST)
From: Hao Chen <chenhao@loongson.cn>
To: ffmpeg-devel@ffmpeg.org
Date: Thu,  8 Sep 2022 20:55:18 +0800
Message-Id: <20220908125519.15807-2-chenhao@loongson.cn>
X-Mailer: git-send-email 2.20.1
In-Reply-To: <20220908125519.15807-1-chenhao@loongson.cn>
References: <20220908125519.15807-1-chenhao@loongson.cn>
MIME-Version: 1.0
X-CM-TRANSID: AQAAf8DxPGs55hljnHEUAA--.21589S3
X-Coremail-Antispam: 1UD129KBjvAXoW3KrW7ZrWrurW7Ar1rKF45ZFb_yoW8Gr1rto
 WjqFWkA34kGrZ7C3y3Ar18GasrXF47Wr1kZa1rtr1UXa4F9345A343Zw4SqayDKr4Fg345
 Gr93GrWxJFsxAr98n29KB7ZKAUJUUUU8529EdanIXcx71UUUUU7v73VFW2AGmfu7bjvjm3
 AaLaJ3UjIYCTnIWjp_UUUYj7k0a2IF6w4kM7kC6x804xWl14x267AKxVWUJVW8JwAFc2x0
 x2IEx4CE42xK8VAvwI8IcIk0rVWrJVCq3wAFIxvE14AKwVWUJVWUGwA2ocxC64kIII0Yj4
 1l84x0c7CEw4AK67xGY2AK021l84ACjcxK6xIIjxv20xvE14v26ryj6F1UM28EF7xvwVC0
 I7IYx2IY6xkF7I0E14v26F4j6r4UJwA2z4x0Y4vEx4A2jsIE14v26rxl6s0DM28EF7xvwV
 C2z280aVCY1x0267AKxVW0oVCq3wAS0I0E0xvYzxvE52x082IY62kv0487Mc02F40EFcxC
 0VAKzVAqx4xG6I80ewAv7VC0I7IYx2IY67AKxVWUAVWUtwAv7VC2z280aVAFwI0_Gr0_Cr
 1lOx8S6xCaFVCjc4AY6r1j6r4UM4x0Y48IcxkI7VAKI48JMxkIecxEwVAFwVW5JwCF04k2
 0xvY0x0EwIxGrwCFx2IqxVCFs4IE7xkEbVWUJVW8JwC20s026c02F40E14v26r1j6r18MI
 8I3I0E7480Y4vE14v26r106r1rMI8E67AF67kF1VAFwI0_Jrv_JF1lIxkGc2Ij64vIr41l
 IxAIcVC0I7IYx2IY67AKxVWUJVWUCwCI42IY6xIIjxv20xvEc7CjxVAFwI0_Jr0_Gr1lIx
 AIcVCF04k26cxKx2IYs7xG6r1j6r1xMIIF0xvEx4A2jsIE14v26r1j6r4UMIIF0xvEx4A2
 jsIEc7CjxVAFwI0_Jr0_GrUvcSsGvfC2KfnxnUUI43ZEXa7IU5izV5UUUUU==
X-CM-SenderInfo: hfkh0xtdr6z05rqj20fqof0/
Subject: [FFmpeg-devel] [PATCH v1 1/2] Fix bugs in me_cmp_msa.c file.
X-BeenThere: ffmpeg-devel@ffmpeg.org
X-Mailman-Version: 2.1.29
Precedence: list
List-Id: FFmpeg development discussions and patches <ffmpeg-devel.ffmpeg.org>
List-Unsubscribe: <https://ffmpeg.org/mailman/options/ffmpeg-devel>,
 <mailto:ffmpeg-devel-request@ffmpeg.org?subject=unsubscribe>
List-Archive: <https://ffmpeg.org/pipermail/ffmpeg-devel>
List-Post: <mailto:ffmpeg-devel@ffmpeg.org>
List-Help: <mailto:ffmpeg-devel-request@ffmpeg.org?subject=help>
List-Subscribe: <https://ffmpeg.org/mailman/listinfo/ffmpeg-devel>,
 <mailto:ffmpeg-devel-request@ffmpeg.org?subject=subscribe>
Reply-To: FFmpeg development discussions and patches <ffmpeg-devel@ffmpeg.org>
Cc: Lu Wang <wanglu@loongson.cn>
Content-Type: text/plain; charset="us-ascii"
Content-Transfer-Encoding: 7bit
Errors-To: ffmpeg-devel-bounces@ffmpeg.org
Sender: "ffmpeg-devel" <ffmpeg-devel-bounces@ffmpeg.org>
Archived-At: <https://master.gitmailbox.com/ffmpegdev/20220908125519.15807-2-chenhao@loongson.cn/>
List-Archive: <https://master.gitmailbox.com/ffmpegdev/>
List-Post: <mailto:ffmpegdev@gitmailbox.com>

From: Lu Wang <wanglu@loongson.cn>

This patch fixes a bug where the fate-checkasm-motion fails when
h is not a multiple of 8.
---
 libavcodec/mips/me_cmp_msa.c | 201 ++++++++++++++++++++++++++++++-----
 1 file changed, 173 insertions(+), 28 deletions(-)

diff --git a/libavcodec/mips/me_cmp_msa.c b/libavcodec/mips/me_cmp_msa.c
index 00a3cfd53f..351494161f 100644
--- a/libavcodec/mips/me_cmp_msa.c
+++ b/libavcodec/mips/me_cmp_msa.c
@@ -25,11 +25,13 @@ static uint32_t sad_8width_msa(const uint8_t *src, int32_t src_stride,
                                const uint8_t *ref, int32_t ref_stride,
                                int32_t height)
 {
-    int32_t ht_cnt;
+    int32_t ht_cnt = height >> 2;
+    int res = (height & 0x03);
     v16u8 src0, src1, src2, src3, ref0, ref1, ref2, ref3;
+    v8u16 zero = { 0 };
     v8u16 sad = { 0 };
 
-    for (ht_cnt = (height >> 2); ht_cnt--;) {
+    for (; ht_cnt--; ) {
         LD_UB4(src, src_stride, src0, src1, src2, src3);
         src += (4 * src_stride);
         LD_UB4(ref, ref_stride, ref0, ref1, ref2, ref3);
@@ -39,6 +41,16 @@ static uint32_t sad_8width_msa(const uint8_t *src, int32_t src_stride,
                     src0, src1, ref0, ref1);
         sad += SAD_UB2_UH(src0, src1, ref0, ref1);
     }
+    for (; res--; ) {
+        v16u8 diff;
+        src0 = LD_UB(src);
+        ref0 = LD_UB(ref);
+        src += src_stride;
+        ref += ref_stride;
+        diff = __msa_asub_u_b((v16u8) src0, (v16u8) ref0);
+        diff = (v16u8)__msa_ilvr_d((v2i64)zero, (v2i64)diff);
+        sad += __msa_hadd_u_h((v16u8) diff, (v16u8) diff);
+    }
 
     return (HADD_UH_U32(sad));
 }
@@ -47,11 +59,12 @@ static uint32_t sad_16width_msa(const uint8_t *src, int32_t src_stride,
                                 const uint8_t *ref, int32_t ref_stride,
                                 int32_t height)
 {
-    int32_t ht_cnt;
+    int32_t ht_cnt = height >> 2;
+    int res = (height & 0x03);
     v16u8 src0, src1, ref0, ref1;
     v8u16 sad = { 0 };
 
-    for (ht_cnt = (height >> 2); ht_cnt--;) {
+    for (; ht_cnt--; ) {
         LD_UB2(src, src_stride, src0, src1);
         src += (2 * src_stride);
         LD_UB2(ref, ref_stride, ref0, ref1);
@@ -64,7 +77,15 @@ static uint32_t sad_16width_msa(const uint8_t *src, int32_t src_stride,
         ref += (2 * ref_stride);
         sad += SAD_UB2_UH(src0, src1, ref0, ref1);
     }
-
+    for (; res > 0; res--) {
+        v16u8 diff;
+        src0 = LD_UB(src);
+        ref0 = LD_UB(ref);
+        src += src_stride;
+        ref += ref_stride;
+        diff = __msa_asub_u_b((v16u8) src0, (v16u8) ref0);
+        sad += __msa_hadd_u_h((v16u8) diff, (v16u8) diff);
+    }
     return (HADD_UH_U32(sad));
 }
 
@@ -74,12 +95,14 @@ static uint32_t sad_horiz_bilinear_filter_8width_msa(const uint8_t *src,
                                                      int32_t ref_stride,
                                                      int32_t height)
 {
-    int32_t ht_cnt;
+    int32_t ht_cnt = height >> 3;
+    int32_t res = height & 0x07;
     v16u8 src0, src1, src2, src3, comp0, comp1;
     v16u8 ref0, ref1, ref2, ref3, ref4, ref5;
+    v8u16 zero = { 0 };
     v8u16 sad = { 0 };
 
-    for (ht_cnt = (height >> 3); ht_cnt--;) {
+    for (; ht_cnt--; ) {
         LD_UB4(src, src_stride, src0, src1, src2, src3);
         src += (4 * src_stride);
         LD_UB4(ref, ref_stride, ref0, ref1, ref2, ref3);
@@ -107,6 +130,18 @@ static uint32_t sad_horiz_bilinear_filter_8width_msa(const uint8_t *src,
         sad += SAD_UB2_UH(src0, src1, comp0, comp1);
     }
 
+    for (; res--; ) {
+        v16u8 diff;
+        src0 = LD_UB(src);
+        ref0 = LD_UB(ref);
+        ref1 = LD_UB(ref + 1);
+        src += src_stride;
+        ref += ref_stride;
+        comp0 = (v16u8)__msa_aver_u_b((v16u8) ref0, (v16u8) ref1);
+        diff = __msa_asub_u_b((v16u8) src0, (v16u8) comp0);
+        diff = (v16u8)__msa_ilvr_d((v2i64) zero, (v2i64) diff);
+        sad += __msa_hadd_u_h((v16u8) diff, (v16u8) diff);
+    }
     return (HADD_UH_U32(sad));
 }
 
@@ -116,12 +151,13 @@ static uint32_t sad_horiz_bilinear_filter_16width_msa(const uint8_t *src,
                                                       int32_t ref_stride,
                                                       int32_t height)
 {
-    int32_t ht_cnt;
+    int32_t ht_cnt = height >> 3;
+    int32_t res = height & 0x07;
     v16u8 src0, src1, src2, src3, comp0, comp1;
     v16u8 ref00, ref10, ref20, ref30, ref01, ref11, ref21, ref31;
     v8u16 sad = { 0 };
 
-    for (ht_cnt = (height >> 3); ht_cnt--;) {
+    for (; ht_cnt--; ) {
         LD_UB4(src, src_stride, src0, src1, src2, src3);
         src += (4 * src_stride);
         LD_UB4(ref, ref_stride, ref00, ref10, ref20, ref30);
@@ -145,6 +181,17 @@ static uint32_t sad_horiz_bilinear_filter_16width_msa(const uint8_t *src,
         sad += SAD_UB2_UH(src2, src3, comp0, comp1);
     }
 
+    for (; res--; ) {
+        v16u8 diff;
+        src0  = LD_UB(src);
+        ref00 = LD_UB(ref);
+        ref01 = LD_UB(ref + 1);
+        src += src_stride;
+        ref += ref_stride;
+        comp0 = (v16u8)__msa_aver_u_b((v16u8) ref00, (v16u8) ref01);
+        diff = __msa_asub_u_b((v16u8) src0, (v16u8) comp0);
+        sad += __msa_hadd_u_h((v16u8) diff, (v16u8) diff);
+    }
     return (HADD_UH_U32(sad));
 }
 
@@ -154,12 +201,14 @@ static uint32_t sad_vert_bilinear_filter_8width_msa(const uint8_t *src,
                                                     int32_t ref_stride,
                                                     int32_t height)
 {
-    int32_t ht_cnt;
+    int32_t ht_cnt = height >> 3;
+    int32_t res = height & 0x07;
     v16u8 src0, src1, src2, src3, comp0, comp1;
     v16u8 ref0, ref1, ref2, ref3, ref4;
+    v8u16 zero = { 0 };
     v8u16 sad = { 0 };
 
-    for (ht_cnt = (height >> 3); ht_cnt--;) {
+    for (; ht_cnt--; ) {
         LD_UB4(src, src_stride, src0, src1, src2, src3);
         src += (4 * src_stride);
         LD_UB5(ref, ref_stride, ref0, ref1, ref2, ref3, ref4);
@@ -183,6 +232,17 @@ static uint32_t sad_vert_bilinear_filter_8width_msa(const uint8_t *src,
         sad += SAD_UB2_UH(src0, src1, comp0, comp1);
     }
 
+    for (; res--; ) {
+        v16u8 diff;
+        src0 = LD_UB(src);
+        LD_UB2(ref, ref_stride, ref0, ref1);
+        src += src_stride;
+        ref += ref_stride;
+        comp0 = (v16u8)__msa_aver_u_b((v16u8) ref0, (v16u8) ref1);
+        diff = __msa_asub_u_b((v16u8) src0, (v16u8) comp0);
+        diff = (v16u8)__msa_ilvr_d((v2i64) zero, (v2i64) diff);
+        sad += __msa_hadd_u_h((v16u8) diff, (v16u8) diff);
+    }
     return (HADD_UH_U32(sad));
 }
 
@@ -192,12 +252,13 @@ static uint32_t sad_vert_bilinear_filter_16width_msa(const uint8_t *src,
                                                      int32_t ref_stride,
                                                      int32_t height)
 {
-    int32_t ht_cnt;
+    int32_t ht_cnt = height >> 3;
+    int32_t res = height & 0x07;
     v16u8 src0, src1, src2, src3, comp0, comp1;
     v16u8 ref0, ref1, ref2, ref3, ref4;
     v8u16 sad = { 0 };
 
-    for (ht_cnt = (height >> 3); ht_cnt--;) {
+    for (; ht_cnt--; ) {
         LD_UB5(ref, ref_stride, ref4, ref0, ref1, ref2, ref3);
         ref += (5 * ref_stride);
         LD_UB4(src, src_stride, src0, src1, src2, src3);
@@ -221,6 +282,16 @@ static uint32_t sad_vert_bilinear_filter_16width_msa(const uint8_t *src,
         sad += SAD_UB2_UH(src2, src3, comp0, comp1);
     }
 
+    for (; res--; ) {
+        v16u8 diff;
+        src0 = LD_UB(src);
+        LD_UB2(ref, ref_stride, ref0, ref1);
+        src += src_stride;
+        ref += ref_stride;
+        comp0 = (v16u8)__msa_aver_u_b((v16u8) ref0, (v16u8) ref1);
+        diff = __msa_asub_u_b((v16u8) src0, (v16u8) comp0);
+        sad += __msa_hadd_u_h((v16u8) diff, (v16u8) diff);
+    }
     return (HADD_UH_U32(sad));
 }
 
@@ -230,11 +301,13 @@ static uint32_t sad_hv_bilinear_filter_8width_msa(const uint8_t *src,
                                                   int32_t ref_stride,
                                                   int32_t height)
 {
-    int32_t ht_cnt;
+    int32_t ht_cnt = height >> 2;
+    int32_t res = height & 0x03;
     v16u8 src0, src1, src2, src3, temp0, temp1, diff;
     v16u8 ref0, ref1, ref2, ref3, ref4;
     v16i8 mask = { 0, 1, 1, 2, 2, 3, 3, 4, 4, 5, 5, 6, 6, 7, 7, 8 };
     v8u16 comp0, comp1, comp2, comp3;
+    v8u16 zero = { 0 };
     v8u16 sad = { 0 };
 
     for (ht_cnt = (height >> 2); ht_cnt--;) {
@@ -277,6 +350,22 @@ static uint32_t sad_hv_bilinear_filter_8width_msa(const uint8_t *src,
         sad += __msa_hadd_u_h(diff, diff);
     }
 
+    for (; res--; ) {
+        src0 = LD_UB(src);
+        LD_UB2(ref, ref_stride, ref0, ref1);
+        temp0 = (v16u8) __msa_vshf_b(mask, (v16i8) ref0, (v16i8) ref0);
+        temp1 = (v16u8) __msa_vshf_b(mask, (v16i8) ref1, (v16i8) ref1);
+        src += src_stride;
+        ref += ref_stride;
+        comp0 = __msa_hadd_u_h(temp0, temp0);
+        comp2 = __msa_hadd_u_h(temp1, temp1);
+        comp2 += comp0;
+        comp2 = (v8u16)__msa_srari_h((v8i16) comp2, 2);
+        comp0 = (v16u8) __msa_pckev_b((v16i8) zero, (v16i8) comp2);
+        diff = __msa_asub_u_b(src0, comp0);
+        diff = (v16u8)__msa_ilvr_d((v2i64) zero, (v2i64) diff);
+        sad += __msa_hadd_u_h(diff, diff);
+    }
     return (HADD_UH_U32(sad));
 }
 
@@ -286,14 +375,15 @@ static uint32_t sad_hv_bilinear_filter_16width_msa(const uint8_t *src,
                                                    int32_t ref_stride,
                                                    int32_t height)
 {
-    int32_t ht_cnt;
+    int32_t ht_cnt = height >> 3;
+    int32_t res = height & 0x07;
     v16u8 src0, src1, src2, src3, comp, diff;
     v16u8 temp0, temp1, temp2, temp3;
     v16u8 ref00, ref01, ref02, ref03, ref04, ref10, ref11, ref12, ref13, ref14;
     v8u16 comp0, comp1, comp2, comp3;
     v8u16 sad = { 0 };
 
-    for (ht_cnt = (height >> 3); ht_cnt--;) {
+    for (; ht_cnt--; ) {
         LD_UB4(src, src_stride, src0, src1, src2, src3);
         src += (4 * src_stride);
         LD_UB5(ref, ref_stride, ref04, ref00, ref01, ref02, ref03);
@@ -389,6 +479,25 @@ static uint32_t sad_hv_bilinear_filter_16width_msa(const uint8_t *src,
         diff = __msa_asub_u_b(src3, comp);
         sad += __msa_hadd_u_h(diff, diff);
     }
+    for (; res--; ) {
+        src0 = LD_UB(src);
+        LD_UB2(ref, ref_stride, ref00, ref10);
+        LD_UB2(ref + 1, ref_stride, ref01, ref11);
+        src += src_stride;
+        ref += ref_stride;
+        ILVRL_B2_UB(ref10, ref00, temp0, temp1);
+        ILVRL_B2_UB(ref11, ref01, temp2, temp3);
+        comp0 = __msa_hadd_u_h(temp0, temp0);
+        comp1 = __msa_hadd_u_h(temp1, temp1);
+        comp2 = __msa_hadd_u_h(temp2, temp2);
+        comp3 = __msa_hadd_u_h(temp3, temp3);
+        comp2 += comp0;
+        comp3 += comp1;
+        SRARI_H2_UH(comp2, comp3, 2);
+        comp = (v16u8) __msa_pckev_b((v16i8) comp3, (v16i8) comp2);
+        diff = __msa_asub_u_b(src0, comp);
+        sad += __msa_hadd_u_h(diff, diff);
+    }
 
     return (HADD_UH_U32(sad));
 }
@@ -407,15 +516,17 @@ static uint32_t sse_4width_msa(const uint8_t *src_ptr, int32_t src_stride,
                                const uint8_t *ref_ptr, int32_t ref_stride,
                                int32_t height)
 {
-    int32_t ht_cnt;
+    int32_t ht_cnt = height >> 2;
+    int32_t res = height & 0x03;
     uint32_t sse;
     uint32_t src0, src1, src2, src3;
     uint32_t ref0, ref1, ref2, ref3;
-    v16u8 src = { 0 };
-    v16u8 ref = { 0 };
-    v4i32 var = { 0 };
+    v16u8 src  = { 0 };
+    v16u8 ref  = { 0 };
+    v16u8 zero = { 0 };
+    v4i32 var  = { 0 };
 
-    for (ht_cnt = (height >> 2); ht_cnt--;) {
+    for (; ht_cnt--; ) {
         LW4(src_ptr, src_stride, src0, src1, src2, src3);
         src_ptr += (4 * src_stride);
         LW4(ref_ptr, ref_stride, ref0, ref1, ref2, ref3);
@@ -426,6 +537,20 @@ static uint32_t sse_4width_msa(const uint8_t *src_ptr, int32_t src_stride,
         CALC_MSE_B(src, ref, var);
     }
 
+    for (; res--; ) {
+        v16u8 reg0;
+        v8i16 tmp0;
+        src0 = LW(src_ptr);
+        ref0 = LW(ref_ptr);
+        src_ptr += src_stride;
+        ref_ptr += ref_stride;
+        src  = (v16u8)__msa_insert_w((v4i32) src, 0, src0);
+        ref  = (v16u8)__msa_insert_w((v4i32) ref, 0, ref0);
+        reg0 = (v16u8)__msa_ilvr_b(src, ref);
+        reg0 = (v16u8)__msa_ilvr_d((v2i64) zero, (v2i64) reg0);
+        tmp0 = (v8i16)__msa_hsub_u_h((v16u8) reg0, (v16u8) reg0);
+        var  = (v4i32)__msa_dpadd_s_w((v4i32) var, (v8i16) tmp0, (v8i16) tmp0);
+    }
     sse = HADD_SW_S32(var);
 
     return sse;
@@ -435,13 +560,14 @@ static uint32_t sse_8width_msa(const uint8_t *src_ptr, int32_t src_stride,
                                const uint8_t *ref_ptr, int32_t ref_stride,
                                int32_t height)
 {
-    int32_t ht_cnt;
+    int32_t ht_cnt = height >> 2;
+    int32_t res = height & 0x03;
     uint32_t sse;
     v16u8 src0, src1, src2, src3;
     v16u8 ref0, ref1, ref2, ref3;
     v4i32 var = { 0 };
 
-    for (ht_cnt = (height >> 2); ht_cnt--;) {
+    for (; ht_cnt--; ) {
         LD_UB4(src_ptr, src_stride, src0, src1, src2, src3);
         src_ptr += (4 * src_stride);
         LD_UB4(ref_ptr, ref_stride, ref0, ref1, ref2, ref3);
@@ -453,6 +579,16 @@ static uint32_t sse_8width_msa(const uint8_t *src_ptr, int32_t src_stride,
         CALC_MSE_B(src1, ref1, var);
     }
 
+    for (; res--; ) {
+        v8i16 tmp0;
+        src0 = LD_UB(src_ptr);
+        ref0 = LD_UB(ref_ptr);
+        src_ptr += src_stride;
+        ref_ptr += ref_stride;
+        ref1 = (v16u8)__msa_ilvr_b(src0, ref0);
+        tmp0 = (v8i16)__msa_hsub_u_h((v16u8) ref1, (v16u8) ref1);
+        var  = (v4i32)__msa_dpadd_s_w((v4i32) var, (v8i16) tmp0, (v8i16) tmp0);
+    }
     sse = HADD_SW_S32(var);
 
     return sse;
@@ -462,12 +598,13 @@ static uint32_t sse_16width_msa(const uint8_t *src_ptr, int32_t src_stride,
                                 const uint8_t *ref_ptr, int32_t ref_stride,
                                 int32_t height)
 {
-    int32_t ht_cnt;
+    int32_t ht_cnt = height >> 2;
+    int32_t res = height & 0x03;
     uint32_t sse;
     v16u8 src, ref;
     v4i32 var = { 0 };
 
-    for (ht_cnt = (height >> 2); ht_cnt--;) {
+    for (; ht_cnt--; ) {
         src = LD_UB(src_ptr);
         src_ptr += src_stride;
         ref = LD_UB(ref_ptr);
@@ -493,6 +630,14 @@ static uint32_t sse_16width_msa(const uint8_t *src_ptr, int32_t src_stride,
         CALC_MSE_B(src, ref, var);
     }
 
+    for (; res--; ) {
+        src = LD_UB(src_ptr);
+        src_ptr += src_stride;
+        ref = LD_UB(ref_ptr);
+        ref_ptr += ref_stride;
+        CALC_MSE_B(src, ref, var);
+    }
+
     sse = HADD_SW_S32(var);
 
     return sse;
@@ -544,7 +689,7 @@ static int32_t hadamard_diff_8x8_msa(const uint8_t *src, int32_t src_stride,
 }
 
 static int32_t hadamard_intra_8x8_msa(const uint8_t *src, int32_t src_stride,
-                                      const uint8_t *ref, int32_t ref_stride)
+                                      const uint8_t *dumy, int32_t ref_stride)
 {
     int32_t sum_res = 0;
     v16u8 src0, src1, src2, src3, src4, src5, src6, src7;
@@ -659,10 +804,10 @@ int ff_hadamard8_diff8x8_msa(MpegEncContext *s, const uint8_t *dst, const uint8_
     return hadamard_diff_8x8_msa(src, stride, dst, stride);
 }
 
-int ff_hadamard8_intra8x8_msa(MpegEncContext *s, const uint8_t *dst, const uint8_t *src,
+int ff_hadamard8_intra8x8_msa(MpegEncContext *s, const uint8_t *src, const uint8_t *dummy,
                               ptrdiff_t stride, int h)
 {
-    return hadamard_intra_8x8_msa(src, stride, dst, stride);
+    return hadamard_intra_8x8_msa(src, stride, dummy, stride);
 }
 
 /* Hadamard Transform functions */
-- 
2.20.1

_______________________________________________
ffmpeg-devel mailing list
ffmpeg-devel@ffmpeg.org
https://ffmpeg.org/mailman/listinfo/ffmpeg-devel

To unsubscribe, visit link above, or email
ffmpeg-devel-request@ffmpeg.org with subject "unsubscribe".