From mboxrd@z Thu Jan  1 00:00:00 1970
Return-Path: <ffmpeg-devel-bounces@ffmpeg.org>
Received: from ffbox0-bg.mplayerhq.hu (ffbox0-bg.ffmpeg.org [79.124.17.100])
	by master.gitmailbox.com (Postfix) with ESMTP id 7773E4B00B
	for <ffmpegdev@gitmailbox.com>; Sun, 26 May 2024 01:51:47 +0000 (UTC)
Received: from [127.0.1.1] (localhost [127.0.0.1])
	by ffbox0-bg.mplayerhq.hu (Postfix) with ESMTP id E237268D4E1;
	Sun, 26 May 2024 04:51:44 +0300 (EEST)
Received: from mail-pf1-f180.google.com (mail-pf1-f180.google.com
 [209.85.210.180])
 by ffbox0-bg.mplayerhq.hu (Postfix) with ESMTPS id EED1C68CFFE
 for <ffmpeg-devel@ffmpeg.org>; Sun, 26 May 2024 04:51:38 +0300 (EEST)
Received: by mail-pf1-f180.google.com with SMTP id
 d2e1a72fcca58-6f6bddf57f6so5441423b3a.0
 for <ffmpeg-devel@ffmpeg.org>; Sat, 25 May 2024 18:51:38 -0700 (PDT)
DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed;
 d=gmail.com; s=20230601; t=1716688296; x=1717293096; darn=ffmpeg.org;
 h=content-transfer-encoding:in-reply-to:from:content-language
 :references:to:subject:user-agent:mime-version:date:message-id:from
 :to:cc:subject:date:message-id:reply-to;
 bh=XBa4peLz+cxtODBl9WoIGU9fh1FePG3E8gJf48qiiHk=;
 b=Uf0yxhOnM/qfzuGGi1J+Sm4f0tn1SOiZknZQwgZuQnaBepPEtXHtBbqJHt3OP5UUpI
 +/1GbeQLWjP6ekUHviMEFrEfnxkYMQncIS0WMVWNHkEQi0mMAncujzuqLn+VLTOAXeXJ
 JFcX9wrxKXLwgtZFxVNST9ls28Uo+4BA4/SQx4v+Z5i56WpXN/u4W/cjVSUohtGtwWWj
 WycszWftyvZiZ4AlzXaFzShdnZ+4naHDiDVYY8GpEmt9K+396BZ5UTQ/wIlhTFfmguX6
 dK3RhzQ5GHkbqffwDEs0d4UmqjrfiwhvGCI4kf4gYuNZf2w+PkfDjOtGn4mjzInj6fmy
 UR4g==
X-Google-DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed;
 d=1e100.net; s=20230601; t=1716688296; x=1717293096;
 h=content-transfer-encoding:in-reply-to:from:content-language
 :references:to:subject:user-agent:mime-version:date:message-id
 :x-gm-message-state:from:to:cc:subject:date:message-id:reply-to;
 bh=XBa4peLz+cxtODBl9WoIGU9fh1FePG3E8gJf48qiiHk=;
 b=lXTsHoxmUxDOA4SZ4NFqcXG8NQB+yDOVqOM++j3SSCxLCdnSeWxjlIqY7GNRsgiXBu
 hMwf8ScBruulchMJmp3omIxggvl7feWKvePEqysmQlKyaG6+liRSe7YjBlP1d/1KT71O
 ND2YZGfaXObsVfjFBFfv2QtYCjgEA+FanYgdqd+y1ehsTMVELXum0NPptf6I18qzuMCY
 hoOxU/yRidgZ24w+W06ZYQnwBDky4ZSrFxuDMqRoBi8bVENTfagNGYuajFOcgm/R+MhD
 Je62bCDMy3CFUu3jQ0jrP0pv2T/KW8Pqn3dZS3qc+ErLgo2eElTGcbp63CW7MqLL0LWS
 5BBw==
X-Gm-Message-State: AOJu0Yz1m8dnozcghET7YiFWev0OkCVxvn1ZpKgzPsbLixm6dQcyF3Pv
 wltxLcPMTMyaE7sJwe3Bn71Hj08lIeBRPRAKiYuSEYbQYjhcZi/jtKWipQ==
X-Google-Smtp-Source: AGHT+IFfL/P3GdkYAoLAvwf71PZJ1nNjpmWU9cwRDQbrcVJfaQVecubzJGH2Mg7SfC39IvON4FhzTw==
X-Received: by 2002:a05:6300:808d:b0:1af:d810:9d0e with SMTP id
 adf61e73a8af0-1b212dfe5fdmr5998756637.49.1716688295757; 
 Sat, 25 May 2024 18:51:35 -0700 (PDT)
Received: from [192.168.0.10] ([190.194.167.233])
 by smtp.gmail.com with ESMTPSA id
 98e67ed59e1d1-2bf5f9b28c2sm3415302a91.51.2024.05.25.18.51.34
 for <ffmpeg-devel@ffmpeg.org>
 (version=TLS1_3 cipher=TLS_AES_128_GCM_SHA256 bits=128/128);
 Sat, 25 May 2024 18:51:35 -0700 (PDT)
Message-ID: <54b8aabb-ab4c-46f5-88b2-fb0a0bf16f7f@gmail.com>
Date: Sat, 25 May 2024 22:51:41 -0300
MIME-Version: 1.0
User-Agent: Mozilla Thunderbird
To: ffmpeg-devel@ffmpeg.org
References: <20240525205731.2578146-1-dev@lynne.ee>
 <20240526014207.2697057-1-dev@lynne.ee>
Content-Language: en-US
From: James Almer <jamrial@gmail.com>
In-Reply-To: <20240526014207.2697057-1-dev@lynne.ee>
Subject: Re: [FFmpeg-devel] [PATCH v2] lpc: rewrite lpc_compute_autocorr in
 external asm
X-BeenThere: ffmpeg-devel@ffmpeg.org
X-Mailman-Version: 2.1.29
Precedence: list
List-Id: FFmpeg development discussions and patches <ffmpeg-devel.ffmpeg.org>
List-Unsubscribe: <https://ffmpeg.org/mailman/options/ffmpeg-devel>,
 <mailto:ffmpeg-devel-request@ffmpeg.org?subject=unsubscribe>
List-Archive: <https://ffmpeg.org/pipermail/ffmpeg-devel>
List-Post: <mailto:ffmpeg-devel@ffmpeg.org>
List-Help: <mailto:ffmpeg-devel-request@ffmpeg.org?subject=help>
List-Subscribe: <https://ffmpeg.org/mailman/listinfo/ffmpeg-devel>,
 <mailto:ffmpeg-devel-request@ffmpeg.org?subject=subscribe>
Reply-To: FFmpeg development discussions and patches <ffmpeg-devel@ffmpeg.org>
Content-Transfer-Encoding: 7bit
Content-Type: text/plain; charset="us-ascii"; Format="flowed"
Errors-To: ffmpeg-devel-bounces@ffmpeg.org
Sender: "ffmpeg-devel" <ffmpeg-devel-bounces@ffmpeg.org>
Archived-At: <https://master.gitmailbox.com/ffmpegdev/54b8aabb-ab4c-46f5-88b2-fb0a0bf16f7f@gmail.com/>
List-Archive: <https://master.gitmailbox.com/ffmpegdev/>
List-Post: <mailto:ffmpegdev@gitmailbox.com>

On 5/25/2024 10:42 PM, Lynne via ffmpeg-devel wrote:
> The inline asm function had issues running under checkasm.
> So I came to finish what I started, and wrote the last part
> of LPC computation in assembly.
> ---
>   libavcodec/x86/lpc.asm    | 91 +++++++++++++++++++++++++++++++++++++++
>   libavcodec/x86/lpc_init.c | 87 ++++---------------------------------
>   2 files changed, 100 insertions(+), 78 deletions(-)
> 
> diff --git a/libavcodec/x86/lpc.asm b/libavcodec/x86/lpc.asm
> index a585c17ef5..9c359ae480 100644
> --- a/libavcodec/x86/lpc.asm
> +++ b/libavcodec/x86/lpc.asm
> @@ -261,3 +261,94 @@ APPLY_WELCH_FN
>   INIT_YMM avx2
>   APPLY_WELCH_FN
>   %endif
> +
> +%macro COMPUTE_AUTOCORR_FN 0
> +cglobal lpc_compute_autocorr, 4, 7, 3, data, len, lag, autoc, lag_p, data_l, len_p
> +    shl lagd, 3
> +    shl lenq, 3
> +    xor lag_pq, lag_pq
> +
> +.lag_l:
> +    movaps m2, [one_tab]

Super nit: movapd

> +
> +    mov len_pq, lag_pq
> +
> +    lea data_lq, [lag_pq + mmsize - 8]
> +    neg data_lq                     ; -j - mmsize
> +    add data_lq, dataq              ; data[-j - mmsize]
> +.len_l:
> +
> +%if mmsize == 32
> +    vbroadcastsd m0, [dataq + len_pq]
> +    vpermpd m1, [data_lq + len_pq], q0123
> +%else
> +    movupd m1, [data_lq + len_pq]   ; data[i - j]
> +    movsd xm0, [dataq + len_pq]     ; data[i]
> +    shufpd m1, m1, m1, 01b
> +%endif
> +
> +    shufpd m0, m0, m0, 1100b

This is not needed for mmsize == 32. The broadcast set every qword to 
the value movsd loaded.

> +
> +    ; fmadd actually hurts performance in this case due to
> +    ; the earlier loads + shuffles
> +    mulpd m0, m1
> +    addpd m2, m0                    ; sum += data[i]*data[i-j]
> +
> +    add len_pq, 8
> +    cmp len_pq, lenq
> +    jl .len_l
> +
> +    movupd [autocq + lag_pq], m2    ; autoc[j] = sum
> +    add lag_pq, mmsize
> +    cmp lag_pq, lagq
> +    jl .lag_l
> +
> +    ; The tail computation is guaranteed never to happen
> +    ; as long as we're doing multiples of 4, rather than 2.
> +%if mmsize != 32
> +    jg .end
> +    ; If lag_p == lag fallthrough
> +
> +.tail:
> +    movaps m2, [one_tab]
> +
> +    mov len_pq, lag_pq
> +    sub len_pq, mmsize
> +
> +    lea data_lq, [lag_pq]
> +    neg data_lq                     ; -j
> +    add data_lq, dataq              ; data[-j]
> +
> +.tail_l:
> +    movupd m0, [dataq + len_pq]
> +    movupd m1, [data_lq + len_pq]
> +
> +    mulpd m0, m1
> +    addpd m2, m0                    ; sum += data[i]*data[i-j]
> +
> +    add len_pq, mmsize
> +    cmp len_pq, lenq
> +    jl .tail_l
> +
> +    shufpd m1, m2, m2, 01b
> +    addpd m2, m1
> +
> +    ; Leave this here just in case its ever needed
> +%if mmsize == 32
> +    vperm2f128 m1, m2, m2, 0x01
> +    addpd xm2, xm1
> +    movupd [autocq + lag_pq], xm2
> +%else
> +    movhpd [autocq + lag_pq], xm2
> +%endif
> +
> +.end:
> +%endif
> +
> +    RET
> +%endmacro
> +
> +INIT_XMM sse2
> +COMPUTE_AUTOCORR_FN
> +INIT_YMM avx

vpermpd is avx2, so it needs to be that.

> +COMPUTE_AUTOCORR_FN
> diff --git a/libavcodec/x86/lpc_init.c b/libavcodec/x86/lpc_init.c
> index f2fca53799..bb174be53e 100644
> --- a/libavcodec/x86/lpc_init.c
> +++ b/libavcodec/x86/lpc_init.c
> @@ -28,89 +28,20 @@ void ff_lpc_apply_welch_window_sse2(const int32_t *data, ptrdiff_t len,
>                                       double *w_data);
>   void ff_lpc_apply_welch_window_avx2(const int32_t *data, ptrdiff_t len,
>                                       double *w_data);
> -
> -DECLARE_ASM_CONST(16, double, pd_1)[2] = { 1.0, 1.0 };
> -
> -#if HAVE_SSE2_INLINE
> -
> -static void lpc_compute_autocorr_sse2(const double *data, ptrdiff_t len, int lag,
> -                                      double *autoc)
> -{
> -    int j;
> -
> -    if((x86_reg)data & 15)
> -        data++;
> -
> -    for(j=0; j<lag; j+=2){
> -        x86_reg i = -len*sizeof(double);
> -        if(j == lag-2) {
> -            __asm__ volatile(
> -                "movsd    "MANGLE(pd_1)", %%xmm0    \n\t"
> -                "movsd    "MANGLE(pd_1)", %%xmm1    \n\t"
> -                "movsd    "MANGLE(pd_1)", %%xmm2    \n\t"
> -                "1:                                 \n\t"
> -                "movapd   (%2,%0), %%xmm3           \n\t"
> -                "movupd -8(%3,%0), %%xmm4           \n\t"
> -                "movapd   (%3,%0), %%xmm5           \n\t"
> -                "mulpd     %%xmm3, %%xmm4           \n\t"
> -                "mulpd     %%xmm3, %%xmm5           \n\t"
> -                "mulpd -16(%3,%0), %%xmm3           \n\t"
> -                "addpd     %%xmm4, %%xmm1           \n\t"
> -                "addpd     %%xmm5, %%xmm0           \n\t"
> -                "addpd     %%xmm3, %%xmm2           \n\t"
> -                "add       $16,    %0               \n\t"
> -                "jl 1b                              \n\t"
> -                "movhlps   %%xmm0, %%xmm3           \n\t"
> -                "movhlps   %%xmm1, %%xmm4           \n\t"
> -                "movhlps   %%xmm2, %%xmm5           \n\t"
> -                "addsd     %%xmm3, %%xmm0           \n\t"
> -                "addsd     %%xmm4, %%xmm1           \n\t"
> -                "addsd     %%xmm5, %%xmm2           \n\t"
> -                "movsd     %%xmm0,   (%1)           \n\t"
> -                "movsd     %%xmm1,  8(%1)           \n\t"
> -                "movsd     %%xmm2, 16(%1)           \n\t"
> -                :"+&r"(i)
> -                :"r"(autoc+j), "r"(data+len), "r"(data+len-j)
> -                 NAMED_CONSTRAINTS_ARRAY_ADD(pd_1)
> -                :"memory"
> -            );
> -        } else {
> -            __asm__ volatile(
> -                "movsd    "MANGLE(pd_1)", %%xmm0    \n\t"
> -                "movsd    "MANGLE(pd_1)", %%xmm1    \n\t"
> -                "1:                                 \n\t"
> -                "movapd   (%3,%0), %%xmm3           \n\t"
> -                "movupd -8(%4,%0), %%xmm4           \n\t"
> -                "mulpd     %%xmm3, %%xmm4           \n\t"
> -                "mulpd    (%4,%0), %%xmm3           \n\t"
> -                "addpd     %%xmm4, %%xmm1           \n\t"
> -                "addpd     %%xmm3, %%xmm0           \n\t"
> -                "add       $16,    %0               \n\t"
> -                "jl 1b                              \n\t"
> -                "movhlps   %%xmm0, %%xmm3           \n\t"
> -                "movhlps   %%xmm1, %%xmm4           \n\t"
> -                "addsd     %%xmm3, %%xmm0           \n\t"
> -                "addsd     %%xmm4, %%xmm1           \n\t"
> -                "movsd     %%xmm0, %1               \n\t"
> -                "movsd     %%xmm1, %2               \n\t"
> -                :"+&r"(i), "=m"(autoc[j]), "=m"(autoc[j+1])
> -                :"r"(data+len), "r"(data+len-j)
> -                 NAMED_CONSTRAINTS_ARRAY_ADD(pd_1)
> -            );
> -        }
> -    }
> -}
> -
> -#endif /* HAVE_SSE2_INLINE */
> +void ff_lpc_compute_autocorr_sse2(const double *data, ptrdiff_t len, int lag,
> +                                  double *autoc);
> +void ff_lpc_compute_autocorr_avx(const double *data, ptrdiff_t len, int lag,
> +                                 double *autoc);
>   
>   av_cold void ff_lpc_init_x86(LPCContext *c)
>   {
>       int cpu_flags = av_get_cpu_flags();
>   
> -#if HAVE_SSE2_INLINE
> -    if (INLINE_SSE2_SLOW(cpu_flags))
> -        c->lpc_compute_autocorr = lpc_compute_autocorr_sse2;
> -#endif
> +    if (EXTERNAL_SSE2(cpu_flags))
> +        c->lpc_compute_autocorr = ff_lpc_compute_autocorr_sse2;

Place this with ff_lpc_apply_welch_window_sse2 below.

> +
> +    if (EXTERNAL_AVX_FAST(cpu_flags))
> +        c->lpc_compute_autocorr = ff_lpc_compute_autocorr_avx;
>   
>       if (EXTERNAL_SSE2(cpu_flags))
>           c->lpc_apply_welch_window = ff_lpc_apply_welch_window_sse2;
_______________________________________________
ffmpeg-devel mailing list
ffmpeg-devel@ffmpeg.org
https://ffmpeg.org/mailman/listinfo/ffmpeg-devel

To unsubscribe, visit link above, or email
ffmpeg-devel-request@ffmpeg.org with subject "unsubscribe".