From mboxrd@z Thu Jan  1 00:00:00 1970
Return-Path: <users-bounces@dpdk.org>
Received: from mails.dpdk.org (mails.dpdk.org [217.70.189.124])
	by inbox.dpdk.org (Postfix) with ESMTP id C88F241C48
	for <public@inbox.dpdk.org>; Thu,  9 Feb 2023 04:59:05 +0100 (CET)
Received: from mails.dpdk.org (localhost [127.0.0.1])
	by mails.dpdk.org (Postfix) with ESMTP id 92B9C40DDA;
	Thu,  9 Feb 2023 04:59:05 +0100 (CET)
Received: from CNSHPPMGWESA02.NOKIA-SBELL.COM (unknown [116.246.26.45])
 by mails.dpdk.org (Postfix) with ESMTP id ABB814067B
 for <users@dpdk.org>; Thu,  9 Feb 2023 04:59:02 +0100 (CET)
X-IronPort-AV: E=Sophos;i="5.97,281,1669046400"; d="scan'208,217";a="10614796"
Received: from unknown (HELO CNSHPPEXCH1603.nsn-intra.net) ([135.251.51.103])
 by CNSHPPMGWESA02.NOKIA-SBELL.COM with ESMTP;
 09 Feb 2023 11:58:56 +0800
Received: from CNSHPPEXCH1601.nsn-intra.net (135.251.51.101) by
 CNSHPPEXCH1603.nsn-intra.net (135.251.51.103) with Microsoft SMTP Server
 (version=TLS1_2, cipher=TLS_ECDHE_RSA_WITH_AES_128_GCM_SHA256) id
 15.1.2375.34; Thu, 9 Feb 2023 11:58:56 +0800
Received: from CNSHPPEXCH1601.nsn-intra.net ([135.251.51.101]) by
 CNSHPPEXCH1601.nsn-intra.net ([135.251.51.101]) with mapi id 15.01.2375.034;
 Thu, 9 Feb 2023 11:58:56 +0800
From: "Xiaoping Yan (NSB)" <xiaoping.yan@nokia-sbell.com>
To: "users@dpdk.org" <users@dpdk.org>
Subject: cache miss increases when change rx descriptor from 512 to 2048
Thread-Topic: cache miss increases when change rx descriptor from 512 to 2048
Thread-Index: Adk8OQsj9xJt7PEUSNOohuqhMMgO6g==
Date: Thu, 9 Feb 2023 03:58:56 +0000
Message-ID: <4b132ffd05594663b5abb71f42e6f97f@nokia-sbell.com>
Accept-Language: zh-CN, en-US
Content-Language: en-US
X-MS-Has-Attach: 
X-MS-TNEF-Correlator: 
x-originating-ip: [135.251.51.115]
Content-Type: multipart/alternative;
 boundary="_000_4b132ffd05594663b5abb71f42e6f97fnokiasbellcom_"
MIME-Version: 1.0
X-BeenThere: users@dpdk.org
X-Mailman-Version: 2.1.29
Precedence: list
List-Id: DPDK usage discussions <users.dpdk.org>
List-Unsubscribe: <https://mails.dpdk.org/options/users>,
 <mailto:users-request@dpdk.org?subject=unsubscribe>
List-Archive: <http://mails.dpdk.org/archives/users/>
List-Post: <mailto:users@dpdk.org>
List-Help: <mailto:users-request@dpdk.org?subject=help>
List-Subscribe: <https://mails.dpdk.org/listinfo/users>,
 <mailto:users-request@dpdk.org?subject=subscribe>
Errors-To: users-bounces@dpdk.org

--_000_4b132ffd05594663b5abb71f42e6f97fnokiasbellcom_
Content-Type: text/plain; charset="us-ascii"
Content-Transfer-Encoding: quoted-printable

Hi experts,

I had a traffic throughput test for my dpdk application, with same software=
 and test case, only difference is the number of rx/tx descriptor:
Rx/tx descriptor 512, test result 3.2mpps
Rx/tx descriptor 2048, test result 3mpp
>From perf data, rx descriptor 2048 case has more cache miss, and lower inst=
ruction per cycle
Perf for 512 rx descriptor
      114289237792      cpu-cycles
      365408402395      instructions              #    3.20  insn per cycle
       74186289932      branches
          36020793      branch-misses             #    0.05% of all branche=
s
        1298741388      bus-cycles
           3413460      cache-misses              #    0.723 % of all cache=
 refs
         472363654      cache-references
Perf for 2048 rx descriptor:
       57038451185      cpu-cycles
      173805485573      instructions              #    3.05  insn per cycle
       35289607389      branches
          15418885      branch-misses             #    0.04% of all branche=
s
         648164239      bus-cycles
          13170596      cache-misses              #    1.702 % of all cache=
 refs
         773765263      cache-references

I understand it means more rx descriptor somehow causes more cache miss and=
 then less instruction per cycle, so lower performance.

Any one observe similar results?
Any idea to mitigate (or investigate further) the impact? (we want to use 2=
048 to better tolerate some jitter/burst)
Any comment?

Thank you.

Br, Xiaoping


--_000_4b132ffd05594663b5abb71f42e6f97fnokiasbellcom_
Content-Type: text/html; charset="us-ascii"
Content-Transfer-Encoding: quoted-printable

<html xmlns:v=3D"urn:schemas-microsoft-com:vml" xmlns:o=3D"urn:schemas-micr=
osoft-com:office:office" xmlns:w=3D"urn:schemas-microsoft-com:office:word" =
xmlns:m=3D"http://schemas.microsoft.com/office/2004/12/omml" xmlns=3D"http:=
//www.w3.org/TR/REC-html40">
<head>
<meta http-equiv=3D"Content-Type" content=3D"text/html; charset=3Dus-ascii"=
>
<meta name=3D"Generator" content=3D"Microsoft Word 15 (filtered medium)">
<style><!--
/* Font Definitions */
@font-face
	{font-family:"Cambria Math";
	panose-1:2 4 5 3 5 4 6 3 2 4;}
@font-face
	{font-family:DengXian;
	panose-1:2 1 6 0 3 1 1 1 1 1;}
@font-face
	{font-family:DengXian;
	panose-1:2 1 6 0 3 1 1 1 1 1;}
/* Style Definitions */
p.MsoNormal, li.MsoNormal, div.MsoNormal
	{margin:0cm;
	text-align:justify;
	text-justify:inter-ideograph;
	font-size:10.5pt;
	font-family:DengXian;}
span.EmailStyle17
	{mso-style-type:personal-compose;
	font-family:DengXian;
	color:windowtext;}
.MsoChpDefault
	{mso-style-type:export-only;
	font-family:DengXian;}
/* Page Definitions */
@page WordSection1
	{size:612.0pt 792.0pt;
	margin:72.0pt 90.0pt 72.0pt 90.0pt;}
div.WordSection1
	{page:WordSection1;}
--></style><!--[if gte mso 9]><xml>
<o:shapedefaults v:ext=3D"edit" spidmax=3D"1026" />
</xml><![endif]--><!--[if gte mso 9]><xml>
<o:shapelayout v:ext=3D"edit">
<o:idmap v:ext=3D"edit" data=3D"1" />
</o:shapelayout></xml><![endif]-->
</head>
<body lang=3D"ZH-CN" link=3D"#0563C1" vlink=3D"#954F72" style=3D"word-wrap:=
break-word;text-justify-trim:punctuation">
<div class=3D"WordSection1">
<p class=3D"MsoNormal"><span lang=3D"EN-US">Hi experts,<o:p></o:p></span></=
p>
<p class=3D"MsoNormal"><span lang=3D"EN-US"><o:p>&nbsp;</o:p></span></p>
<p class=3D"MsoNormal"><span lang=3D"EN-US">I had a traffic throughput test=
 for my dpdk application, with same software and test case, only difference=
 is the number of rx/tx descriptor:<o:p></o:p></span></p>
<p class=3D"MsoNormal"><span lang=3D"EN-US">Rx/tx descriptor 512, test resu=
lt 3.2mpps<o:p></o:p></span></p>
<p class=3D"MsoNormal"><span lang=3D"EN-US">Rx/tx descriptor 2048, test res=
ult 3mpp<o:p></o:p></span></p>
<p class=3D"MsoNormal"><span lang=3D"EN-US">From perf data, rx descriptor 2=
048 case has more cache miss, and lower instruction per cycle<o:p></o:p></s=
pan></p>
<p class=3D"MsoNormal"><span lang=3D"EN-US">Perf for 512 rx descriptor<o:p>=
</o:p></span></p>
<p class=3D"MsoNormal"><i><span lang=3D"EN-US">&nbsp;&nbsp;&nbsp;&nbsp;&nbs=
p; 114289237792&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; cpu-cycles<o:p></o:p></span><=
/i></p>
<p class=3D"MsoNormal"><i><span lang=3D"EN-US">&nbsp;&nbsp;&nbsp;&nbsp;&nbs=
p; 365408402395&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; instructions&nbsp;&nbsp;&nbsp=
;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
<b>&nbsp;&nbsp;#&nbsp;&nbsp;&nbsp; 3.20&nbsp; insn per cycle</b><o:p></o:p>=
</span></i></p>
<p class=3D"MsoNormal"><i><span lang=3D"EN-US">&nbsp;&nbsp;&nbsp;&nbsp;&nbs=
p;&nbsp; 74186289932&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; branches<o:p></o:p></spa=
n></i></p>
<p class=3D"MsoNormal"><i><span lang=3D"EN-US">&nbsp;&nbsp;&nbsp;&nbsp;&nbs=
p;&nbsp;&nbsp;&nbsp;&nbsp; 36020793&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; branch-mi=
sses&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp=
; #&nbsp;&nbsp;&nbsp; 0.05% of all branches<o:p></o:p></span></i></p>
<p class=3D"MsoNormal"><i><span lang=3D"EN-US">&nbsp;&nbsp;&nbsp;&nbsp;&nbs=
p;&nbsp;&nbsp; 1298741388&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; bus-cycles<o:p></o:=
p></span></i></p>
<p class=3D"MsoNormal"><i><span lang=3D"EN-US">&nbsp;&nbsp;&nbsp;&nbsp;&nbs=
p;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 3413460&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; cach=
e-misses&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
<b>&nbsp;&nbsp;#&nbsp;&nbsp;&nbsp; 0.723 % of all cache refs</b><o:p></o:p>=
</span></i></p>
<p class=3D"MsoNormal"><i><span lang=3D"EN-US">&nbsp;&nbsp;&nbsp;&nbsp;&nbs=
p;&nbsp;&nbsp;&nbsp; 472363654&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; cache-referenc=
es<o:p></o:p></span></i></p>
<p class=3D"MsoNormal"><span lang=3D"EN-US">Perf for 2048 rx descriptor:<o:=
p></o:p></span></p>
<p class=3D"MsoNormal"><i><span lang=3D"EN-US">&nbsp;&nbsp;&nbsp;&nbsp;&nbs=
p;&nbsp; 57038451185&nbsp;&nbsp;&nbsp;&nbsp; &nbsp;cpu-cycles<o:p></o:p></s=
pan></i></p>
<p class=3D"MsoNormal"><i><span lang=3D"EN-US">&nbsp;&nbsp;&nbsp;&nbsp;&nbs=
p; 173805485573&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; instructions&nbsp;&nbsp;&nbsp=
;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
<b>#&nbsp;&nbsp;&nbsp; 3.05&nbsp; insn per cycle</b><o:p></o:p></span></i><=
/p>
<p class=3D"MsoNormal"><i><span lang=3D"EN-US">&nbsp;&nbsp;&nbsp;&nbsp;&nbs=
p;&nbsp; 35289607389&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; branches<o:p></o:p></spa=
n></i></p>
<p class=3D"MsoNormal"><i><span lang=3D"EN-US">&nbsp;&nbsp;&nbsp;&nbsp;&nbs=
p;&nbsp;&nbsp;&nbsp;&nbsp; 15418885&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; branch-mi=
sses&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp=
; #&nbsp;&nbsp;&nbsp; 0.04% of all branches<o:p></o:p></span></i></p>
<p class=3D"MsoNormal"><i><span lang=3D"EN-US">&nbsp;&nbsp;&nbsp;&nbsp;&nbs=
p;&nbsp;&nbsp;&nbsp; 648164239&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; bus-cycles<o:p=
></o:p></span></i></p>
<p class=3D"MsoNormal"><i><span lang=3D"EN-US">&nbsp;&nbsp;&nbsp;&nbsp;&nbs=
p;&nbsp;&nbsp;&nbsp;&nbsp; 13170596&nbsp;&nbsp;&nbsp;&nbsp; &nbsp;cache-mis=
ses&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
<b>&nbsp;#&nbsp;&nbsp;&nbsp; 1.702 % of all cache refs</b><o:p></o:p></span=
></i></p>
<p class=3D"MsoNormal"><i><span lang=3D"EN-US">&nbsp;&nbsp;&nbsp;&nbsp;&nbs=
p;&nbsp;&nbsp;&nbsp; 773765263&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; cache-referenc=
es<o:p></o:p></span></i></p>
<p class=3D"MsoNormal"><span lang=3D"EN-US"><o:p>&nbsp;</o:p></span></p>
<p class=3D"MsoNormal"><span lang=3D"EN-US">I understand it means more rx d=
escriptor somehow causes more cache miss and then less instruction per cycl=
e, so lower performance.<o:p></o:p></span></p>
<p class=3D"MsoNormal"><span lang=3D"EN-US"><o:p>&nbsp;</o:p></span></p>
<p class=3D"MsoNormal"><span lang=3D"EN-US">Any one observe similar results=
?<o:p></o:p></span></p>
<p class=3D"MsoNormal"><span lang=3D"EN-US">Any idea to mitigate (or invest=
igate further) the impact? (we want to use 2048 to better tolerate some jit=
ter/burst)<o:p></o:p></span></p>
<p class=3D"MsoNormal"><span lang=3D"EN-US">Any comment?<o:p></o:p></span><=
/p>
<p class=3D"MsoNormal"><span lang=3D"EN-US"><o:p>&nbsp;</o:p></span></p>
<p class=3D"MsoNormal"><span lang=3D"EN-US">Thank you.<o:p></o:p></span></p=
>
<p class=3D"MsoNormal"><span lang=3D"EN-US"><o:p>&nbsp;</o:p></span></p>
<p class=3D"MsoNormal"><span lang=3D"EN-US">Br, Xiaoping<o:p></o:p></span><=
/p>
<p class=3D"MsoNormal"><span lang=3D"EN-US"><o:p>&nbsp;</o:p></span></p>
</div>
</body>
</html>

--_000_4b132ffd05594663b5abb71f42e6f97fnokiasbellcom_--