侵权投诉

cache对写好代码真的有那么重要吗

FPGA干货 ? 2021-07-26 15:18 ? 次阅读

CACHE基础

对cache的掌握,对于Linux工程师(其他的非Linux工程师也一样)写出高效能代码,以及优化Linux系统的性能是至关重要的。简单来说,cache快,内存慢,硬盘更慢。在一个典型的现代CPU中比较接近改进的哈佛结构,cache的排布大概是这样的:

b673da5a-e032-11eb-9e57-12bb97331649.png

L1速度》 L2速度》 L3速度》 RAM

L1容量《 L2容量《 L3容量《 RAM

现代CPU,通常L1 cache的指令和数据是分离的。这样可以实现2条高速公路并行访问,CPU可以同时load指令和数据。当然,cache也不一定是一个core独享,现代很多CPU的典型分布是这样的,比如多个core共享一个L3。比如这台的Linux里面运行lstopo命令:

b67c8c72-e032-11eb-9e57-12bb97331649.png

人们也常常称呼L2cache为MLC(MiddleLevel Cache),L3cache为LLC(Last LevelCache)。这些Cache究竟有多块呢?我们来看看Intel的数据,具体配置:Intel i7-4770 (Haswell), 3.4 GHz (Turbo Boostoff), 22 nm. RAM: 32 GB (PC3-12800 cl11 cr2)

访问延迟:

b6a8fd20-e032-11eb-9e57-12bb97331649.png

数据来源:https://www.7-cpu.com/cpu/Haswell.html

由此我们可以知道,我们应该尽可能追求cache的命中率高,以避免延迟,最好是低级cache的命中率越高越好。

CACHE的组织

现代的cache基本按照这个模式来组织:SET、WAY、TAG、INDEX,这几个概念是理解Cache的关键。随便打开一个数据手册,就可以看到这样的字眼:

b6ba8f2c-e032-11eb-9e57-12bb97331649.png

翻译成中文就是4路(way)组(set)相联,VIPT表现为(behave as)PIPT --这尼玛什么鬼?,cacheline的长度是64字节。

下面我们来想象一个16KB大小的cache,假设是4路组相联,cacheline的长度是64字节。Cacheline的概念比较简单,cache的整个替换是以行为单位的,一行64个字节里面读了任何一个字节,其实整个64字节就进入了cache。

比如下面两段程序,前者的计算量是后者的8倍:

b6c7d150-e032-11eb-9e57-12bb97331649.png

但是它的执行时间,则远远不到后者的8倍:

b6e07958-e032-11eb-9e57-12bb97331649.png

16KB的cache是4way的话,每个set包括4*64B,则整个cache分为16KB/64B/4 = 64set,也即2的6次方。当CPU从cache里面读数据的时候,它会用地址位的BIT6-BIT11来寻址set,BIT0-BIT5是cacheline内的offset。

比如CPU访问地址

0 000000 XXXXXX

或者

1 000000 XXXXXX

或者

YYYY 000000 XXXXXX

由于它们红色的6位都相同,所以他们全部都会找到第0个set的cacheline。第0个set里面有4个way,之后硬件会用地址的高位如0,1,YYYY作为tag,去检索这4个way的tag是否与地址的高位相同,而且cacheline是否有效,如果tag匹配且cacheline有效,则cache命中。

所以地址YYYYYY000000XXXXXX全部都是找第0个set,YYYYYY000001XXXXXX全部都是找第1个set,YYYYYY111111XXXXXX全部都是找第63个set。每个set中的4个way,都有可能命中。

中间红色的位就是INDEX,前面YYYY这些位就是TAG。具体的实现可以是用虚拟地址或者物理地址的相应位做TAG或者INDEX。如果用虚拟地址做TAG,我们叫VT;如果用物理地址做TAG,我们叫PT;如果用虚拟地址做INDEX,我们叫VI;如果用物理地址做TAG,我们叫PT。工程中碰到的cache可能有这么些组合:

VIVT、VIPT、PIPT。

VIVT的硬件实现开销最低,但是软件维护成本高;PIPT的硬件实现开销最高,但是软件维护成本最低;VIPT介于二者之间,但是有些硬件是VIPT,但是behave as PIPT,这样对软件而言,维护成本与PIPT一样。

在VIVT的情况下,CPU发出的虚拟地址,不需要经过MMU的转化,直接就可以去查cache。

而在VIPT和PIPT的场景下,都涉及到虚拟地址转换为物理地址后,再去比对cache的过程。VIPT如下:

b702cefe-e032-11eb-9e57-12bb97331649.png

PIPT如下:

b70baace-e032-11eb-9e57-12bb97331649.png

从图上看起来,VIVT的硬件实现效率很高,不需要经过MMU就可以去查cache了。不过,对软件来说,这是个灾难。因为VIVT有严重的歧义和别名问题。

歧义:一个虚拟地址先后指向两个(或者多个)物理地址

别名:两个(或者多个)虚拟地址同时指向一个物理地址

这里我们重点看别名问题。比如2个虚拟地址对应同一个物理地址,基于VIVT的逻辑,无论是INDEX还是TAG,2个虚拟地址都是可能不一样的(尽管他们的物理地址一样,但是物理地址在cache比对中完全不掺和),这样它们完全可能在2个cacheline同时命中。

由于2个虚拟地址指向1个物理地址,这样CPU写过第一个虚拟地址后,写入cacheline1。CPU读第2个虚拟地址,读到的是过时的cacheline2,这样就出现了不一致。所以,为了避免这种情况,软件必须写完虚拟地址1后,对虚拟地址1对应的cache执行clean,对虚拟地址2对应的cache执行invalidate。

而PIPT完全没有这样的问题,因为无论多少虚拟地址对应一个物理地址,由于物理地址一样,我们是基于物理地址去寻找和比对cache的,所以不可能出现这种别名问题。

那么VIPT有没有可能出现别名呢?答案是有可能,也有可能不能。如果VI恰好对于PI,就不可能,这个时候,VIPT对软件而言就是PIPT了:

VI=PI

PT=PT

那么什么时候VI会等于PI呢?这个时候我们来回忆下虚拟地址往物理地址的转换过程,它是以页为单位的。假设一页是4K,那么地址的低12位虚拟地址和物理地址是完全一样的?;匾湮颐乔懊娴牡刂罚?/p>

YYYYY000000XXXXXX

其中红色的000000是INDEX。在我们的例子中,红色的6位和后面的XXXXXX(cache内部偏移)加起来正好12位,所以这个000000经过虚实转换后,其实还是000000的,这个时候VI=PI,VIPT没有别名问题。

我们原先假设的cache是:16KB大小的cache,假设是4路组相联,cacheline的长度是64字节,这样我们正好需要红色的6位来作为INDEX。但是如果我们把cache的大小增加为32KB,这样我们需要 32KB/4/64B=128=2^7,也即7位来做INDEX。

YYYY0000000XXXXXX

这样VI就可能不等于PI了,因为红色的最高位超过了2^12的范围,完全可能出现如下2个虚拟地址,指向同一个物理地址:

b74163a8-e032-11eb-9e57-12bb97331649.png

这样就出现了别名问题,我们在工程里,可能可以通过一些办法避免这种别名问题,比如软件在建立虚实转换的时候,把虚实转换往2^13而不是2^12对齐,让物理地址的低13位而不是低12位与物理地址相同。

这样强行绕开别名问题,下图中,2个虚拟地址指向了同一个物理地址,但是它们的INDEX是相同的,这样VI=PI,就绕开了别名问题。这通常是PAGE COLOURING技术中的一种技巧。

b74c9b38-e032-11eb-9e57-12bb97331649.png

如果这种PAGE COLOURING的限制对软件仍然不可接受,而我们又想享受VIPT的INDEX不需要经过MMU虚实转换的快捷?有没有什么硬件技术来解决VIPT别名问题呢?确实是存在的,现代CPU很多都是把L1 CACHE做成VIPT,但是表现地(behave as)像PIPT。这是怎么做到的呢?

这要求VIPT的cache,硬件上具备alias detection的能力。比如,硬件知道YYYY0000000XXXXXX既有可能出现在第0000000,又可能出现在1000000这2个set,然后硬件自动去比对这2个set里面是否出现映射到相同物理地址的cacheline,并从硬件上解决好别名同步,那么软件就完全不用操心了。

下面我们记住一个简单的规则:

对于VIPT,如果cache的size除以WAY数,小于等于1个page的大小,则天然VI=PI,无别名问题;

对于VIPT,如果cache的size除以WAY数,大于1个page的大小,则天然VI≠PI,有别名问题;这个时候又分成2种情况:

硬件不具备alias detection能力,软件需要pagecolouring;

硬件具备alias detection能力,软件把cache当成PIPT用。

比如cache大小64KB,4WAY,PAGE SIZE是4K,显然有别名问题;这个时候,如果cache改为16WAY,或者PAGE SIZE改为16K,不再有别名问题。为什么?感觉小学数学知识也能算得清

CACHE的一致性

Cache的一致性有这么几个层面

1. 一个CPU的icache和dcache的同步问题

2. 多个CPU各自的cache同步问题

3. CPU与设备(其实也可能是个异构处理器,不过在Linux运行的CPU眼里,都是设备,都是DMA)的cache同步问题

先看一下ICACHE和DCACHE同步问题。由于程序的运行而言,指令流的都流过icache,而指令中涉及到的数据流经过dcache。所以对于自修改的代码(Self-Modifying Code)而言,比如我们修改了内存p这个位置的代码(典型多见于JIT compiler),这个时候我们是通过store的方式去写的p,所以新的指令会进入dcache。但是我们接下来去执行p位置的指令的时候,icache里面可能命中的是修改之前的指令。

所以这个时候软件需要把dcache的东西clean出去,然后让icache invalidate,这个开销显然还是比较大的。

但是,比如ARM64的N1处理器,它支持硬件的icache同步,详见文档:The Arm Neoverse N1 Platform: Building Blocks for the Next-Gen Cloud-to-Edge Infrastructure SoC

特别注意画红色的几行。软件维护的成本实际很高,还涉及到icache的invalidation向所有核广播的动作。

接下来的一个问题就是多个核之间的cache同步。下面是一个简化版的处理器,CPU_A和B共享了一个L3,CPU_C和CPU_D共享了一个L3。实际的硬件架构由于涉及到NUMA,会比这个更加复杂,但是这个图反映层级关系是足够了。

比如CPU_A读了一个地址p的变量?CPU_B、C、D又读,难道B,C,D又必须从RAM里面经过L3,L2,L1再读一遍吗?这个显然是没有必要的,在硬件上,cache的snooping控制单元,可以协助直接把CPU_A的p地址cache拷贝到CPU_B、C和D的cache。

这样A-B-C-D都得到了相同的p地址的棕色小球。

假设CPU B这个时候,把棕色小球写成红色,而其他CPU里面还是棕色,这样就会不一致了:

b7b878e4-e032-11eb-9e57-12bb97331649.png

这个时候怎么办?这里面显然需要一个协议,典型的多核cache同步协议有MESI和MOESI。MOESI相对MESI有些细微的差异,不影响对全局的理解。下面我们重点看MESI协议。

MESI协议定义了4种状态:

M(Modified): 当前cache的内容有效,数据已被修改而且与内存中的数据不一致,数据只在当前cache里存在;类似RAM里面是棕色球,B里面是红色球(CACHE与RAM不一致),A、C、D都没有球。

E(Exclusive):当前cache的内容有效,数据与内存中的数据一致,数据只在当前cache里存在;类似RAM里面是棕色球,B里面是棕色球(RAM和CACHE一致),A、C、D都没有球。

S(Shared):当前cache的内容有效,数据与内存中的数据一致,数据在多个cache里存在。类似如下图,在CPU A-B-C里面cache的棕色球都与RAM一致。

I(Invalid): 当前cache无效。前面三幅图里面cache没有球的那些都是属于这个情况。

然后它有个状态机

这个状态机比较难记,死记硬背是记不住的,也没必要记,它讲的cache原先的状态,经过一个硬件在本cache或者其他cache的读写操作后,各个cache的状态会如何变迁。所以,硬件上不仅仅是监控本CPU的cache读写行为,还会监控其他CPU的。只需要记住一点:这个状态机是为了保证多核之间cache的一致性,比如一个干净的数据,可以在多个CPU的cache share,这个没有一致性问题;但是,假设其中一个CPU写过了,比如A-B-C本来是这样:

b7d58588-e032-11eb-9e57-12bb97331649.png

然后B被写过了:

b7f6d9cc-e032-11eb-9e57-12bb97331649.png

这样A、C的cache实际是过时的数据,这是不允许的。这个时候,硬件会自动把A、C的cache invalidate掉,不需要软件的干预,A、C其实变地相当于不命中这个球了:

b81710de-e032-11eb-9e57-12bb97331649.png

这个时候,你可能会继续问,如果C要读这个球呢?它目前的状态在B里面是modified的,而且与RAM不一致,这个时候,硬件会把红球clean,然后B、C、RAM变地一致,B、C的状态都变化为S(Shared):

b82173e4-e032-11eb-9e57-12bb97331649.png

这一系列的动作虽然由硬件完成,但是对软件而言不是免费的,因为它耗费了时间。如果编程的时候不注意,引起了硬件的大量cache同步行为,则程序的效率可能会急剧下降。

为了让大家直观感受到这个cache同步的开销,下面我们写一个程序,这个程序有2个线程,一个写变量,一个读变量:

b82b739e-e032-11eb-9e57-12bb97331649.png

这个程序里,x和y都是cacheline对齐的,这个程序的thread1的写,会不停地与thread2的读,进行cache同步。

它的执行时间为:

$ time 。/a.out real 0m3.614suser 0m7.021ssys 0m0.004s

它在2个CPU上的userspace共运行了7.021秒,累计这个程序从开始到结束的对应真实世界的时间是3.614秒(就是从命令开始到命令结束的时间)。

如果我们把程序改一句话,把thread2里面的c = x改为c = y,这样2个线程在2个CPU运行的时候,读写的是不同的cacheline,就没有这个硬件的cache同步开销了:

b8382d82-e032-11eb-9e57-12bb97331649.png

它的运行时间:

$ time 。/b.out real 0m1.820suser 0m3.606ssys 0m0.008s

现在只需要1.8秒,几乎减小了一半。

感觉前面那个a.out,双核的帮助甚至都不大。如果我们改为单核跑呢?

$ time taskset -c 0 。/a.out real 0m3.299suser 0m3.297ssys 0m0.000s

它单核跑,居然只需要3.299秒跑完,而双核跑,需要3.614s跑完。单核跑完这个程序,甚至比双核还快,有没有惊掉下巴??。?!因为单核里面没有cache同步的开销。

下一个cache同步的重大问题,就是设备与CPU之间。如果设备感知不到CPU的cache的话(下图中的红色数据流向不经过cache),这样,做DMA前后,CPU就需要进行相关的cacheclean和invalidate的动作,软件的开销会比较大。

b843a0c2-e032-11eb-9e57-12bb97331649.png

这些软件的动作,若我们在Linux编程的时候,使用的是streaming DMA APIs的话,都会被类似这样的API自动搞定:

dma_map_single()dma_unmap_single()dma_sync_single_for_cpu()dma_sync_single_for_device()dma_sync_sg_for_cpu()dma_sync_sg_for_device()

如果是使用的dma_alloc_coherent() API呢,则设备和CPU之间的buffer是cache一致的,不需要每次DMA进行同步。对于不支持硬件cache一致性的设备而言,很可能dma_alloc_coherent()会把CPU对那段DMA buffer的访问设置为uncachable的。

这些API把底层的硬件差异封装掉了,如果硬件不支持CPU和设备的cache同步的话,延时还是比较大的。那么,对于底层硬件而言,更好的实现方式,应该仍然是硬件帮我们来搞定。比如我们需要修改总线协议,延伸红线的触角:

b84d6c2e-e032-11eb-9e57-12bb97331649.png

当设备访问RAM的时候,可以去snoop CPU的cache:

如果做内存到外设的DMA,则直接从CPU的cache取modified的数据;

如果做外设到内存的DMA,则直接把CPU的cache invalidate掉。

这样,就实现硬件意义上的cache同步。当然,硬件的cache同步,还有一些其他方法,原理上是类似的。注意,这种同步仍然不是免费的,它仍然会消耗bus cycles的。实际上,cache的同步开销还与距离相关,可以说距离越远,同步开销越大,比如下图中A、B的同步开销比A、C小。

对于一个NUMA服务器而言,跨NUMA的cache同步开销显然是要比NUMA内的同步开销大。

意识到CACHE的编程

通过上一节的代码,读者应该意识到了cache的问题不处理好,程序的运行性能会急剧下降。所以意识到cache的编程,对程序员是至关重要的。

从CPU流水线的角度讲,任何的内存访问延迟都可以简化为如下公式:

Average Access Latency = Hit Time + Miss Rate × Miss Penalty

cache miss会导致CPU的stall状态,从而影响性能。现代CPU的微架构分了frontend和backend。frontend负责fetch指令给backend执行,backend执行依赖运算能力和Memory子系统(包括cache)延迟。

backend执行中访问数据导致的cache miss会导致backend stall,从而降低IPC(instructions per cycle)。减小cache的miss,实际上是一个软硬件协同设计的任务。比如硬件方面,它支持预取prefetch,通过分析cache miss的pattern,硬件可以提前预取数据,在流水线需要某个数据前,提前先取到cache,从而CPU流水线跑到需要它的时候,不再miss。当然,硬件不一定有那么聪明,也许它可以学会一些简单的pattern。但是,对于复杂的无规律的数据,则可能需要软件通过预取指令,来暗示CPU进行预取。

cache预取

比如在ARM处理器上就有一条指令叫pld,prefetch可以用pld指令:

static inline void prefetch(const void *ptr){ __asm__ __volatile__( “pld %a0” :: “p” (ptr));}

眼见为实,我们随便从Linux内核里面找一个commit:

b87140a4-e032-11eb-9e57-12bb97331649.png

因为我们从WiFi收到了一个skb,我们很快就要访问这个skb里面的数据来进行packet的分类以及交给IP stack处理了,不如我们先prefetch一下,这样后面等需要访问这个skb-》data的时候,流水线可以直接命中cache,从而不打断。

预取的原理有点类似今天星期五,咱们在上海office,下周一需要北京分公司的人来上海office开会。于是,我们通知北京office的人周末坐飞机过来,这样周一开会的时候就不必等他们了。不预取的情况下,会议开始后,再等北京的人飞过来,会导致stall状态。

任何东西最终还是要落实到代码,talk is cheap,show me the code。下面这个是经典的二分查找法代码,这个代码是网上抄的。

b884d646-e032-11eb-9e57-12bb97331649.png

特别留意ifdef DO_PREFETCH包着的代码,它提前预取了下次的中间值。我们来对比下,不预取和预取情况下,这个同样的代码执行时间的差异。先把cpufreq的影响尽可能关闭掉,设置为performance:

barry@barry-HP-ProBook-450-G7:~$ sudo cpupower frequency-set --governor performanceSetting cpu: 0Setting cpu: 1Setting cpu: 2Setting cpu: 3Setting cpu: 4Setting cpu: 5Setting cpu: 6Setting cpu: 7

然后我们来对比差异:

b8c6c0c4-e032-11eb-9e57-12bb97331649.png

开启prefetch执行时间大约10s, 不prefetch的情况下,11.6s执行完成,性能提升大约14%,所以周末坐飞机太重要了!

现在我们来通过基于perf的pmu-tools(下载地址:https://github.com/andikleen/pmu-tools),对上面的程序进行topdown分析,分析的时候,为了尽可能减小其他因子的影响,我们把程序通过taskset运行到CPU0。

先看不prefetch的情况,很明显,程序是backend_bound的,其中DRAM_Bound占比大,达到75.8%。

b8d040d6-e032-11eb-9e57-12bb97331649.png

开启prefetch的情况呢?程序依然是backend_bound的,其中,backend bound的主体依然是DRAM_Bound,但是比例缩小到了60.7%。

b984932e-e032-11eb-9e57-12bb97331649.png

DRAM_Bound主要对应cycle_activity.stalls_l3_miss事件,我们通过perf stat来分别进行搜集:

b9aa9678-e032-11eb-9e57-12bb97331649.png

我们看到,执行prefetch情况下,指令的条数明显多了,但是它的insn per cycle变大了,所以总的时间cycles反而减小。其中最主要的原因是cycle_activity.stalls_l3_miss变小了很多次。

这个时候,我们可以进一步通过录制mem_load_retired.l3_miss来分析究竟代码哪里出了问题,先看noprefetch情况:

ba4cee50-e032-11eb-9e57-12bb97331649.png

焦点在main函数:

ba5757be-e032-11eb-9e57-12bb97331649.png

继续annotate一下:

ba61d1e4-e032-11eb-9e57-12bb97331649.png

明显问题出在array[mid] 《 key这句话这里。做prefetch的情况下呢?

ba751132-e032-11eb-9e57-12bb97331649.png

main的占比明显变小了(99.93% -》 80.00%):

ba9111de-e032-11eb-9e57-12bb97331649.png

继续annotate一下:

ba9a37a0-e032-11eb-9e57-12bb97331649.png

热点被分散了,预取缓解了Memory_Bound的情况。

避免false sharing

前面我们提到过,数据如果在一个cacheline,被多核访问的时候,多核间运行的cache一致性协议,会导致cacheline在多核间的同步。这个同步会有很大的延迟,是工程里著名的false sharing问题。

比如下面一个结构体

struct s{ int a; int b;}

如果1个线程读写a,另外一个线程读写b,那么两个线程就有机会在不同的核,于是产生cacheline同步行为的来回颠簸。但是,如果我们把a和b之间padding一些区域,就可以把这两个缠绕在一起的人拉开:

struct s{ int a; char padding[cacheline_size - sizeof(int)]; int b;}

因此,在实际的工程中,我们经??吹接腥硕允莸奈恢媒幸莆?,或者在2个可能引起false sharing的数据间填充数据进行padding。这样的代码在内核不甚枚举,我们随便找一个:

bac48d8e-e032-11eb-9e57-12bb97331649.png

它特别提到在tw_count后面60个字节(L1_CACHE_BYTES - sizeof(atomic_t))的padding,从而避免false sharing:

bad5263a-e032-11eb-9e57-12bb97331649.png

下面这个则是通过移动结构体内部成员的位置,相关数据的cacheline分开的:

bb1e909a-e032-11eb-9e57-12bb97331649.png

这个改动有明显的性能提升,最高可达9.9%。代码里面也有明显地注释,usage和parent原先靠地太近,一个频繁写,一个频繁读。移开了2边互相不打架了:

bb34ff24-e032-11eb-9e57-12bb97331649.png

把理论和代码能对上的感觉真TNND爽。无论是996,还是007,都必须留些时间来思考,来让理论和实践结合,否则,就变成漫无目的的内卷,这样一定会卷输的。内卷并不可悲,可悲的是卷不赢别人。

编辑:jq

原文标题:宋宝华:深入理解cache对写好代码至关重要

文章出处:【微信号:gh_6fde77c41971,微信公众号:FPGA干货】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
分享:

评论

相关推荐

什么是MicroPython 它能做什么有什么局限

随着Python成为主流的编程语言,MicroPython在嵌入式系统领域也越来越热门起来,尤其是大....
的头像 电子森林 发表于 10-12 11:44 ? 64次 阅读

PO VO DTO转换神器的思路

当然有的人喜欢写get set,或者用BeanUtils 进行复制,代码只是工具,本文只是提供一种思....
的头像 Linux爱好者 发表于 10-12 11:13 ? 76次 阅读

如何在Colab中使用SQL

如今,编码测试在数据科学面试过程中几乎是标准的。 作为一名数据科学招聘经理,我发现一个20-30分钟....
的头像 智能感知与物联网技术研究所 发表于 10-12 09:39 ? 50次 阅读
如何在Colab中使用SQL

命令行工具Kubectl的别样用法

? kubectl 是 K8s 官方附带的命令行工具,可以方便的操作 K8s 集群。这篇文章主要介绍....
的头像 马哥Linux运维 发表于 10-12 09:31 ? 37次 阅读

一本教你怎么写出让同事无法维护的代码

?对,你没看错,本文就是教你怎么写出让同事无法维护的代码。一、程序命名 容易输入的变量名 。比如:F....
的头像 Linux爱好者 发表于 10-11 15:45 ? 118次 阅读

优秀的 Verilog/FPGA开源项目介绍(一)

优秀的 Verilog/FPGA开源项目介绍(一)-PCIe通信 今天开始会陆续介绍一些优秀的开源项....
的头像 OpenFPGA 发表于 10-11 15:31 ? 85次 阅读
优秀的 Verilog/FPGA开源项目介绍(一)

鸿蒙的网络管理功能你们知道有多厉害吗

? 本示例演示了如何使用网络管理??橄喙亟涌?,演示了以下功能: 功能 1: 使用默认网络,打开连接,....
的头像 HarmonyOS技术社区 发表于 10-11 14:26 ? 156次 阅读
鸿蒙的网络管理功能你们知道有多厉害吗

开发一个鸿蒙版仿苹果计算器教程.附代码

众所周知鸿蒙 JS 框架是非常轻量级的 MVVM 模式。通过使用和 Vue2 相似的属性劫持技术实现....
的头像 HarmonyOS技术社区 发表于 10-11 14:17 ? 135次 阅读
开发一个鸿蒙版仿苹果计算器教程.附代码

怎样去搭建一种STM32代码生成模型

怎样去搭建一种STM32代码生成模型?要注意哪些问题?...
发表于 10-11 06:25 ? 0次 阅读

剖析verilog2005的骚操作之对数函数

小技巧分享: verilog下取对数其实可用$clog2这个系统函数,和自己找代码里面写入funct....
的头像 玩儿转FPGA 发表于 10-09 15:29 ? 111次 阅读
剖析verilog2005的骚操作之对数函数

Floyd如何求图的最短路径

前言 在 图论 中,在寻路最短路径中除了 Dijkstra 算法以外,还有 Floyd 算法也是非常....
的头像 算法与数据结构 发表于 10-09 14:38 ? 71次 阅读
Floyd如何求图的最短路径

Python版test1实战说明

上一篇文章已经带着大家安装 DeepStream 的 Python 开发环境,并且执行最简单的 de....
的头像 NVIDIA英伟达企业解决方案 发表于 10-09 14:28 ? 98次 阅读

教你们如何用 Python 快速制作海报级地图附代码

?1 简介 基于 Python 中诸如 matplotlib 等功能丰富、自由度极高的绘图库,我们可....
的头像 Linux爱好者 发表于 10-09 11:36 ? 203次 阅读

如何用10行代码轻松在ZYNQ MP上实现图像识别

本文来自赛灵思高级产品应用工程师,张超。如今各种机器学习框架的普及使得个人搭建和训练一个机器学习模型....
的头像 XILINX开发者社区 发表于 10-09 10:47 ? 1348次 阅读
如何用10行代码轻松在ZYNQ MP上实现图像识别

脚本语言的优缺点分别是什么

什么是脚本语言? 脚本语言的特点有哪些? 脚本语言的优缺点分别是什么? ...
发表于 10-09 09:36 ? 0次 阅读

学习STM32开发板的资料有哪些

学习STM32开发板的资料有哪些?
发表于 10-09 09:01 ? 0次 阅读

string与《string.h》有哪些区别

string与《string.h》的定义有何不同? string与《string.h》有哪些区别? ...
发表于 10-09 07:22 ? 0次 阅读

怎样去编写FSMC的初始化配置代码

FSMC是什么? 怎样去编写FSMC的初始化配置代码? ...
发表于 10-09 07:00 ? 0次 阅读

Verilog代码的基本程序框架有哪些组成部分

Verilog代码的基本程序框架是怎样构成的?
发表于 10-09 06:42 ? 0次 阅读

LMK04821芯片项目代码详解

大侠好,阿Q来也,今天是第二次和各位见面,请各位大侠多多关照。今天给各位大侠带来一篇项目开发经验分享....
的头像 FPGA技术江湖 发表于 10-08 17:51 ? 219次 阅读
LMK04821芯片项目代码详解

如何用List组件减小JS运行内存

每种编程语言都有它的内存管理机制,不同设备上可用内存不同,分配给JS引擎可用的内存范围也不同。例如运....
的头像 HarmonyOS开发者 发表于 10-08 17:46 ? 134次 阅读

如何链接两个名字一样动态库

在Linux应用的开发过程中,直接利用现成的第三方库(俗称:轮子)来完成自己的业务功能,是很常见的事....
的头像 Linux阅码场 发表于 10-08 14:58 ? 151次 阅读

log2在verilog中到底有什么用

很多小伙伴对上一篇文章讲的取对数没感觉,觉得这个没什么用。确实很多时候用不着,verilog本身不够....
的头像 玩儿转FPGA 发表于 10-08 11:23 ? 179次 阅读
log2在verilog中到底有什么用

如何在没有正式培训的情况下学习编程

从编程小白到完成第一款 Web 应用,我只用了 90 天,而且大多数时间都是在苦恼自己是否能成为开发....
的头像 程序人生 发表于 10-08 10:22 ? 121次 阅读

204B实战应用-LMK04821代码详解(二)

大侠好,阿Q来也,今天是第二次和各位见面,请各位大侠多多关照。今天给各位大侠带来一篇项目开发经验分享....
的头像 OpenFPGA 发表于 10-08 10:18 ? 288次 阅读
204B实战应用-LMK04821代码详解(二)

如何去实现一种基于stm32的点灯设计

如何去实现一种基于stm32的点灯设计?怎样去编写其实验代码?...
发表于 10-08 09:13 ? 0次 阅读

简述Hive 数据倾斜问题定位排查及解决

多数介绍数据倾斜的文章都是以大篇幅的理论为主,并没有给出具体的数据倾斜案例。当工作中遇到了倾斜问题,....
的头像 数据分析与开发 发表于 10-08 09:10 ? 143次 阅读
简述Hive 数据倾斜问题定位排查及解决

怎么样把Camera的实时图像通过Bitbmp的方式显示出来

怎么样把Camera的实时图像通过Bitbmp的方式显示出来?...
发表于 10-08 08:21 ? 0次 阅读

怎样去设计一种数码管显示0-9999的计数器

怎样去设计一种数码管显示0-9999的计数器?其代码程序是怎样的?...
发表于 10-08 08:00 ? 0次 阅读

JNI中List结构的类数据是怎样返回的

JNI中List结构的类数据是怎样返回的?如何去实现?...
发表于 10-08 06:52 ? 0次 阅读

如何用python实现贪吃蛇游戏

贪吃蛇 具体实现部分,大致分为三个??槔唇樯埽河蜗烦跏蓟?、游戏运行(蛇移动、吃掉食物)、游戏结束 1....
的头像 马哥Linux运维 发表于 09-29 18:05 ? 426次 阅读
如何用python实现贪吃蛇游戏

如何用一行代码解决空指针问题

在文章的开头,先说下NPE问题,NPE问题就是,我们在开发中经常碰到的NullPointerExce....
的头像 Android编程精选 发表于 09-29 14:28 ? 210次 阅读

导航对多返回栈的支持

欢迎来到第二个关于导航的 MAD Skill 系列的另一篇文章!本文我们将介绍一个呼声很高的功能,即....
的头像 谷歌开发者 发表于 09-29 11:21 ? 264次 阅读

文件系统中的日志系统是如何实现的

日志 本文来聊聊文件系统中的日志系统,来看一个简单的日志系统是如何实现的。本文是接着前面的 xv6 ....
的头像 Linux阅码场 发表于 09-29 11:04 ? 218次 阅读
文件系统中的日志系统是如何实现的

直流电机控制代码

直流电机控制代码(深圳市普德新星电源技术有限公司官网)-?直流机控制代码 可以控制直流机的转速以及正....
发表于 09-28 12:24 ? 37次 阅读
直流电机控制代码

C语言中的“三字母词”是什么

某软件工程师接盘了前同事的项目,进度一拖再拖,最后发现问题出现在如下代码: // 注释语句 ??/2....
的头像 5G网通信 发表于 09-26 14:46 ? 236次 阅读

芯片开发语言为什么要用Chisel和Verilog

在最近召开的RISC-V中国峰会上,中科院计算所的包云岗研究员团队正式发布了名为“香山”的开源高性能....
的头像 FPGA技术江湖 发表于 09-26 11:00 ? 1491次 阅读
芯片开发语言为什么要用Chisel和Verilog

剖析C语言中scanf函数常见问题

在写C代码时难免对一些知识点不熟悉,导致犯错,今天分享几点小知识给大家。 空白符问题 ? ? ? ?....
的头像 STM32嵌入式开发 发表于 09-24 16:45 ? 262次 阅读

拓扑排序算法有什么作用

大家好,我是bigsai。 拓扑排序,很多人都可能听说但是不了解的一种算法。不知者大多会提出这样的疑....
的头像 算法与数据结构 发表于 09-24 10:53 ? 210次 阅读
拓扑排序算法有什么作用

Vivado之VIO原理及应用

虚拟输入输出(Virtual Input Output,VIO)核是一个可定制的IP核,它可用于实时....
的头像 OpenFPGA 发表于 09-23 16:11 ? 237次 阅读
Vivado之VIO原理及应用

简述Git的一些基础知识

? 简单地说,Git 究竟是怎样的一个系统呢?请注意接下来的内容非常重要,若你理解了 Git 的思想....
的头像 马哥Linux运维 发表于 09-23 15:43 ? 601次 阅读
简述Git的一些基础知识

让C++代码更加高效的几个小技巧

今天和大家介绍一下能让C++代码更加高效的几个小技巧,话不多说,以下为本文目录: 参数传递方式:值传....
的头像 5G网通信 发表于 09-23 15:20 ? 200次 阅读
让C++代码更加高效的几个小技巧

Python后端项目的协程是什么

最近公司 Python 后端项目进行重构,整个后端逻辑基本都变更为采用“异步”协程的方式实现??醋怕?...
的头像 Linux爱好者 发表于 09-23 14:38 ? 240次 阅读

STM32的ADC代码例程

STM32的ADC代码例程(普德新星电源技术有限公司怎么样)-?STM32的ADC代码例程,有5个例....
发表于 09-23 09:53 ? 43次 阅读
STM32的ADC代码例程

英特尔OpenVINO?将全力助力极视角AI推理加速

在模型开发和部署方面,极市平台集成了最新版本的OpenVINO工具,助力开发者在最小化代码修改的条件....
的头像 英特尔物联网 发表于 09-22 16:19 ? 375次 阅读
英特尔OpenVINO?将全力助力极视角AI推理加速

OpenHarmony HDF HDI的IPC模式具体实现方法和驱动框架能力

HDI接口概述 回顾之前的文章,HDF 驱动框架的一个重要功能是为系统提供稳定的统一的硬件接口,这样....
的头像 HarmonyOS官方合作社区 发表于 09-22 14:55 ? 233次 阅读
OpenHarmony HDF HDI的IPC模式具体实现方法和驱动框架能力

OpenCV新增描述子BEBLID

在前不久发布的OpenCV4.5中更新了很多新特性: 从4.5版本开始,OpenCV将正式使用Apa....
的头像 ViTEX机器视觉 发表于 09-22 14:16 ? 2311次 阅读
OpenCV新增描述子BEBLID

51单片机的启动代码究竟里面写了什么

在我们使用kei c51创建一个51单片机项目时,会有如下图所示的提示: ? keil创建新项目时,....
的头像 strongerHuang 发表于 09-22 10:15 ? 271次 阅读
51单片机的启动代码究竟里面写了什么

程序员如何自己new一个对象

https://www.ciphermagic.cn/java8-builder.html 程序员经....
的头像 Android编程精选 发表于 09-22 09:37 ? 879次 阅读

MSK调制解调器的matlab仿真

继续讲解程序!MSK也能进行相干解调?是的!同样是采用锁相环!先来看看MSK的优点,这是由于下面的这....
的头像 通信工程师专辑 发表于 09-18 11:43 ? 253次 阅读
MSK调制解调器的matlab仿真

介绍3种方法跨时钟域处理方法

跨时钟域处理是FPGA设计中经常遇到的问题,而如何处理好跨时钟域间的数据,可以说是每个FPGA初学者....
的头像 FPGA设计论坛 发表于 09-18 11:33 ? 1726次 阅读
介绍3种方法跨时钟域处理方法

机智云追踪外卖骑手保温箱硬件开发和项目演示

01 本章实现功能介绍 追踪外卖骑手的保温箱的GPS定位信息以及外卖箱是否被人打开,以防止骑手在送餐....
的头像 机智云物联网 发表于 09-18 11:03 ? 262次 阅读

深入探究Linux系统噪音统计(osnoise tracer)

在Linux系统中作为一个普通线程是非??啾频?。不仅NMI 、硬中断、软中断可以打断它,甚至其它普通....
的头像 Linux阅码场 发表于 09-18 10:53 ? 331次 阅读
深入探究Linux系统噪音统计(osnoise tracer)

?开发板上玩GTA RISC-V多项移植项目成功运作中

电子发烧友网报道(文/周凯扬)RISC-V近期再度掀起了不小的热度,苹果招募RISC-V程序员负责其....
的头像 电子发烧友网 发表于 09-16 11:59 ? 272次 阅读
?开发板上玩GTA RISC-V多项移植项目成功运作中

嵌入式开发中实用的宏打印函数

宏打印函数在我们的嵌入式开发中,使用printf打印一些信息是一种常用的调试手段。但是,在打印的信息....
的头像 FPGA之家 发表于 09-16 10:05 ? 217次 阅读
嵌入式开发中实用的宏打印函数

使用Kotlin替代Java重构AOSP应用

两年前,Android 开源项目 (AOSP) 应用团队开始使用 Kotlin 替代 Java 重构....
的头像 谷歌开发者 发表于 09-16 09:26 ? 234次 阅读
使用Kotlin替代Java重构AOSP应用

魔方网表,无代码开发平台NCDP的无冕之王

NCDP也就是No-code development platform,无代码开发平台,我第一次听到....
的头像 话说科技 发表于 09-15 14:34 ? 235次 阅读

51单片机的启动文件作用是什么

在我们使用kei c51创建一个51单片机项目时,会有如下图所示的提示: 一般情况下,需要选择“是”....
的头像 5G网通信 发表于 09-15 09:12 ? 390次 阅读
51单片机的启动文件作用是什么

FastThreadLocal快在哪里

blog.csdn.net/mycs2012/article/details/90898128 1 ....
的头像 Android编程精选 发表于 09-13 09:17 ? 219次 阅读

C++基础语法友元类和友元函数

本期是C++基础语法分享的第五节,今天给大家来分享一下: (1)explicit(显式)关键字; (....
的头像 C语言编程学习基地 发表于 09-12 09:52 ? 280次 阅读
最好看的最新高清中文字幕,我不卡影院午夜伦不卡,亚洲国产在线精品一区在,yw193.尤物影院 宜兰县| 永安市| 大渡口区| 观塘区| 平武县| 偃师市| 兖州市| 视频| 会理县| 玉山县| 西平县| 竹溪县| 永泰县| 资溪县| 黄平县| 阳泉市| 洛浦县| 通城县| 西乡县| 芜湖县| 宣武区| 中牟县| 岑巩县| 安塞县| 水城县| 盐亭县| 伽师县| 确山县| 尖扎县| 平南县| 孙吴县| 柯坪县| 丹东市| 四会市| 会泽县| 洛隆县| 宝坻区| 延川县| 乡城县| 富宁县| 岫岩| http://444 http://444 http://444 http://444 http://444 http://444