Oracle 集群心跳及其參數misscount/disktimeout/reboottime
發(fā)布日期:
2019-01-01


在Oracle RAC中,能夠從多個(gè)層次,多個(gè)不同的機制來(lái)檢測RAC的健康狀況,即能夠通過(guò)心跳機制以及一定的投票算法來(lái)隔離故障。假設檢測到某節點(diǎn)失敗,則存在故障的節點(diǎn)將會(huì )被逐出集群以避免故障節點(diǎn)破壞數據。本文主要描寫(xiě)敘述了Oracle RAC下的幾種心跳機制以及心跳參數的調整。

?

一、OCSSD與CSS?

OCSSD是一個(gè)管理及提供Cluster Synchronization Services (CSS)服務(wù)的Linux或者Unix進(jìn)程。使用Oracle用戶(hù)來(lái)執行該進(jìn)程并提供節點(diǎn)成員管理功能,一旦該進(jìn)程失敗。將導致節點(diǎn)重新啟動(dòng)。CSS服務(wù)提供2種心跳機制。一種為網(wǎng)絡(luò )心跳。一種為磁盤(pán)心跳。兩種心跳都有最大延時(shí),網(wǎng)絡(luò )心跳的延時(shí)叫MC(Misscount), 磁盤(pán)心跳延時(shí)叫作IOT (I/O Timeout)。

這2個(gè)參數都以秒為單位。缺省時(shí)情況下Misscount < Disktimeout。

以下分別描寫(xiě)敘述這2種心跳機制。

?

二、網(wǎng)絡(luò )心跳

故名思義即是通過(guò)私有網(wǎng)絡(luò )來(lái)檢測節點(diǎn)的狀態(tài)。假設私有網(wǎng)絡(luò )硬件、軟件導致集群節點(diǎn)間私有網(wǎng)絡(luò )在一定時(shí)間內無(wú)法進(jìn)行正常通信。由此而導致腦裂。由于集群環(huán)境中的存儲為共享存儲,因此此時(shí)必須要將故障節點(diǎn)從?集群隔離出來(lái),以避免數據災難。關(guān)于這個(gè)網(wǎng)絡(luò )心跳的詳細動(dòng)作描寫(xiě)敘述例如以下:?
?? ?Every one second, a sending thread in the cssd sends a network tcp heartbeat to itself and all nodes. The receiving thread of the ocssd.bin receives the heartbeat.??
??? If the package network is dropped or has error, the error correction mechanism on tcp would retransmit the package.???
??? Oracle does not retransmit.? From the ocssd.log, you will see a WARNING message about missing of heartbeat if a node does not receive a heartbeat from another node for 15 seconds (50% of miscount).??Another warning is reported in ocssd.log if the same node is missing for 22 seconds (75% of miscount)..another warning continues from the same node for 27 seconds (90% miscount).??When the heartbeat is missing 100% ..30 seconds miscount, the node is evicted?
??

這個(gè)網(wǎng)絡(luò )心跳的延遲稱(chēng)之為misscount,能夠通過(guò)crsctl 工具查詢(xún)及改動(dòng)。?

[grid@Linux-01 ~]$ crsctl get css misscount?

CRS-4678: Successful get misscount 30 for Cluster Synchronization Services.?


相關(guān)推薦

【DTCC2019】數據風(fēng)云,十年變遷 - 第十屆中國數據庫技術(shù)大會(huì )隆重啟動(dòng)
作為國內備受關(guān)注的數據庫及大數據領(lǐng)域技術(shù)盛會(huì ),第十屆中國數據...
董明珠談小米做空調:質(zhì)量和技術(shù)比他們好,沒(méi)壓力
董明珠稱(chēng),格力啟動(dòng)九萬(wàn)員工開(kāi)網(wǎng)店的模式后,格力業(yè)績(jì)當月賣(mài)了2...
近20年數據被黑客全部清空 美國電郵商 VFEmail宣布倒閉
數據,對于企業(yè)來(lái)講是至關(guān)重要的,如果企業(yè)的數據庫被黑客攻陷,...
半年墜毀兩架,波音737MAX-8你還敢坐嗎?
當地時(shí)間3月10日上午,埃塞俄比亞航空公司的一架載有149名...