IBM小型機(jī)巡檢報告
1、機(jī)器型號#unameuMIBM,7029-6E3IBM,01100550A2、檢查系統(tǒng)硬件設(shè)備故障燈是否有亮3、系統(tǒng)錯誤報告
#errpt-dH-TPERM//硬件的錯誤報告
IDENTIFIERTIMESTAMPTCRESOURCE_NAMEDESCRIPTIONFE4C0250530085308PHsysplanar0UNDETERMINEDERRORBFE4C0250529091308PHsysplanar0UNDETERMINEDERROR#errpt-dS-TPERM//軟件的錯誤報告#errpt-aj*******|more//具體的錯誤信息
#errpt-dH-TPERM>/tmp/hwerror.log//可以把錯誤的報告存成一個文件3、有否給root用戶的錯誤報告#mailMail[5.2UCB][AIX5.X]Type?for
help."/var/spool/mail/root":5messages3new5unreadU1rootThuMay1509:5324/884"diagelamessagefromp615”U2rootFriMay1604:0724/884"diagelamessagefromp615"
>N3rootSatMay2413:0823/874"diagelamessagefromp615"5、檢查hacmp.out,smit.log,bootlog等#lssrc-gcluster/#>lssrc-gclusterSubsystemGroupPIDStatusclstrmgrEScluster16334active
一般上hacmp.out的位置:/usr/sbin/cluster/或者/tmp/,然后找到最近的hacmp.out文件,察看有沒有錯誤信息6、文件系統(tǒng)檢查#df-k
Filesystem1024-blocksFree%UsedIused%IusedMountedon/dev/hd413107210156823%22684%//dev/hd214417923125698%3605611%
/usr/dev/hd9var13107211704811%4182%/var看看有沒有超過90%使用率的,建議用戶改善7、邏輯卷有否"stale"的狀態(tài)
#lsvg-lrootvgLVNAMETYPELPsPPsPVsLVSTATEMOUNTPOINThd5boot111closed/syncdN/A
hd6paging441open/syncdN/Ahd8jfslog111open/syncdN/Ahd4jfs111open/syncd/hd2jfs11111open/syncd/usrhd9varjfs111open/syncd/var如果系統(tǒng)還有其他卷組,也需要察看8、內(nèi)存交換區(qū)的使用率是否超過70%#lsps-a
PageSpacePhysicalVolumeVolumeGroupSize%UsedActiveAutoTypehd6hdisk0rootvg512MB1yesyeslv9、系統(tǒng)性能是否有瓶頸#topas#vmstat1
10kthrmemorypagefaultscpurbavmfrerepipofrsrcyinsycsussyidwa
001100294086180000004602750199000110031408616000000156254109900011003140861600000036288400990#iostat110
tty:tintoutavg-cpu:%user%sys%idle%iowait0.0394.00.00.0100.00.0Disks:%tm_actKbpstpsKb_readKb_wrtnhdisk00.00.00.000
hdisk10.00.00.000cd00.00.00.000
10、網(wǎng)絡(luò)與通訊檢查#netstatinNameMtuNetworkAddressIpktsIerrsOpkts
OerrsCollen01500link#20.9.6b.3e.6.ac1964053400en0500192.168.0192.168.0.111964053400lo016896link#1267041300lo016896127127.0.0.1267041300#netstat-rn//察看路由情況Routing
tablesDestinationGatewayFlagsRefsUseIfExpGroupsRouteTreeforProtocolFamily2
(Internet):127/8127.0.0.1U7142
lo0--192.168.0.0192.168.0.11UHSb00en0--=>#vi/etc/hosts//察看hosts文件有否特殊的定義#ping****
#lsattr-Elinet0//路由的檢測authm65536AuthenticationMethodsTruehostnameh24Host
NameTruegatewayGatewayTrueroutenet,,0,172.16.23.81RouteTruebootup_optionnoSerialOpticalNetworkInterfaceTrue
rout6FDDINetworkInterfaceTrue11、有否符合要求的系統(tǒng)備份第一次去可以先詢問客戶關(guān)于備份的策略
#ls-l/image.data//看看系統(tǒng)有沒有備份的image文件,記錄最后備份日期-rw-r--r--1rootsystem9600May1917:31/image.data#lsvg-lrootvg//察看有否符合要求的數(shù)據(jù)備份和保護(hù)LV
NAMETYPELPsPPsPVsLVSTATEMOUNT
POINThd4jfs111open/syncd/hd2jfs11111open/syncd/usrhd10optjfs111open/syncd/optoraclelvjfs2801601open/syncd/oracle
loglv00jfs2log111open/syncdN/Atestlvjfs10201closed/syncd/tmp/test
如何察看數(shù)據(jù)保護(hù)方式RAID10/RAID5,RAID的Hotspare屬性是否打開
#smittyssaraid?Change/ShowAttributesofanSSARAIDArray檢查EnableUseofHotSpares屬性是否為YES12、系統(tǒng)Dump設(shè)置是否正確#sysdumpdevlprimary/dev/hd6secondary/dev/sysdumpnull
copydirectory/var/adm/rasforcedcopyflagTRUEalwaysallowdumpFALSEdumpcompressionOFF
#sysdumpdevPp/dev/hd6s/dev/sysdumpnull#sysdumpdev-P-c
13、HACMP測試#/usr/sbin/cluster/diag/clconfig-v"-tr"http://ClusterVerification輸出結(jié)果無Fail
#/lssrc-gcluster
14、maxpout,minpout系統(tǒng)參數(shù)如果系統(tǒng)中運(yùn)行了HACMPsmittychgsysy,將High/Lowwatermark從0/0修改為33/24#lsattr-Elsys0|grepmaxpout
//maxpout用途:對文件指定未決I/O的最大數(shù)目值:缺省值:0(不檢查);范圍:0到n(n應(yīng)該是4的倍數(shù)加1)
#lsattr-Elsys0|grepminpout//指定一個基點(diǎn),在該基點(diǎn)處,已達(dá)到maxpout的程序可以繼續(xù)寫入文件值:缺省值:0(不檢查);范圍:0到n(n應(yīng)該是4的倍數(shù),且大于或等于4小于maxpout)15、syncd參數(shù)#grepsyncd/sbin/rc.boot//sync()被syncd調(diào)用的間隔時間nohup/usr/sbin/syncd10>/dev/null2>&1&
值:缺省值:60;范圍:1到任何正整數(shù)顯示:grepsyncd/sbin/rc.boot或vi/sbin/rc.boot更改:更改在下次引導(dǎo)后有效,而且是永久有效。備用方法是使用命令kill來終止守護(hù)程序
syncd并用命令/usr/sbin/syncdinterval從命令行重新啟動它。診斷:當(dāng)syncd正在運(yùn)行時,文件的I/O被阻塞了。調(diào)整:在缺省級別上,這個參數(shù)幾乎不影響性能。不推薦對這個參數(shù)進(jìn)行更改。為了保持?jǐn)?shù)據(jù)完整
性對于HACMP而使syncdinterval明顯縮小,會導(dǎo)致性能下降。更改命令為:#vi/sbin/rc.boot16、aio參數(shù)//異步I/O可調(diào)參數(shù)#lsdev-C|grepaio察看狀態(tài)是否是available#lsattr-Elaio0minservers1MINIMUMnumberofserversTruemaxservers10MAXIMUMnumberofserversTruemaxreqs4096MaximumnumberofREQUESTSTruekprocprio39Server
PRIORITYTrueautoconfigavailableSTATEtobeconfiguredatsystemrestartTrue
fastpathenableStateoffastpathTrue#smitaio//可以更改參數(shù)
17、檢查errdaemon,srcmstr是否正常運(yùn)行#ps-ef|greperr#ps-ef|grepsrc18、系統(tǒng)硬件診斷#diag->DiagnosticRoutines->SystemVerification->AllResources->F7或者Esc+7
19、補(bǔ)丁程序PTF是否滿足要求,當(dāng)前系統(tǒng)補(bǔ)丁版本#oslevelr5300-04
#instfix-i|grepAllfilesetsfor5.3.0.0_AIX_MLwerefound
Allfilesetsfor5300-01_AIX_MLwerefound.Allfilesetsfor5300-02_AIX_MLwerefoundAllfilesetsfor5300-03_AIX_MLwerefound.Allfilesetsfor5300-04_AIX_MLwerefoundAllfilesetsfor5300-05_AIX_MLwerefound.#lscfg-vp//檢查所有設(shè)備的微碼
20、收集系統(tǒng)信息放到/tmp/ibmsupt#snap-ac//運(yùn)行#snap-ac,生成文件snap+s/n.pax.Z
擴(kuò)展閱讀:IBM小型機(jī)巡檢報告
河南建行IBM小型機(jī)日常維護(hù)
第一篇:日常維護(hù)部分
第二篇:故障處理部分
第1章AIX系統(tǒng)管理日常工作(檢查篇)
1.1
常用的命令
CPUMemoryvmstat,psDiskNetwork標(biāo)準(zhǔn)UNIX命令(包vmstat,sar,ps括HP、SUN等)AIX詳細(xì)輸出AIX非常詳細(xì)輸出Tprofsyscalls,emstattopasiostat,sar,vmstat,netstat,nfsstatsvmon,rmsstrace,tracefilemon,fileplacetraceentstattrace,iptrace分析工具topastopastopas
1.2語法介紹
1.2.1vmstat:檢查內(nèi)存、CPU、進(jìn)程狀態(tài)
#vmstat26
kthrmemorypagefaultscpu
---------------------------------------------------------------rbavmfrerepipofrsrcyinsycsussyidwa
10281328127700000013237567651340
20281328127700000012733813199000
20281328127700000013231613199000
20281328127700000012031712699000
202813281277000000146316127990020281328127700000013031712599000
20281328127700000013531612799000
20281328127700000012931712499000
20281328127700000013330412799000
r:正在運(yùn)行的進(jìn)程b:被阻擋的進(jìn)程
avm:活動的虛內(nèi)存,單位4kbfre:自由列表,位4kbpo:頁換出pi:頁換入sy:系統(tǒng)占用CPUid:空閑CPUwa:等待的CPU
1.2.2sar:檢查CPU、IO
例如:sar-u130sar-PALL110語法:
sar-[abckmqruvwyA]intevalrepetition-bbuffer活動-c系統(tǒng)調(diào)用-k內(nèi)核進(jìn)程統(tǒng)計(jì).-m消息及信號量活動
-q正在運(yùn)行的隊(duì)列數(shù)及等待隊(duì)列數(shù)-r頁交換統(tǒng)計(jì)-uCPU利用-PCPU負(fù)載.1.2.3PS:檢查進(jìn)程狀態(tài)命令
ps:
顯示當(dāng)前SHELL重所有進(jìn)程ps-ef:
顯示系統(tǒng)中所有進(jìn)程,-f顯示更詳細(xì)信息ps-uoracle:
顯示oracle用戶進(jìn)程psemoTHREAD:顯示線程信息psau;psvg:
按使用時間顯示進(jìn)程(最近一次調(diào)用)psaux:
按使用時間顯示進(jìn)程(進(jìn)程啟動)
1.2.4svmon:顯示進(jìn)程占用內(nèi)存
svmonG:顯示系統(tǒng)占用內(nèi)存
svmon-Ccommand_name:顯示某個用戶進(jìn)程占用內(nèi)存svmon-Ppid
顯示某個進(jìn)程占用內(nèi)存svmonS:顯示段占用內(nèi)存
1.2.5iostat:顯示磁盤IO
tty:tintoutavg-cpu:%useriowait
0.04.00.91.395.4
Disks:%tm_actKbps%sys%idle%
2.5tpsKb_readKb_wrtn
hdisk058.4218.341.2172920hdisk116.885.621.44280hdisk250.6223.955.6110020hdisk316.885.621.44280hdisk40.00.00.000hdisk543.4279.169.813960hdisk60.00.00.000hdisk716.427.220.201*6hdisk80.00.00.0hdisk99.4156.011.4hdisk1016.427.220.2cd00.00.00.0
netstat,entstat:顯示網(wǎng)卡信息
netstaten0:顯示en0信息netstats:顯示網(wǎng)絡(luò)信息netstat-m顯示網(wǎng)絡(luò)buffers.netstat-i顯示網(wǎng)卡狀態(tài)netstat-Ien01
顯示eno網(wǎng)卡塞(1秒間隔)
no:顯示tcpip參數(shù)設(shè)置
noa:
顯示tcpip所有參數(shù)當(dāng)前設(shè)置no-otcp_keepalivetime=7201*00設(shè)置tcp_keepalivetime等于3600000秒no-d恢復(fù)默認(rèn)值
注:該方法在重啟后失效
0007800136001.2.61.2.
1.2.8其它命令
檢查文件系統(tǒng)df-k檢查設(shè)備lsdev-C檢查物理卷lspv檢查交換區(qū)lspsalsps-s檢查系統(tǒng)硬件配置lscfgvpprtconf檢查軟件lslpp-l操作系統(tǒng)版本檢查oslevelruname-a操作系統(tǒng)補(bǔ)丁檢查Instfixi|grepML檢查系統(tǒng)盤的鏡像lspvlrootvg檢查邏輯卷lsvgo|lsvgil|more系統(tǒng)dump分區(qū)檢查sysdevdumplsysdumpdev-ebootlistmnoraml-o系統(tǒng)引導(dǎo)順序檢查AIO參數(shù)檢查lsattr-Elaio0IO參數(shù)設(shè)置smittychgsyssyncddaemon的數(shù)據(jù)刷新頻率IBM雙機(jī)檢查more/sbin/rc.bootlssrcgcluster/usr/sbin/cluster/clstat-aerrpt|moreerrptdHerrpt-dSPsef|grepsrcmstPsef|greperrdemon系統(tǒng)日志檢查系統(tǒng)關(guān)鍵進(jìn)程檢查
操作系統(tǒng)備份與恢復(fù)
1.3用SMIT備份
#smittymksysb進(jìn)行系統(tǒng)備份
當(dāng)COMMANDSTATUS頁面中Command:OK出現(xiàn)后,表示備份成功。取出制作完畢的磁帶,在磁帶上的標(biāo)簽上注明備份機(jī)器的名稱和序列號
1.4手工備份
#mksysbi/dev/rmt1.5恢復(fù)系統(tǒng)
#bootinfoe
檢查系統(tǒng)所帶的磁帶機(jī)是否能啟動系統(tǒng),如果返回值是1,表示該磁帶機(jī)支持啟動系統(tǒng),如果返回值是0,就是不支持。插入備份帶,檢查設(shè)備啟動順序:#bootlist-mservice-o
如果需要,將啟動順序改為從磁帶啟動:#bootlist-mservicermt0
重啟機(jī)器,系統(tǒng)從磁帶讀數(shù)據(jù),根據(jù)提示恢復(fù)系統(tǒng)。
故障處理部分
1.6收集故障信息對于判斷診斷故障原因修復(fù)系統(tǒng)非常
重要
1.7系統(tǒng)故障記錄(errorlog)
errdemon進(jìn)程在系統(tǒng)啟動時自動運(yùn)行記錄包括硬件軟件及其他操作信息
故障記錄文件為/var/adm/ras/errlog可備份下來或拷貝到別的機(jī)器上分析
errpt命令的使用(普通用戶權(quán)限也可使用)#errpt|more列出簡短出錯信息
ERROR_IDTIMESTAMPTCRESOURCE_NAMEERROR_DESCRIPTION192AC0710723100300T0errdemonErrorloggingturnedoff0E017ED107201*1000PHmem2Memoryfailure
9DBCFDEE0701000000T0errdemonErrorloggingturnedon038F25800624131000UHscdisk0UNDETERMINEDERRORAA8AB2410405130900TOOPERATOROPERATORNOTIFICATIONTIMESTAMP:MMDDHHMMYY(月日時分年
T類型:P永久;T臨時;U未知永久性的錯誤應(yīng)引起重視C分類:H硬件;S軟件;O用戶;U未知#errpt-dH列出所有硬件出錯信息#errpt-dS列出所有軟件出錯信息#errpt-ajERROR_ID列出詳細(xì)出錯信息
#errpt-aj0502f666FailureCausesADAPTER
CABLELOOSEORDEFECTIVERecommendedActions
PERFORMPROBLEMDETERMINATIONPROCEDURESCHECKCABLEANDITSCONNECTIONSDetailDataSENSEDATA
000000000000000000000000000000000000000000000000
1.8控制面板上的LED代碼
8位代碼通常系統(tǒng)故障燈會同時亮起某些機(jī)型還會同時顯示故障設(shè)備位置代碼
4位代碼通常是Exxx
3位代碼通常為0yyy只看后3位
8位和4位代碼可查看系統(tǒng)服務(wù)手冊(ServiceGuide)
3位代碼可查看系統(tǒng)診斷手冊(DiagnosticInformationforMultipleBusSystem)
閃動的888,系統(tǒng)崩潰硬件或軟件原因造成按reset鍵會顯示更多內(nèi)容888-102一般為軟件故障888-102-207例外系統(tǒng)會產(chǎn)生一個dump
888-102-xxx-0C9系統(tǒng)正在做dump,請等待888-102-xxx-0C0系統(tǒng)dump完成可關(guān)電重啟888-103或105
硬件故障一般有SRN代碼及位置代碼
1.9SMS(SystemManagementService)故障記錄
如何進(jìn)入SMS菜單
當(dāng)主控臺出現(xiàn)鍵盤圖標(biāo)后(LED顯示E1F1時)按1鍵選擇"Utilities"
選擇"ErrorLog",抄下8位故障代碼在SMS中還可以更改系統(tǒng)啟動順序表1.10MAIL
系統(tǒng)會向root用戶發(fā)mail報告出錯信息通常系統(tǒng)出現(xiàn)故障后沒有進(jìn)行檢查
修復(fù)系統(tǒng)會定時提醒root
1.11運(yùn)行故障診斷程序(Diagnostic)對系統(tǒng)硬件進(jìn)行檢
查和診斷
當(dāng)發(fā)現(xiàn)有硬件故障時應(yīng)立即使用diag#diag
>選高級診斷AdvanceDiagnostic)>選問題診斷ProblemDetermination)或選系統(tǒng)檢查SystemVerification)(選PD會對系統(tǒng)錯誤記錄進(jìn)行分析)
diag運(yùn)行后會給出SRN代碼故障設(shè)備名稱及百分比地址代碼等對于PCI機(jī)型應(yīng)在系統(tǒng)報錯7天之內(nèi)運(yùn)行diag程序?qū)Τ鲥e記錄里的sense數(shù)據(jù)進(jìn)行分析
友情提示:本文中關(guān)于《IBM小型機(jī)巡檢報告》給出的范例僅供您參考拓展思維使用,IBM小型機(jī)巡檢報告:該篇文章建議您自主創(chuàng)作。
來源:網(wǎng)絡(luò)整理 免責(zé)聲明:本文僅限學(xué)習(xí)分享,如產(chǎn)生版權(quán)問題,請聯(lián)系我們及時刪除。