崗位職責:
1.負責 AI 算力硬件設(shè)備,包括 智算服務器、FPGA 集群等的安裝、調(diào)試工作,確保設(shè)備上線初期穩(wěn)定運行;
2.負責智算平臺系統(tǒng)的日常運維,包括訓練平臺、調(diào)度平臺等系統(tǒng)平臺的維護與監(jiān)控、故障/客訴問題排查及解決;
3.系統(tǒng)應用及數(shù)據(jù)的部署;
4.配合開發(fā)人員進行系統(tǒng)開發(fā)、實施,組織開發(fā)過程中的需求討論、變更,跟進系統(tǒng)的故障、程序BUG解決進度等;
崗位要求:
1.本科及以上學歷,計算機相關(guān)專業(yè);
2.熟悉linux操作系統(tǒng)命令,具備維護、配置、優(yōu)化和故障排除能力,和常用ssh工具進行部署和聯(lián)調(diào);
3.熟悉nginx、docker等技術(shù)棧,掌握k8s集群管理;
4.了解國產(chǎn)算力服務器,可獨立搭建基礎(chǔ)部署環(huán)境;
5.具備豐富的AI平臺運維經(jīng)驗,熟悉AI模型訓練、推理、服務部署及全生命周期管理。