崗位職責:
1.負責 AI 算力硬件設備,包括 智算服務器、FPGA 集群等的安裝、調試工作,確保設備上線初期穩(wěn)定運行;
2.負責智算平臺系統(tǒng)的日常運維,包括訓練平臺、調度平臺等系統(tǒng)平臺的維護與監(jiān)控、故障/客訴問題排查及解決;
3.系統(tǒng)應用及數據的部署;
4.配合開發(fā)人員進行系統(tǒng)開發(fā)、實施,組織開發(fā)過程中的需求討論、變更,跟進系統(tǒng)的故障、程序BUG解決進度等;
崗位要求:
1.本科及以上學歷,計算機相關專業(yè);
2.熟悉linux操作系統(tǒng)命令,具備維護、配置、優(yōu)化和故障排除能力,和常用ssh工具進行部署和聯調;
3.熟悉nginx、docker等技術棧,掌握k8s集群管理;
4.了解國產算力服務器,可獨立搭建基礎部署環(huán)境;
5.具備豐富的AI平臺運維經驗,熟悉AI模型訓練、推理、服務部署及全生命周期管理。