工作职责: a、负责超大规模机器学习系统架构的设计开发,解决系统高并发、高可靠性、高可扩展性等技术难关;
b、覆盖机器学习系统多个子方向领域的工作,包括:资源调度、模型训练、模型推理、数据管理、工作流编排等;
c、负责机器学习系统前瞻技术的调研和引入,比如:最新硬件架构、异构计算系统、编译优化技术的引入落地;
d、与算法部门深度合作,进行算法与系统的联合优化。
职位要求
a、优秀的代码能力、数据结构和基础算法功底,熟练C/C++或Python,ACM/ICPC、NOI/IOI等比赛获奖者优先;
b、熟悉至少一种主流的机器学习框架(TensorFlow / PyTorch);
c、掌握分布式系统原理,参与过大规模分布式系统的设计、开发和维护;
d、有强烈的工作责任心,较好的学习能力、沟通能力和自驱力;
e、良好的沟通协作能力,能和团队一起探索新技术,推进技术进步。
加分项:
a、在大模型领域,参与过大影响力的项目或论文者优先;
b、熟悉NLP、CV相关的算法和技术,熟悉大模型训练、RL算法者优先;
c、有以下某一方向领域的经验:CUDA,RDMA,AI Infrastructure,HW/SW Co-Design,High Performance Computing,ML Hardware Architecture (GPU, Accelerators, Networking),ML for System,Distributed Storage。