前言

今天,畅宝给我发了几篇简历,让我突然也站在人工智能工作岗考虑了一下,作为一个面试官会考虑什么问题?同时也引发了我一些学历与工作经历之间权衡的思考。记录一下。

正文

1. 2024年应届生简历A

教育经历

211 本科 2016.09-2020.06
211 硕士 2022.09-2024.06

实习经历

xxx公司 2023.04-2023.05
数据挖掘实习生

  1. 负责商机数据库的搭建,对爬取的boss直聘、千里马招标网及APP加固数据进行清洗,补全并存储至数据库,根据关键词对岗位标题或者内容进行匹配,对公司数据进行量化,得到商机值
  2. 通过商机数据库进行商机挖掘,使用聚类算法通过构建的特征对各个公司进行聚类,将结果展示在前端,得到潜在商机大的公司群体,并通过定时更新,捕捉新出现的高商机公司,对接至销售

xxx公司 2023.05-2023.08
NLP算法实习生 人工智能应用部

  1. 处理结构化和非结构化数据,用pandas对ownthink、7lore 等开源大型知识图谱的2亿多三元组进行处理筛选,通过算法匹配战场环境相关的三元组
  2. 参与智能分析平台的构建,对实体抽取、关系抽取和事件抽取等算法进行调研和实现,并完成算法在智能分析平台上的部署
  3. 参与构建战场环境知识图谱,对标签传播、最短路径、节点重要性排序、关联分析等图谱相关算法进行调试部署
  4. 使用docker对公司智慧地球app的文本聚类、文本分类、关键词抽取、文本表示、实体抽取、词性标注及句法分析等相关算法进行调试,方便后期部署供app调用

项目经历

医疗知识问答系统搭建
项目流程如下:

  1. 收集百万医疗问答数据作为知识库,选用ChatGLM3-6b作为问答基座模型
  2. 构建数据集对text2vec-chinese-large模型进行微调。对文档进行分块处理,选用微调后的text2vec-chinese-large对分块文档进行Embedding处理,存储至向量数据库
  3. 通过文本召回和向量召回多路结合,提升相关文本召回率。通过倒数排序融合(RRF)对召回后的文本进行重排序,根据分数筛选若干文本
  4. 通过Prompt的形式将筛选后的文本和问题输送给大模型,让模型在给定文本上进行作答,改善大模型的幻觉问题
  5. 通过GPT-4对模型问答效果进行评估

专业技能

  1. 熟练使用 Python 编程,如数据处理脚本的编写和网络爬虫等,熟练使用Pandas,Numpy,Sklearn等常用库
  2. 熟练使用深度学习框架 PyTorch以及大模型开发工具 LangChain
  3. 熟悉 Linux 平台的基本操作及 Spark 的使用,熟练使用 Docker 进行算法部署
  4. 熟悉ChatGLM和LLama等大模型的基本原理及结构,熟悉大模型微调技术,如Prompt Tuning、P-Tuning、Prefix Tuning和LoRA等
  5. 熟悉自然语言处理相关算法及预训练模型,如 Transformer,Lstm,Textcnn,BERT,ALBERT,DistilBERT,GPT等
  6. 熟悉AI Agent相关原理及技术

个人总结

... 略

我给的几个面试问题

  1. 为什么选择ChatGLM-3b 作为基座模型,
  2. 你提到了大模型的幻觉问题,讲讲大模型的幻觉问题呗
  3. 最终的结果 和GPT-4比较 你是怎么比较的,你的evaluation matrix是什么,怎么知道谁好谁不好
  4. 这个langchain流程是怎么运作的吗,向量,数据库,大模型文化,答案总结,和优缺点
  5. 在比如这个航天宏图信息xxx公司 这个实习过程中,你遇到的最困难的问题是什么?你是如何解决的。
  6. 结构化和非结构化的数据,你详细描述一下你是怎么处理的,尤其是非结构化的数据,因为我确信NLP里面肯定有相当多的非结构化数据
  7. 在比如这个墨菲未来科技xxx公司 这个实习过程中,你遇到的最困难的问题是什么?你是如何解决的。
  8. 你知道市场上现在LLM的预训练模型有哪些吗,毕竟Bert Albert都感觉是上古时期的东西了
  9. 说说Transformer是什么呗
  10. 说说LLama的基本原理和结构

2. 2024年应届生简历B

教育经历

北京大学 本科 2019.09-2023.07

项目经历

基于深度神经网络的自动语音识别系统 2022.11-2023.03
在参考几个开源的ASRT模型之后,采取HMM-CNN的声学-语言模型,采取CTC作为损失函数,搭建了一个自动语音识 别系统。通过这次实践,加强了对于深度学习中几个神经网络的了解,对于tensorflow有了一定的了解。

校园技能

举办校园遥控车趣味赛 2021.03-2021.03
组织了校园遥控车趣味赛,提升了自己的沟通能力与人员组织能力。同时参与了遥控车控制算法的调试与遥控车的组 装,提升了自己的动手能力与专业能力。

北京大学学生会体育部 2019.10-2022.10
三年的时间里组织了“1024”程序员节,信科“三行情诗”等大型活动,不仅作为活动的策划与设计者,也是活动的参 与与维护者。在这期间锻炼了自己的人际交往能力与动手能力。同时也加强了自己的策划能力和组织能力。

技能特长

语言能力:能够读懂英文文献,能够使用英语进行交流、读写。
计算机:熟练掌握c++编程,对于算法有一定的了解,同时能运用python解决一些问题。
团队能力:具有丰富的团队协作与沟通经验。

荣誉证书

英语四级,听说读写能力良好,能流利的用英语进行日常交流,能快速浏览英文文档和书籍;
英语六级,能够阅读英文文献,同时熟练计算机方向的专业名词。

自我评价

... 略

我的感觉

这个没有什么好问的,简历确实不够出彩,唯一出色的估计就是教育经历了北京大学本科。之所以放这个是觉得,挺遗憾的... 这么好的第一学历,但是只在大学4年做了这些事情,挺遗憾的。毕竟清华北大是多少中国人一辈子的梦呢。

3. 2024年应届生简历C

教育经历

未知双非/211/985 本科
双非 硕士

工作项目经历

xxx公司 2022.8-2024.1
高级 NLP 算法工程师

  1. 内容风控-诈骗识别专项,主要涉及两个文本模型:色情诱导识别、色情交易识别以及一个图片编码模型:黑 库头像召回模型,均已上线提供服务;
    1. 负责该项目算法研发,承担数据准备、技术方案设计、模型训练、迭代更新改进以及基于 gunicorn+flask 的模型上线等工作;
    2. 文本模型均基于 Bert 提供风险文本识别功能,改进模型结构,使用 CNN 融合多层次特征进行分类, ACC 平均提升 4.57%;
    3. 图片编码模型基于 ViT 实现,对黑库中的图片和用户上传头像进行编码,搭建 faiss 向量库进行相似图 片召回;
  2. AIGC 探索及应用,前期带领小组成员进行歌曲风格转换(SVC)、文本到语音合成(TTS)、人脸替换、图片 生成等方向的效果调研探索,落地 Aiidol 微信小程序应用。后期主要着重于生成式大型语言模型(LLM)的 微调训练以及推理应用,落地上线 AI 佛祖和多模态情感陪伴聊天应用;
    1. 在语音生成、图像生成方面(技术调研和效果摸底):
      1. 在歌曲风格转换方向,基于 so-vits 训练孙燕姿、孙楠、周杰伦等相关歌手演唱风格模型,并部署了一
        套歌曲风格转换服务;
      2. 在文本到语音合成方向,落地 Aiidol 微信小程序应用,提供阿伦、坤坤等明星会话式语音聊天功能。前期基于 Vits 进行 TTS 语音合成,提供了基于原神-派蒙音色的高质量语音合成模型,由于 Vits 没有高 质量的开源中文预训练模型支撑,后期切换到 paddlespeech 进行小样本微调训练,并基于 paddlespeech 提供了音视频拼接合成、前后端交互功能,负责整个聊天链路流程控制;
      3. 在人脸替换方向,对 deepfake/faceswap 和 deepfake/roop 进行了探索应用,为实现定制化数字人 物数据集提供了技术手段;
      4. 在图片生成方向,基于 StabbleDiffusion1.5 和 StabbleDiffusion-XL 进行数字人物复刻,在该项目中 负责数据收集、数据清洗处理、数据集标注方法确定以及模型训练调优,基本实现人物数字复刻;
    2. 在生成式大语言模型方面(应用落地):
      1. 在生成式大型语言模型方向,对大型语言模型进行了训练微调探索以及应用落地,AI 佛祖应用已上线,多模态情感陪伴聊天应用目前仍处于开发阶段。在 AI 佛祖应用中,基于 Prompt 工程实现了诸如 AI
        佛祖解惑、AI 解梦、AI 占卜等相关功能。
      2. 在多模态情感陪伴聊天应用中,基于 Prompt 工程(RAG)和 sft 阶段的模型微调训练(全量微调和 Lora)实现可控聊天风格,基于 vllm 和 fastchat 框架进行模型部署,基于 GPT4 和人工辅助的模型效果评测 (聊天流畅度、角色一致性);
  3. 基于文本内容的用户标签画像,主要基于用户聊天内容进行用户标签画像,为推荐业务提供基于用户内容的 动态特征,第一阶段已实现用户深度会话率、充值率均提升 1.5%以上;
    1. 负责该项目的整体项目推进、算法研发,承担数据准备、技术方案设计及验证、服务上线等工作;
    2. 设计了多阶段的标签画像实现方案,第一阶段基于用户本体关键词和用户兴趣关键词进行向量(bge) 相似度计算,用于用户相关度加权推荐,第二阶段基于多维度的用户标签打标,目前第一阶段已上线;

xxx公司 2020.7-2022.8
NLP 算法工程师

  1. 研发并上线中文未成年账号识别模型,提供基于在线对话检测的未成年账号识别功能,相较基于单条文本分类模型的未成年识别准确率提升 20%+,召回率提升 45%+;
    1. 负责该项目研发,承担数据挖掘、方案设计、实验改进等工作,配合 TensorRT 和推理引擎同学完成开发上线,形成基于对话形式的内容风险检测框架;
    2. 基于 Bert 模型改进注意力,新增句子分段注意力 mask;新增 speaker embeding,融入说话人信息;修改 postion 编码,为每个句子单独分配 position 区间;修改分类层,动态使用目标句向量进行分类;
  2. 研发并上线文本多语种识别模型,结合字符域和模型识别提供多语种识别功能,迭代更新相关模型;
    1. 负责该项目研发,承担数据准备、方案设计、模型训练及调整等工作;
    2. 搭建以字符域判别为基础的文字语系识别以及 fasttext 为基础的多语系多语种识别模型,首先使用Unicode 字符域对文字语系进行判别,再通过基于本领域语料训练的 fasttext 模型对该语系下的语种进行进一步分类,即可以提供多语种输出,也可以按一定规则提供单语种输出;
  3. 承担海外风险文本识别业务,基于文本分类提供包括英语以及阿拉伯语文本风险识别功能,迭代更新相关模型;
    1. 负责该项目研发,承担数据发现、模型实验及调整、主动发现及误漏杀解决流程设计实现等工作;
    2. 前期主要使用 SVM 提供基本效果,并利用 SVM、关键词匹配、句向量匹配方式挖掘样本数据;
    3. 后期切换到 bert 进行文本分类,探索并利用 Rdrop、model ensemble 相关技术提高分类效果,利用
      Mask Loss、Label Attention 相关技术解决多标签定义相互冲突问题;
    4. 构建完整的误漏杀解决以及主动发现体系,误漏杀 case 经过自动化提词、句向量匹配获得可进行标注的目标样本,主动发现则以 bert 降阈值以及模糊分类为主;
    5. 利用 salience map 关键词提取技术、智能名单技术提高策略端解 case 能力,提供相关技术平台接口

发表论文及相关成果

一篇论文 《计算机应用》
一个国家级比赛B级证书

我的感觉

我的第一感觉是,哇这个项目好多,感觉做过很多东西,但是后来想了一下,平均2年时间3个项目,真的能做这么多东西吗。但是无论如何这份简历比前两份好很多,虽然学历是双非,但是目前的我,真的感觉学历没有工作经历项目那么的重要。因为一个好的学历应该就能带给你好的研究成果,如果你没有把握住优秀学历带给你的机会,那么你的学历将会一文不值。

总结

三份简历,三个想法。

做个记录。

参考

[1] 2024年某应届生简历A
[2] 2024年某应届生简历B
[3] 2024年某应届生简历C

Q.E.D.


立志做一个有趣的碳水化合物