前言

今天，畅宝给我发了几篇简历，让我突然也站在人工智能工作岗考虑了一下，作为一个面试官会考虑什么问题？同时也引发了我一些学历与工作经历之间权衡的思考。记录一下。

正文

1. 2024年应届生简历A

教育经历

211 本科 2016.09-2020.06
211 硕士 2022.09-2024.06

实习经历

xxx公司 2023.04-2023.05
数据挖掘实习生

负责商机数据库的搭建，对爬取的boss直聘、千里马招标网及APP加固数据进行清洗，补全并存储至数据库，根据关键词对岗位标题或者内容进行匹配，对公司数据进行量化，得到商机值
通过商机数据库进行商机挖掘，使用聚类算法通过构建的特征对各个公司进行聚类，将结果展示在前端，得到潜在商机大的公司群体，并通过定时更新，捕捉新出现的高商机公司，对接至销售

xxx公司 2023.05-2023.08
NLP算法实习生人工智能应用部

处理结构化和非结构化数据，用pandas对ownthink、7lore 等开源大型知识图谱的2亿多三元组进行处理筛选，通过算法匹配战场环境相关的三元组
参与智能分析平台的构建，对实体抽取、关系抽取和事件抽取等算法进行调研和实现，并完成算法在智能分析平台上的部署
参与构建战场环境知识图谱，对标签传播、最短路径、节点重要性排序、关联分析等图谱相关算法进行调试部署
使用docker对公司智慧地球app的文本聚类、文本分类、关键词抽取、文本表示、实体抽取、词性标注及句法分析等相关算法进行调试，方便后期部署供app调用

项目经历

医疗知识问答系统搭建
项目流程如下：

收集百万医疗问答数据作为知识库，选用ChatGLM3-6b作为问答基座模型
构建数据集对text2vec-chinese-large模型进行微调。对文档进行分块处理，选用微调后的text2vec-chinese-large对分块文档进行Embedding处理，存储至向量数据库
通过文本召回和向量召回多路结合，提升相关文本召回率。通过倒数排序融合（RRF）对召回后的文本进行重排序,根据分数筛选若干文本
通过Prompt的形式将筛选后的文本和问题输送给大模型，让模型在给定文本上进行作答，改善大模型的幻觉问题
通过GPT-4对模型问答效果进行评估

专业技能

熟练使用 Python 编程，如数据处理脚本的编写和网络爬虫等，熟练使用Pandas，Numpy，Sklearn等常用库
熟练使用深度学习框架 PyTorch以及大模型开发工具 LangChain
熟悉 Linux 平台的基本操作及 Spark 的使用，熟练使用 Docker 进行算法部署
熟悉ChatGLM和LLama等大模型的基本原理及结构，熟悉大模型微调技术，如Prompt Tuning、P-Tuning、Prefix Tuning和LoRA等
熟悉自然语言处理相关算法及预训练模型，如 Transformer，Lstm，Textcnn，BERT，ALBERT，DistilBERT，GPT等
熟悉AI Agent相关原理及技术

个人总结

... 略

对于第一份：我给的几个面试问题

为什么选择ChatGLM-3b 作为基座模型，
你提到了大模型的幻觉问题，讲讲大模型的幻觉问题呗
最终的结果和GPT-4比较你是怎么比较的，你的evaluation matrix是什么，怎么知道谁好谁不好
这个langchain流程是怎么运作的吗，向量，数据库，大模型文化，答案总结，和优缺点
在比如这个航天宏图信息xxx公司这个实习过程中，你遇到的最困难的问题是什么？你是如何解决的。
结构化和非结构化的数据，你详细描述一下你是怎么处理的，尤其是非结构化的数据，因为我确信NLP里面肯定有相当多的非结构化数据
在比如这个墨菲未来科技xxx公司这个实习过程中，你遇到的最困难的问题是什么？你是如何解决的。
你知道市场上现在LLM的预训练模型有哪些吗，毕竟Bert Albert都感觉是上古时期的东西了
说说Transformer是什么呗
说说LLama的基本原理和结构

2. 2024年应届生简历B

教育经历

北京大学本科 2019.09-2023.07

项目经历

基于深度神经网络的自动语音识别系统 2022.11-2023.03
在参考几个开源的ASRT模型之后，采取HMM-CNN的声学-语言模型，采取CTC作为损失函数，搭建了一个自动语音识别系统。通过这次实践，加强了对于深度学习中几个神经网络的了解，对于tensorflow有了一定的了解。

校园技能

举办校园遥控车趣味赛 2021.03-2021.03
组织了校园遥控车趣味赛，提升了自己的沟通能力与人员组织能力。同时参与了遥控车控制算法的调试与遥控车的组装，提升了自己的动手能力与专业能力。

北京大学学生会体育部 2019.10-2022.10
三年的时间里组织了“1024”程序员节，信科“三行情诗”等大型活动，不仅作为活动的策划与设计者，也是活动的参与与维护者。在这期间锻炼了自己的人际交往能力与动手能力。同时也加强了自己的策划能力和组织能力。

技能特长

语言能力:能够读懂英文文献，能够使用英语进行交流、读写。
计算机:熟练掌握c++编程，对于算法有一定的了解，同时能运用python解决一些问题。
团队能力:具有丰富的团队协作与沟通经验。

荣誉证书

英语四级，听说读写能力良好，能流利的用英语进行日常交流，能快速浏览英文文档和书籍;
英语六级，能够阅读英文文献，同时熟练计算机方向的专业名词。

自我评价

... 略

对于第二份：我的感觉

这个没有什么好问的，简历确实不够出彩，唯一出色的估计就是教育经历了北京大学本科。之所以放这个是觉得，挺遗憾的... 这么好的第一学历，但是只在大学4年做了这些事情，挺遗憾的。毕竟清华北大是多少中国人一辈子的梦呢。

3. 2024年应届生简历C

教育经历

未知双非/211/985 本科
双非硕士

工作项目经历

xxx公司 2022.8-2024.1
高级 NLP 算法工程师

内容风控-诈骗识别专项，主要涉及两个文本模型:色情诱导识别、色情交易识别以及一个图片编码模型:黑库头像召回模型，均已上线提供服务;
1. 负责该项目算法研发，承担数据准备、技术方案设计、模型训练、迭代更新改进以及基于 gunicorn+flask 的模型上线等工作;
2. 文本模型均基于 Bert 提供风险文本识别功能，改进模型结构，使用 CNN 融合多层次特征进行分类， ACC 平均提升 4.57%;
3. 图片编码模型基于 ViT 实现，对黑库中的图片和用户上传头像进行编码，搭建 faiss 向量库进行相似图片召回;
AIGC 探索及应用，前期带领小组成员进行歌曲风格转换(SVC)、文本到语音合成(TTS)、人脸替换、图片生成等方向的效果调研探索，落地 Aiidol 微信小程序应用。后期主要着重于生成式大型语言模型(LLM)的微调训练以及推理应用，落地上线 AI 佛祖和多模态情感陪伴聊天应用;
1. 在语音生成、图像生成方面(技术调研和效果摸底):
  1. 在歌曲风格转换方向，基于 so-vits 训练孙燕姿、孙楠、周杰伦等相关歌手演唱风格模型，并部署了一
    套歌曲风格转换服务;
  2. 在文本到语音合成方向，落地 Aiidol 微信小程序应用，提供阿伦、坤坤等明星会话式语音聊天功能。前期基于 Vits 进行 TTS 语音合成，提供了基于原神-派蒙音色的高质量语音合成模型，由于 Vits 没有高质量的开源中文预训练模型支撑，后期切换到 paddlespeech 进行小样本微调训练，并基于 paddlespeech 提供了音视频拼接合成、前后端交互功能，负责整个聊天链路流程控制;
  3. 在人脸替换方向，对 deepfake/faceswap 和 deepfake/roop 进行了探索应用，为实现定制化数字人物数据集提供了技术手段;
  4. 在图片生成方向，基于 StabbleDiffusion1.5 和 StabbleDiffusion-XL 进行数字人物复刻，在该项目中负责数据收集、数据清洗处理、数据集标注方法确定以及模型训练调优，基本实现人物数字复刻;
2. 在生成式大语言模型方面(应用落地):
  1. 在生成式大型语言模型方向，对大型语言模型进行了训练微调探索以及应用落地，AI 佛祖应用已上线，多模态情感陪伴聊天应用目前仍处于开发阶段。在 AI 佛祖应用中，基于 Prompt 工程实现了诸如 AI
    佛祖解惑、AI 解梦、AI 占卜等相关功能。
  2. 在多模态情感陪伴聊天应用中，基于 Prompt 工程(RAG)和 sft 阶段的模型微调训练(全量微调和 Lora)实现可控聊天风格，基于 vllm 和 fastchat 框架进行模型部署，基于 GPT4 和人工辅助的模型效果评测 (聊天流畅度、角色一致性);
基于文本内容的用户标签画像，主要基于用户聊天内容进行用户标签画像，为推荐业务提供基于用户内容的动态特征，第一阶段已实现用户深度会话率、充值率均提升 1.5%以上;
1. 负责该项目的整体项目推进、算法研发，承担数据准备、技术方案设计及验证、服务上线等工作;
2. 设计了多阶段的标签画像实现方案，第一阶段基于用户本体关键词和用户兴趣关键词进行向量(bge) 相似度计算，用于用户相关度加权推荐，第二阶段基于多维度的用户标签打标，目前第一阶段已上线;

xxx公司 2020.7-2022.8
NLP 算法工程师

研发并上线中文未成年账号识别模型，提供基于在线对话检测的未成年账号识别功能，相较基于单条文本分类模型的未成年识别准确率提升 20%+，召回率提升 45%+;
1. 负责该项目研发，承担数据挖掘、方案设计、实验改进等工作，配合 TensorRT 和推理引擎同学完成开发上线，形成基于对话形式的内容风险检测框架;
2. 基于 Bert 模型改进注意力，新增句子分段注意力 mask;新增 speaker embeding，融入说话人信息;修改 postion 编码，为每个句子单独分配 position 区间;修改分类层，动态使用目标句向量进行分类;
研发并上线文本多语种识别模型，结合字符域和模型识别提供多语种识别功能，迭代更新相关模型;
1. 负责该项目研发，承担数据准备、方案设计、模型训练及调整等工作;
2. 搭建以字符域判别为基础的文字语系识别以及 fasttext 为基础的多语系多语种识别模型，首先使用Unicode 字符域对文字语系进行判别，再通过基于本领域语料训练的 fasttext 模型对该语系下的语种进行进一步分类，即可以提供多语种输出，也可以按一定规则提供单语种输出;
承担海外风险文本识别业务，基于文本分类提供包括英语以及阿拉伯语文本风险识别功能，迭代更新相关模型;
1. 负责该项目研发，承担数据发现、模型实验及调整、主动发现及误漏杀解决流程设计实现等工作;
2. 前期主要使用 SVM 提供基本效果，并利用 SVM、关键词匹配、句向量匹配方式挖掘样本数据;
3. 后期切换到 bert 进行文本分类，探索并利用 Rdrop、model ensemble 相关技术提高分类效果，利用
  Mask Loss、Label Attention 相关技术解决多标签定义相互冲突问题;
4. 构建完整的误漏杀解决以及主动发现体系，误漏杀 case 经过自动化提词、句向量匹配获得可进行标注的目标样本，主动发现则以 bert 降阈值以及模糊分类为主;
5. 利用 salience map 关键词提取技术、智能名单技术提高策略端解 case 能力，提供相关技术平台接口

发表论文及相关成果

一篇论文《计算机应用》
一个国家级比赛B级证书

对于第三份：我的感觉

我的第一感觉是，哇这个项目好多，感觉做过很多东西，但是后来想了一下，平均2年时间3个项目，真的能做这么多东西吗。但是无论如何这份简历比前两份好很多，虽然学历是双非，但是目前的我，真的感觉学历没有工作经历项目那么的重要。因为一个好的学历应该就能带给你好的研究成果，如果你没有把握住优秀学历带给你的机会，那么你的学历将会一文不值。

总结

三份简历，三个想法。

做个记录。

参考

[1] 2024年某应届生简历A
[2] 2024年某应届生简历B
[3] 2024年某应届生简历C

Q.E.D.

Sean ZOU

星星の小窝

[人工智能] 三份简历面试，一些思考。

前言

正文

1. 2024年应届生简历A

教育经历

实习经历

项目经历

专业技能

个人总结

对于第一份：我给的几个面试问题

2. 2024年应届生简历B

教育经历

项目经历

校园技能

技能特长

荣誉证书

自我评价

对于第二份：我的感觉

3. 2024年应届生简历C

教育经历

工作项目经历

发表论文及相关成果

对于第三份：我的感觉

总结

参考

[无敌小白版] Ubuntu 之安装NI USB-6351的驱动和 Labview

[计算机科学] MyGPT ChatGPT prompt engineering 模型记录

Sean

星星の小窝

Sean ZOU

前言

正文

1. 2024年应届生简历A

教育经历

实习经历

项目经历

专业技能

个人总结

对于第一份：我给的几个面试问题

2. 2024年应届生简历B

教育经历

项目经历

校园技能

技能特长

荣誉证书

自我评价

对于第二份：我的感觉

3. 2024年应届生简历C

教育经历

工作项目经历

发表论文及相关成果

对于第三份：我的感觉

总结

参考

[无敌小白版] Ubuntu 之 安装NI USB-6351的驱动 和 Labview

[计算机科学] MyGPT ChatGPT prompt engineering 模型记录

Sean

星星の小窝

[无敌小白版] Ubuntu 之安装NI USB-6351的驱动和 Labview