AICG / RAG / 向量数据库题库

这部分是 AI 岗、平台岗、综合后端面试里很常见的“新技术基础题”。

你不用把自己讲成算法工程师,但要准备到:

我知道这些能力解决什么问题,也知道它们应该放在系统哪一层。

一、AICG 是什么

AICG 是 AI Generated Content,指利用生成式模型生成文本、图片、音频、视频、代码等内容。

二、RAG 是什么

RAG 是 Retrieval-Augmented Generation,先检索相关知识,再把检索结果作为上下文给大模型生成回答。

三、为什么需要 RAG

  • 降低幻觉
  • 提升回答与私有知识的相关性
  • 让模型能用最新业务知识

四、RAG 的基本流程

  1. 文档切片
  2. embedding
  3. 建索引
  4. 检索 topK
  5. 重排
  6. 拼装上下文
  7. 生成回答

五、embedding 是什么

embedding 是把文本、图片等内容编码成向量表示,用来表达语义相似性。

六、向量数据库解决什么问题

向量数据库主要解决语义相似检索问题,适合做知识召回、相似搜索、推荐和 RAG。

七、为什么向量数据库不能替代 MySQL

因为两者解决的问题不同:

  • MySQL:事务、关系、状态、业务主数据
  • 向量数据库:相似检索和召回

八、向量数据库和 Elasticsearch 的区别

  • Elasticsearch 更偏关键词 / 全文检索
  • 向量数据库更偏语义检索

九、RAG 最大的问题是什么

  • 切片不合理
  • 召回不准
  • 上下文太长
  • 噪音知识太多
  • 重排不足
  • 生成时没有引用约束

十、如何提升 RAG 效果

  • 更合理的切片
  • 元数据过滤
  • topK 调整
  • 重排模型
  • Query 改写
  • 引用约束
  • badcase 回流

十一、AICG 落地时要考虑什么

  • 成本
  • 时延
  • 内容安全
  • 审计
  • 可追踪
  • 人工兜底
  • 质量评估

十二、结合你的项目怎么讲

海外业务平台

你可以讲 AI 能力接入不是独立存在,而是要和鉴定、订阅、支付、后台、归因一起协作。

研发流程 AI 化

你可以讲:

  • AI 辅助单测
  • 文档梳理
  • 代码理解
  • Agent 流程

十三、技术总监最可能怎么问

1. RAG 真正难在哪里

不在接模型,而在知识治理、召回质量和上下文控制。

2. 向量库放在哪一层

放在语义召回层,不放在业务主数据层。

3. AICG 怎么真正落地

要把生成能力接进业务流程,同时补上日志、评估、审计、质量控制和人工兜底。

十四、你最适合背的总结句

我对 AICG、RAG 和向量数据库的理解,不是停留在概念,而是把它们放进系统分层里看。RAG 解决的是知识增强,向量库解决的是语义召回,生成模型解决的是输出能力,真正落地时还要把质量、成本、时延和可控性一起考虑。