AI基础概念
AI了解
本篇文章就是用AI生成后整理的
一、人工智能概述
人工智能是一门研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的新技术科学。其最终目标是让机器能够像人一样思考、学习、推理和解决问题。
AI 的研究领域通常被划分为以下几个子领域:
- 机器学习:让计算机无需显式编程即可从数据中学习。
- 深度学习:机器学习的一个子集,使用包含多层(深度)结构的神经网络模型。
- 计算机视觉:让计算机能够“看到”和理解图像和视频。
- 自然语言处理:让计算机能够理解、解释和生成人类语言。
- 机器人技术:将感知、决策和行动结合,使机器能够在物理世界中执行任务。
二、发展历程
- 1950s-60s: 诞生与黄金时代- 达特茅斯会议(1956): AI诞生。
- 早期乐观: 出现了简单的定理证明程序和聊天机器人ELIZA。
 
- 1970s-80s: 第一次AI寒冬- 由于计算能力有限、数据匮乏,早期承诺无法实现,政府和企业的资助大幅减少。
 
- 1980s: 专家系统兴起- 基于规则的系统在特定领域(如医疗诊断)取得成功,但知识获取和维护成本高。
 
- 1990s-2000s: 统计学习方法与第二次AI复兴- 机器学习开始取代基于规则的方法。支持向量机等算法成为主流。
 
- 2010s至今: 深度学习革命- 得益于大数据、强大的计算硬件(特别是GPU) 和算法突破,深度学习爆发。
- 标志性事件:
- 2012年: AlexNet在ImageNet图像识别竞赛中取得压倒性胜利。
- 2016年: AlphaGo在围棋上战胜李世石。
- 2017年: Transformer架构提出,为后来的LLM爆发奠定基础。
- 2020s: LLM与生成式AI的爆发- GPT-3、ChatGPT等模型的发布,展示了AI在内容生成和对话方面的惊人能力,引发了全球性的AI热潮。
 
 
三、常见名词概念解释
(1)、 基础与架构类
- 神经网络 - 解释:受人类大脑结构启发的计算模型,是深度学习的基础。由大量互连的神经元(节点)组成。每个神经元接收输入,进行加权求和并通过激活函数处理,然后产生输出。网络通常包括输入层、隐藏层和输出层。数据在网络中前向传播,误差通过反向传播算法进行反向传播以调整权重。
 
- 深度学习 - 解释:机器学习的子领域,其核心是使用包含多个隐藏层的深度神经网络。“深度”使得模型能够自动从数据中学习复杂的特征层次结构。例如,在图像识别中,浅层可能识别边缘,中层识别形状,深层则能识别完整的物体(如人脸、汽车)。
 
- Transformer - 解释:2017年提出的革命性模型架构,现已主导NLP领域,并扩展至CV等领域。其核心是自注意力机制,可以计算输入序列中每个词与其他所有词之间的关联权重,从而动态地捕捉全局上下文信息,并行计算效率远高于之前的RNN/LSTM。它是所有现代LLM(如GPT、BERT)的构建基石。
 
- 自注意力机制 - 解释:Transformer的核心组件。对于序列中的每个元素(如一个词),自注意力机制会计算它与序列中所有元素(包括自身)的“注意力分数”,从而决定在处理该元素时应该“关注”其他哪些元素。这使模型能够理解词与词之间的复杂依赖关系,无论它们在序列中的距离多远。
 
- 生成式AI - 解释:与“判别式AI”(如图像分类)相对,指能够生成全新的、与训练数据相似的内容的AI模型。它学习数据的分布,然后从中进行采样和创造。例如,生成文本、图像、代码、音乐等。LLM和扩散模型是当前最主流的生成式AI技术。
 
(2)、 模型类型与关键技术类
- LLM - 大语言模型 - 解释:基于Transformer架构,在海量文本数据上训练而成的、拥有巨大参数量(通常达数十亿甚至万亿级)的模型。其核心能力是语言建模,即预测下一个词的概率。通过这种预训练,LLM获得了丰富的世界知识和强大的语言理解/生成能力。通过提示工程和微调,可以适应各种下游任务。
 
- GPT - 生成式预训练Transformer - 解释:由OpenAI开发的一系列自回归(从左到右逐词生成)的LLM。其训练过程分为两步:1. 预训练:在海量文本上学习预测下一个词。2. 微调与对齐:使用指令微调和RLHF等技术,使模型能更好地遵循人类指令并生成有用、安全的回答。
 
- BERT - 双向编码器表示 - 解释:由Google开发的一种Transformer模型。与GPT的单向不同,BERT在预训练时同时考虑上下文左右两侧的信息(双向),更适合用于理解类任务,如文本分类、问答、语义相似度判断。它通常用于提取特征,而非直接生成长文本。
 
- 扩散模型 - 解释:当前最强的生成式模型之一,尤其在图像生成领域(如Midjourney、Stable Diffusion)。其工作原理分两个过程:1. 前向过程:逐步向训练图像添加噪声,直至完全变成随机噪声。2. 反向过程:模型学习如何从随机噪声中逐步去噪,最终还原出一张清晰的图像。生成新图像就是从随机噪声开始执行反向去噪过程。
 
- MoE - 混合专家模型 - 解释:一种模型架构,旨在用更低的计算成本扩大模型规模。其核心思想是:对于每个输入,不是激活整个巨型网络,而是由一个“门控网络”选择少数几个“专家”子网络(如FFN)进行处理。这实现了“数万亿参数”的规模,但实际计算成本远低于此。如Mixtral 8x7B就是典型的MoE模型。
 
- NLP - 自然语言处理 - 解释:人工智能的一个关键分支,专注于计算机与人类(自然)语言之间的交互。它涵盖了从文本和语音中理解、生成、翻译和总结信息的所有技术。常见的应用包括智能客服、机器翻译、情感分析等。
 
(3)、 训练与优化技术类
- 蒸馏 - 知识蒸馏 - 解释:一种模型压缩技术。一个庞大、复杂但性能优异的教师模型将其“知识”(通常表现为输出层的软标签概率分布)传授给一个小巧、高效的学生模型。学生模型通过模仿教师模型的输出,力求在保持性能相近的同时,大幅减小模型体积、降低推理延迟,便于部署。
 
- 微调 - 解释:将在一个大型通用数据集上预训练好的模型,在一个特定的、较小的目标任务数据集上进行额外训练的过程。这使得模型能够将其通用知识迁移到特定领域,用较少的数据和算力获得好效果。例如,用一个通用的LLM微调成一个法律咨询助手。
 
- RLHF - 基于人类反馈的强化学习 - 解释:使LLM与人类价值观和偏好对齐的关键技术。其步骤通常为:- 有监督微调:用人类编写的示范答案微调模型。
- 奖励模型训练:训练一个模型来学习人类对不同回答的偏好,并给出分数(奖励)。
- 强化学习微调:使用PPO等强化学习算法,根据奖励模型的反馈进一步优化LLM,使其生成更受人类偏好的回答。
 
 
- 解释:使LLM与人类价值观和偏好对齐的关键技术。其步骤通常为:
- Prompt Engineering - 提示工程 - 解释:设计与优化输入(提示词)的艺术和科学,以引导LLM产生最准确、最相关的输出。技巧包括:提供清晰的指令、给出少量示例、指定输出格式、思维链等。它是与LLM交互的核心技能。
 
- LoRA - 低秩自适应 - 解释:一种高效的微调技术。它不再微调整个模型的巨大参数,而是冻结预训练模型的权重,并向模型的一些层(如Attention层)注入可训练的“适配器”模块。这些模块参数极少,但能有效适应新任务,大大降低了微调的计算和存储成本。
 
- 嵌入(Embedding) - 技术定义:将文字、图片等数据转化为一长串数字(向量)的技术,这个数字序列代表了其含义。
- 解释:给每个概念分配一个独特的“身份证号码”,但这个号码能体现含义上的亲疏远近。
- 想象一下,我们把所有词语都放到一个地图上。意思相近的词,比如“猫”和“狗”,会在地图上离得很近;意思无关的词,比如“猫”和“披萨”,就会离得很远。
- 嵌入就是为每个词生成一个精确的“地图坐标”(一长串数字)。AI通过计算坐标之间的距离,就能知道“国王”和“男人”的关系,与“女王”和“女人”的关系是相似的。
 
- Token(词元) - 技术定义:模型处理文本时的基本单位,不完全是“词”,可能是字、词或子词。
- 白话解释:想象一下,AI读句子不像我们一样一眼看整个词,而是像玩拼图或乐高积木。- 英文例子:句子 "I don't like apples."可能会被拆成["I", "don", "'", "t", "like", "apples", "."]这几个“积木块”。每个积木块就是一个 Token。
- 中文例子:句子 “我喜欢苹果。”可能会被拆成[“我”, “喜欢”, “苹果”, “。”]这几个“积木块”。
 
- 英文例子:句子 
- 为什么重要:AI通过组合这些小小的“积木块”来理解和生成文字。你按字数付费的AI服务,本质上就是在为这些“积木块”付费。
 
(4)、 能力与评价类
- AGI - 人工通用智能 - 解释:也称“强人工智能”。指具备与人类同等水平、能够理解、学习和应用其智力解决任何领域问题的AI系统。它拥有自主意识、常识推理、跨领域迁移学习等能力。当前的AI(包括最先进的LLM)均属于“弱人工智能”,AGI仍是长远目标。
 
- Alignment - 对齐 - 解释:确保AI系统的目标和行为与人类价值观、意图和利益保持一致的研究领域。目的是防止AI出现不受控制或有害的行为。RLHF就是一种重要的对齐技术。
 
- Emergent Ability - 涌现能力 - 解释:当模型规模(数据、参数)达到一定阈值时,突然出现的一些在较小模型中不存在的能力。例如,在代码生成、复杂推理、遵循复杂指令等方面的能力,并非被显式编程,而是从大规模数据中自发涌现出来。
 
- Hallucination - 幻觉 - 解释:LLM生成内容时的一个显著缺陷,指模型生成看似合理但事实上不正确或毫无根据的信息。例如,编造不存在的引用、提供错误答案等。减少幻觉是当前LLM研究的重点和难点。
 
- Multimodal - 多模态 - 解释:指能够处理和关联多种类型信息(模态)的AI模型。例如,一个多模态模型可以同时理解文本、图像、音频。像GPT-4V可以接受图像输入并回答相关问题,这就是多模态能力的体现。
 
(5)、 部署与运营类
- Inference - 推理 - 解释:指使用训练好的模型对新的、未见过的数据进行预测或生成的过程。与“训练”阶段相对。例如,用户向ChatGPT提问,ChatGPT生成回答的过程就是推理。优化推理速度、降低延迟和成本是工程上的重要挑战。
 
- GPU / TPU - 解释:- GPU:图形处理器,因其高度并行化的架构非常适合深度学习的大规模矩阵运算,已成为AI训练和推理的标配硬件。
- TPU:张量处理器,由Google专门为神经网络运算设计的专用芯片,在某些场景下比GPU更具效率。
 
 
- 解释:
- RAG - 检索增强生成 - 解释:一种将外部知识库与LLM相结合的技术。在回答用户问题时,先从知识库(如向量数据库)中检索相关文档片段,然后将这些片段和原始问题一起作为上下文提供给LLM,让LLM基于此生成答案。这能有效减少幻觉,并让模型能够访问其训练数据之外的最新或专有信息。
 
四、目前热门大模型及应用记录
理解“大模型”是什么
首先,我们简单定义一下“大模型”:
大语言模型 是一种基于Transformer架构的巨型人工智能模型,它通过在海量文本数据上进行训练,学会了语言的统计规律。它不是一个事实数据库,而是一个“语言补全引擎”。给定一段输入(提示),它能预测出最可能跟随的下一个词、下一句话,从而生成流畅、连贯的文本。
这些模型的核心能力是理解自然语言和生成自然语言,并在此基础上发展出了推理、代码生成、多模态理解等强大能力。
当前的大模型格局可以大致分为“闭源”和“开源”两大阵营。
(一)闭源模型(通过API调用,性能强大但内部不公开)
这些模型由大型科技公司开发,通常代表了当前技术的最高水平,但用户只能通过其提供的接口(API)来使用,无法获取模型本身的权重。
- GPT系列(OpenAI - 微软支持) - 代表模型:GPT-4, GPT-4o, GPT-4 Turbo
- 特点:是推动本轮AI浪潮的领导者。GPT-4在推理、复杂指令遵循和准确性上设立了标杆。GPT-4o是一个原生多模态模型(能直接处理文本、图像、音频),响应速度极快。ChatGPT是其最著名的对话式应用产品。
- 最新发展:OpenAI持续迭代,专注于提升模型能力、降低使用成本。
 
- Claude系列(Anthropic) - 代表模型:Claude 3.5 Sonnet
- 特点:以“更安全、更可控、更符合人类意图”为设计理念。Claude 3.5 Sonnet在推理、代码生成和多媒体内容理解(尤其是长文档处理)方面表现优异,上下文窗口极大(可达20万字),非常适合处理长文本任务。
- 最新发展:Anthropic强调“宪法AI”原则,致力于构建可靠、可信的AI。
 
- Gemini系列(Google) - 代表模型:Gemini 1.5 Pro, Gemini Ultra
- 特点:Google的旗舰模型,从设计之初就是原生多模态的,能同时理解文本、代码、音频、图像和视频。其标志性特性是巨大的上下文窗口(最高可达200万个Token),意味着它可以一次性处理极长的文档(如数小时的视频录音、数万页的书籍)。
- 应用:深度集成在Google的搜索引擎(SGE)、Workspace(Gmail, Docs)等产品中。
 
(二)开源模型(可免费商用或研究,生态活跃)
开源模型允许开发者下载、修改并在自己的服务器上部署,促进了巨大的创新和应用生态。
- Llama系列(Meta) - 代表模型:Llama 2, Llama 3(8B, 70B, 405B参数版本)
- 特点:Meta发布的Llama系列是开源领域的“基石”。Llama 3在性能上已经非常接近第一梯队的闭源模型,尤其是在推理和代码能力上。它催生了无数基于它的微调、优化版本,构成了最庞大的开源生态。
- 重要性:绝大多数AI创业公司和开发者都基于Llama进行二次开发,以降低成本和控制数据隐私。
 
- Qwen系列(阿里巴巴-通义千问) - 代表模型:Qwen2.5系列(7B,72B等)
- 特点:中国公司开发的最具国际影响力的开源模型之一。性能强劲,在多语言处理(尤其是中文)上具有天然优势,开源协议非常友好,吸引了大量开发者。
 
- DeepSeek(阿里巴巴-通义千问) - 代表模型:DeepSeek-R1
- 特点:在数学、代码、科学推理方面表现优异。
 
- 其他重要开源模型: - Mistral(Mistral AI):一家法国公司,其开源的Mistral 7B、Mixtral 8x7B(混合专家模型)以“小体量、高性能”著称,效率极高。
- DeepSeek(幻方方舟):国内优秀的开源模型,以其强大的代码能力和友好的开源政策闻名。
 
(三)主要的多模态模型(不以开源闭源为分类标准)
多模态模型能理解和生成不止一种类型的信息(如文本、图像、视频、音频)。
- GPT-4V(视觉版):能够根据图片进行对话、描述、推理和分析。
- Gemini:原生多模态,视觉理解能力极强。
- DALL-E 3(OpenAI)、Midjourney、Stable Diffusion:这些都是文生图模型的佼佼者。- DALL-E 3:与ChatGPT集成,提示词理解能力超强。
- Midjourney:生成的图片艺术性和美感最佳。
- Stable Diffusion:完全开源,催生了无数本地化部署和定制化应用。
 
- Sora(OpenAI):文生视频的颠覆性模型,能生成一分钟高质量、高一致性的视频,虽然未公开,但展示了技术的未来方向。
- Suno / Udio:文生音乐的领先应用,能根据描述生成包含人声、旋律和乐器的完整歌曲。
这些大模型通过不同的应用形态融入我们的工作和生活。
| 应用形态 | 核心功能 | 代表产品 | 应用场景举例 | 
|---|---|---|---|
| 1. 智能对话助手 | 自然、多轮对话,回答问题、提供建议 | ChatGPT, Claude, Copilot, 百度文心一言,阿里通义千问,科大讯飞星火 | 个人学习助手、创意头脑风暴、内容摘要 | 
| 2. AI搜索 | 理解复杂问题,直接给出答案而非链接列表 | Perplexity AI, Google SGE, 微软Copilot(与Bing集成) | 快速获取综合信息、研究某个主题 | 
| 3. 代码助手 | 代码补全、生成、解释、调试 | GitHub Copilot, Amazon CodeWhisperer, 通义灵码 | 提升开发者编程效率、学习新语言 | 
| 4. 办公智能体 | 集成在办公软件中,自动化处理任务 | Microsoft 365 Copilot(写Word、做PPT、分析Excel), Notion AI, WPS AI | 生成会议纪要、创建演示文稿、分析数据报表 | 
| 5. 文生图/视频/音乐 | 通过文字描述生成多媒体内容 | Midjourney, DALL-E 3, Runway(视频), Suno(音乐) | 营销素材创作、游戏资产设计、音乐创作 | 
| 6. AI智能体 | 能理解复杂目标,并自主调用工具完成任务 | Devin(AI软件工程师), Cognition, 各类GPTs | 自动化完成跨应用的工作流(如:帮我查天气并订机票) | 
总结与趋势
- 格局:闭源模型(OpenAI, Anthropic, Google)在绝对性能上领先,开源模型(Meta, Mistral, 通义千问)在生态、成本和控制力上优势明显。
- 趋势1:多模态融合:未来的模型将是原生多模态的,能无缝理解和生成文本、图像、声音和视频。
- 趋势2:智能体化:模型从“被动应答”走向“主动执行”,能规划任务、使用工具(如浏览器、计算器)、完成复杂目标。
- 趋势3:小型化与专业化:如何让大模型更小、更快、更便宜,并在特定领域(医疗、法律、金融)表现更专业,是当前研发的重点。
五、算法层面知识与学习路线
核心知识体系:
- 数学基础: - 线性代数: 向量、矩阵、张量运算,是理解神经网络数据流动的基础。
- 微积分: 梯度、导数,是优化算法(如梯度下降)的核心。
- 概率论与统计学: 概率分布、最大似然估计、贝叶斯定理,是机器学习模型的理论根基。
 
- 机器学习基础: - 监督学习: 回归(预测数值)、分类(预测类别)。
- 无监督学习: 聚类(如K-Means)、降维(如PCA)。
- 基本概念: 过拟合与欠拟合、偏差与方差、交叉验证、正则化。
 
- 深度学习核心: - 神经网络基础: 感知机、激活函数、损失函数、反向传播算法。
- 卷积神经网络: 计算机视觉的基石,擅长处理图像数据。
- 循环神经网络及其变体: 处理序列数据(如文本、时间序列),但正逐渐被Transformer取代。
- Transformer架构: 必须深入理解其编码器-解码器结构、自注意力机制、位置编码等。
 
- 现代高级主题: - 生成式模型: 生成对抗网络、扩散模型(如Stable Diffusion)、自回归模型(如GPT系列)。
- 强化学习: 智能体通过与环境交互来学习最优策略。
- 图神经网络: 处理图结构数据(如社交网络、分子结构)。
 
算法层面学习路线:
- 阶段一: 基础入门(1-3个月) - 目标: 掌握Python编程和基本库(NumPy, Pandas, Matplotlib)。
- 学习: 复习线性代数、概率论基础。
- 实践: 学习并使用Scikit-learn完成经典的机器学习项目(如鸢尾花分类、房价预测)。
 
- 阶段二: 深度学习入门(3-6个月) - 目标: 理解神经网络原理,熟练使用深度学习框架(PyTorch或TensorFlow)。
- 学习: 学习CNN完成图像分类任务(如CIFAR-10),学习RNN/LSTM完成文本分类或情感分析。
- 课程: 推荐吴恩达的《机器学习》和《深度学习专项课程》。
 
- 阶段三: 深入专项(6个月以上) - 目标: 选择一个方向深入,如NLP或CV。
- 如果选择NLP:- 精读Transformer论文《Attention Is All You Need》。
- 学习Hugging Face库,使用和微调预训练模型(如BERT, GPT-2)。
- 深入理解LLM的预训练、微调、提示工程等全流程。
 
- 如果选择CV:- 学习目标检测(YOLO)、图像分割(U-Net)等高级模型。
- 学习扩散模型等生成式AI技术。
 
 
六、应用层面知识与学习路线
主要应用领域:
- 自然语言处理:- 应用: 智能客服、机器翻译、文本摘要、情感分析、内容创作、代码生成。
 
- 计算机视觉:- 应用: 人脸识别、自动驾驶、医疗影像分析、工业质检、图像检索。
 
- 语音技术:- 应用: 语音助手、语音转文字、文字转语音。
 
- 推荐系统:- 应用: 电商商品推荐、新闻资讯推送、短视频推荐。
 
- 机器人技术与自动驾驶:- 应用: 环境感知、路径规划、决策控制。
 
应用层面学习路线:
- 路线一: 成为AI应用工程师/提示工程师 - 核心: 不侧重于从零开始创造新算法,而是善于利用现有的强大模型(尤其是API)解决实际问题。
- 学习路径:- 掌握工具: 熟练使用OpenAI API、文心一言等LLM的接口,以及Hugging Face等模型库。
- 精通提示工程: 学习各种提示技巧,能高效地与模型交互。
- 构建应用: 学习Web开发框架(如FastAPI、Flask),将AI模型封装成可用的服务或产品。
- 项目实践: 开发一个智能问答机器人、一个AI绘画工具、一个自动生成周报的应用等。
 
 
- 路线二: 深入行业,成为AI解决方案专家 - 核心: 将AI技术与特定行业知识结合。
- 学习路径:- 选择一个垂直领域: 如金融、医疗、教育、制造业。
- 理解行业痛点: 深入了解该领域的业务流程和待解决的问题。
- 技术选型与落地: 判断何种AI技术能解决该问题,并考虑数据隐私、部署成本等实际因素。
- 案例: 在金融领域做风控模型,在医疗领域做辅助诊断工具,在制造业做缺陷检测系统。
 
 
总结与展望
人工智能正在以前所未有的速度改变世界。从算法角度看,Transformer和LLM是当前的技术制高点;从应用角度看,生成式AI正在引爆一场新的生产力革命。
保持对最新技术动态的关注。AI的未来充满无限可能!
