AI了解

本篇文章就是用AI生成后整理的

一、人工智能概述

人工智能是一门研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的新技术科学。其最终目标是让机器能够像人一样思考、学习、推理和解决问题。

AI 的研究领域通常被划分为以下几个子领域:

  • 机器学习:让计算机无需显式编程即可从数据中学习。
  • 深度学习:机器学习的一个子集,使用包含多层(深度)结构的神经网络模型。
  • 计算机视觉:让计算机能够“看到”和理解图像和视频。
  • 自然语言处理:让计算机能够理解、解释和生成人类语言。
  • 机器人技术:将感知、决策和行动结合,使机器能够在物理世界中执行任务。

二、发展历程

  • 1950s-60s: 诞生与黄金时代
    • 达特茅斯会议(1956): AI诞生。
    • 早期乐观: 出现了简单的定理证明程序和聊天机器人ELIZA。
  • 1970s-80s: 第一次AI寒冬
    • 由于计算能力有限、数据匮乏,早期承诺无法实现,政府和企业的资助大幅减少。
  • 1980s: 专家系统兴起
    • 基于规则的系统在特定领域(如医疗诊断)取得成功,但知识获取和维护成本高。
  • 1990s-2000s: 统计学习方法与第二次AI复兴
    • 机器学习开始取代基于规则的方法。支持向量机等算法成为主流。
  • 2010s至今: 深度学习革命
    • 得益于大数据、强大的计算硬件(特别是GPU)算法突破,深度学习爆发。
    • 标志性事件
    • 2012年: AlexNet在ImageNet图像识别竞赛中取得压倒性胜利。
    • 2016年: AlphaGo在围棋上战胜李世石。
    • 2017年: Transformer架构提出,为后来的LLM爆发奠定基础。
    • 2020s: LLM与生成式AI的爆发
      • GPT-3、ChatGPT等模型的发布,展示了AI在内容生成和对话方面的惊人能力,引发了全球性的AI热潮。

三、常见名词概念解释

(1)、 基础与架构类
  1. 神经网络

    • 解释:受人类大脑结构启发的计算模型,是深度学习的基础。由大量互连的神经元(节点)组成。每个神经元接收输入,进行加权求和并通过激活函数处理,然后产生输出。网络通常包括输入层、隐藏层和输出层。数据在网络中前向传播,误差通过反向传播算法进行反向传播以调整权重。
  2. 深度学习

    • 解释:机器学习的子领域,其核心是使用包含多个隐藏层的深度神经网络。“深度”使得模型能够自动从数据中学习复杂的特征层次结构。例如,在图像识别中,浅层可能识别边缘,中层识别形状,深层则能识别完整的物体(如人脸、汽车)。
  3. Transformer

    • 解释:2017年提出的革命性模型架构,现已主导NLP领域,并扩展至CV等领域。其核心是自注意力机制,可以计算输入序列中每个词与其他所有词之间的关联权重,从而动态地捕捉全局上下文信息,并行计算效率远高于之前的RNN/LSTM。它是所有现代LLM(如GPT、BERT)的构建基石。
  4. 自注意力机制

    • 解释:Transformer的核心组件。对于序列中的每个元素(如一个词),自注意力机制会计算它与序列中所有元素(包括自身)的“注意力分数”,从而决定在处理该元素时应该“关注”其他哪些元素。这使模型能够理解词与词之间的复杂依赖关系,无论它们在序列中的距离多远。
  5. 生成式AI

    • 解释:与“判别式AI”(如图像分类)相对,指能够生成全新的、与训练数据相似的内容的AI模型。它学习数据的分布,然后从中进行采样和创造。例如,生成文本、图像、代码、音乐等。LLM扩散模型是当前最主流的生成式AI技术。
(2)、 模型类型与关键技术类
  1. LLM - 大语言模型

    • 解释:基于Transformer架构,在海量文本数据上训练而成的、拥有巨大参数量(通常达数十亿甚至万亿级)的模型。其核心能力是语言建模,即预测下一个词的概率。通过这种预训练,LLM获得了丰富的世界知识和强大的语言理解/生成能力。通过提示工程微调,可以适应各种下游任务。
  2. GPT - 生成式预训练Transformer

    • 解释:由OpenAI开发的一系列自回归(从左到右逐词生成)的LLM。其训练过程分为两步:1. 预训练:在海量文本上学习预测下一个词。2. 微调与对齐:使用指令微调和RLHF等技术,使模型能更好地遵循人类指令并生成有用、安全的回答。
  3. BERT - 双向编码器表示

    • 解释:由Google开发的一种Transformer模型。与GPT的单向不同,BERT在预训练时同时考虑上下文左右两侧的信息(双向),更适合用于理解类任务,如文本分类、问答、语义相似度判断。它通常用于提取特征,而非直接生成长文本。
  4. 扩散模型

    • 解释:当前最强的生成式模型之一,尤其在图像生成领域(如Midjourney、Stable Diffusion)。其工作原理分两个过程:1. 前向过程:逐步向训练图像添加噪声,直至完全变成随机噪声。2. 反向过程:模型学习如何从随机噪声中逐步去噪,最终还原出一张清晰的图像。生成新图像就是从随机噪声开始执行反向去噪过程。
  5. MoE - 混合专家模型

    • 解释:一种模型架构,旨在用更低的计算成本扩大模型规模。其核心思想是:对于每个输入,不是激活整个巨型网络,而是由一个“门控网络”选择少数几个“专家”子网络(如FFN)进行处理。这实现了“数万亿参数”的规模,但实际计算成本远低于此。如Mixtral 8x7B就是典型的MoE模型。
  6. NLP - 自然语言处理

    • 解释:人工智能的一个关键分支,专注于计算机与人类(自然)语言之间的交互。它涵盖了从文本和语音中理解、生成、翻译和总结信息的所有技术。常见的应用包括智能客服、机器翻译、情感分析等。
(3)、 训练与优化技术类
  1. 蒸馏 - 知识蒸馏

    • 解释:一种模型压缩技术。一个庞大、复杂但性能优异的教师模型将其“知识”(通常表现为输出层的软标签概率分布)传授给一个小巧、高效的学生模型。学生模型通过模仿教师模型的输出,力求在保持性能相近的同时,大幅减小模型体积、降低推理延迟,便于部署。
  2. 微调

    • 解释:将在一个大型通用数据集上预训练好的模型,在一个特定的、较小的目标任务数据集上进行额外训练的过程。这使得模型能够将其通用知识迁移到特定领域,用较少的数据和算力获得好效果。例如,用一个通用的LLM微调成一个法律咨询助手。
  3. RLHF - 基于人类反馈的强化学习

    • 解释:使LLM与人类价值观和偏好对齐的关键技术。其步骤通常为:
      1. 有监督微调:用人类编写的示范答案微调模型。
      2. 奖励模型训练:训练一个模型来学习人类对不同回答的偏好,并给出分数(奖励)。
      3. 强化学习微调:使用PPO等强化学习算法,根据奖励模型的反馈进一步优化LLM,使其生成更受人类偏好的回答。
  4. Prompt Engineering - 提示工程

    • 解释:设计与优化输入(提示词)的艺术和科学,以引导LLM产生最准确、最相关的输出。技巧包括:提供清晰的指令、给出少量示例、指定输出格式、思维链等。它是与LLM交互的核心技能。
  5. LoRA - 低秩自适应

    • 解释:一种高效的微调技术。它不再微调整个模型的巨大参数,而是冻结预训练模型的权重,并向模型的一些层(如Attention层)注入可训练的“适配器”模块。这些模块参数极少,但能有效适应新任务,大大降低了微调的计算和存储成本。
  6. 嵌入(Embedding)

    • 技术定义:将文字、图片等数据转化为一长串数字(向量)的技术,这个数字序列代表了其含义。
    • 解释:给每个概念分配一个独特的“身份证号码”,但这个号码能体现含义上的亲疏远近。
    • 想象一下,我们把所有词语都放到一个地图上。意思相近的词,比如“猫”和“狗”,会在地图上离得很近;意思无关的词,比如“猫”和“披萨”,就会离得很远。
    • 嵌入就是为每个词生成一个精确的“地图坐标”(一长串数字)。AI通过计算坐标之间的距离,就能知道“国王”和“男人”的关系,与“女王”和“女人”的关系是相似的。
  7. Token(词元)

    • 技术定义:模型处理文本时的基本单位,不完全是“词”,可能是字、词或子词。
    • 白话解释:想象一下,AI读句子不像我们一样一眼看整个词,而是像玩拼图乐高积木
      • 英文例子:句子 "I don't like apples." 可能会被拆成 ["I", "don", "'", "t", "like", "apples", "."] 这几个“积木块”。每个积木块就是一个 Token
      • 中文例子:句子 “我喜欢苹果。” 可能会被拆成 [“我”, “喜欢”, “苹果”, “。”] 这几个“积木块”。
    • 为什么重要:AI通过组合这些小小的“积木块”来理解和生成文字。你按字数付费的AI服务,本质上就是在为这些“积木块”付费。
(4)、 能力与评价类
  1. AGI - 人工通用智能

    • 解释:也称“强人工智能”。指具备与人类同等水平、能够理解、学习和应用其智力解决任何领域问题的AI系统。它拥有自主意识、常识推理、跨领域迁移学习等能力。当前的AI(包括最先进的LLM)均属于“弱人工智能”,AGI仍是长远目标。
  2. Alignment - 对齐

    • 解释:确保AI系统的目标和行为与人类价值观、意图和利益保持一致的研究领域。目的是防止AI出现不受控制或有害的行为。RLHF就是一种重要的对齐技术。
  3. Emergent Ability - 涌现能力

    • 解释:当模型规模(数据、参数)达到一定阈值时,突然出现的一些在较小模型中不存在的能力。例如,在代码生成、复杂推理、遵循复杂指令等方面的能力,并非被显式编程,而是从大规模数据中自发涌现出来。
  4. Hallucination - 幻觉

    • 解释:LLM生成内容时的一个显著缺陷,指模型生成看似合理但事实上不正确或毫无根据的信息。例如,编造不存在的引用、提供错误答案等。减少幻觉是当前LLM研究的重点和难点。
  5. Multimodal - 多模态

    • 解释:指能够处理和关联多种类型信息(模态)的AI模型。例如,一个多模态模型可以同时理解文本、图像、音频。像GPT-4V可以接受图像输入并回答相关问题,这就是多模态能力的体现。
(5)、 部署与运营类
  1. Inference - 推理

    • 解释:指使用训练好的模型对新的、未见过的数据进行预测或生成的过程。与“训练”阶段相对。例如,用户向ChatGPT提问,ChatGPT生成回答的过程就是推理。优化推理速度、降低延迟和成本是工程上的重要挑战。
  2. GPU / TPU

    • 解释
      • GPU:图形处理器,因其高度并行化的架构非常适合深度学习的大规模矩阵运算,已成为AI训练和推理的标配硬件。
      • TPU:张量处理器,由Google专门为神经网络运算设计的专用芯片,在某些场景下比GPU更具效率。
  3. RAG - 检索增强生成

    • 解释:一种将外部知识库与LLM相结合的技术。在回答用户问题时,先从知识库(如向量数据库)中检索相关文档片段,然后将这些片段和原始问题一起作为上下文提供给LLM,让LLM基于此生成答案。这能有效减少幻觉,并让模型能够访问其训练数据之外的最新或专有信息。

四、目前热门大模型及应用记录

理解“大模型”是什么
首先,我们简单定义一下“大模型”:
​​大语言模型​​ 是一种基于Transformer架构的巨型人工智能模型,它通过在海量文本数据上进行训练,学会了语言的统计规律。它不是一个事实数据库,而是一个“语言补全引擎”。给定一段输入(提示),它能预测出最可能跟随的下一个词、下一句话,从而生成流畅、连贯的文本。
这些模型的核心能力是​​理解自然语言​​和​​生成自然语言​​,并在此基础上发展出了​​推理​​、​​代码生成​​、​​多模态理解​​等强大能力。

当前的大模型格局可以大致分为“闭源”和“开源”两大阵营。

(一)闭源模型(通过API调用,性能强大但内部不公开)

这些模型由大型科技公司开发,通常代表了当前技术的最高水平,但用户只能通过其提供的接口(API)来使用,无法获取模型本身的权重。

  1. GPT系列(OpenAI - 微软支持)

    • 代表模型:GPT-4, GPT-4o, GPT-4 Turbo
    • 特点:是推动本轮AI浪潮的领导者。GPT-4在推理、复杂指令遵循和准确性上设立了标杆。GPT-4o是一个原生多模态模型(能直接处理文本、图像、音频),响应速度极快。ChatGPT是其最著名的对话式应用产品。
    • 最新发展:OpenAI持续迭代,专注于提升模型能力、降低使用成本。
  2. Claude系列(Anthropic)

    • 代表模型:Claude 3.5 Sonnet
    • 特点:以“更安全、更可控、更符合人类意图”为设计理念。Claude 3.5 Sonnet在推理、代码生成和多媒体内容理解(尤其是长文档处理)方面表现优异,上下文窗口极大(可达20万字),非常适合处理长文本任务。
    • 最新发展:Anthropic强调“宪法AI”原则,致力于构建可靠、可信的AI。
  3. Gemini系列(Google)

    • 代表模型:Gemini 1.5 Pro, Gemini Ultra
    • 特点:Google的旗舰模型,从设计之初就是原生多模态的,能同时理解文本、代码、音频、图像和视频。其标志性特性是巨大的上下文窗口(最高可达200万个Token),意味着它可以一次性处理极长的文档(如数小时的视频录音、数万页的书籍)。
    • 应用:深度集成在Google的搜索引擎(SGE)、Workspace(Gmail, Docs)等产品中。
(二)开源模型(可免费商用或研究,生态活跃)

开源模型允许开发者下载、修改并在自己的服务器上部署,促进了巨大的创新和应用生态。

  1. Llama系列(Meta)

    • 代表模型:Llama 2, Llama 3(8B, 70B, 405B参数版本)
    • 特点:Meta发布的Llama系列是开源领域的“基石”。Llama 3在性能上已经非常接近第一梯队的闭源模型,尤其是在推理和代码能力上。它催生了无数基于它的微调、优化版本,构成了最庞大的开源生态。
    • 重要性:绝大多数AI创业公司和开发者都基于Llama进行二次开发,以降低成本和控制数据隐私。
  2. Qwen系列(阿里巴巴-通义千问)

    • 代表模型:Qwen2.5系列(7B,72B等)
    • 特点:中国公司开发的最具国际影响力的开源模型之一。性能强劲,在多语言处理(尤其是中文)上具有天然优势,开源协议非常友好,吸引了大量开发者。
  3. DeepSeek(阿里巴巴-通义千问)

    • 代表模型:DeepSeek-R1​
    • 特点:在数学、代码、科学推理方面表现优异。
  4. 其他重要开源模型

    • Mistral(Mistral AI):一家法国公司,其开源的Mistral 7B、Mixtral 8x7B(混合专家模型)以“小体量、高性能”著称,效率极高。
    • DeepSeek(幻方方舟):国内优秀的开源模型,以其强大的代码能力和友好的开源政策闻名。
(三)主要的多模态模型(不以开源闭源为分类标准)

多模态模型能理解和生成不止一种类型的信息(如文本、图像、视频、音频)。

  1. GPT-4V(视觉版):能够根据图片进行对话、描述、推理和分析。
  2. Gemini:原生多模态,视觉理解能力极强。
  3. DALL-E 3(OpenAI)MidjourneyStable Diffusion:这些都是文生图模型的佼佼者。
    • DALL-E 3:与ChatGPT集成,提示词理解能力超强。
    • Midjourney:生成的图片艺术性和美感最佳。
    • Stable Diffusion:完全开源,催生了无数本地化部署和定制化应用。
  4. Sora(OpenAI)文生视频的颠覆性模型,能生成一分钟高质量、高一致性的视频,虽然未公开,但展示了技术的未来方向。
  5. Suno / Udio文生音乐的领先应用,能根据描述生成包含人声、旋律和乐器的完整歌曲。

这些大模型通过不同的应用形态融入我们的工作和生活。

应用形态 核心功能 代表产品 应用场景举例
1. 智能对话助手 自然、多轮对话,回答问题、提供建议 ChatGPT, Claude, Copilot, 百度文心一言,阿里通义千问,科大讯飞星火 个人学习助手、创意头脑风暴、内容摘要
2. AI搜索 理解复杂问题,直接给出答案而非链接列表 Perplexity AI, Google SGE微软Copilot(与Bing集成) 快速获取综合信息、研究某个主题
3. 代码助手 代码补全、生成、解释、调试 GitHub Copilot, Amazon CodeWhisperer, 通义灵码 提升开发者编程效率、学习新语言
4. 办公智能体 集成在办公软件中,自动化处理任务 Microsoft 365 Copilot(写Word、做PPT、分析Excel), Notion AIWPS AI 生成会议纪要、创建演示文稿、分析数据报表
5. 文生图/视频/音乐 通过文字描述生成多媒体内容 Midjourney, DALL-E 3, Runway(视频), Suno(音乐) 营销素材创作、游戏资产设计、音乐创作
6. AI智能体 能理解复杂目标,并自主调用工具完成任务 Devin(AI软件工程师), Cognition, 各类GPTs 自动化完成跨应用的工作流(如:帮我查天气并订机票)
总结与趋势
  • 格局:闭源模型(OpenAI, Anthropic, Google)在绝对性能上领先,开源模型(Meta, Mistral, 通义千问)在生态、成本和控制力上优势明显。
  • 趋势1:多模态融合:未来的模型将是原生多模态的,能无缝理解和生成文本、图像、声音和视频。
  • 趋势2:智能体化:模型从“被动应答”走向“主动执行”,能规划任务、使用工具(如浏览器、计算器)、完成复杂目标。
  • 趋势3:小型化与专业化:如何让大模型更小、更快、更便宜,并在特定领域(医疗、法律、金融)表现更专业,是当前研发的重点。

五、算法层面知识与学习路线

核心知识体系:

  1. 数学基础

    • 线性代数: 向量、矩阵、张量运算,是理解神经网络数据流动的基础。
    • 微积分: 梯度、导数,是优化算法(如梯度下降)的核心。
    • 概率论与统计学: 概率分布、最大似然估计、贝叶斯定理,是机器学习模型的理论根基。
  2. 机器学习基础

    • 监督学习: 回归(预测数值)、分类(预测类别)。
    • 无监督学习: 聚类(如K-Means)、降维(如PCA)。
    • 基本概念: 过拟合与欠拟合、偏差与方差、交叉验证、正则化。
  3. 深度学习核心

    • 神经网络基础: 感知机、激活函数、损失函数、反向传播算法。
    • 卷积神经网络: 计算机视觉的基石,擅长处理图像数据。
    • 循环神经网络及其变体: 处理序列数据(如文本、时间序列),但正逐渐被Transformer取代。
    • Transformer架构: 必须深入理解其编码器-解码器结构、自注意力机制、位置编码等。
  4. 现代高级主题

    • 生成式模型: 生成对抗网络、扩散模型(如Stable Diffusion)、自回归模型(如GPT系列)。
    • 强化学习: 智能体通过与环境交互来学习最优策略。
    • 图神经网络: 处理图结构数据(如社交网络、分子结构)。

算法层面学习路线:

  • 阶段一: 基础入门(1-3个月)

    • 目标: 掌握Python编程和基本库(NumPy, Pandas, Matplotlib)。
    • 学习: 复习线性代数、概率论基础。
    • 实践: 学习并使用Scikit-learn完成经典的机器学习项目(如鸢尾花分类、房价预测)。
  • 阶段二: 深度学习入门(3-6个月)

    • 目标: 理解神经网络原理,熟练使用深度学习框架(PyTorch或TensorFlow)。
    • 学习: 学习CNN完成图像分类任务(如CIFAR-10),学习RNN/LSTM完成文本分类或情感分析。
    • 课程: 推荐吴恩达的《机器学习》和《深度学习专项课程》。
  • 阶段三: 深入专项(6个月以上)

    • 目标: 选择一个方向深入,如NLP或CV。
    • 如果选择NLP
      • 精读Transformer论文《Attention Is All You Need》。
      • 学习Hugging Face库,使用和微调预训练模型(如BERT, GPT-2)。
      • 深入理解LLM的预训练、微调、提示工程等全流程。
    • 如果选择CV
      • 学习目标检测(YOLO)、图像分割(U-Net)等高级模型。
      • 学习扩散模型等生成式AI技术。

六、应用层面知识与学习路线

主要应用领域:

  1. 自然语言处理
    • 应用: 智能客服、机器翻译、文本摘要、情感分析、内容创作、代码生成。
  2. 计算机视觉
    • 应用: 人脸识别、自动驾驶、医疗影像分析、工业质检、图像检索。
  3. 语音技术
    • 应用: 语音助手、语音转文字、文字转语音。
  4. 推荐系统
    • 应用: 电商商品推荐、新闻资讯推送、短视频推荐。
  5. 机器人技术与自动驾驶
    • 应用: 环境感知、路径规划、决策控制。

应用层面学习路线:

  • 路线一: 成为AI应用工程师/提示工程师

    • 核心: 不侧重于从零开始创造新算法,而是善于利用现有的强大模型(尤其是API)解决实际问题。
    • 学习路径
      1. 掌握工具: 熟练使用OpenAI API、文心一言等LLM的接口,以及Hugging Face等模型库。
      2. 精通提示工程: 学习各种提示技巧,能高效地与模型交互。
      3. 构建应用: 学习Web开发框架(如FastAPI、Flask),将AI模型封装成可用的服务或产品。
      4. 项目实践: 开发一个智能问答机器人、一个AI绘画工具、一个自动生成周报的应用等。
  • 路线二: 深入行业,成为AI解决方案专家

    • 核心: 将AI技术与特定行业知识结合。
    • 学习路径
      1. 选择一个垂直领域: 如金融、医疗、教育、制造业。
      2. 理解行业痛点: 深入了解该领域的业务流程和待解决的问题。
      3. 技术选型与落地: 判断何种AI技术能解决该问题,并考虑数据隐私、部署成本等实际因素。
      4. 案例: 在金融领域做风控模型,在医疗领域做辅助诊断工具,在制造业做缺陷检测系统。

总结与展望

人工智能正在以前所未有的速度改变世界。从算法角度看,Transformer和LLM是当前的技术制高点;从应用角度看,生成式AI正在引爆一场新的生产力革命。

保持对最新技术动态的关注。AI的未来充满无限可能!