机器学习发展史:从传统算法到 Transformer 时代

机器学习的发展跨越了数十年,从最初基于数学与规则的传统方法,逐步走向大规模深度神经网络,再到如今以 Transformer 为核心的统一架构。以下按时间脉络进行较为详细的回顾。


一、萌芽期(1950s–1980s):传统方法奠基

1. 感知机与早期神经网络

  • 1957 年,Rosenblatt 提出 Perceptron(感知机),这是最早的人工神经网络之一。
  • 能处理线性可分问题,但无法解决异或等非线性任务。
  • 1970 年代,神经网络研究陷入低潮,被称为“AI 寒冬”。

2. 统计学习方法兴起

随着计算机性能提升、数据量增加,基于统计学的传统 ML 算法逐渐占据主流:

  • k-NN(1967):最简单的非参数方法之一。
  • 朴素贝叶斯:基于概率和条件独立假设,适用于文本分类等任务。
  • 线性/逻辑回归:经典线性模型,至今仍在工业界广泛使用。
  • 决策树与集成学习
  • 1984 年 CART 方法提出。
  • 随后发展出随机森林、Gradient Boosting 等强大模型。
  • 支持向量机(SVM)
  • 1990 年代中期起飞,核方法的提出使得 SVM 在小规模数据集上表现极佳。

这一时期的特点是:
模型结构简单,可解释性强,但依赖人工特征工程。


二、深度学习复兴(1990s–2010s):以 CNN 和 RNN 为代表

1. 深度学习的回潮

  • 1986 年,反向传播算法被系统地提出,使多层神经网络训练成为可能。
  • 但受限于数据规模和计算能力,真正的突破发生在 2010 年代。

三、卷积神经网络(CNN)主导视觉(1998–2015)

1. LeNet(1998)

  • LeCun 提出的 LeNet-5 是 CNN 的先驱,用于手写数字识别。
  • 由于硬件限制,当时影响有限。

2. AlexNet(2012):深度学习的里程碑

  • 在 ImageNet 上取得压倒性胜利,使深度学习一举成为主流。
  • 两个关键因素使这件事成为转折点:
  • GPU 大幅加速训练
  • 更大规模的数据集

3. 更深、更高效的 CNN(2013–2016)

  • VGG(2014):以简单堆叠卷积带来高性能。
  • GoogLeNet(2014):提出 Inception 结构。
  • ResNet(2015):通过残差结构成功突破 100 层、1000 层深度。

CNN 彻底改变了图像识别、目标检测、分割等计算机视觉任务。


四、RNN 与序列模型(1990s–2016)

1. RNN 及其改进

  • RNN(1980s)能处理序列数据,但存在梯度消失问题。
  • LSTM(1997)和 GRU(2014)缓解了长依赖问题,使 RNN 在以下任务中成为主流:
  • 语音识别
  • 机器翻译
  • 文本生成
  • 时间序列预测

2. seq2seq(2014)

  • Google 提出的 Encoder–Decoder 结构,使神经机器翻译能力大幅提升。

但 RNN 的缺点也很明显:

  • 难以并行计算
  • 对长序列依赖建模仍不够理想
  • 训练成本高

这些限制为下一代架构的出现创造了机会。


五、Transformer —— 统一架构的到来(2017 至今)

1. Transformer(2017)

  • Vaswani 等人发表《Attention Is All You Need》。
  • 核心创新是 自注意力机制(Self-attention),并完全移除循环结构。

其优势包括:

  • 并行度高,训练速度远超 RNN
  • 能捕捉任意距离的依赖关系
  • 易扩展到大模型

这篇论文直接改变了 NLP 的发展方向。


六、大规模预训练模型时代(2018–2024)

1. BERT 系列(2018)

  • 基于 Transformer 的双向编码器架构。
  • 在一系列 NLP 任务上刷新记录。
  • 推动了“预训练 + 微调”的范式。

2. GPT 系列(2018–至今)

  • 以自回归 Transformer 为基础,用规模驱动性能。
  • GPT-3 证实了“大模型能力涌现”现象,使语言模型成为通用智能的基础。

3. Vision Transformer(2020)

  • 推广 Transformer 至视觉领域,第一次挑战 CNN 的核心地位。
  • 随后发展出 ViT、Swin Transformer 等大量变体。

4. 多模态模型(2021–2025)

  • CLIP、DALL·E、Flamingo 等模型展示了跨模态理解与生成能力。
  • 统一架构进一步扩展到图像、视频、音频和强化学习。

七、现状与趋势:统一架构与大模型

当前 Transformer 已成为主流,与之相关的趋势包括:

  • 大规模预训练模型成为基础设施
  • 多模态统一架构不断发展
  • 大模型驱动的应用爆发,如智能助手、自动驾驶、设计辅助
  • 更高效的注意力机制和推理优化方法持续涌现

机器学习正朝着更加通用、更具推理能力的方向迈进。


总结

从传统算法到深度学习,再到大规模 Transformer 模型,机器学习经历了三个重要阶段:

  1. 传统机器学习:依赖特征工程,模型结构简单。
  2. 深度学习时期(CNN/RNN):自动学习特征,突破视觉与序列建模。
  3. Transformer 时代:统一的架构,具备可扩展性和大模型能力,推动 AI 进入跨领域与通用阶段。

这一发展过程不仅是技术的演化,更折射出数据、算力与算法三大要素共同推动智能演进的规律。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注