标签：大模型

读书笔记丨《从零构建大语言模型》

通过 500 行代码实现，深入解析从零构建 GPT 风格大语言模型的完整流程：从数据处理、Transformer 架构核心、训练循环到文本生成策略，带你理解大模型背后的工程实现原理。

本篇深入探讨了深度学习训练中的三大核心优化技巧，学习率预热解决训练初期不稳定性，余弦衰减实现精细调整和平滑收敛，梯度裁剪防止梯度爆炸。从原理到实践，全面解析如何让模型在高维损失空间中更稳定、更高效地找到最优解。

本文从 PyTorch 的核心设计出发，通过一个简单的例子，帮助读者理解 PyTorch 的核心设计，包括张量、自动求导、神经网络等。

本篇从 LLM 训练过程概述开始，通过"教学徒写文章"的生动比喻，帮助读者理解交叉熵损失在机器学习中的核心作用，以及如何用它来评估和优化模型的预测能力。

本篇用外语学习的比喻，深入浅出地解释 GPT 架构中的权重共享技术，从听写记忆到表达记忆，帮助你理解这个提升大模型效率的核心优化策略

本篇用 CEO 追责分锅的比喻，深入浅出地解释反向传播算法的工作原理，从流水线管理到神经网络训练，帮助你理解这个深度学习的核心算法