标签：深度学习

模型训练核心技巧：学习率预热、余弦衰减与梯度裁剪

本篇深入探讨了深度学习训练中的三大核心优化技巧，学习率预热解决训练初期不稳定性，余弦衰减实现精细调整和平滑收敛，梯度裁剪防止梯度爆炸。从原理到实践，全面解析如何让模型在高维损失空间中更稳定、更高效地找到最优解。

本文从 PyTorch 的核心设计出发，通过一个简单的例子，帮助读者理解 PyTorch 的核心设计，包括张量、自动求导、神经网络等。

本篇从 LLM 训练过程概述开始，通过"教学徒写文章"的生动比喻，帮助读者理解交叉熵损失在机器学习中的核心作用，以及如何用它来评估和优化模型的预测能力。

本篇用外语学习的比喻，深入浅出地解释 GPT 架构中的权重共享技术，从听写记忆到表达记忆，帮助你理解这个提升大模型效率的核心优化策略

本篇用 CEO 追责分锅的比喻，深入浅出地解释反向传播算法的工作原理，从流水线管理到神经网络训练，帮助你理解这个深度学习的核心算法