读书笔记丨从零构建大语言模型

从零构建大语言模型

读书笔记

优雅重启的范式转移:从 tableflip 到 Kubernetes 的 Go 服务升级终极指南

本文将带您踏上优雅重启的范式转移之旅,从 tableflip 的第一性原理出发,深入剖析其工作机制;然后,我们将切换视角,审视 Kubernetes 是如何以一种截然不同的哲学来定义和实现优雅;最后,我们将深入 Kubernetes 实践的每一个细节,从探针、竞态条件到有状态服务和多服务进程,为您在云原生世界中构建高可用 Go 应用,提供一份清晰、详尽的终极指南。

解决方案

Redis 数据类型丨String丨从第一性原理看 Redis 字符串的设计哲学 (基于 Redis 8.2.1 源码)

本篇基于 Redis 8.2.1 源码,从第一性原理看 Redis 字符串的设计哲学,带你深入理解 Redis 的 String 数据类型。

Redis

模型训练核心技巧:学习率预热、余弦衰减与梯度裁剪

本篇深入探讨了深度学习训练中的三大核心优化技巧,学习率预热解决训练初期不稳定性,余弦衰减实现精细调整和平滑收敛,梯度裁剪防止梯度爆炸。从原理到实践,全面解析如何让模型在高维损失空间中更稳定、更高效地找到最优解。

大模型

Redis 数据类型丨List丨从双向链表到 Listpack 的演进之路 (基于 Redis 8.2.1 源码)

本篇基于 Redis 8.2.1 源码,从双向链表到 Listpack 的演进之路,带你深入理解 Redis 的 List 数据类型。

Redis

告别死记硬背:一份真正理解 PyTorch 核心设计的指南

本文从 PyTorch 的核心设计出发,通过一个简单的例子,帮助读者理解 PyTorch 的核心设计,包括张量、自动求导、神经网络等。

大模型

从 ECB 到 GCM:理解加密模式的演进

加密模式 ECB、CBC、GCM

加密模式

一次由公网流出带宽飙升引发的服务器性能排查实录

本文详细记录了一次由公网流出带宽飙升引发的服务器性能故障排查。我们从监控图表入手,利用 iftop 实时追踪流量去向,并最终通过 nethogs 锁定应用。该案例揭示了新功能配置对网络资源的巨大影响,为解决类似问题提供了宝贵经验。

故障排查

大白话解释交叉熵损失

本篇从 LLM 训练过程概述开始,通过"教学徒写文章"的生动比喻,帮助读者理解交叉熵损失在机器学习中的核心作用,以及如何用它来评估和优化模型的预测能力。

大模型

大白话解释 GPT 架构中的权重共享

本篇用外语学习的比喻,深入浅出地解释 GPT 架构中的权重共享技术,从听写记忆到表达记忆,帮助你理解这个提升大模型效率的核心优化策略

大模型
1239