Eczn's Home

<|im_start|>
2026

大模型与交叉熵

今天补充一篇关于训练的,介绍大模型损失函数内最重要的一个数学对象:交叉熵,来源于信息论,在大模型中应用广泛,可以说是除了注意力机制之外最核心的数学建模了。然而市面上关于交叉熵的文章多数在堆砌概念,看了只会让我感到不安,靠比喻是没有形成自洽且体系化理解的。

#

实现 GPT-2 的推理

以 GPT-2 为对象,用纯 TypeScript 从零手写完整推理过程,从 tokenizer 到 embedding,从 attention 到 softmax,不依赖任何推理框架,在 V8 + Float32Array 内跑通 38.6M 参数的模型前向传播以及相关的张量操作

#
2026.04.17未分类标题

Tool Use 具体是如何实现的 ?

#
2025

「大模型」的推理是什么?

八年前我还在读本科的时候,修过一门关于神经网络与模式识别的课程,虽然这门课不用怎么写代码,但是其内在的思想我到今天还是记忆深刻;近 2 年来,ChatGPT 后大模型是越来越火热了,其内在的核心仍然是神经网络,如果需要搞明白大模型的推理,其实就是在问神经网络如何解决问题 ? 本文将介绍神经网络的基本构造并解释大模型的推理是什么,从 $y = kx + b$ 出发自底向上构建对大模型的数学认知,最后会从技术的角度上点评下现在流行的一些 AI 术语

#
2025.06.29未分类标题

公式编辑器 ?

#
2025.03.19EcznScript

EcznScript ?

#
2025.01.01艺术

AI 绘画管线实践 250101

#
2024
2024.12.31未分类标题

24 年底的简单记录

#
2024.12.02未分类标题

柏林噪声的原理和实现

#
2024.09.01未分类标题

TypeScript 52000+ 行的 checker.ts

#
2024.07.03注意力训练

注意力训练 代数视角里的类型

#

V8 Inline Caches 优化及其汇编细节

前段时间工作重心在性能优化,着重看了 V8 相关的优化细节,尤其是 Inline Caches (ICs) 技术,后面依据这项技术将核心指标性能优化到原来的十倍,这里记录一下 ICs 相关细节,仅供参考: 解释器手写的 line-by-line 虚拟机执行流水线完全比不上 CPU 内部的指令流水线以及更为夸张的分支预测手段,因此我个人过去认为 C 至少比 JS 快 10 倍+,直到最近看了不少的 v8 benchmark 之后才对这块有所改观,目前的观点是:只要构造合适,V8 JIT 可以有媲美原生 AOT 的性能,当然也容易出现非常夸张的性能劣化。

#
2024.05.08注意力训练

注意力训练 大数相加

#
2024.05.02未分类标题

Parser Combinator

#
2024.05.01未分类标题

Moonbit, 启动

#
2024.04.30注意力训练

注意力训练 sub

#
2024.04.29未分类标题

二进制补码的数学原理

#

Unicode 标准及其 UTF 编码的构造和解释

长久以来对 unicode 的一些细节还是不够清晰,因此今天集中注意力深入研究并实现 Unicode 最常用的三种编码 UTF-32/16/8 来获得完全同步 (超长文警告)

#
2024.03.22注意力训练

注意力训练 btoa atob

#
2024.03.20注意力训练

注意力训练 mul

#
2024.03.16未分类标题

早期 DEMO 集

#
2024.03.10注意力训练

注意力训练 toUpperCase

#
2024.03.10注意力训练

「注意力训练」是?

#
2024.01.01未分类标题

Pinch 捏放手势

#
2023
2023.11.20未分类标题

iPod 转盘手势

#
2023.10.21未分类标题

LaTeX 笔记

#
2023.08.18未分类标题

CSS Matrix3D 中的矩阵运算

#
2023.08.12未分类标题

Hello CSS 变量

#
2023.07.25未分类标题

TypeScript 里的 ADT

#
2023.03.29未分类标题

从白噪声开始学习 WebGL

#
2022
2022.01.04未分类标题

浏览器内的 ESM 是否已足够强大

#
2021
2021.11.21编程语言

可否用数组 includes 来取代条件集联判断

#
2021.08.01编程语言

TypeScript 为何流行

#
2021.07.25编程语言

对 JavaScript / TypeScript 的批评

#
2021.07.22system

👏 欢迎来到本站

#
2021.06.16未分类标题

三体运动模拟器

#
2021.04.03业界评论

微软唯一的问题是没有品味

#
2020
2020.10.01TypeScript

如何利用 Template Type 来做 Parser

#
2020.08.17React

忘了那个它,别再用 class 写 React 了

#
2020.04.07科学上网

电力猫和组网

#
2020.02.12科学上网

V2Ray 和 TLS

#
2019
2019.06.30code

Church Encoding

#
2019.05.16React

Hooks In React.ts

#
2019.01.24React

React 中使用 Highcharts

#
2019.01.23JavaScript

类型转换问题

#
2019.01.16code

再谈函数和一等公民

#
2018
2018.12.15code

函数默认值与 TDZ

#
2018.12.03Translation

【译】event-stream 漏洞剖析

#
2018.11.14life

又到年底了 - 新编

#
2018.03.20code

[Callback, Promise, Async]

#
2018.03.06code

网络安全与 SSL

#
2018.02.20code

EventEmitter

#
2018.02.11code

变量、函数、调用

#
2018.02.09code

数组和计算式

#
2018.01.31Virutal-DOM

diff 和 patch 操作

#
2018.01.31Virutal-DOM

diff 算法

#
2018.01.31Virutal-DOM

构造 VNode 对象

#
2018.01.31Virutal-DOM

虚拟 DOM 原理表述

#
2018.01.14code

CSS 的解析

#
2018.01.06code

Ramda 里的 Promise

#
2017
2017.12.30life

非军事区 DMZ

#
2017.12.30life

Hello, 2018

#
2017.12.18code

函数式的 Promise 对异步的抽象

#
2017.12.17code

JSON String Parse

#
2017.12.15code

用 node.js 模拟一个文件系统

#
2017.12.06code

Web 工程中的代理以及实际应用

#
2017.11.30code

Anything As A Service ?

#
2017.11.26life

又到年底了

#
2017.11.23code

许愿墙 5.0 经验总结

#
2017.11.02code

Fun with Single-Element CSS Spinner

#
2017.10.25code

Vue路由重载以及iOS的自动播放问题

#
2017.10.13虫师手记

记一次 Web 前端实习面试

#
2017.10.02code

微信开发的最佳配置

#
2017.10.01code

jsonp、跨域和同源策略

#
2017.09.23Nightive

关于音乐播放器的前后端实现的思考

#
2017.09.19ES6

ES6 Promise

#
2017.09.10code

使用 Mongoose 的各种好处

#
2017.08.11life

被儿子们独占的七月

#
2017.08.05code

微信小程序的授权问题

#
2017.08.01模版引擎的原理和实现

模版解释器的实现

#
2017.07.31模版引擎的原理和实现

模版解释器的语法树

#
2017.07.30模版引擎的原理和实现

模版解释器的原理和一个实现

#
2017.07.27Linux

Linux 常用目录、命令

#
2017.07.25JavaScript

利用双花括号完成数据绑定的思路

#
2017.07.22JavaScript

利用 @click 来绑定事件的思路

#
2017.07.20JavaScript

类数组对象和数组的对象本质

#
2017.07.20JavaScript

toString 与 valueOf

#
2017.07.13life

谣传

#
2017.07.05CS

子网掩码和地址划分

#
2017.06.08code

两类铺平问题和它们的逆

#
2017.06.07code

活用原生方法解决数组问题

#
2017.06.03code

Array.prototype.sort

#
2017.06.03life

传说中麦当劳的臭豆腐

#
2017.06.01code

递归 DOM树 得到深度

#
2017.05.30自制解释器

自制解释器 - 函数及作用域

#
2017.05.29自制解释器

自制解释器 - 改进 parse 及绑定变量

#
2017.05.28自制解释器

自制解释器 - S 表达式

#
2017.05.28code

递归穷举所有子字符串

#
2017.05.25vally-sys

Vally 史

#
2017.05.17code

配置式表单验证 (2)

#
2017.05.16code

配置式表单验证 (1)

#
2017.05.09code

异步发射器

#
2017.05.09code

一个递归问题

#
2017.05.09code

给自己写一篇有趣的简历

#
2017.04.18code

活用函数作为一等公民的权利

#
2017.04.09code

制作图片轮播组件

#
2017.04.08code

This, Function

#
2017.04.04观察

我害怕阅读的人

#
2017.04.01code

3px

#
2017.04.01code

window.localStorage

#
2017.02.26code

一道闭包相关的面试题

#
2017.02.21code

gulp 基本使用

#
2017.02.12code

This, Closure

#
2017.02.10观察

【转】在试图改变这个世界的时候,请保留一份敬畏

#
2017.02.10code

语义化和文章排版

#
2017.02.09code

JavaScript 有限状态机

#
2017.02.07未分类标题

Markdown 快速上手

#
2017.01.19网页即组件树

网页即组件树

#
2016
2016.12.15code

JavaScript Array

#
2016.08.15life

捞仔训练营

#
2000
2000.01.02Rally

Rally CHANGELOG

2000.01.01未分类标题

新版博客测试文章 (.tsx)

2000.01.01Rally

新版博客测试文章 (.md)

2000.01.01Rally

Rally History

120ENTRIES ARCHIVED
<|im_end|>

Connecting The Dots.
2877.4 KB

← Return to Origin