IrumaBolg

发布于 27 天前

DeepSeek-R1量化模型万元级别成本部署

59 热度 NOTHING Python

万元级别成本部署DeepSeek-R1 结论：3月5号，0.2.3版本的KTransformers支持了Unsloth的1.58/ …

发布于 2025-03-03

堡垒机连接Windows服务器下进程被杀死

48 热度 NOTHING 未分类

场景复现：在本地电脑通过堡垒机连接到远程 Windows 资产，在远程系统上使用 pythonw 或者start启动基于Flask …

发布于 2025-01-03

MoE架构(GShard、DeepSeekMoE、HMoE)

246 热度 NOTHING 大模型

在大模型时代，由于Scaling law的存在，扩展模型参数一直是大部分时间的追求，但是硬件不满足我们无止境的扩大下去，所以MoE …

发布于 2024-12-20

DeepSpeed

126 热度 NOTHING 大模型

DeepSpeed 是一个由微软开发的深度学习优化库，旨在通过提供高效的并行化技术、内存优化和通信优化，来加速和扩展大规模模型的训 …

发布于 2024-12-20

数据并行、张量模型并行、流水线并行区别

116 热度 NOTHING 大模型

数据并行数据并行是指将数据集划分成多个子集，然后将这些子集分发到不同的计算设备上，每个设备上都拥有模型的完整副本。每个设备独立地 …

发布于 2024-12-19

DeepSpeed的核心-ZeRO

77 热度 NOTHING 大模型

ZeRO（Zero Redundancy Optimizer）是属于DeepSpeed训练优化库中的一种用于大规模分布式深度学习的 …

发布于 2024-12-18

LoRA与PiSSA的区别

133 热度 NOTHING Python

LoRA 的核心思想是冻结预训练模型的原始权重，并在需要微调的权重矩阵上引入两个低秩矩阵（一个降维矩阵和一个升维矩阵）。具体来说， …

发布于 2024-12-18

权重文件注入攻击：pt与safetensors

123 热度 NOTHING Python

在pytorch中，模型通常可以通过torch.save方法保存为文件，并且可以通过torch.load方法加载。模型文件通常是序 …

发布于 2024-12-18

Prefix LM与Causal LM的区别

86 热度 NOTHING 大模型

Prefix LM即前缀语言模型，由Google提出，与T5模型类似，其实是Encoder-Decoder架构的变体，其与T5模型 …

发布于 2024-12-17

残差网络及前置、后置归一化

65 热度 NOTHING 大模型

残差网络原理及作用残差网络要解决的问题是较深的神经网络很难训练的问题，较深的神经网络在梯度反向传播的时候梯度之间的相关性会越来越 …

Discovery

模型效率与优化

可解释性与安全性

多模态学习与泛化能力

Discovery

DeepSeek-R1量化模型万元级别成本部署

堡垒机连接Windows服务器下进程被杀死

MoE架构(GShard、DeepSeekMoE、HMoE)

DeepSpeed

数据并行、张量模型并行、流水线并行区别

DeepSpeed的核心-ZeRO

LoRA与PiSSA的区别

权重文件注入攻击：pt与safetensors

Prefix LM与Causal LM的区别

残差网络及前置、后置归一化