人生如逆旅,我亦是行人。
——苏轼《临江仙·送钱穆父》

  • WeChat
  • Discovery

    DeepSpeed

    DeepSpeed 是一个由微软开发的深度学习优化库,旨在通过提供高效的并行化技术、内存优化和通信优化,来加速和扩展大规模模型的训 …

    DeepSpeed的核心-ZeRO

    ZeRO(Zero Redundancy Optimizer)是属于DeepSpeed训练优化库中的一种用于大规模分布式深度学习的 …

    LoRA与PiSSA的区别

    LoRA 的核心思想是冻结预训练模型的原始权重,并在需要微调的权重矩阵上引入两个低秩矩阵(一个降维矩阵和一个升维矩阵)。具体来说, …

    残差网络及前置、后置归一化

    残差网络原理及作用 残差网络要解决的问题是较深的神经网络很难训练的问题,较深的神经网络在梯度反向传播的时候梯度之间的相关性会越来越 …

      切换主题 | SCHEME TOOL