lm - 标签 - 云服务器哪家好开发者社区-云服务器哪家好

云服务器哪家好

开发者社区

文档建议反馈控制台

首页TVP

#lm

多元回归：残差分析与异常值诊断

herain 2024-07-182024-07-18 17:39:35

基础分析数据为27位糖尿病者的血清总胆固醇（X1）、甘油（X2）、空腹胰岛素（X3）、糖化血红蛋白（X4）、空腹血糖（Y）的测量值。我们可以使用R语言建立空...

17610

Huggingface Transformers实现张量并行的小坑 set/get_output_embeddings

marsggbo 2024-05-072024-05-07 09:58:20

默认情况下，大模型的输入和输出的 vocab 是保持一致的，所以如果传入的 embedding 的大小变化了，默认也会让 lm_head 发生变化。

26010

大模型理论基础(so-large-lm)课程笔记！

Datawhale 2024-04-242024-04-24 14:57:20

在当前信息时代，大型语言模型（Large Language Models，LLMs）的发展速度和影响力日益显著。随着技术进步，我们见证了从基本的Transfor...

23810

120亿Stable LM 2上线即开源！2万亿token训练，碾压Llama 2 70B

新智元 2024-04-122024-04-12 19:22:51

见状，不少网友纷纷喊话：干的漂亮！但，Stable Diffusion 3啥时候出啊？

12210

AI Infra论文阅读之将流水线并行气泡几乎降到零（附基于Meagtron-LM的ZB-H1开源代码实现解读）

BBuf 2024-02-222024-02-22 08:23:44

这篇论文对应的链接为：https://openreview.net/pdf?id=tuzTN0eIO5 ，最近被ICLR 2024接收，但不少AI Infra的...

1.3K10

使用LM Studio在本地运行LLM完整教程

deephub 2023-12-192023-12-19 19:30:51

GPT-4被普遍认为是最好的生成式AI聊天机器人，但开源模型一直在变得越来越好，并且通过微调在某些特定领域是可以超过GPT4的。在开源类别中，

4.5K10

像调鸡尾酒一样调制多技能大模型，智源等机构发布LM-Cocktail模型治理策略

机器之心 2023-12-122023-12-12 18:39:07

随着大模型技术的发展与落地，「模型治理」已经成为了目前受到重点关注的命题。只不过，在实践中，研究者往往感受到多重挑战。

20910

切片器相互控制，从容应对同比环比任意月份对比

陈学谦 2023-12-052023-12-05 17:27:08

假设有10个计算字段都要进行同比、环比和任意月份的对比，那么常规做法就是将这10个度量值分别再写10×3=30个度量值。

45300

php安装make出现“collect2:error:ldreturned1exitstatus

network_dream 2023-11-132023-11-13 19:56:33

错误提示： collect2: error: ld returned 1 exit status

70830

matinal：S/4 hana系统中，内表Internal Table的改变

matinal 2023-10-132023-10-13 16:57:24

24210

【RLHF】想训练ChatGPT？先来看看强化学习（RL）+语言模型（LM）吧（附源码）

汀丶人工智能

阿里｜算法工程师 (已认证)

2023-10-112023-10-11 18:26:54

随着最近 ChatGPT 的大火，越来越多人开始关注其中用到的 RLHF（Reinforcement Learning from Human Feedback）...

68040

LM-Infinite: 一种简单有效的大模型即时长度泛化，解决更长文本推理问题

zenRRan 2023-09-112023-09-11 14:42:50

近年来，LLM在各个领域的性能都有了显著的进展。随着这些LLM被用于越来越复杂的任务，它们经常需要更长的推理过程或理解更大的上下文。在这些情况下，LLM在长序列...

1.1K20

KDD23 | LM+GNN最新 SOTA

Houye 2023-09-042023-09-04 13:18:53

大规模文本语料库上的模型预训练已经被证明在NLP领域的各种下游应用中非常有效。在图挖掘领域，也可以类比预训练图模型在大规模图上，以期望从中获益于下游图应用，这也...

14120

R语言响应面（RSM）、线性模型lm分析生产过程影响因素可视化

拓端 2023-08-312023-08-31 18:26:00

响应面（Response Surface Methodology，RSM）分析是一种常用的统计方法，用于研究和优化生产过程中的影响因素。通过建立数学模型来描述因...

84110

tidymodels工作流：workflow

医学和生信笔记 2023-08-302023-08-30 12:37:57

在阅读这篇文章前，我强烈建议你先读一下tidymodels入门篇：tidymodels用于机器学习的细节，首先对tidymodels有一个整体的认知。

22710

【BBuf的cuda学习笔记十】Megatron-LM的gradient_accumulation_fusion优化

BBuf 2023-08-252023-08-25 08:42:50

这篇文章来解析一下Megaton-LM涉及到的一个优化gradient_accumulation_fusion。这里fusion的意思是在gemm接口中会将当前...

1.6K30

Megatron-LM 分布式执行调研

BBuf 2023-08-222023-08-22 09:14:36

Created by: strint Created time: May 31, 2023 6:02 PM

1.9K40

DeepSpeed结合Megatron-LM训练GPT2模型笔记（上）

BBuf 2023-08-222023-08-22 08:17:07

本文基于DeepSpeedExamples仓库中给出的Megatron相关例子探索一下训练GPT2模型的流程。主要包含3个部分，第一个部分是基于原始的Megat...

2K80

【DeepSpeed 教程翻译】二，Megatron-LM GPT2，Zero 和 ZeRO-Offload

BBuf 2023-08-222023-08-22 08:16:07

这篇文章主要翻译DeepSpeed的Megatron-LM GPT2 ，Zero零冗余优化器技术，ZeRO-Offload技术。关于DeepSpeed 的Zer...

2.2K10

移动通信客户价值数据挖掘分析实战

张俊红 2023-03-212023-03-21 09:12:12

众所周知，移动通信市场已经日趋饱和，增加规模已经变得异常艰难，通信运营商互挖墙角已经成为家常便事。很多消费者，今天还是中国移动的客户，明天只要中国电信给点好处，...

1.9K30

#lm

多元回归：残差分析与异常值诊断

Huggingface Transformers实现张量并行的小坑 set/get_output_embeddings

大模型理论基础(so-large-lm)课程笔记！

120亿Stable LM 2上线即开源！2万亿token训练，碾压Llama 2 70B

AI Infra论文阅读之将流水线并行气泡几乎降到零（附基于Meagtron-LM的ZB-H1开源代码实现解读）

使用LM Studio在本地运行LLM完整教程

像调鸡尾酒一样调制多技能大模型，智源等机构发布LM-Cocktail模型治理策略

切片器相互控制，从容应对同比环比任意月份对比

php安装make出现“collect2:error:ldreturned1exitstatus

matinal：S/4 hana系统中，内表Internal Table的改变

【RLHF】想训练ChatGPT？先来看看强化学习（RL）+语言模型（LM）吧（附源码）

LM-Infinite: 一种简单有效的大模型即时长度泛化，解决更长文本推理问题

KDD23 | LM+GNN最新 SOTA

R语言响应面（RSM）、线性模型lm分析生产过程影响因素可视化

tidymodels工作流：workflow

【BBuf的cuda学习笔记十】Megatron-LM的gradient_accumulation_fusion优化

Megatron-LM 分布式执行调研

DeepSpeed结合Megatron-LM训练GPT2模型笔记（上）

【DeepSpeed 教程翻译】二，Megatron-LM GPT2，Zero 和 ZeRO-Offload

移动通信客户价值数据挖掘分析实战

相关产品

热门专栏

拓端tecdat

GiantPandaCV

云深之无迹

生信补给站

Datawhale专栏

社区

活动

资源

关于

云服务器哪家好开发者

热门产品

热门推荐

更多推荐