AI 技术分享,  资源分享/下载

马斯克发布Grok-1模型:3140亿参数全面开源

Grok-1 和 Grok-2 的对比:

  1. Grok-1:有 3140 亿参数的 Mixture-of-Experts(混合专家)模型,其中 25% 参数激活在给定 token 上。它是一个基础模型,未针对特定任务微调,只进行大规模文本预训练,适用于通用的自然语言理解任务。
  2. Grok-2:是更先进的版本,具有更强的推理和对话能力。它在 LMSYS 排行榜上表现优异,甚至超越了 Claude 3.5 和 GPT-4-Turbo。还包含一个小型版本 Grok-2 mini,便于资源受限环境使用。

Grok-1 语言模型简介

马斯克的xAI公司开源了全球最大的大语言模型Grok-1,参数量达3140亿。Grok-1采用混合专家架构,激活权重为25%,2023年10月自定义训练完成。模型的主要特点包括64层Transformer、旋转嵌入、131,072的词汇大小和8192 tokens上下文长度,显示出在推理和编码任务中的卓越性能。尽管表现出色,但仍存在生成幻觉及搜索功能不足的局限。Grok-1开源遵循Apache 2.0许可证。

Grok-1 模型磁力下载

Grok-1 模型磁力下载

磁力链接下载
Grok-1 GitHub 官方下载

Grok-1 GitHub 官方下载

前往 GitHub 下载
租赁 H100 云 GPU 搭建 Grok-1

租赁 H100 云 GPU 搭建 Grok-1

前往 Vultr 租赁
调用HuggingFace Hub

调用HuggingFace Hub

git clone https://github.com/xai-org/grok-1.git && cd grok-1
pip install huggingface_hub[hf_transfer]
huggingface-cli download xai-org/grok-1 –repo-type model –include ckpt-0/* –local-dir checkpoints –local-dir-use-symlinks False

模型详情

Grok-1是一个庞大的开源语言模型,具有3140亿个参数,采用混合专家架构(MoE),激活权重为25%。它基于丰富的文本数据进行训练,未进行特定任务的微调。模型包含64层Transformer,使用旋转嵌入,并支持8192个token的上下文长度,精度为bf16。

模型能力

在标准测试中表现优异,HumanEval编码任务得分63.2%,MMLU得分73%,并在数学考试中获得C级(59%)。

局限性

模型缺乏独立搜索能力,可能会产生错误信息,需结合人工审查和工具使用。

开源意义

遵循Apache 2.0许可证,支持用户自由使用和修改,体现了xAI的透明化与开放理念,为未来研究提供宝贵资源。

总之,Grok-1是一个值得关注的开源语言模型,实际应用中需注意结合其他工具以发挥最佳效果。

4 Comments

回复 Sharice 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注