解放双手自主操作计算机框架Self-Operating Computer：用GPT-4V来模拟人类的鼠标点击和键盘输入-资源库

自动化技术的最新进展引人瞩目，其中一项引人注目的技术是Self-Operating Computer框架。这一框架采用了先进的GPT-4V模型，通过模拟人类的鼠标点击和键盘输入，实现了令人惊叹的自主操作。在演示中，我们看到了框架自动打开浏览器并访问Google Doc，然后开始撰写诗歌。

Self-Operating Computer的核心能力在于基于给定的目标，估计鼠标点击的正确X和Y坐标位置，以及在每个步骤中进行适当的键盘输入。这一创新的框架旨在与任何视觉-文本多模态模型协同工作，以评估其操作计算机的能力。其使用GPT-4V的强大模拟功能使得计算机可以自主执行各种任务，展现了令人惊叹的智能水平。

自操作计算机框架

使多模态模型能够操作计算机的框架。

使用与人类操作员相同的输入和输出，模型查看屏幕并决定一系列鼠标和键盘操作以达到目标。

主要特点

兼容性：专为各种多模式模型而设计。
集成：目前与 GPT-4v、Gemini Pro Vision、Claude 3 和 LLaVa 集成。
未来计划：支持其他型号。

持续发展

在 HyperwriteAI，我们正在开发 Agent-1-Vision，这是一种多模式模型，具有更准确的点击位置预测。

Agent-1-Vision 模型 API 访问

我们很快将提供对 Agent-1-Vision 模型的 API 访问。

如果您有兴趣访问此 API，请在此处注册。

演示

跑`Self-Operating Computer`

安装项目

pip install self-operating-computer

运行项目

operate

输入您的 OpenAI 密钥：如果您没有密钥，可以在此处获取 OpenAI 密钥

key (1).png

为终端应用程序提供所需的权限：作为最后一步，终端应用程序将在Mac的“系统偏好设置”的“安全和隐私”页面中请求“屏幕录制”和“辅助功能”的权限。

使用模式`operate`

多模式模型`-m`

另一个模型现在与自操作计算机框架兼容。按照以下说明尝试 Google。gemini-pro-vision

从双子座模型开始operate

operate -m gemini-pro-vision

当终端提示您输入您的 Google AI Studio API 密钥时如果您没有密钥，可以在设置 Google AI Studio 帐户后在此处获取密钥。您可能还需要桌面应用程序的授权凭据。我花了一点时间让它工作，如果有人知道更简单的方法，请做一个 PR。

试试克劳德`-m claude-3`

将 Claude 3 与 Vision 一起使用，看看它在操作计算机时如何与 GPT-4-Vision 相提并论。导航到 Claude 仪表板以获取 API 密钥，然后运行以下命令进行尝试。

operate -m claude-3

尝试通过 Ollama 托管的 LLaVa`-m llava`

如果您想在自己的机器上使用 LLaVA 试验自操作计算机框架，您可以使用 Ollama！
注意：Ollama 目前仅支持 MacOS 和 Linux

首先，从 https://ollama.ai/download 在您的机器上安装 Ollama。

安装 Ollama 后，拉取 LLaVA 模型：

ollama pull llava

这将在您的计算机上下载模型，这需要大约 5 GB 的存储空间。

当 Ollama 完成拉取 LLaVA 后，启动服务器：

ollama serve

就是这样！现在开始并选择 LLaVA 模型：operate

operate -m llava

重要：使用 LLaVA 时的错误率非常高。这只是为了作为一个基础，随着本地多模式模型的改进而建立。

在 GitHub 存储库中了解有关 Ollama 的更多信息

语音模式`--voice`

该框架支持目标的语音输入。按照以下说明尝试语音。将存储库克隆到计算机上的目录：

git clone https://github.com/OthersideAI/self-operating-computer.git

Cd 进入目录：

cd self-operating-computer

安装额外的requirements-audio.txt

pip install -r requirements-audio.txt

安装设备要求对于Mac用户：

brew install portaudio

对于 Linux 用户：

sudo apt install portaudio19-dev python3-pyaudio

以语音模式运行

operate --voice

光学字符识别模式`-m gpt-4-with-ocr`

自操作计算机框架现在将光学字符识别（OCR）功能与该模式集成在一起。此模式为 GPT-4 提供了按坐标排列的可点击元素的哈希图。GPT-4 可以通过文本决定元素，然后代码引用哈希图来获取 GPT-4 想要点击的元素的坐标。gpt-4-with-ocrclick

根据最近的测试，OCR 的性能优于普通 GPT-4，因此我们将其设置为项目的默认值。要使用 OCR 模式，您只需编写：som

operate或者也可以工作。operate -m gpt-4-with-ocr

标记提示集`-m gpt-4-with-som`

自操作计算机框架现在支持使用命令进行标记集（SoM）提示。这种新的视觉提示方法增强了大型多模态模型的视觉接地能力。gpt-4-with-som

在详细的arXiv论文中了解有关SoM提示的更多信息：此处。

对于此初始版本，训练了一个简单的 YOLOv8 模型用于按钮检测，该文件包含在 .鼓励用户交换其文件以评估性能改进。如果您的模型优于现有模型，请通过创建拉取请求（PR）来做出贡献。best.ptmodel/weights/best.pt

从 SoM 模型开始operate

operate -m gpt-4-with-som

欢迎投稿！

如果您想自己做出贡献，请参阅 CONTRIBUTING.md。

反馈

有关改进此项目的任何意见，请随时在 Twitter 上联系 Josh。

加入我们的 Discord 社区

如需实时讨论和社区支持，请加入我们的 Discord 服务器。

如果您已经是会员，请在 #self-operating-computer 中加入讨论。
如果您是新手，请先加入我们的 Discord 服务器，然后导航到 #self 操作计算机。

关注 HyperWriteAI 获取更多更新

随时了解最新进展：

在 Twitter 上关注 HyperWriteAI。
在LinkedIn上关注HyperWriteAI。

兼容性

此项目与 Mac OS、Windows 和 Linux（安装了 X 服务器）兼容。

OpenAI 速率限制说明

该模型是必需的。要解锁对此模型的访问权限，您的帐户需要花费至少 5 美元的 API 积分。如果您尚未花费最低 5 美元，预付这些积分将解锁访问权限。
点击此处了解更多信息gpt-4-vision-preview

分享目的仅供大家学习和交流，您必须在下载后24小时内删除！ 2. 不得使用于非法商业用途，不得违反国家法律。否则后果自负！ 3. 本站提供的源码、模板、插件、软件、等等其他资源，都不包含技术服务请大家谅解！内容投诉
资源库 » 解放双手自主操作计算机框架Self-Operating Computer：用GPT-4V来模拟人类的鼠标点击和键盘输入