Aria-UI – 港大联合 Rhymes AI 开源面向 GUI 智能交互的多模态模型

Aria-UI是什么

Aria-UI是香港大学和Rhymes AI共同推出的为图形用户界面(GUI)定位任务设计的大型多模态模型。基于纯视觉方法,不依赖于HTML或AXTree等辅助输入,用大规模、多样化的数据合成流程,从Common Crawl和公开数据中生成高质量的元素描述和指令样本,适应不同环境下的多样化指令。Aria-UI创新性地整合动态动作历史信息,用文本或文本-图像交错格式增强模型在多步任务场景中的定位能力。在包括离线和在线代理任务的广泛基准测试中,Aria-UI均取得优异的性能,展现出强大的零样本泛化能力和跨平台适用性,成为通用GUI定位任务的有力解决方案。

Aria-UI

Aria-UI的主要功能

GUI元素定位:将语言指令准确地映射到GUI中的目标元素,实现元素的精确定位,为后续的交互操作提供基础。多模态输入处理:处理包括GUI图像、文本指令、动作历史等多种模态的输入信息,充分理解和利用多模态数据中的丰富信息。多样化指令适应:基于大规模、多样化的数据合成流程生成的多样化指令样本,有效适应不同环境下的各种指令表达方式。动态上下文理解:整合动态动作历史信息,用文本或文本-图像交错格式,在多步任务场景中理解当前的动态上下文,为准确的元素定位提供重要参考。高分辨率图像处理:支持高达3920×2940的图像分辨率,将图像分割成小块处理,显著扩展可处理的图像尺寸范围。

Aria-UI的技术原理

纯视觉方法:采用纯视觉方法,直接从GUI图像中提取视觉特征,用视觉信息理解和定位目标元素。多模态MoE模型:基于Aria多模态MoE(Mixture of Experts)模型构建,具有3.9B激活参数,擅长处理多模态数据。数据合成与训练:基于两阶段的数据合成流程,从Common Crawl和公开数据中生成高质量的元素描述和多样化指令样本,覆盖Web、桌面和移动三大GUI环境,为模型训练提供大量、多样化的训练数据,增强模型对不同指令和元素的识别能力。上下文感知数据扩展:用公开的代理轨迹数据模拟具有上下文的定位任务,构建文本动作历史和文本-图像交错历史两种上下文设置,基于数据合成流程为轨迹数据中的所有定位步骤生成详细的逐步指令,让模型在动态环境中更好地理解和执行任务。超分辨率支持:将图像分割成小块并进行处理,支持高达3920×2940的图像分辨率,保持图像的细节和准确性。

Aria-UI的项目地址

项目官网:https://ariaui.github.io/GitHub仓库:https://github.com/AriaUI/Aria-UIHuggingFace模型库:https://huggingface.co/Aria-UIarXiv技术论文:https://arxiv.org/pdf/2412.16256

Aria-UI的应用场景

自动化测试:Web应用测试自动点击网页按钮、输入信息,验证功能是否正常。用户交互辅助:语音指令控制家居设备,如“开灯”自动点击开关按钮。智能客服:电商平台客服快速定位产品详情,回答用户咨询问题。教育行业:自动操作代码编辑器,演示编程过程和结果。自动化办公:自动操作财务软件,生成报表,提高工作效率。

ChatSider:Free ChatGPT Sidebar&AI Copilot – Home

ChatSider:Free ChatGPT Sidebar&AI Copilot官网

AI写作助手,免费侧边栏聊天工具

ChatSider:Free ChatGPT Sidebar&AI Copilot简介

需求人群:

ChatSider适用于工作、学习、写作、翻译和娱乐等场景。

使用场景示例:

优化文章:使用ChatSider快速改进文章的内容和结构。

作业辅助:在做作业时,使用ChatSider获取问题的详细解答。

翻译服务:使用ChatSider进行准确的外文翻译。

产品特色:

AI问答

文章优化

翻译服务

作业辅助

创意启发

ChatSider:Free ChatGPT Sidebar&AI Copilot官网入口网址

https://microsoftedge.microsoft.com/addons/detail/jhlabifgfoigikpnmfcbhpddlamhfaag

小编发现ChatSider:Free ChatGPT Sidebar&AI Copilot网站非常受用户欢迎,请访问ChatSider:Free ChatGPT Sidebar&AI Copilot网址入口试用。

OpenGPT.com – Home

OpenGPT.com官网

OpenGPT-你的通往开放AI社区的大门

OpenGPT.com简介

需求人群:

适用于技术创新者、AI爱好者和创意人士

产品特色:

GPT Store – 发现定制GPT模型

OpenChat – 与AI进行互动对话

OpenDraw – 创造自定义的AI图像

OpenGPT.com官网入口网址

https://www.opengpt.com

小编发现OpenGPT.com网站非常受用户欢迎,请访问OpenGPT.com网址入口试用。

GPT Assistant – Home

GPT Assistant官网

智能 AI 聊天助手

GPT Assistant简介

需求人群:

“GPT Assistant的使用场景包括通过 Discord 与机器人进行交互,查询 PDF 文档、进行代码编程、社区协作等。”

产品特色:

高级自然语言处理

GPT 代码解释器

智能 PDF 助手

GPT Assistant官网入口网址

https://gptassistant.app/

小编发现GPT Assistant网站非常受用户欢迎,请访问GPT Assistant网址入口试用。

FiT – Home

FiT官网

FiT是一种基于transformer的无限制分辨率和纵横比的图片生成模型。

FiT简介

需求人群:

“FiT可用于无限制分辨率和纵横比的图像生成,特别适用于需要生成高分辨率图片的应用场景。”

使用场景示例:

生成任意分辨率的风景画

生成不同纵横比的动漫角色图像

生成高清无缝纹理贴图

产品特色:

无限制分辨率生成

任意纵横比生成

卓越的分辨率外推能力

使用transformer作为主要架构

FiT官网入口网址

https://github.com/whlzy/FiT

小编发现FiT网站非常受用户欢迎,请访问FiT网址入口试用。

Just Story It – Home

Just Story It官网

限制你的想象力

Just Story It简介

需求人群:

“用户可以使用Just Story It创作自己的音频故事,也可以在Discovery Stories库中收听其他用户创作的音频故事。”

使用场景示例:

小明使用Just Story It创作了一部自己的音频故事,并分享给了朋友们。

小红在Discovery Stories库中发现了一部非常有趣的音频故事,收听后感觉非常满意。

李华订阅了Just Story It的服务,每月可以创作一定数量的音频故事,非常适合他的需求。

产品特色:

基于AI技术的音频故事创作

创建角色和环境,选择流派、时长和自定义输入

Discovery Stories库收听其他用户创作的音频故事

每月订阅平台,获得一定的配额

多种套餐,适合不同用户的需求

Just Story It官网入口网址

https://juststoryit.net/

小编发现Just Story It网站非常受用户欢迎,请访问Just Story It网址入口试用。

AI Image Captions – Home

AI Image Captions官网

AI 智能图片文字描述生成

AI Image Captions简介

需求人群:

“适用于需要自动生成图片文章描述的写作人员、设计师、产品经理等。”

使用场景示例:

旅游摄影师可以自动生成多种风格的图片说明文字

写作人员可以将生成描述集成到文章中

产品编辑可以快速获得产品图片的文字描述

产品特色:

支持上传本地及网络图片

支持生成多种风格描述,包括幽默、正式等

支持生成多条独立描述供选择

描述文字可一键复制使用

AI Image Captions官网入口网址

http://felix.link/apps/captions

小编发现AI Image Captions网站非常受用户欢迎,请访问AI Image Captions网址入口试用。

TransPixar – 港中文联合 Adobe 等机构开源的生成透明背景视频技术

TransPixar是什么

TransPixar是香港中文大学、Adobe研究院 、香港科技大学和智能摩尔联合开源的,先进的文本到视频生成方法,扩展预训练的RGB视频模型生成包含透明度信息的RGBA视频。TransPixar基于扩散变换器(DiT)架构,基于引入alpha特定的token和基于LoRA的微调,实现RGB和alpha通道的联合生成,保持高度一致性。TransPixar优化注意力机制,保留原始RGB模型的优势,在有限的训练数据下,能生成多样化且对齐度高的RGBA视频。TransPixar支持创建包含烟雾、反射、等透明元素的视频,且提供高度逼真的视觉效果。TransPixar在娱乐、广告和教育等领域的应用前景广阔,为视觉效果(VFX)和交互式内容创作提供了新的可能性。

Adobe

TransPixar的主要功能

RGBA视频生成:从文本描述生成包含RGB颜色通道和alpha透明度通道的视频,实现复杂视觉效果的创建。透明效果处理:支持生成具有透明属性的元素,如烟雾、反射等,无缝融入背景场景,适用于视觉效果(VFX)等应用。高质量视频生成:在生成RGBA视频的同时,保留原始RGB视频生成模型的高质量,确保视频的清晰度和细节表现。多场景适应性:适用于各种场景和对象类型的视频生成,包括人物动作、自然景观、动态效果等,具有良好的泛化能力。文本驱动内容创作:根据输入的文本描述,生成与之匹配的视频内容,实现文本到视频的自动化创作,提高内容生产的效率和创意性。

TransPixar的技术原理

扩散变换器(DiT)架构:基于DiT模型,用自注意力机制捕捉视频帧之间的长程依赖关系,实现对视频内容的精细建模和生成。alpha通道生成:在DiT模型中引入alpha特定的token,与RGB token的联合生成,实现alpha通道的生成,支持RGBA视频的输出。LoRA微调:基于LoRA(Low-rank Adaptation)的微调方案,对alpha token的投影进行微调,保持RGB生成质量的同时,优化alpha通道的生成。注意力机制优化:系统分析并优化RGBA生成过程中的注意力机制,包括Text-attend-to-RGB、RGB-attend-to-Text、RGB-attend-to-Alpha等,基于调整注意力计算,实现RGB和alpha通道之间的强对齐和高质量生成。数据集扩展与训练策略:在有限的RGBA视频数据集上进行训练,基于合理的数据预处理和训练策略,提高模型对多样化场景和对象类型的适应能力,增强生成内容的多样性和一致性。

TransPixar的项目地址

项目官网:https://wileewang.github.io/TransPixar/GitHub仓库:https://github.com/wileewang/TransPixararXiv技术论文:https://arxiv.org/pdf/2501.03006在线体验Demo:https://huggingface.co/spaces/wileewang/TransPixar

TransPixar的应用场景

娱乐领域:快速生成星球爆炸特效片段,助力科幻电影后期制作。广告领域:制作展示新款电动车外观和行驶动态的广告视频,吸引消费者关注。教育领域:生成物体受力运动视频,辅助讲解物理定律,提高学生理解。增强现实(AR):生成逼真巴黎全景视频,为VR旅游应用提供沉浸式体验。创意产业:创作奇幻世界视频,拓展数字艺术表现形式和创意空间.

象寄翻译 – Home

象寄翻译官网

AI短视频翻译首发,多国语言精修工具

象寄翻译简介

需求人群:

适用于需要翻译视频和图片的用户,可用于出海内容制作、跨境电商等场景。

使用场景示例:

用户A使用象寄将一段中文短视频翻译成英文,并添加英文字幕

用户B使用象寄将一张日语图片翻译成中文,并去除水印

用户C使用象寄对一段视频进行交互精修,制作出精美的素材

产品特色:

视频翻译

图片翻译

交互精修

一键抠图

象寄翻译官网入口网址

https://www.xiangjifanyi.com/home/

小编发现象寄翻译网站非常受用户欢迎,请访问象寄翻译网址入口试用。

PlotCh.at – Home

PlotCh.at官网

图像数据问答工具

PlotCh.at简介

需求人群:

“PlotCh.at适用于需要快速理解和分析图像数据的用户,包括研究人员、数据分析师、学生等。”

使用场景示例:

研究人员上传科学实验数据图表,询问数据趋势

数据分析师上传市场报告图表,询问销售趋势

学生上传统计学作业图表,询问数据解释

产品特色:

上传包含图表、图形和可视化数据的图片

提出问题

生成数据表

提供数据的额外解释

PlotCh.at官网入口网址

https://plotch.at/

小编发现PlotCh.at网站非常受用户欢迎,请访问PlotCh.at网址入口试用。