数字人 & LLM 的全栈 Agent 框架

fay:连接数字人、多终端与业务系统的智能桥梁

fay 让数字人(2.5D、3D、移动、PC、网页)与大语言模型(OpenAI 兼容、DeepSeek 等)快速联动业务系统。 数字人侧通过官方接入方案/SDK(UE5、Unity、MetaHuman Stream、Duix、Aibote 等)覆盖多形态终端,底层可替换 LLM、TTS、ASR,并提供全链路交互与管理接口。

开源商用免责 全离线 & 全时流式 数字人自动播报 多用户多路并发 支持 DeepSeek 思考式 LLM
完全开源 商用免责,透明可控,持续维护。
全离线/全时流式 可本地运行,实时流式对话与播报。
任意终端 单片机、App、Web、大屏、三方系统皆可接入。
多形态交互 文字、语音、数字人驱动、自动播报、管理控制、意图接口。

Fay 框架的作用

围绕“看见—思考—触达—呈现”构建数字人体验:简易交互、接入传感、工具执行、调度业务。

01 · 简单数字人交互

皮肤 + LLM + 输入输出

在框架基础上选择皮肤(数字人接口)与 LLM:文本/语音输入输出,来源可为本机或网络。

文本交互:flask_server.py 语音交互:fay_booter.py 数字人接口:wsa_server.py(10002端口)
02 · 为 Fay 提供“眼睛”

外部终端送感知数据

智能硬件/摄像头/手机作为“眼睛”,将识别数据与文本一起通过 api_send_v1_chat_completions()observation 传入。

接口:flask_server.py 支持打招呼/唤醒等意图
03 · 为 Fay 提供“手”

Agent 调工具完成任务

chat_module 设为 agent,并在 llm/agent/tools/ 补充工具,驱动数字人执行操作。

可扩展工具 自主决策
04 · 调度三方系统

业务中心化协同

以数字人为中心,让“眼”看见,“手”触达,调度外部业务系统完成端到端流程。

开发接口

六类接口灵活组合,适配多场景数字人/Agent 应用。

文字交互

多路输入输出

通过文字与数字人沟通,支持并发多路。

语音交互

远程麦克风/扬声器

WebSocket 9001 与 TCP 10001 端口作用一致,可作为远程麦克风和扬声器,在无法直接对话时使用。

数字人驱动

多路输出

输出声音、文字、情绪、唇形以驱动数字人表现。

控制接口

多路输入输出

将 Fay 界面全部功能集成到自有产品。

播报接口

自言自语逻辑

用于构建主动播报/自言自语的数字人应用。

意图接口

唤醒/打招呼/打断

向 Fay 传达明确意图,实现唤醒、打招呼、打断说话等控制。

核心能力地图

终端接入方案 + 可替换的 LLM/TTS/ASR + Agent 自主决策 + 配置中心统一治理。

交互力

多模态交互

文字、语音、数字人驱动接口并行;支持唤醒/打断、机器人表情输出、自动播报与意图控制。

数字人自动播报 语音指令 qa.csv 全链路互通
智能中枢

LLM / Thinking LLM

切换 OpenAI 兼容接口与 DeepSeek 等思考式 LLM,Agent 工具自主决策,仿生记忆提升自我认知。

工具调用 仿生记忆 多用户并发
体系化

配置中心 + 管控

配置管理中心、MCP 工具管理(SSE / Studio)、后台静默启动,支持服务器与单机模式。

管理控制接口 配置中心 静默运行
知识与终端

接入方案与模型

数字人通过官方接入方案/SDK 对接,多终端落地;LLM、TTS、ASR 可替换,支持自定义知识库、问答对、人设信息。

2.5D / 3D / Web 自定义知识库 大屏 / 嵌入式

架构一览

上层接入多形态数字人和终端,中层为 Fay Runtime(交互、驱动、播报、意图/控制、Agent 工具、仿生记忆),下层接入 OpenAI 兼容 LLM / DeepSeek 等思考式模型,可更换 TTS、ASR;旁侧有配置中心与 MCP 工具治理,连通三方业务。

终端层
2.5D / 3D 移动 / PC / 网页 单片机 / 大屏
Fay Runtime
数字人驱动接口 文本/语音交互 自动播报 Agent 工具 仿生记忆
AI 引擎
OpenAI 兼容 LLM DeepSeek 等思考式 LLM TTS / ASR 可替换
业务适配
三方业务系统 配置中心 MCP 工具管理
使用模式

典型场景

虚拟教师、虚拟主播、新闻播报、企业助手、数字人展厅、移动客服等。

运行方式

服务器模式 / 单机模式,支持后台静默启动,多用户多路并发,流式实时交互。

治理能力

配置管理中心、MCP 工具管理(SSE/Studio),意图/自动播报接口;语音指令可在 qa.csv 中配置。

快速开始

10 分钟跑通本地 Demo,随后按需替换模型与终端。支持 Windows、macOS、Ubuntu。

准备环境

Python 3.12 · 依赖安装

sudo apt update
sudo apt install build-essential
sudo apt install portaudio19-dev

pip install -r requirements.txt
启动运行

本地 / 镜像

python main.py start -config_center d19f7b0a-2b8a-4503-8c0d-1a587b90eb69

# 镜像
https://www.compshare.cn/images/compshareImage-1cft3sk9gvta?ytag=GPU_fay

管理页面:访问 http://127.0.0.1:5000

个性化配置

灵活替换与扩展

将根目录 system.conf.bak 重命名为 system.conf 并完善配置。

接入数字人方案 自定义知识库/问答 切换 TTS / ASR

生态与集成

与主流引擎、端侧硬件、企业业务系统协同,提供即用的数字人/接口方案。

数字人引擎

多形态驱动

UE5、Unity、MetaHuman Stream(2D)、Duix(Android)、Aibote(Windows CPU 克隆人)等。

API 集成

接口 & 自动播报

全链路接口:文字/语音/数字人驱动、管理控制、自动播报、意图接口;支持自家产品与第三方业务接入。

API 文档
工具链

Agent 与治理

支持 MCP 工具管理(SSE / Studio)、语音指令配置(qa.csv),并提供配置管理中心。

MCP 工具管理 配置中心 自定义人设
社区

加入 & 贡献

关注公众号「fay数字人」获取交流群与教程,欢迎 Star / Issue / PR,共建开源生态。

联系我们

获取交流群、观看视频教程或商务合作,按需选择渠道。

公众号

fay数字人(关注入群)

微信搜索「fay数字人」,关注后按提示加入交流群。

获取最新教程 入群交流
B 站

账号:xszyou

关注 B 站账号「xszyou」,查看视频演示与更新动态。

前往 B 站主页
商务对接

QQ:467665317

商务合作、项目落地等需求,可通过 QQ 直接联系。

为什么选择 fay?

官方特性,确保落地:开源商用免责、全离线可用、全链路接口、多终端并发、官方数字人接入 + 可替换 LLM/TTS/ASR。

开源商用免责

完全开源,商用免责,核心能力透明,配置与文档完备。

全离线 & 实时

支持全离线运行,后台静默启动,流式实时响应。

多终端并发

单片机、App、Web、大屏等终端可接入,多用户多路并发,接口涵盖交互、驱动、播报、意图、控制。

灵活引擎

官方数字人接入方案,LLM(OpenAI 兼容、DeepSeek 等)、TTS、ASR 可替换;支持 Agent 工具与仿生记忆。

准备好让数字人连接业务了吗?

从 Demo 到生产仅需几步。配置好模型,接上你的终端与业务,就能启动一条全链路的智能交互体验。