山鲸AI
无数可心AI Tool,
助你总有新发现。
🔥热门工具
-
OOTDiffusion – 本地整合包,一键完美AI换装,虚拟换衣服不再困难,效果超神,支持半身,全身!!!
OOTDiffusion 支持上半身、全身的换装,如果你想要自定义模特或者衣服,需要自己提供背景干净的模特或者衣服模型。对于从事服装销售的行业来说,完全可以依赖AI 虚拟换装的方式生成营销宣传海报,无需聘请高昂的模特和拍摄费用,这是一个低成本的试装方案。 一、OOTDiffusion是什么? OOTDiffusion是一种基于潜在扩散的虚拟试穿技术,其主要目的是通过实现控制性的换装融合,让用户能够… -
ComfyUI 秋叶整合包 – 工作流界面,超多节点,解压即用,一键启动,快速入门AI绘画
上周赛博佛祖秋葉 Aki 发布了针对 ComfyUI 的整合安装包,让这款原本偏专业的 AI 绘画工具对初学者来说更容易上手使用了,我也安装试用了一下,的确非常方便,今天就为大家详细介绍一下整合包的用法 ~ 来自B站up@秋葉aaaki,近期发布了Stable Diffusion整合包v4版本,一键在本地部署Stable Diffusion!! 适用于零基础想要使用AI绘画的小伙伴~ 一、Comf… -
ComflowySpace – 开箱即用的ComfyUI客户端,MacOS用户的福音~
有在使用 Mac 电脑又想使用 ComfyUI,但因为安装困难而放弃的朋友吗? 开源AI图像和视频生成工具值得更好的交互设计体验,而不仅仅是WebUI和ComfyUI的原生外观。很多人不愿意学习或参与AI生成浪潮,因为工具门槛太高。这正是我们想要解决的问题。因此,我们认为应该创建一个更加用户友好和有用的AI图像和视频生成工具,ComflowySpace。 ComflowySpace的目标是做出人人…
🥕最新收录
-
OMS-Diffusion – AI换装升级版来了,虚拟试衣间,本地整合包,免训练,免安装
OMS-Diffusion 是OOTDiffusion的分支版本,与原来的 OOTDiffusion 训练两个 Unet 不同,OMS-Diffusion 只训练一个 Unet,这意味着一台 24GB 内存的机器(3090 或 4090)就足够了。 如今已有很多关于虚拟试穿的项目,如谷歌的Tryon Diffusion, 阿里的Outfit Anyone, 亚马的Diffuse to Choose… -
SimpleTex – 方便便捷的公式/文档识别软件,国产之光,无付费入口!兼容Win/MacOS
一、SimpleTex是什么? SimpleTeX 是一个用于创建和编辑LaTeX 公式的简单工具。 它可以识别轻松识别图片中的复杂公式并转换为可编辑的数据格式。 它提供了一个直观的界面, SimpleTeX 的主要功能包括: 实时预览:用户可以在编辑LaTeX 代码的同时立即查看公式的效果,无需额外的编译步骤。 只需轻松截取公式图片或上传本地图像,即可快速获得数学公式的LaTeX表达,支持快速插… -
LaTeX OCR – 数学公式图像识别AI工具,完美替代坑爹MathPix,本地整合包,无需环境,一键安装,开源免费~
由于mathpix开始收费了,于是我们将开源免费的LaTeX-OCR工具制作成本地整合包,点击即可使用,避免大家配置Python环境出现各种问题。 一、LaTeX OCR是什么? LaTeX-OCR 是一个开源的光学字符识别(OCR)软件,专为LaTeX 文档提供支持。 其主要目的是帮助用户将扫描的文档转换为LaTeX 编辑器可以使用的可编辑文本,从而方便进行修改、编辑和排版。 LaTeX广泛用于…
-
Krea AI – 超级强大的实时图像AI生成工具,颠覆传统工作流,为创意提供无限可能!
Krea AI 是一个 AI 智能设计工具,功能包括文生图、AI pattern、Logo Illustration 以及 AI 模型训练等,它最近因为实时生成(Real-time Generation)功能而备受瞩目。 一、Krea AI是什么? Krea AI是一种全新的创意工具,它利用人工智能生成高质量的视觉效果,同时了解你的风格、概念或产品。你可以上传图像并训练AI引擎,然后在画布上生成图… -
Image to Line Drawings – 图片一键转素描线稿AI工具
一、Image to Line Drawings是什么? 在传统艺术学习过程中,绘制一幅素描作品往往需要耗费大量时间和精力。然而,在AI的帮助下,这一过程可以被大幅简化。本文介绍的Image to Line Drawings整合包,便是这样一个工具,它能够帮助用户迅速将普通图片转换成素描风格的线条图。 二、Image to Line Drawing如何使用? 为了让更多用户能够轻松体验这一技术,我… -
SDXL-Light – 目前最快文生图AI模型,让AI出图速度提升 10 倍!
生成式人工智能技术已成为业界的焦点,它能够根据文本提示创造出图像或视频。目前的先进模型依赖于一个耗时的扩散过程来生成单一图像,可能需要5秒钟,并且要多次调用庞大的神经网络。因此,研究的热点是如何在保证图像质量的同时,加快图像的生成速度。 一、SDXL-Lightning是什么? SDXL-Lightning 模型是从 Stability AI 的 stable-diffusion-xl-base-…
-
DynamiCrafter – 图片转动画视频AI工具(腾讯出品)
DynamiCrafter是什么? DynamiCrafter是一款由腾讯、北大等人开发的图像动画工具。通过利用预训练的视频扩散先验,可以基于文本提示为开放域的静止图像添加动画效果。该工具支持高分辨率模型,提供更好的动态效果、更高的分辨率和更强的一致性。 DynamiCrafter开源地址: https://github.com/Doubiiu/DynamiCrafter DynamiCrafte… -
Luna AI – 国内本土顶尖全自动数字人AI虚拟直播系统
Luna AI是什么? Luna AI 是一款结合了最先进技术的虚拟AI主播。它的核心是一系列高效的人工智能模型,包括 ChatterBot、GPT、Claude、langchain、chatglm、text-generation-webui、讯飞星火、智谱AI、谷歌Bard、文心一言、通义星尘、千帆大模型、Gemini、Kimi Chat、QAnything、koboldcp… -
EMO – 震撼!阿里巴巴人物肖像图片转动态视频AI工具(即将开源)
阿里巴巴集团智能计算研究院的研究员田林瑞、王奇、张邦和薄烈峰开发了一种人工智能系统,可以让人工智能阅读选定的文本,并根据阅读的文本平滑地改变面部表情。EMO推出。 我们提出了 EMO,一种富有表现力的音频驱动的肖像视频生成框架。输入单个参考图像和声音音频,例如说话和唱歌,我们的方法可以生成具有表情丰富的面部表情和各种头部姿势的声音头像视频,同时,我们可以根据输入视频的长度生成任意持续时间的视频。 …
🎵AI声音工具
-
Replay – 智能视频音乐伴奏提取AI工具
Replay是什么? 在音乐制作和卡拉OK爱好者中,伴奏的提取一直是个技术活。传统软件操作复杂,而且对于冷门歌曲往往难以找到满意的伴奏版本。好在现在有了人工智能的加持,提取伴奏变得简单而高效。Replay正是这样一款利用AI技术自动提取伴奏的软件,它能够无损地还原最真实的音色,即使是新手也能轻松上手。 Replay的官方网址? https://www.tryreplay.io/ Replay的设备… -
GPT SoVITS WebUI – 快速声音AI克隆工具,完美复刻任何角色的语音、语调、语气!
语音技术在人工智能的驱动下,正在以前所未有的速度推进。GPT-SoVITS-WebUI正是这一变革的先驱它利用少量的声音源,可以快速地训练出一个语音合成(Text-to-Speech,简称TTS)模型。 这个强大的Web界面工具不仅提供了零次学习和少量次学习的文本到语音(TTS)功能,还支持跨语言的语音转换,为语音技术的爱好者和开发者打开了一扇新的大门。 一、GPT SoVITS WebUI的功能… -
EmotiVoice易魔声 – 爆火国产文本转语音AI工具,支持中英文,具有情绪控制功能~
网易有道AI算法团队也开源了一款国产TTS语音合成引擎EmotiVoice,刚上线仅一周时间就暴涨4200颗星,问鼎当周GitHub trending流行榜第一。而如今已冲到了 4.5k Star。 一、EmotiVoice是什么? EmotiVoice是一款功能强大且现代的开源文本转语音引擎,您可以免费使用。EmotiVoice 提供中英文两种语言,超过 2000 种不同的语音。最突出的功能是情…
-
MaterialSearch – 强大的本地文件AI语义搜索工具,支持文搜图、图搜图~
MaterialSearch是一个支持中文的本地素材搜索工具,可以扫描本地图片和视频,并支持自然语言进行搜索。它提供在线Demo和多种功能,如文字搜图、以图搜图、文字和图片搜索视频,以及图文相似度计算。 一、MaterialSearch的开源地址: https://github.com/chn-lee-yumi/MaterialSearch 二、MaterialSearch的主要功能: 文字搜图:… -
DemoFusion – 专业优化放大AI图像/细节增强高清神器,无需$$$
DemoFusion 是一款能够显著提高图像分辨率的增强工具。它允许用户将图像的分辨率提升至原来的4倍、16倍甚至更高,不仅增强图片的清晰度,还能够细化图片中的小细节,如纹理和边缘,创造出更为自然和逼真的视觉效果。DemoFusion 与基于潜在扩散模型(LDM)的多种应用无缝集成,例如ControlNet,同时还能放大真实世界中拍摄的图像。 一、DemoFusion的技术剖析: 使用生成人工智能… -
AudioCraft – 顶级音乐生成AI工具,来自Meta AI免费开源,音乐效果媲美音乐家作品~
一、AudioCraft是什么? AudioCraft是Meta AI免费开源的一款深度学习进行音频处理和生成的库。可满足您所有的生成音频需求:音乐、音效以及原始音频信号训练后的压缩。 它具有最先进的EnCodec音频压缩器/标记器,沿着MusicGen,一个简单可控的音乐生成LM,具有文本和旋律调节。 素材训练使用2万小时的授权音乐来训练MusicGen。 二、AudioCraft的项目地址: … -
Findsd.art – 专业AI模型在线以图搜索神器,再也不需要一个一个去翻啦~
一、Findsd.art是什么? Findsd.art 是一个通过图像搜索 Stable Diffusion 模型在线工具。上传一张图像后,网站会为你找出多张相似的图像,并按相似度进行排序。这些图片下方都有一个链接,点击后会直接跳转到 C 站,里面可以看到该图像用到的 SD 模型、提示词和生成参数等信息。有了它寻找需要的模型将变得非常轻松,不用再去 C 站一个个去翻了。 二、Findsd.art的… -
OMS-Diffusion – AI换装升级版来了,虚拟试衣间,本地整合包,免训练,免安装
OMS-Diffusion 是OOTDiffusion的分支版本,与原来的 OOTDiffusion 训练两个 Unet 不同,OMS-Diffusion 只训练一个 Unet,这意味着一台 24GB 内存的机器(3090 或 4090)就足够了。 如今已有很多关于虚拟试穿的项目,如谷歌的Tryon Diffusion, 阿里的Outfit Anyone, 亚马的Diffuse to Choose… -
启真医学Chat – 私人家庭医生,本地整合包,国内开源中文医疗大模型~
一 、启真医学模型是什么? 启真医学大模型坚持“数据+知识双轮驱动”的技术路线,通过大模型技术和医学知识库的紧密结合,融合医疗应用场景中的实际需求,从医学数据治理、医学推理、医患问答、病历自动生成、临床决策辅助支持系统等方面开展迭代研发,助力大模型技术在医疗行业的落地和应用实践。 目前大多数开源的ChatLLM项目使用的是其他模型(如:ChatGPT)生成的指令数据,其不可避免的存在数据幻想的问题… -
Snack Prompt – AI对话提示词专业分享平台,同时支持ChatGPT&Gemini~
一、Snack Prompt是什么? Snack Prompt 是一个由社区驱动的平台,专门为ChatGPT和Gemini提供最佳的AI提示词。在这个平台上,你可以发现、投票和分享各种AI提示词,跟踪关注的主题,创建和组织提示词,以及与专业的提示者进行交流。通过Snack Prompt,你可以充分挖掘AI的潜力。 二、Snack Prompt的官网地址: https://snackprompt.c… -
DiffBIR – 新一代高质量图像修复技术AI工具(支持Google Colab)
在人工智能照片修复方面,我们通常会想到像SD(StyleGAN等)这类的生成式对抗网络。然而,这些模型有时候会在图像修复过程中“发挥过头”,导致生成的图片与原始内容大相径庭。 本次我们要分享的AI照片修复工具,有效解决了上述问题。这个工具不仅能够有效去除图片噪声、模糊等问题,还能复原老照片中褪色或缺失的细节,使其看起来更加鲜活和真实。同时,保证修复后的图片忠实于原图内容。这一突破性的算法模型被称为… -
Sora – OpenAI即将发布的AI视频模型
一、Sora是什么? Sora 是 OpenAI 开发的AI视频生成模型,它能够根据用户的文本描述生成长达 60 秒、1080P 高质量视频,其中包含精细复杂的场景、生动的角色表情以及复杂的镜头运动。 Sora能够创造出包含多个角色、特定动作类型以及与主题和背景相符的详细场景。这款模型不仅能理解用户的指令,还能洞察这些元素在现实世界中的表现。 Sora对语言有着深刻的理解,能够精准地捕捉到用户的需… -
Walles AI – 全能AI阅读工具,兼容一切网站 ,浏览器必备神器!
在信息爆炸的时代,快速而准确地阅读大量内容,对于每个人都是一种常态挑战。 这些海量信息资讯和知识的涌入,可能导致信息过载,手忙脚乱,且分神费力。 好消息是,我们已经进入了 AIGC时代,随着ChatGPT等AI大模型的爆发,AI工具,尤其是AI阅读工具为我们提供了全新的高效解决方案。 以往的AI阅读工具已有不少,比如,国内版有司马阅SmartRead、WPSAI、网易有道速读、讯飞星火知识库文档问… -
MeloTTS – 高质量实时文本转语音AI工具,支持多国语言,同时兼容GPU/CPU
一、MeloTTS是什么? MeloTTS 是一个强大的多语言文本转语音库,特别设计以支持CPU环境下的实时语音合成,无需依赖GPU。该库能够输出自然流畅的语音,提供了一种高效便捷的方式,将文本信息转换为听觉内容。 MeloTTS不仅支持多种语言,包括英语、西班牙语、法语、中文、日语和韩语,还能处理混合语言文本,如含有英语单词的中文文本。此外,用户还可以根据需求调整语速,选择不同的发音口音,如美式… -
秋叶Lora炼丹炉 – AI模型训练一键包,人人都可以当炼金术士
一、Lora是什么? LORA是Low-Rank Adaptation的缩写,最早在2021年论文《LoRA: Low-Rank Adaptation of Large Language Models》中提出。是一种大语言模型低秩适配器,简单来说就是它可以降低模型可训练参数,使其尽量不损失模型表现的大模型微调方法,在此之前,StableDiffusion只能通过使用Dreambooth的方法训练大… -
AI作品能否得到著作权保护呢?
埃德蒙德·贝拉米的肖像 2018年10月,首幅AI创作画作《埃德蒙德·贝拉米的肖像》在美国纽约拍出43.25万美元。编写人工智能程序和创作这幅画作的,是巴黎一个名为“显而易见”的团体。 我和我的祖国 2019年10月11日,以《我和我的祖国》、《在希望的田野上》等经典曲目为基础,由人工智能创作的涵盖五个变奏段落的交响曲在深圳音乐厅上演。区别于一般AI作曲更多停留在单旋律、短篇幅的乐曲形态,此次尝… -
FaceChain – AI写真馆,妙鸭相机最强平替,仅需2张,即可获得专属写真大片~
FaceChain人物写真生成,仅需要某个人物的2张照片,即可训练得到该人物的专属形象,并批量生成各种风格的写真照片。FaceChain基于扩散模型的图像生成能力,结合LoRA训练实现人像和风格融合,并叠加一系列后处理能力,实现兼具相似度、真实感、美观度的写真生成能力。 一、FaceChain是什么? FaceChain是一款可以用于打造个人数字形象的深度学习模型工具。用户只需提供最低一张照片即可… -
Manga Image Translator – 日漫图片翻译AI神器,妈妈再也不用担心我看不懂漫画了~
一、Manga Image Translator是什么? Manga Image Translator是一款图片翻译工具,一个使用 Python 打造的开源项目,支持粘贴图片、选择图片或拖放图片进行翻译。该工具可以帮助用户快速翻译图片中的文字,提高工作效率。Manga Image Translator的优势在于翻译速度快、准确度高、操作简单。该工具免费使用,但用户可以通过捐赠支持该服务的维护和开发… -
Upscayl – 顶级图像无损智能放大AI工具,最高可放大16倍
Upscayl是什么? 在数字化时代,图像的质量对于视觉体验至关重要。Upscayl 是一款利用 AI 技术无损放大图像的工具,能够将图片放大高达 16 倍,极大地提升了图片的清晰度和细节。它适合于提升老照片清晰度、处理网络素材图片等场景,且完全免费且开源。 Upscayl的官网地址? https://www.upscayl.org/ Upscayl的特点优势? AI 技术支持:采用先进的人工智能…