chatgpt里的prompt是什么

2人浏览 2026-06-05 23:32
chatGPT
chatGPT在线试用

新一代对话式人工智能,历史上增长最快的消费者应用程序

7个回答

  • 最佳回答
    惠桦成影
    惠桦成影

    ChatGPT提示语Prompt实用合集

    好的Prompt提示语才能释放Al的真正力量。ChatGPT输出结果的质量高低,和你使用什么样的输入文本(prompts)高度相关。

    #Prompt#人工智能#提示语#chatgpt应用领域#干货分享#AI绘画#AI

  • 文会倩琼
    文会倩琼

    在ChatGPT中,prompt是用户提供给模型的一段文本,它通常包含对话的开始部分或者对话的上下文,目的是为了引导模型生成相关的回复。prompt可以是一个简单的句子或一段段落,用于指定对话的主题、问题或者情境。

    预先定义好的prompt有助于ChatGPT更好地理解用户的意图,并生成合理和相关的回复。prompt可以提供上下文背景信息,让ChatGPT能够更好地回应用户的问题或请求,而不仅仅是单纯地依靠单个文本输入。

    当用户与ChatGPT进行对话时,prompt的内容会被输入模型中来指导模型生成回复。Prompt帮助模型理解对话的上下文,并对用户的问题或者对话请求提供更具针对性的回答。

  • 古娇洁福
    古娇洁福

    在ChatGPT中,prompt是指用户向模型提供的输入,它是对话开始的一段文本或问题。Prompt的作用是指导模型生成与用户意图相关的回答或对话。用户可以根据对话的需要,提供不同的prompt来引导模型产生不同的响应。

    Prompt可以是一个简单的句子或一段话,例如:

    - \"告诉我一个好笑的笑话。\"

    - \"请问今天的天气怎么样?\"

    - \"英语作业有一道关于过去式的题目,请帮我完成。\"

    根据这个prompt,ChatGPT会根据其模型学习到的知识和语言模式,生成一个合适的回答或继续对话。用户可以根据需要不断提供新的prompt来引导模型进一步交互,从而形成一个连续的对话。在对话中,prompt的变化可以影响ChatGPT生成的回答,起到了一种控制对话流程和内容的作用。

  • 闵天琼家
    闵天琼家

    3分钟学会Mid journey如何描述关键词

    今日学习要点

    确定描述主题

    完善画面的描述词

    获取描述灵感

    关键词翻译器

    标点符号的运用

    描述主题要素

    输入/imagine, 然后在prompt框内输入描述语

    描述主题六要素

    时间·清晨、中午、傍晚、春、夏、秋、冬等

    人物·帅哥、美女、动物、怪物、动漫角色等

    场景室内、室外、雨天、水下、宇宙、火海等

    做什么·看书、奔跑、拥抱、跳舞、极限运动等

    怎么做··蹲下、举起枪、张开双手、踩着滑板等

    情绪·高兴、哭泣、愤怒、呆滞、冷笑、苦恼等

    ●描述主题,可以是英文句子、短句或者单词。

    ●关键词并不是描述得越多越长就越好,而是要精准。

    ●有些关键词可能会互相冲突导致失效,或者破坏预设的风格,需要不断优化调整,才能达到满意的预期效果。

    完善画面的描述词

    可以细分的描述方向

    艺术媒介·照片、概念艺术、扁平插图、盲盒手办等

    画面色彩·彩色、黑白、赛博朋克色、莫兰迪色等

    照明灯光.自然光、电影照明、逆光、冷暖光等

    氛围浪漫、甜蜜、温馨、清新、沉重等

    质感金属、三维、木质、水晶、玻璃等

    视角构图··正面、三视图、广角、微距、远景等

    艺术风格油画、卡通、超写实、国画、浮世绘等

    渲染画质··低模、细节丰富、超高品质、虚幻引擎等

    艺术家梵高、莫奈、毕加索、新海诚、吴冠中等

    艺术家梵高、莫奈、毕加索、新海诚、吴冠中等

    MJ模型v 5.1、niji 5、niji5 expressive等

    宽高比1:1、3:4、2:5、16:9等

    以上内容可以跟在描述主题后,是使画面更可控、更出彩的技巧方法,根据实际需求增加删减。最后可以添加“--参数”, 关于Mid journey的参数,会在另外的教程里进行更详细的解释。

    描述词示例

    获取描述灵感

    1./describe以图生文

    可阅读上一篇帖子《2分钟掌握垫图技巧》。

    2.网络上的咒语分享

    很多平台都会有很多魔法咒语的分享,大家不要仅仅只会

    复制、粘贴、替换,希望通过这篇分享,让大家搞懂描述

    的原理和方法,能够举一反三。

    3.利用Chat GPT提炼关键词

    代表本人观点描述仅做参考,需要提炼有效关键词和语句。

    4.描述词黑科技网站亲测

    ①prompthero.com★★★★★

    大量最新的AI绘图,点击喜欢的图片,在右侧就能显示对应的咒语

    ②www.midlibrary.io/styles★★★★

    有各种风格的四宫格展示,可以很方便地挑选想要的风格

    ③eve hu-a i.notion.site★★★★

    可视化关键词大全,整理了很多艺术家和风格

    5.描述词提示器和翻译器

    提示器:www.atoolbox.net/Tool.php?Id=1102

    翻译器:moonvy.com/apps/ops

    描述词网站

    官网描述词灵感

    点这个位置

    再点这个位置

    描述主题要素

    www.atoolbox.net/Tool.php?ld=1102

    关键词翻译器

    moonvy.com/apps/ops/

    自动英文翻译

    自动分类排列

    提示词词典里有大量整理好的关键词咒语

    导出关键词图片方便保存和整理

    添加多个提示词工作区方便优化和修改提示词

    标点符号

    1.逗号(,)

    描述词/句之间用逗号来分割

    2.双冒号(::)(英文输入法的:)

    分词符号, 如dragonfly分成dragon和fly。

    同时也可以控制描述内容的权重。

    dragonfly(蜻蜓) 、dragon(龙) 、fly(飞)

    dragonfly

    dragon::2(空格) fly

    双冒号(::) 的权重说明:当dragon(龙) 权重为2(dragon::2) , 而fly(飞) 权重为默认的1时, dragon(龙) 就会在画面里更加突出。双冒号后面的数值越大,权重就会越大。

    描述小TIPS

    1.描述可以是英文的句子、短句或者单词,但是并非越长越好,使用简单清晰的描述语才是准确绘画出作品的关键。

    2.描述越精准,出的图就能更精确,但是如果描述得比较模糊,就可能产生多样性的创意。

    3.经常需要不断调整和优化描述词,才能获得更符合预期的结果。4.如果图中极大可能会出现某些人和物是你不想要的,你可以使用(--no人/物)这个命令参数来去除。

    5.不要出现违禁词!食人、流血、暴力、断肢等恐怖的题材,以及裸体、性器官、色情等儿童不宜的题材,和这些相关的词语会被定义为违禁词,使用违禁词可能会导致封号,不要尝试哦。

  • 安媛爽仪
    安媛爽仪

    关键词:

    这三个AI工具有多好用?

    Chat GPT

    Midjourney

    motiongoChat GPT

    通过正确的提问就能得到答案

    在使用chatgpt的过程中,为了能得到更为准确的答案,可以通过向 Chat GPT 提供一些背景信息来设定条件或角色这些信息可以是有关你的兴趣、喜好、特定需求或偏好的描述

    Chat GPT

    第一步:设定条件或角色

    通过提供一些背景信息来设定条件或角色。这些信息可以包括你的投资经验、风险承受能力、关注的行业等。如果你是一个有一定投资经验的投资者,对科技行业感兴趣,你可以提供这些信息给 Chat GPT。在与 Chat GPT 的对话中,你可以明确提及这些条件或角色,以便模型在回答时考虑这些信息。你可以在问题开头提到:“作为一个有投资经验的投资者,我想了解当前科技行业的投资趋势和一些建议

    第二步:与 Chat GPT 进行交流

    提出你的问题或请求,确保尽可能清晰明了。你可以问:“有哪些科技行业的投资机会值得关注?有什么投资策略可以分享吗?”如果 Chat GPT 的回答不够准确或详细,你可以通过追问、补充细节或要求更具体的建议来引导它提供更好的答案。你可以追问:“在科技行业中,有哪些具体的公司或领域你认为有潜力?能否给出一些投资策略的具体建议?”

    作为一个有投资经验的投资者,我想了解当前科技行业的投资趋势和一些建议。

    9作为一个有投资经验的投资者,你对当前科技行业的投资趋势和建议非常关注。科技行业一的中直是投资者的热门领域,不断创新和进步的科技公司提供了许多投资机会。以下是一些当育科技行业的投资趋势和建议供你参考

    1.人工智能(AI):人工智能技术在各个领域都有广泛的应用,包括医疗保健、金融、自动驾驶等。投资人工智能相关的公司可能会获得长期的增长潜力。关注那些在AI技术、算法和数据分析方面有优势的公司。2.云计算和大数据:随着数据量的不断增长,云计算和大数据技术成为许多企业和组织管理和分析数据的关键工具。投资云计算和大数据相关的公司,特别是那些提供云基础设施、数据存储和分析服务的公司,可能会有良好的回报。3.物联网(loT):物联网连接了各种设备和传感器,为人们提供了更智能、便捷的生活方式。投资物联网相关的公司,包括传感器制造商、物联网平台提供商和解决方案提供商可能会受益干物联网市场的快速增长4.清洁能源和可持续发展: 随着对环境问题的关注度增加,清洁能源和可持续发展领域的投资也在增长。关注那些在太阳能、风能、能源储存和能源效率方面有创新和领先地位的公司。

    5.电子商务和数字支付:电子商务和数字支付行业一直在迅速发展,尤其是在全球电子商务的普及和数字支付的增长。关注那些在电子商务平台、在线支付、数字货币和区块链技术方面有竞争力的公司。

    除了以上的趋势,还要注意行业的竞争态势、公司的财务状况和管理团队的能力。投资科技行业的高风险也需要谨慎管理,可以考虑分散投资,投资于不同规模和类型的公司,以降低风险。

    请注意,这些只是一些投资趋势和建议,并不能作为具体投资决策的依据。在做出任何投资决策之前,请务必进行充分的研究和

    Regenerate response Continue generating

    Send a message

    Free Research Preview.ChatGPT may produce inaccurate inforration about people, places, or facts, ChatGPT May 24 Version

    Midjourney

    只要一个正确的公式就能得到想要的照片

    使用midjourney绘图,关键词很重要,prompt要简约且清晰表达自己的需求。只要记住一个万能公式,通过使用不同的prompt提示词和要求可以制作自己想要的图片了。

    主 题

    背 景

    质 感

    风格

    灯 光

    气 氛

    t

    构图

    视角

    色彩

    主题:人 (boy) 、动物 (cat) 、物体 (car)背景: 森林 (forest) 、海洋 (ocean) 、街道 (street) ...风格: 皮克斯、赛博朋克、水墨画、宫崎骏、日本漫画.。。。。视角:侧视图、仰视图、全身照、头部特写....出图质量:高细节、超高清、2k.....

    例1:一个可爱的小女孩,在草坪上开心玩耍,阳光明媚,皮克斯风格,高质量,高细节,8k --v 5

    motiongo

    高效做好工作PPT

    下载就能用,可以作为插件直接在office和wps里面使用,输入关键词,选好自己的主题和大纲,就可以一键生成自己想要的PPT,风格和模板也可以在插件里面直接调整,也可以用里面的chatppt一键做好自己想要的PPT,好用又高效! !

    尤小优6167

    ChatPp

    大纲幻灯片

    数据提取与整理

    01]财务数据处理与分析

    根据公司的财务计划及经营状况,定期提取销售、采购、成本、费用等数据并进行有效的分类和汇总,以便更好地评估公司的业绩和财务状况。建立数据提取的标准化流程,保证数据的准确性和完整性,并对异常数据进行核查和修正,以确保数据提取的可靠性和有效性。对提取的数据进行进一步处理和加工,包括数据清洗、分类、筛选、汇总、分折等,确保数据的有效性和实用性。根据公司管理层的需求,提供有价值的数据统计报表和分析结果,为管理层的决策提供参考依据,并对数据仓库进行维护和更新,保证数据的及时性和准确性

    个财务岗位的月度工作总结汇报P

  • 江寒晶婕
    江寒晶婕

    GPT之于自动驾驶意味着什么?

    文丨智驾网 黄华丹

    ChatGPT带火了AI,当GPT遇到自动驾驶,又会发生怎样的化学反应?

    GPT全称Generative Pre-trained Transformer,即生成式预训练Transformer。简单概括即是一种基于互联网可用数据训练的文本生成深度学习模型。

    4月11日,在第八届毫末AI DAY上,毫末CEO顾维灏正式发布了基于GPT技术的DriveGPT,中文名雪湖·海若。

    DriveGPT能做到什么?又是如何构建的?顾维灏在AI DAY上都做了详细解读。AI DAY还展示了毫末自动驾驶数据体系MANA的升级情况,主要是其在视觉感知能力上的进展。

    01.

    什么是DriveGPT?能实现什么?

    顾维灏首先讲解了GPT的原理,生成式预训练Transformer模型本质上是在求解下一个词出现的概率,每一次调用都是从概率分布中抽样并生成一个词,这样不断地循环,就能生成一连串的字符,用于各种下游任务。

    以中文自然语言为例,单字或单词就是Token,中文的Token词表有5万个左右。把Token输入到模型,输出就是下一个字词的概率,这种概率分布体现的是语言中的知识和逻辑,大模型在输出下一个字词时就是根据语言知识和逻辑进行推理的结果,就像根据一部侦探小说的复杂线索来推理凶手是谁。而作为适用于自动驾驶训练的大模型,DriveGPT雪湖·海若三个能力:

    1.可以按概率生成很多个这样的场景序列,每个场景都是一个全局的场景,每个场景序列都是未来有可能发生的一种实际情况。

    2.是在所有场景序列都产生的情况下,能把场景中最关注的自车行为轨迹给量化出来,也就是生成场景的便会产生自车未来的轨迹信息。

    3.有了这段轨迹之后,DriveGPT雪湖·海若还能在生成场景序列、轨迹的输出整个决策逻辑链。

    也就是说,利用DriveGPT雪湖·海若,在一个统一的生成式框架下,就能做到将规划、决策与推理等多个任务全部完成。具体来看,DriveGPT雪湖·海若的设计是将场景Token化,毫末将其称为Drive Language。

    Drive Language将驾驶空间进行离散化处理,每一个Token都表征场景的一小部分。目前毫末拥有50万个左右的Token词表空间。如果输入一连串过去已经发生的场景Token序列,模型就可以根据历史,生成未来所有可能的场景。也就是说,DriveGPT雪湖·海若同样像是一部推理机器,告诉它过去发生了什么,它就能按概率推理出未来的多个可能。

    一连串Token拼在一起就是一个完整的驾驶场景时间序列,包括了未来某个时刻整个交通环境的状态以及自车的状态。

    有了Drive Language,就可以对DriveGPT进行训练了。

    毫末对DriveGPT的训练过程根据驾驶数据以及之前定义的驾驶尝试做一个大规模的预训练。通过在使用过程中接管或者不接管的场景,对预训练的结果进行打分和排序,训练反馈模型。也就是说利用正确的人类开法来替代错误的自动驾驶开法。

    后续就是用强化学习的思路不断优化迭代模型。

    在预训练模型上,毫末采用Decode-only结构的GPT模型,每一个Token用于描述某时刻的场景状态,包括障碍物的状态、自车状态、车道线情况等等。毫末的预训练模型拥有1200亿个参数,使用4000万量产车的驾驶数据,本身就能够对各种场景做生成式任务。

    这些生成结果会按照人类偏好进行调优,在安全、高效、舒适等维度上做出取舍。毫末会用部分经过筛选的人类接管数据,大概5万个Clips去做反馈模型的训练,不断优化预训练模型。在输出决策逻辑链时,DriveGPT雪湖·海若利用了prompt提示语技术。输入端给到模型一个提示,告诉它“要去哪、慢一点还是快一点、并且让它一步步推理”,经过这种提示后,它就会朝着期望的方向去生成结果,并且每个结果都带有决策逻辑链。每个结果也会有未来出现的可能性。这样我们就可以选择未来出现可能性最大,最有逻辑的链条驾驶策略。可以用一个形象的示例来解释DriveGPT雪湖·海若的推理能力。假设提示模型要“抵达某个目标点”,DriveGPT雪湖·海若会生成很多个可能的开法,有的激进,会连续变道超车,快速抵达目标点,有的稳重,跟车行驶到终点。这时如果提示语里没有其他额外指示,DriveGPT雪湖·海若就会按照反馈训练时的调优效果,最终给到一个更符合大部分人驾驶偏好的效果。

    02.

    实现DriveGPT毫末做了什么?

    DriveGPT雪湖·海若的训练和落地,离不开算力的支持。

    今年1月,毫末就和火山引擎共同发布了其自建智算中心,毫末雪湖·绿洲MANA OASIS。OASIS的算力高达67亿亿次/秒,存储带宽2T/秒,通信带宽达到800G/秒。光有算力还不够,还需要训练和推理框架的支持。毫末也做了以下三方面的升级。

    一是训练稳定性的保障和升级。大模型训练是一个十分艰巨的任务,随着数据规模、集群规模、训练时间的数量级增长,系统稳定性方面微小的问题也会被无限放大,如果不加处理,训练任务就会经常出错导致非正常中断,浪费前期投入的大量资源。

    毫末在大模型训练框架的基础上,与火山引擎共同建立了全套训练保障框架,通过训练保障框架,毫末实现了异常任务分钟级捕获和恢复能力,可以保证千卡任务连续训练数月没有任何非正常中断,有效地保障了DriveGPT雪湖·海若大模型训练的稳定性。

    二是弹性调度资源的升级。毫末拥有量产车带来的海量真实数据,可自动化的利用回传数据不断的学习真实世界。由于每天不同时段回传的数据量差异巨大,需要训练平台具备弹性调度能力,自适应数据规模大小。

    毫末将增量学习技术推广到大模型训练,构建了一个大模型持续学习系统,研发了任务级弹性伸缩调度器,分钟级调度资源,集群计算资源利用率达到95%。

    三是吞吐效率的升级。在训练效率上,毫末在Transformer的大矩阵计算上,通过对内外循环的数据拆分、尽量保持数据在SRAM中来提升计算的效率。在传统的训练框架中,算子流程很长,毫末通过引入火山引擎提供的Lego算之库实现算子融合,使端到端吞吐提升84%。

    有了算力和这三方面的升级,毫末可对DriveGPT雪湖·海若进行更好的训练迭代升级。

    03.

    MANA大升级,摄像头代替超声波雷达

    毫末在2021年12月的第四届AI DAY上发布自动驾驶数据智能体系MANA,经过一年多时间的应用迭代,现在MANA迎来了全面的升级。

    据顾维灏介绍,本次升级主要包括:

    1.感知和认知相关大模型能力统一整合到DriveGPT。

    2.计算基础服务针对大模型训练在参数规模、稳定性和效率方面做了专项优化,并集成到OASIS当中。

    3.增加了使用NeRF技术的数据合成服务,降低Corner Case数据的获取成本。

    4.针对多种芯片和多种车型的快速交付难题,优化了异构部署工具和车型适配工具。

    前文我们已经详细介绍了DriveGPT相关的内容,以下主要来看MANA在视觉感知上的进展。

    顾维灏表示,视觉感知任务的核心目的都是恢复真实世界的动静态信息和纹理分布。因此毫末对视觉自监督大模型做了一次架构升级,将预测环境的三维结构,速度场和纹理分布融合到一个训练目标里面,使其能从容应对各种具体任务。目前毫末视觉自监督大模型的数据集超过400万Clips,感知性能提升20%。在泊车场景下,毫末做到了用鱼眼相机纯视觉测距达到泊车要求,可做到在15米范围内达测量精度30cm,2米内精度高于10cm。用纯视觉代替超声波雷达,进一步降低整体方案的成本。在纯视觉三维重建方面,通过视觉自监督大模型技术,毫末不依赖激光雷达,就能将收集的大量量产回传视频转化为可用于BEV模型训练的带3D标注的真值数据。

    通过对NeRF的升级,毫末表示可以做到重建误差小于10

    【本文来自易车号作者智驾网,版权归作者所有,任何形式转载请联系作者。内容仅代表作者观点,与易车无关】

  • 花昌克伟
    花昌克伟

    搬运正文前简单说两句:AI绘图22年刚出的时候就关注并且试玩了一下,很快就弃掉了,无他,卖家秀与买家秀差别太大了,看着自己生成的一张张垃圾图去比对其他人生成的精美作画实在是劝退。直到最近出来ControlNet刷了一波屏,感觉离可用的生产工具又进了一步,这才又重新研究了起来。结果发现仅仅几个月,整个AI绘画的进步速度让我着实感觉到了后脊发凉。大家现在发了疯的用AI搞图,玩儿新的工具(Controlnet)、插件(LORA, Dreambooth, Hypernetwork)和模型(ChilloutMix dddd),但是在B站和知乎上却都没有看到比较系统的关于Stable Diffusion的使用介绍,让我一时有些不知道从何入手。这篇新手教学文章援引自 https://stable-diffusion-art.com/tutorials/ 这个网站,强烈建议刚入门的新手把这个网站下的每篇文章都读一遍,可以说涵盖了Stable Diffusion最前沿使用的方方面面,能让你以最快的速度,来对最新的各个模型、插件的原理、技术及使用方式都有所了解。Prompt是AI绘图中最重要的输入控制项,即是现在已经有了非常多的定制化模型能够让你更直接简单的生成某一特定风格的图像,你仍然需要会写一个好的Prompt才能够得到一张值得展示的图像。相信大部分中文用户和我一样大概都是英文阅读3星+,写作0星的选手,看别人改别人的Prompt还行,纯自己写的话脑中除了very very beautiful 以外就蹦不出别的啥词儿来了。而这篇基础教学文章通过对关键词分类的方式,让你可以更加明确的知道应该使用或查询哪些词汇来构建你所需要的图像,另外文章还介绍了关键词权重及混合等非常实用的技巧,以及SD是如何理解你的输入词汇等基础知识,相信无论你是想要修改Prompt还是从零自己写Prompt,无论是新手还是老手,即使已经开始使用chatGPT来辅助生成prompt了,这篇文章都仍然非常值得一看。本文原文链接为 https://stable-diffusion-art.com/prompt-guide/ 以下是正文翻译,请勿转载:Stable Diffusion prompt: a definitive guide

    了解如何构建出优秀的提示指令(prompt)的方法,是每个SD用户首先要学习的事情。本文通过总结实验与前人的经验,给出构建指令的方法与相关技巧。在这篇文章里,你将了解到有关prompt的所有信息。何为优秀的提示指令

    一个优秀的提示指令应该是详尽而具体的。一个好的方法是在关键词(keywords)分组列表中找到一个与你的需求所匹配的词汇。关键词的分组如下:1. 主体(Subject)2. 绘画介质 (Medium)3. 绘画风格(Style)4. 艺术家名(Artist)5. 网站(Website)6. 清晰度(Resolution)7. 细节描述(Additional details)8. 颜色(Color)9. 光线(Lighting)在实际编写的一组提示指令中,并不需要包含以上所有的分组里的关键词。你只需要把这个分组列表当作一个提示清单,在添加新的提示词时知道要如何选用即可。接下来我们将逐一来测试这些分组中的关键词,下面的测试中将使用的是默认模型sd v1.5 base model。 为了能够明确各个关键词的作用,测试中将不使用否定提示指令(negative prompts)。不过别着急,在文章的后面我们还是会学习如何使用否定提示指令的。以下所有的图片都以30 steps , DPM++ 2M Karas sampler以及512x704分辨率参数进行生成。【翻译注:后续翻译文章中所使用的图片都不是原文中的图片,而是译者本人在Colab上使用v1-5-pruned-emaonly.ckpt基础模型复刻的,以防作者胡说八道。其中CFG为7,BatchCount=8,Seed使用-1的随机设置,勾选了Restore face,一般生成3次乃至更多次来选出可用的示例图。另外不同于作者,我添加了"cut off, nude"的否定指令用以提升出图率以及规避审核风险】主体(Subject)

    主体表示的是你在图片中所看到的实体。在书写指令时,最通常的错误就是缺少足够的实体关键词。比如我现在想要生成一张魔女释放法术(a sorceress casting magic)的图片。一个SD的新玩家可能会这么写A sorceress

    这么写也是OK的,但是留下了太多的想象空间。这个魔女长什么样子?是否能有任何描述她的词汇可以更明确她的样子?她穿的是什么?她释放的是什么魔法?她是站着,跑着还是漂浮在空中?图像的背景是什么?Stable Diffusion不能读取我们的想法,我们必须切实的告诉全部我们所需要的细节内容。对于人物主体来说,一个常用的技巧是使用明星的名字,因为这些词对输出结果会有很强的效果,也是一个非常好的用来控制输出主体样貌的方法。不过使用这些人名除了会导致输出结果的面部不易产生变化外,也会导致输出同质化的姿势、风格以及其他物件。关于这一点,在文章的后面的“关联效果”章节会有详细介绍。作为示例,我们首先让这个魔女看起来像艾玛沃森,Emma Watson也是在SD中使用最广泛的关键词。我们希望这个魔女充满力量而又神秘,并且使用闪电魔法,她的造型是充满细节点缀的。这样看看能否生成一些有意思的图片。Emma Watson as a powerful mysterious sorceress, casting lightning magic, detailed clothing

    Emma Watson在模型中实在是太常见又太出效果了。我认为SD用户这么喜欢使用她的名字,是因为她看起来十分的优雅、年轻,同时在目前网络中的大部分图片中形象是一致的。相信我,不是所有女演员都是这样的,尤其是那些活跃在90年代甚至更早期的女演员们。绘画介质(Medium)

    介质表示的是制作绘画所用到的材质。举一些例子如:插画(illustration),油画(oil painting),3D渲染(3D rendering)和摄影(photography)等。介质关键词对输出结果也有较强的作用,一个相关词汇的修改会改变整个输出结果的风格。我们来添加一个相关的关键词 digital paintingEmma Watson as a powerful mysterious sorceress, casting lightning magic, detailed clothing, digital painting

    输出结果变成了我们想要的风格!图片从照片变成了数字绘画。绘画风格(Style)

    风格代表了一种绘画的艺术风格,举例如:印象派(impressionist),超现实主义(surrealist),流行艺术(pop art)等。我们向指令中添加一些风格类的关键字试试:hyperrealistic(超写实), fantasy(幻想风), surrealist, full bodyEmma Watson as a powerful mysterious sorceress, casting lightning magic, detailed clothing, digital painting, hyperrealistic, fantasy, surrealist, full body

    嗯....不太好说这些词对结果产生了多大影响,可能是因为这些风格类的关键词已经被前面的关键词所隐含。不过看上去保留他们也没有什么问题。艺术家(Artist)

    艺术家的名字也是有高影响权重的关键词。通过指定一个艺术家的名字可以让你输出的内容与其具体的艺术风格所匹配。另外通常也会使用多个艺术家的名字,以得到一种混合的艺术风格。下面我们将添加两个艺术家关键词: Stanley Artgerm Lau,一个超级英雄漫画家,以及 Alphonse Mucha,一个19世纪的肖像画家。Emma Watson as a powerful mysterious sorceress, casting lightning magic, detailed clothing, digital painting, hyperrealistic, fantasy, surrealist, full body, by Stanley Artgerm Lau and Alphonse Mucha

    我们可以看到这两种艺术家的绘画风格融合出来的效果非常好。【翻译注:慕夏是非常有名的画家,在我这个非专业人士的认知中他可以算是塔罗牌画风的创始人了,其绘画有很突出的古典、巴洛克、平面风格,另外一位画家不熟。在生成的示例图中可以看到慕夏风格表现的十分显著,这里我在制作示例图的时候把闪电的英文拼错了,所以你可以看到生成图中基本没有闪电了,不过因为慕夏+艾玛实在有点好看,我也就不修改了】网站名(Website)

    图片收集网站像 Artstation 和 Deviant Art 里聚集了大量的有明确流派的图片。 添加这类关键词可以使我们的输出结果趋同于网站上的图像艺术风格。Emma Watson as a powerful mysterious sorceress, casting lightning magic, detailed clothing, digital painting, hyperrealistic, fantasy, surrealist, full body, by Stanley Artgerm Lau and Alphonse Mucha, artstation

    看起来变化不大,但是生成的图片确实看起来像你能从Artstation上找到的图。【翻译注:在复刻的过程中我并不确定作者所说的Website是个有效的关键词类别,当我在webui中输入artstation时,token数量从43变成了45,非常怀疑模型把它拆分为art和station两个单词作为输入处理了(原因见文章后面的“指令可以有多长”章节)。另外网站的画风本身就是多元的,我也不太能理解他会对输出结果产生怎样的影响,在后续的示例中我会删除该关键词,以防止其造成不好的影响。至于与上一节相比,闪电又有了,那只是因为我把lightning拼写修改正确了】清晰度(Resolution)

    清晰度代表了输出的图像的锐度与细节度。我们尝试添加这两个关键词:highly detailed,sharp focus。Emma Watson as a powerful mysterious sorceress, casting lightning magic, detailed clothing, digital painting, hyperrealistic, fantasy, Surrealist, full body, by Stanley Artgerm Lau and Alphonse Mucha, artstation, highly detailed, sharp focus

    好吧,看上去没有太大的效果,应该是之前的图片已经很锐化且细节化了,但是添加上也并无坏处。细节描述(Additional details)

    细节描述是调整图片的调味剂。我们尝试添加 sci-fi(科幻), stunningly beautiful(绝美)与 dystopian (反乌托邦)来对图像进行一些调整。Emma Watson as a powerful mysterious sorceress, casting lightning magic, detailed clothing, digital painting, hyperrealistic, fantasy, Surrealist, full body, by Stanley Artgerm Lau and Alphonse Mucha, artstation, highly detailed, sharp focus, sci-fi, stunningly beautiful, dystopian

    颜色(Color)

    通过添加颜色关键字,你可以控制图像整体的色彩。你所添加的颜色有可能作为图像整体的色调,或某个物体的颜色。我们尝试使用关键词 iridescent gold来为图像添加一点金色。Emma Watson as a powerful mysterious sorceress, casting lightning magic, detailed clothing, digital painting, hyperrealistic, fantasy, Surrealist, full body, by Stanley Artgerm Lau and Alphonse Mucha, artstation, highly detailed, sharp focus, sci-fi, stunningly beautiful, dystopian, iridescent gold

    金色的效果很不错!光照(Lighting)

    所有摄影师都会告诉你,出片的要素之一就是光照。光照关键字对于生成的图片也有着巨大的影响。我们尝试一下在指令中添加cinematic lighting 与 darkEmma Watson as a powerful mysterious sorceress, casting lightning magic, detailed clothing, digital painting, hyperrealistic, fantasy, Surrealist, full body, by Stanley Artgerm Lau and Alphonse Mucha, artstation, highly detailed, sharp focus, sci-fi, stunningly beautiful, dystopian, iridescent gold, cinematic lighting, dark

    以上我们完成了整个演示demo的提示指令的构建总结

    可能你注意到了,仅仅向基础的目标对象再添加几个关键关键词(keywords)就已经可以生成出不错的图像出来了。对于构建Stable Diffusion的输入指令来说,通常你并不需要添加太多的关键词否定提示指令 (Negative prompt)

    否定提示指令 是另一个非常有效的调整图像的输入,通过输入你不想要的内容,而不是想要的,来实现对图像的调整。否定提示指令并非只能排除实体对象,也可以是风格或者其他一些不想要的图像特征(比如:难看(ugly),异型(deformed))如果你使用的是SD的二代模型版本的话(注:目前大部分人使用的是1.4/1.5的一代模型版本),否定提示指令是一个必填项,否则你会得到与一代版本相比差的多的图像。对于一代版本来说,否定指令是可选的,不过在实际使用时都会对其进行设置,毕竟否定指令即使没有提升图像的效果,也不会对其造成什么损害。我将使用一个通用的否定提示指令。有关其原理与更详细的使用方式,你可以在这篇文章中进行深入了解。ugly, tiling, poorly drawn hands, poorly drawn feet, poorly drawn face, out of frame, extra limbs, disfigured, deformed, body out of frame, bad anatomy, watermark, signature, cut off, low contrast, underexposed, overexposed, bad art, beginner, amateur, distorted face, blurry, draft, grainy

    可以看出否定提示指令使得图像中的主体更加凸显,不会显得过于平面化。构建良好指令的流程

    迭代构建

    你应该使用迭代的过程来构建提示指令,就像前面的示例所演示的,随着关键字逐一添加到主体中,我们最终可以生成非常棒的图片。我总是从只包含主体(Subject)、介质(Medium)、与风格(Style)关键词的简单指令开始进行构建。生成至少4张图片来观察结果。大部分这样的基础指令并不是能100%起效的。你需要对你所使用的基础关键词能获得什么有一些统计学上的感知。迭代过程中一次最多添加2个关键词,同样生成至少4张图片来观察其效果使用否定提示指令

    使用通用否定提示指令永远是个不会出错的开始。添加关键词到否定提示指令中也是迭代话构建的一部分。这些否定关键词可以是你希望避免在图像中生成的物体、或者身体部位。(由于一代模型并不太善于渲染手部,通过在否定指令中添加“hand”关键词以在图像中将其直接隐藏也是个不错的选择)提示指令书写技巧

    你可以调整一个关键词的影响因子,也可以控制在特定的生成步数(sampling step)后切换关键词。下面所介绍的语法都可以在 AUTOMATIC111 GUI 【翻译注:就是stable-diffusion-webui】中进行使用。你可以在 Colab notebook 上使用这个工具,也可以将其部署到本地的 Windows 或 Mac 电脑上。关键词权重

    (这个语法可以在webui中使用)你可以使用`(关键词: 权重)`这个语法来控制关键词的影响因子。权重是一个数值,小于1代表其重要度较低,大于1代表其重要度更高。我们可以在下面的指令中对狗这个关键词添加权重dog, autumn in paris, ornate, beautiful, atmosphere, vibe, mist, smoke, fire, chimney, rain, wet, pristine, puddles, melting, dripping, snow, creek, lush, ice, bridge, forest, roses, flowers, by stanley artgerm lau, greg rutkowski, thomas kindkade, alphonse mucha, loish, norman rockwell.

    添加狗的权重导致图像中出现了更多的狗,而反之则减少。并不是对于所有图片权重起到的都是这样的效果,但是绝大多数情况下,你都可以预期权重会产生这样的效果。这个技巧不仅可以使用在主体关键词上,对所有关键词类别例如风格或光照都可以使用。()与[]语法

    (这个语法可以在webui中使用)()与[]是与调整关键词权重等价的语法。`(关键词)`会将括弧中的关键词权重增加1.1倍,其等价于`(关键词:1.1)`。`[关键词]`将括弧中的关键词权重调低至0.9倍,其等价于`(关键词:0.9)`。你可以像代数公式一样使用多个括弧来倍增其权重影响效果(keyword):1.1

    ((keyword)):1.21

    (((keyword))):1.33

    与之相似的,使用多个中括弧的效果如下:[keyword]: 0.9

    [[keyword]]: 0.81

    [[[keyword]]]: 0.73

    关键词混合

    (这个语法可以在webui中使用)你可以混合两个关键词,这种用法准确的来说称作指令调度(prompt scheduling)。语法如下:[关键词1:关键词2:影响因子]

    `影响因子` 控制在采样的哪一步(step)中提示指令中的关键词1会切换到关键词2,它是一个0到1之间的参数比如使用如下的指令Oil painting portrait of [Joe Biden:Donald Trump:0.5]

    将输入的step参数设置为30这意味着在生成过程的前15步使用的是下面的指令Oil painting portrait of Joe Biden

    而在接下来第16到30步的生成过程中指令将变成下面这样Oil painting portrait of Donald Trump

    影响因子参数将决定关键词在何时发生变化,在上面的例子中它将在 30 steps x 0.5 = 15 steps后执行。调整影响因子所产生的效果可以看作是将两位总统的肖像在不同程度上进行混合。你也许注意到Trump身着白色西服更想是Biden的服饰搭配,这其实非常好的展现了使用关键词混合中很重要的一个规则:关键词1决定了总体的混合效果。越靠前的diffusion生成步骤越对图像整体的混合结果产生影响,而较靠后的生成步骤则只负责逐渐改进细节。小测试:如果在上面的例子中将Joe Biden与Donald Trump调换顺序,你觉得对于生成的图片会产生什么影响呢?面部混合

    关键词混合的常用于借用两个不同的明星来创建出新的面容。举例来说,[Emma Watson: Amber heard: 0.85],40 steps,将会产生一个介于二者之间的面孔:[Emma Watson: Amber heard: 0.85] oil painting, blur background, elegant

    选择两个合适的名字再加上调整参数,就可以获得我们想要的样貌。破产版prompt-to-prompt

    使用关键词混合,你可以获得到类似于 prompt-to-prompt 的效果,即通过编辑生成出一对高度相似的图像。下面的两张图像使用了同样的提示指令,除了使用指令调度语法将苹果替换为了火焰,两张图的seed与steps参数设置也是一样的【翻译注:这里使用的示例图片是我自己做的,与原文不一致,提示指令改成了将苹果替换成了火球,主要原因是替换成火焰没有做出太好的效果图来】[Emma Watson: Amber heard: 0.75] holding an [apple: fire ball:0.9], shining bokeh depth of field background, classic, oil painting, portrait, elegant, upper class, red lips, ear wearing. Steps: 40, Sampler: DPM++ 2M Karras, CFG scale: 6, Seed: 805277495

    混合因子需要精细的调整。它具体是如何工作的?其背后的理论其实就是:输出图像的整体效果是由早期的扩散过程(diffusion process)决定的。当扩散过程开始聚焦于更小的区域时,切换任何的关键词都不会对图像的整体结果产生较大的影响。这使得这种方式可以仅仅改变图像中的一小部分。指令可以有多长?

    指令长度取决于你使用的是哪个Stable Diffusion应用,应用中可能会对你指令(prompt)中的关键词(keyword)数量进行限制。在SD一代的基础版本中,指令的限制是75个词元(token)需要注意的是词元(token)并不等同于单词(word)。SD所使用的 CLIP模型 会自动将提示指令转化为一组词元,即该模型所知晓的单词的数字表示。如果你使用了该模型所不知道的单词或词组,该单词将会被切分为两个或更多的子单词(sub-words)直到他知道每个单词的含义。因此能够被CLIP模型所认知的单词(word)才被称为词元(token),举例来说`dream`是一个词元,`beach`是一个词元,但是`dreambeach`是两个词元,因为CLIP模型并不知道这个单

相关推荐

更多

chatGPT,一个应用广泛的超级生产工具

  • 扫码优先体验

    chatGPT小程序版

    chatGPT小程序版
  • 关注公众号

    了解相关最新动态

    关注公众号
  • 商务合作

    GPT程序应用集成开发

    商务合作

热门服务

更多
    暂无数据

    最新问答

    更多