AI Craft

专注于发布ai相关的内容

有事请联系mail#yumin.ai (请将 # 替换为 @)

Google Whitepaper: The Complete Guide to AI Agents

Google released a comprehensive whitepaper on AI Agents, authored by Alan Blount, Antonio Gulli, Shubham Saboo, Michael Zimmermann, and Vladimir Vuskovic (November 2025). This 54-page document provides a formal guide for developers, architects, and product leaders transitioning from proofs-of-concept to robust, production-grade agentic systems. 1. From Predictive AI to Autonomous Agents Artificial intelligence is undergoing a paradigm shift. For years, the focus has been on models that excel at passive, discrete tasks: answering questions, translating text, or generating images from prompts. This paradigm, while powerful, requires constant human direction for every step. ...

Friday, January 10, 2025

Google 白皮书:AI 智能体入门完全指南

Google 发布了一份关于 AI 智能体的综合白皮书,作者包括 Alan Blount、Antonio Gulli、Shubham Saboo、Michael Zimmermann 和 Vladimir Vuskovic(2025 年 11 月)。这是一份 54 页的深度文档,本文提炼了其核心见解——一份从原型到生产级智能体系统的完整指南。 1. 从预测式 AI 到自主智能体 人工智能正在经历范式转变。多年来,AI 的重点一直是擅长被动、离散任务的模型:回答问题、翻译文本或根据提示生成图像。这种范式虽然强大,但每一步都需要人类的持续指导。 我们现在正见证一个范式转变:从只是预测或创建内容的 AI,转向能够自主解决问题和执行任务的新型软件。 智能体是语言模型的自然进化,使其在软件中变得真正有用。 1.1 什么是 AI 智能体? AI 智能体不仅仅是静态工作流程中的 AI 模型;它是一个完整的应用程序,能够制定计划并采取行动来实现目标。它结合了语言模型(LM)的推理能力与行动能力,使其能够处理单独模型无法完成的复杂多步骤任务。 关键能力:智能体可以自主工作,在没有人类逐步指导的情况下找出达成目标所需的下一步。 2. AI 智能体的四大核心组件 用最简单的术语来说,AI 智能体可以定义为模型、工具、编排层和运行时服务的组合,在循环中使用语言模型来完成目标。 2.1 模型(“大脑”) 核心语言模型或基础模型,作为智能体的中央推理引擎,处理信息、评估选项并做出决策。模型类型(通用、微调或多模态)决定了智能体的认知能力。 智能体系统是语言模型输入上下文窗口的终极管理者。 2.2 工具(“双手”) 这些机制将智能体的推理与外部世界连接起来,使其能够执行超越文本生成的操作。包括: API 扩展 代码函数 数据存储(如数据库或向量存储)用于访问实时、事实性信息 智能体系统允许语言模型规划使用哪些工具,执行工具,并将工具结果放入下一次语言模型调用的输入上下文窗口。 2.3 编排层(“神经系统”) 管理智能体操作循环的治理流程。它处理: 规划 记忆(状态) 推理策略执行 这一层使用提示框架和推理技术(如思维链 Chain-of-Thought 或 ReAct)将复杂目标分解为步骤,并决定何时思考 vs 何时使用工具。这一层还负责给智能体"记忆"的能力。 2.4 部署(“身体和腿”) 虽然在笔记本电脑上构建智能体对原型设计很有效,但生产部署才是使其成为可靠、可访问服务的关键。这涉及: 在安全、可扩展的服务器上托管智能体 与监控、日志记录和管理的基本生产服务集成 通过图形界面供用户访问 通过 Agent-to-Agent (A2A) API 供其他智能体程序化访问 3. 智能体问题解决的五步循环 智能体在连续的循环过程中运作以实现目标。虽然这个循环可能变得高度复杂,但可以分解为五个基本步骤: ...

Friday, January 10, 2025

Google 白皮书:提示词工程的艺术与科学

Google 发布了一份关于提示词工程的综合白皮书,作者是 Lee Boonstra(2024 年 9 月)。本文提炼了这份 65 页文档的核心见解——一份从大语言模型获得更好结果的实用指南。 1. 引言 谈到大语言模型的输入和输出,文本提示词(有时伴随图像等其他模态)是模型用来预测特定输出的输入。 你不需要成为数据科学家或机器学习工程师——每个人都可以写提示词。 然而,撰写最有效的提示词可能很复杂。许多因素会影响其效果:你使用的模型、模型的训练数据、模型配置、用词选择、风格、语气、结构和上下文。 因此,提示词工程是一个迭代过程。不充分的提示词可能导致模糊、不准确的回复,阻碍模型提供有意义输出的能力。 2. 什么是提示词工程? 记住大语言模型是如何工作的:它是一个预测引擎。模型接收顺序文本作为输入,并根据训练数据预测下一个 token 应该是什么。大语言模型反复执行此操作,将每个预测的 token 添加到序列中以预测下一个。 当你写提示词时,你正在尝试让大语言模型预测正确的 token 序列。 提示词工程是设计高质量提示词以引导大语言模型产生准确输出的过程。这包括反复调整以找到最佳提示词、优化提示词长度,以及评估写作风格和结构与任务的关系。 提示词可用于各种任务:文本摘要、信息提取、问答、文本分类、语言或代码翻译、代码生成,以及代码文档和推理。 3. 大语言模型输出配置 选择模型后,你需要确定模型配置。大多数大语言模型都有各种控制输出的配置选项。有效的提示词工程需要为你的任务进行最优设置。 3.1 输出长度 一个重要设置是生成的 token 数量。生成更多 token 需要更多计算,导致更高的能耗、可能更慢的响应时间和更高的成本。 重要提示:减少输出长度不会让大语言模型在风格上更简洁——它只是让大语言模型在达到限制后停止预测。如果你需要简短输出,你还需要相应地设计你的提示词。 3.2 采样控制 大语言模型并不是正式预测单个 token。相反,它们预测下一个 token 可能是什么的概率。然后对这些概率进行采样以确定输出 token。 Temperature、top-K 和 top-P 是决定如何处理预测 token 概率的最常见设置。 3.2.1 Temperature(温度) Temperature 控制 token 选择的随机程度: Temperature 0(贪婪解码):确定性——总是选择最高概率的 token 低 Temperature(0.1-0.3):更确定性、更事实性的回复 高 Temperature(0.7-1.0):更多样、更有创意、更意外的结果 非常高(>1.0):所有 token 变得同等可能 3.2.2 Top-K 和 Top-P 这些采样设置限制预测的下一个 token 来自具有最高预测概率的 token。 ...

Thursday, January 9, 2025

Google Whitepaper: The Art and Science of Prompt Engineering

Google released a comprehensive whitepaper on prompt engineering authored by Lee Boonstra (September 2024). This post distills the key insights from that 65-page document - a practical guide to getting better results from Large Language Models. 1. Introduction When thinking about LLM input and output, a text prompt (sometimes accompanied by other modalities such as images) is the input the model uses to predict a specific output. You don’t need to be a data scientist or a machine learning engineer - everyone can write a prompt. ...

Thursday, January 9, 2025

做开源软件的程序员如何赚钱

这个本来是给知乎写的,但我还是备份一下吧 但下面的内容经过了比较多的更新,尤其是举的例子。 题目就是这个:做开源软件的程序员如何赚钱? Open Source 的赚钱途径,有很多: 1、Redhat 这种,freemium 模式,东西给你免费用,但或者功能受限,或者没有服务,或者没有技术支持,你要能自己折腾,就自己折腾,不会折腾,就付钱买高级功能,或者买服务,或者买技术支持,Oracle 也算是一个,卖的是 license 或者叫做 subscription;还有一个就是 OpenResty,它有 2 个网站,一个是 openresty.org,一个是 openresty.com,商业版有更多功能和服务,也更强大 2、也还是 freemium 模式,但不是卖软件,而是卖 SaaS,比如 supabase, umami.is 这种,基本上你免费上车,因为你要花时间和精力整合他们的 api,然后你生意搞大了,免费版的不够用了,就付钱吧;github 和 cloudflare 也都算是的,有很好的免费额度,但要更深入的用更多的功能和更多的额度,就得付费了。 3、dual-license,就是说,对个人和商业有两个不同的 license,你要是拿去商用,就付钱吧;国内的 discuz 也算是这样的 4、靠生态赚钱,比如 Android,免费给手机厂商用,但你必须整合 Google 和 Google Play,于是 Google 就通过这个来赚广告费;至于为何国内的安卓手机没有 Google 和 Google Play,那是另一个故事了。 世界上最流行的 CMS,使用量最大的框架,wordpress, 母公司是 Automattic,开发和维护了 wordpres 和 mongoose,但它是 GPL 协议,所以没办法收钱,但 wordpress 有一个最著名的插件,就是 woocommerce,能把你的 wordpress 网站轻松的转化为为一个电子商务网站。所以围绕着 woocommerce,有大量的插件和主题,都非常赚钱。 5、打赏模式或者说捐赠模式,这个不一定适合公司,但对于个人开发者来说,维护一个热门的开源库,很多人打赏,都能赚不少,比如 Vuejs,由于影响力巨大,很多公司捐钱给作者尤雨溪来维护的;当然,尤雨溪也到处演讲,赚了很多钱,买了跑车。 罗永浩捐过款的 OpenSSL, OpenBSD,这些开源组织都是非营利机构,但可以靠募捐或者卖会员的模式来取得收入。 OpenStack,据说一个会员名额是 50 万美元每年吧。腾讯加入了 Linux Foundation,是白金会员。 ...

Sunday, March 17, 2024