关注技术产品商业

连接科技和行业，一起讨论技术、产品和商业

关于

TPF指的是 Technology Problem/Product Fit, 即技术问题(产品)契合，是新技术达到 PMF(Product Market Fit, 产品市场契合），实现盈利前的必经之路。 TPF 研学社是一个学习型社群，目的是连接科技和行业，通过跨领域的讨论一起探索技术、问题和产品的契合。

业界动态

谷歌在人工智能时代的搜索愿景

May 17, 2024

谷歌在其年度软件会议上发布了其旗舰搜索引擎的全新愿景，该愿景特别针对生成式人工智能（AI）时代进行了定制。公司利用先进的技术，其搜索负责人利兹·里德（Liz Reid）在舞台上宣布，“谷歌将为你完成搜索工作”。

通常情况下，搜索某些内容很少能立即得到一个明确的答案。用户输入查询，面对一大堆蓝链接，打开多个标签页，然后浏览这些链接以找到最相关的信息。如果这不起作用，用户将重新提炼搜索条件并再次尝试。现在谷歌正在推出“人工智能概览”，这种功能可能会整理出一份按氛围分类（现场音乐、屋顶露台等）的达拉斯“值得纪念的”餐厅列表，搜索食谱网站以创建膳食计划，为陌生主题构建介绍等。

今天展示的其他生成式AI功能包括代码编写工具、新的图像生成模型、谷歌Workspace和安卓手机助手等，都伴随着关于AI如何能够自动化或协助完成任何任务的常见宣言。然而，在这些公告中似乎隐含着对生成式AI缺陷的认可：这项技术在综合和重新构化信息方面非常出色，但在提供明确答案方面并不是最佳选择。或许因此，公司似乎希望生成式AI能够将其搜索栏转变为某种教育助手——一种引导查询而不是独立解决查询的工具。

谷歌在其推出的LearnLM的介绍中明确了这一使命，LearnLM是一套将被整合到谷歌搜索引擎、独立Gemini聊天机器人和YouTube中的AI模型。用户很快就能够要求Gemini进行“更简单”的搜索概述或“分解”成易于理解的部分，并在学术YouTube视频（如录制的讲座）中提问。还在研发能够教授任何科目或解释任何科学论文的AI工具。“生成式AI让你能够与信息进行交互，从而能更好地吸收它，”谷歌学习和搜索的高级副总裁本·戈麦斯（Ben Gomes）昨天在采访中告诉我。

LearnLM及谷歌整个AI产品系列立即引发的明显问题是：为什么有人信任这项技术来可靠地规划他们的结婚周年纪念日，更不用说教育孩子了？生成式AI因编造事物并以权威性的声音断言它们为真而声名狼藉。谷歌的首个生成式AI演示包含这样的错误，导致公司股价暴跌9%。去年“幻觉”一词（AI模型发明事物时使用的术语）被Dictionary.com评为年度词汇。上个月，科技专栏作家杰弗里·福勒(Geoffrey Fowler)批评谷歌的AI驱动搜索实验为“编造事实、误解问题、提供过时信息，并且一般性地喋喋不休”的产品。不用说，偶尔有幻觉认为16的平方根是5的SAT家教将不会是长期的SAT家教。

尽管如此，谷歌和其他公司实际上使用了大量技术，试图将AI输出基于既定事实。使用AI进行搜索的谷歌和必应提供了长长的脚注和链接列表（尽管这些也有自己的欺诈和不可靠来源的份额）。但是，谷歌今天的公告以及我昨天的采访表明，公司正在通过重新构思AI的角色来解决这些问题。正如戈麦斯告诉我的，生成式AI可以作为“学习伙伴”，一种可以“激发好奇心”而不是提供最终答案的技术。

戈麦斯说，LearnLM模型被设计为指向外部来源，以便人们可以从“多个来源获取信息”，并在“多个地方验证这是你想要的确切信息”。LearnLM工具可以简化和帮助解释对话中的概念，但它们不是用来成为真理的裁判。相反，戈麦斯希望AI能够推动人们向已经存在于互联网上的所有教育者和创作者。“这是建立信任的最佳方式，”他说。

这一战略也扩展到谷歌给搜索带来的其他AI特性。戈麦斯告诉我，AI概览“强烈地依赖于把你指向网络资源，让你能够验证信息的正确性”。里德在会议上说，谷歌搜索的三大独特优势是其访问实时信息、先进的排名算法和Gemini的能力。换句话说，谷歌搜索的大部分价值与生成式AI无关，而是来自谷歌已经能够检索到的在线信息，聊天机器人可以简单地将其转换成易于消化的格式。一次又一次，会议回到了Gemini对最高质量的实时信息的访问。这不是全知能力，而是能够接入谷歌几十年来提供的网络索引的能力。

这可能是生成式AI最适合的设计。这些算法被训练以发现统计模式和预测句子中的单词，而不是辨别事实与错误。这使它们可能非常适合连接不相关的想法，简化概念，设计记忆辅助工具，或者指向网络上的其他内容。里德说，每一个AI概览都“附带一系列的视角和深入了解的链接”——换句话说，是谷歌几十年来提供的大量蓝色链接的更好格式和更相关的版本。

因此，生成式AI在某些方面提供了回归谷歌搜索的功能，谷歌搜索在公司将其注入产品营销和小部件和侧边栏和维基百科摘

/永久链接/原文链接

OpenAI 宣布将推出新的旗舰模型 GPT-4o

OpenAI 宣布将推出新的旗舰模型 GPT-4o

May 14, 2024

## 摘要
OpenAI 在 2024 年 5 月 13 日宣布了新的旗舰模型 GPT-4o，其中 "o" 代表 "omni"，意指全方位。GPT-4o 能够接受并生成文本、音频和图像的任意组合输入和输出，响应时间可低至 232 毫秒，平均为 320 毫秒，与人类对话的反应时间相当。该模型在文本、音频和视觉多模态处理方面取得了突破，特别是在非英语语言的文本处理和视觉、音频理解方面表现出色。GPT-4o 在传统基准测试上达到了与 GPT-4 Turbo 相当的文本、推理和编码智能水平，同时在多语言、音频和视觉能力方面创下了新的记录。此外，GPT-4o 的语言标记化能力显著提升，减少了多种语言的标记数量。

GPT-4o 在安全性方面也有所改进，通过过滤训练数据和后训练优化模型行为，以及新的安全系统来提供语音输出的保护。该模型在核安全、化学生物放射防护、说服力和模型自主性等方面的风险评估显示，没有超过中等风险。OpenAI 还进行了广泛的外部红队测试，以识别新增模态引入或放大的风险，并据此改进了安全措施。

GPT-4o 的可用性将逐步推出，包括在 ChatGPT 中启用文本和图像功能，并提供给开发者通过 API 访问。GPT-4o 的文本和视觉功能已经在免费层和 Plus 用户中推出，后者的消息限制增加了 5 倍。在未来几周内，GPT-4o 的新版本将在 ChatGPT Plus 中的 Voice Mode 中作为 alpha 版本推出。开发者也可以通过 API 访问 GPT-4o 的文本和视觉模型，该模型比 GPT-4 Turbo 快 2 倍，价格减半，并且拥有 5 倍的速率限制。

## 观点
* GPT-4o 是一种全方位的人工智能模型 ，能够处理多种类型的输入和输出，包括文本、音频和视觉，这标志着人机交互的重大进步。
* GPT-4o 在多语言处理方面表现出色 ，特别是在非英语语言的理解上，同时也显著提高了音频和视觉理解能力。
* GPT-4o 的推出是基于两年多的深度学习研究和效率改进 ，这使得该模型能够更广泛地提供，同时降低了使用成本。
* 安全性是 GPT-4o 设计的核心考虑因素 ，通过多种技术和外部专家的红队测试，确保了模型的安全使用。
* GPT-4o 的迭代推出和持续改进 ，表明 OpenAI 对于模型的不断完善和对新风险的应对。
* GPT-4o 的成本效益和性能优势 ，使其成为开发者和企业在构建下一代应用程序时的有力工具。

/永久链接/原文链接

了解 AI 智能体：技术路线、市场解决方案及建议

了解 AI 智能体：技术路线、市场解决方案及建议

May 13, 2024

# AI Agents are disrupting automation: Current approaches, market solutions and recommendations | Insight Partners

## 总结

文章探讨了人工智能（AI）代理在自动化领域的作用及其对知识工作者和消费者生产力提升的潜力，分析了自动化平台的演进、AI在自动化中的角色、AI代理框架的发展、以及企业和构建者在部署和构建自动化解决方案时的考虑因素。

## 摘要

文章首先预测了AI助手的普及、人类在循环中的作用、自动化的复杂性、以及AI自动化的部署将遵循“爬行、行走、奔跑”的步骤。文章进一步探讨了自动化平台的演进，从早期的宏和工作流程自动化，到现在的机器人流程自动化（RPA）、iPaaS平台、低代码任务自动化平台以及垂直自动化方法。随后，文章分析了AI在企业自动化中的不同角色，包括RPA和任务自动化平台的当前状态，以及AI原生方法如何重新构想应用和工作流程。

接下来，文章详细介绍了代理自动化框架，包括协作员/通用预训练变换器（GPT）和代理，以及简述了无代码代理/GPT的实现和混合专家代理架构的关键组成部分。文章还强调了企业在部署自动化时应考虑的因素，如现有的自动化平台使用、数据质量、LLM技术的快速发展、市场上多样化的平台选择、以及LLM对提示的敏感性和性能测量。对于构建者来说，文章提出了在自动化平台中采用“爬行、行走、奔跑”的方法，强调了LLM的有限性和“混合专家”代理架构的重要性。

文章最后提供了一些生成AI代理性的实际用例，展示了市场地图，并列出了进一步阅读的参考文献。

## 观点

- **AI助手普及**: 未来，每个人都将拥有AI助手，这将重新定义传统应用、自动化平台和IT服务之间的界限。
- **人在循环中的作用**: 当前的AI自动化解决方案大多处于实验或早期生产阶段，以咨询和辅助工作流程为重点，而LLM在需要确定性执行的自动化平台中的应用主要集中在设计时，而非运行时。
- **自动化的复杂性**: 自动化是一个复杂问题，不容易解决，但AI的加入提高了平台的效率和用户体验。
- **AI自动化的部署步骤**: AI自动化的部署将遵循“爬行、行走、奔跑”的步骤，从简单任务到复杂工作流程，逐步扩展AI功能的应用。
- **代码生成的重要性**: 代码生成是开发基于生成AI（genAI）的应用和代理自动化平台的基础，LLM提供商正在不断推出新的功能，使其成为强大的代理构建平台。
- **企业部署自动化的考虑因素**: 企业在部署自动化时应进行成本效益分析，确保数据质量，关注LLM技术的发展，选择合适的平台，并确保有明确的性能测量和人类在循环中的作用。
- **构建者在自动化中的方法**: 构建者应该采用渐进的方法来利用genAI，集中在用户和用例上，利用LLM作为工具，并确保有适当的数据集和用户体验。
- **AI代理的未来**: AI代理的发展是一个不断创新和研究的领域，其中包括代理之间的交互，这可能会成为未来应用之间交互的AI版本。

/永久链接/原文链接

每一家大模型公司都是一家搜索公司：LLM检索系统的未来

每一家大模型公司都是一家搜索公司：LLM检索系统的未来

May 10, 2024

## 总结

本文强调了大型语言模型（LLM）公司在技术上面临的搜索挑战，并预测了检索系统的未来发展趋势。

## 摘要

在计算机科学中，搜索被认为是最困难的技术问题之一，仅有少数产品如Google、Amazon和Instagram能够实现良好的搜索功能。随着大型语言模型（LLM）和支持它们的检索系统的爆炸性增长，每家LLM公司都需要内置世界级搜索功能，以确保其产品的正常运作。检索增强生成（RAG）系统通过向LLM提供相关信息来帮助其回应查询，这使得LLM的回答更加基于现实和相关的信息。即使新的LLM具有更长的上下文窗口，允许一次处理更大的输入，但检索系统在大多数应用中仍然不可或缺，因为它们能够处理多个文档版本、实现基于角色和上下文的访问控制，以及避免不必要的计算成本和延迟。

文章指出，语义相似性搜索虽然简单易于构建，但结果普遍中等，因为它可能会遗漏与查询语义不同但实际有用的内容，对嵌入模型敏感，对输入数据的处理方式敏感，并且计算成本高昂。优秀的搜索系统不仅仅是返回与查询最相似的结果，而是要返回最佳的结果，这可能包括视频推荐、历史购买记录等多种因素。

未来的检索系统将更加复杂，类似于当前的生产搜索或推荐系统，它们将对LLM应用的有效内存、响应质量、可靠性和性能/延迟产生显著影响。大多数公司将内部构建这些检索系统作为核心竞争力，并依赖新的基础设施来构建特定于应用的检索系统。这些系统将需要更好的工具来创建、操作和使用不同类型的向量，以及更有效地处理不同类型的输入数据，并在近实时的时间内执行检索系统。

尽管大多数公司将自行构建检索系统，但基础设施提供商可能会扩展其服务范围，覆盖更广泛的基础设施堆栈，或者可能会出现针对特定应用或模态的产品化“检索即服务”（Retrieval as a Service）解决方案。

## 观点

1. **检索是LLM系统的关键组成部分，不会消失**：即使LLM的上下文窗口变长，检索系统仍然是确保LLM提供准确和相关回答的重要部分。
2. **语义相似性搜索是不足的**：虽然语义相似性搜索是一个起点，但它不能解决所有的搜索问题，因为它可能会错过一些有用的内容，并且对嵌入模型和输入数据处理方式非常敏感。
3. **搜索的未来是复杂的**：未来的检索系统将更加复杂，需要结合多种信号（如推荐或行为向量），并且能够处理多种类型的输入数据。
4. **大多数公司将自行构建检索系统**：作为核心竞争力，大多数公司将选择自行构建检索系统，而不是依赖外部解决方案。
5. **检索系统的基础设施需要发展**：为了支持这些新的检索系统，需要开发新的基础设施工具，以便更有效地处理和监控检索过程。
6. **检索系统将对LLM应用产生深远影响**：检索系统的性能将对LLM应用的有效性、质量和可靠性产生显著影响。
7. **可能出现检索即服务的解决方案**：尽管大多数公司可能会自行构建检索系统，但仍有可能出现针对特定应用或模态的检索即服务解决方案。

/永久链接/原文链接

AlphaFold 3: 一款能够预测生物分子结构和相互作用的人工智能模型

May 9, 2024

AlphaFold 3 一款能够预测生物分子结构和相互作用的人工智能模型

Isomorphic Labs 和 Google DeepMind 合作推出了 AlphaFold 3，这是一款能够预测生物分子结构和相互作用的人工智能模型，大幅提高了对蛋白质、DNA、RNA 以及药物分子等生命分子的理解，有望彻底改变生物学研究和药物发现。

## 摘要
AlphaFold 3 是由 Isomorphic Labs 和 Google DeepMind 开发的新一代人工智能模型，它能够以前所未有的准确性预测生命中所有分子的结构和相互作用。与现有的预测方法相比，AlphaFold 3 在预测蛋白质与其他分子类型的相互作用方面至少提高了 50%，对于一些重要的相互作用类别，预测准确性已经翻了一番。该模型基于 AlphaFold 2 的基础，后者在 2020 年实现了蛋白质结构预测的重大突破。AlphaFold 3 的推出，不仅能够加速药物设计和基因组研究，还有助于开发生物可再生材料和更具抗逆性的作物。

AlphaFold 3 能够生成输入分子列表的联合三维结构，揭示它们如何相互配合。它可以模拟蛋白质、DNA、RNA 以及小分子如药物中的配体等大分子，并且能够模拟这些分子的化学修饰，这些修饰对于细胞的健康功能至关重要。AlphaFold 3 的核心是改进过的 Evoformer 模块和深度学习架构，它使用扩散网络来逐步精炼分子结构。

在药物发现方面，AlphaFold 3 能够以前所未有的准确性预测药物分子与蛋白质的结合，包括蛋白质与配体以及抗体与目标蛋白质的结合。这对于理解人类免疫系统的某些方面和新抗体的设计至关重要。Isomorphic Labs 正在与制药公司合作，将 AlphaFold 3 应用于实际的药物设计挑战中，以开发新的生命改变治疗。

Google DeepMind 推出了 AlphaFold Server，这是一个免费的在线研究工具，允许全球科学家预测蛋白质、DNA、RNA 以及一系列配体、离子和化学修饰的结构。这个平台使得科学家们能够快速生成预测，无论他们是否有访问计算资源或机器学习专业知识。

Isomorphic Labs 和 Google DeepMind 一直在努力理解这项技术的广泛影响，并与研究和安全社区合作，采取科学导向的方法，进行风险评估，并共享对生物学和人类有益的广泛优势。

## 观点
* AlphaFold 3 的开发是人工智能在生物学领域的重大进展 ，它能够预测生命中所有分子的结构和相互作用，这对于理解生命过程和药物发现具有革命性的影响。
* AlphaFold 3 在预测分子相互作用方面的准确性超越了所有现有系统 ，它能够以单一模型的形式，整体性地计算整个分子复合物，从而统一科学洞察。
* AlphaFold 3 对药物设计具有里程碑式的意义 ，它能够预测药物分子与蛋白质的结合，这对于开发新的治疗方法和药物至关重要。
* AlphaFold Server 作为一个免费的研究工具 ，为全球科学家提供了一个易于使用的平台，以加速生物学研究和药物发现。
* Isomorphic Labs 和 Google DeepMind 对于 AlphaFold 3 的安全和负责任的使用持续关注 ，通过与专家和第三方合作，进行了广泛的风险评估和咨询，以确保技术的好处能够广泛传播。

/永久链接/原文链接

Sam Altman表示 Agents 有望成为人工智能的杀手锏

May 7, 2024

在与OpenAI的首席执行官Sam Altman的短暂交流中，他分享了关于人工智能（AI）未来发展的一些深刻见解。Altman认为，未来AI工具将比智能手机更深入地融入我们的日常生活。他向MIT技术评论描述了一个理想中的AI应用程序，即一个“超级能干的同事”，它了解用户的一切，包括每一封电子邮件和每一次对话，但并不像是用户的一部分。这样的AI能够迅速处理一些任务，对于更复杂的任务，它可以进行尝试，如果需要，还能回来向用户提出问题。

当前OpenAI的主要应用程序，如DALL-E、Sora和ChatGPT（Altman将其与即将推出的产品相比，称之为“非常愚蠢”），已经通过生成令人信服的文本和超现实视频及图像给人们留下了深刻印象。但它们大多是我们用来完成单一任务的工具，它们能从与我们的对话中学到的东西有限。

在Altman设想的新范式中，AI将能够在聊天界面之外帮助我们，并承担现实生活中的任务。

当被问及我们是否需要一个新的硬件设备来实现这一未来时，Altman表示，尽管智能手机功能强大，设计者已经融入了更多的AI驱动功能，但一些企业家认为未来的AI可能需要一个更专门化的设备。虽然已经有这类设备开始出现在他的视野中，比如Humane公司的（被广泛批评的）可穿戴AI Pin（Altman是该公司的投资者，但并不是该设备的积极推动者）。他还被传言正在与前苹果设计师Jony Ive合作开发一种新型硬件。但Altman认为，我们可能并不必然需要一个新设备。他告诉我，“我不认为这将需要一个新的硬件设备”，并补充说，所设想的那种应用程序可以存在于云端。但他很快补充说，即使这种AI范式转变不需要消费者购买新硬件，“我认为你会很高兴拥有[一个新设备]”。

尽管Altman表示他对AI硬件设备感到兴奋，但他也暗示自己可能不是应对挑战的最佳人选：“我对新技术的消费者硬件非常感兴趣。我是一个热爱它但专业相去甚远的业余爱好者。”

当我听到他对强大AI驱动的代理工具的愿景时，我想知道这将如何与当前行业训练数据的稀缺性相协调。为了构建GPT-4和其他模型，OpenAI已经在互联网档案馆、报纸和博客中搜索训练数据，因为规模法则早已表明，模型越大，效果越好。但找到更多的数据进行训练是一个日益严重的问题。互联网的很大一部分已经被利用，而且获取私人或受版权保护的数据现在陷入了法律斗争。

尽管如此，Altman对这个问题不会持续太久持乐观态度，但他并没有具体说明。

我相信，虽然不确定，我们会找到一种不需要更多训练数据的方法，他说。“人类的存在证明还有另一种方式来[训练智能]。我希望我们能找到它。”

关于谁将能够创建人工通用智能（AGI），OpenAI的核心愿景一直围绕着追求AGI，即能够像人类一样或比人类更好地推理的AI。它的使命是确保这样的技术“造福全人类”。然而，追求AGI的公司远不止OpenAI一家。那么，在AGI竞赛中，哪些工具是最重要的？当我问Altman，他认为最终胜出的是整合了最大芯片和计算能力的实体时，

Altman推测将会有“几种不同的[AGI]版本，在不同的事情上更好或更差，”他说。“你必须超过某个计算阈值，我猜想。但即使那样，我也不敢确定。”

关于我们何时能看到GPT-5，你以为他会回答吗？当房间里的另一位记者问Altman下一个版本的GPT何时发布时，他平静地回答：“是的，”他微笑着，然后什么也没说。

/永久链接/原文链接

生成式AI产业经济学：价值分配与利润结构

生成式AI产业经济学：价值分配与利润结构

May 5, 2024

## 总结
本文讨论了生成式 AI 的经济学，重点关注了价值在生成式 AI 中的分布情况。

## 摘要
自从生成式 AI 的 “AI 之苹果时刻” 以来，发展的步伐并没有放缓。作者思考的一个关键问题是生成式 AI 中价值的分布情况，包括现在和未来。作者将 AI 栈分为三层：半导体、基础设施和应用。根据估算，半导体层目前占据了生成式 AI 收入的 83%，远高于云栈中半导体层的 10%。这是因为 Nvidia 在数据中心业务中获得了约 180 亿美元的收入，并且他们在该领域拥有 95% 以上的市场份额。在基础设施层和应用层，估计年收入分别为 100 亿美元和 50 亿美元。然而，云经济中最接近最终客户的应用层通常赚取最多的价值。

## 观点
* 生成式 AI 中的价值主要分布在半导体层，占据了 83% 的收入。
* 半导体层的利润也是最高的，占据了 88% 的总利润。
* 未来，应用层将占据类似的价值比例。
* 半导体层的利润可能不会长期保持在高位，因为 Nvidia 的利润已经达到峰值并开始下降。
* 云应用通常赚取 75-80% 的利润，但 AI 应用只赚取 0-50% 的利润，这可能会随着时间的推移而改善。
* 消费者市场中的生成式 AI 也将遵循类似的趋势，从硬件层开始，然后向应用层转移。
* 生成式 AI 的未来将会有更多的自定义芯片和模型架构的改进，这将降低成本并提高利润。

/永久链接/原文链接

2 年 2000 万美元 ARR，最近一轮融后估值 10 亿美元的 GenAI 搜索引擎 Perplexity 是如何构建产品的

2 年 2000 万美元 ARR，最近一轮融后估值 10 亿美元的 GenAI 搜索引擎 Perplexity 是如何构建产品的

May 4, 2024

成立于不到两年前的Perplexity已经迅速成长为我日常频繁使用的产品，替代了我许多Google搜索的需求。目前，公司用户群已经扩展到数千万，年循环收入（ARR）超过2000万美元，同时在搜索领域与Google和OpenAI展开竞争。Perplexity最近完成了6300万美元的融资，估值超过10亿美元。投资者包括Nvidia、Jeff Bezos、Andrej Karpathy等。Nvidia的CEO Jensen Huang表示他几乎每天都在使用这个产品。

Perplexity的产品开发内幕如下：
1. AI优先策略：公司通过AI解决企业发展的每个步骤的问题，员工被鼓励在打扰同事前先向AI咨询问题。
2. 团队组织：优化以最小化协调成本，尽可能并行化项目的每个部分。
3. 小型团队：标准团队规模为2-3人，他们的AI生成（高评分）的播客由一个人从头到尾构建和管理。
4. 管理层次少：公司雇佣自我驱动的专业人士，并尽量避免雇佣在指导他人工作方面最强的人。
5. 对未来的预测：技术产品经理或具有产品品味的工程师将随着时间成为公司最有价值的人。

Perplexity的产品开发细节：
1. 公司内部使用AI工具构建Perplexity的方式：在公司成立初期，对于产品管理、项目管理、财务、人力资源等各个方面都不熟悉。通过AI提问，获得初步的操作步骤，然后迭代改进。
2. 产品经理数量：在一个50人的组织中，只有两名全职产品经理。
3. 招聘重点：寻求灵活性和主动性，而非管理流程或领导他人的能力。
4. 团队结构：目标是最小化“协调阻力”，依靠共享可复用的指导和流程并行化项目。
5. 长期规划：Perplexity存在不到两年，每个季度制定计划，并且在季度内尽量保持产品路线图的稳定。
6. OKR使用：季度规划尽可能严格和数据驱动，所有目标都是可量化的。
7. 产品/设计审查会议：项目由单一DRI推动，尽可能并行执行。项目开始时进行快速启动以确保对齐，之后以异步方式迭代。
8. 报告线：团队目前按功能（产品、研发、设计、商业等）结构化，所有精力都集中于改进核心产品。
9. 独特成功方法：将用户和内部反馈整合成几个直观的产品，并且通过分散化的决策方法，快速迭代，而无需批准流程。
10. 工具使用：使用Linear作为任务管理和错误跟踪的主要工具，Notion用于存储路线图和里程碑计划，Unwrap.ai用于整合、记录和量化定性反馈。
11. 路线图理念：高层目标和方向自上而下，但许多新想法是自下而上的。
12. 挑战：随着公司规模的扩大，如何保持现有的扁平化和协作环境，组织Slack和Linear的方式等小决策也变得难以扩大规模。
13. 独特传统：许多功能和产品都是在一周或更短时间的黑客马拉松期间构建的，这些集中的开发冲刺被证明是最激动人心和难忘的时刻。

此外，文中还提到了作者与Perplexity合作，深入了解产品经理如何使用Perplexity，并鼓励读者填写短调查问卷以参与用户访谈。

/永久链接/原文链接

GitHub 发布 Copilot Workspace，用自然语言实现程序开发

GitHub 发布 Copilot Workspace，用自然语言实现程序开发

April 30, 2024

在过去两年中，生成性人工智能（AI）从根本上改变了开发者的工作环境，主要是作为开发环境中嵌入的工具。2022年，GitHub推出了Copilot，这是一种在编辑器中的自动补全编程伴侣，它能够提升开发者的生产力高达55%。如今，Copilot已经成为最广泛使用的AI开发工具。

2023年，GitHub进一步推出了GitHub Copilot Chat，这一工具释放了编程中自然语言的力量，使得开发者能够实时与他们的代码进行对话。去年在GitHub Universe上短暂展示后，GitHub现在通过GitHub Copilot Workspace的技术预览，重新构想了开发者体验的本质：Copilot-native的开发者环境。在Copilot Workspace中，开发者现在可以使用自然语言进行头脑风暴、规划、构建、测试和运行代码。这种新的任务中心体验利用了从开始到结束的不同Copilot驱动的代理，同时让开发者对整个过程的每一步都拥有完全的控制权。

Copilot Workspace代表了一种使用自然语言构建软件的全新方式，它的设计目的是为了提供——而不是取代——开发者的创造力，速度和便捷性前所未有。通过Copilot Workspace，我们将赋能更有经验的开发者像系统思考者一样工作，并实质性地降低能够构建软件的入门门槛。

欢迎来到新的开发者环境的第一天。以下是它的工作方式：

一切都从任务开始…
首先，从GitHub问题、拉取请求或存储库打开GitHub Copilot Workspace。对于开发者来说，最大的入门障碍几乎总是在一开始就存在。想想你经常在大型项目、功能请求或甚至是错误报告的第一步就遇到了障碍，仅仅因为你不知道如何开始。GitHub Copilot Workspace在开发者的起点——GitHub存储库或问题——与开发者相遇。通过利用Copilot代理作为第二个大脑，开发者将从想法的开始就有AI的帮助。

…Workspace构建完整计划
从任务进展到规范，概述你想要用Copilot Workspace实现什么。步骤是可编辑的，允许你对想法进行迭代。

从那里开始，Copilot Workspace根据其对代码库、问题回复等的深刻理解，提供了一个分步解决问题的计划。它在一个自然语言的简化列表中为你提供了验证计划和测试代码所需的一切。

接下来，它完全是可编辑的…
然后调整你的行动计划，添加步骤和一般备注。一旦计划实施，你可以通过PR差异视图查看更改，并根据需要进行编辑。

GitHub Copilot Workspace提出的一切都完全可编辑——从计划到代码——允许你迭代，直到你对前进的道路充满信心。你保留了所有的自主权，而Copilot Workspace减轻了你的认知负担。

一旦你对代码感到满意，你可以使用集成的终端来运行单元测试、构建和适当的检查。

一旦你对计划满意，你可以直接在Copilot Workspace中运行你的代码，跳入底层的GitHub Codespace，并调整所有的代码更改，直到你满意最终结果。你还可以通过链接立即与团队成员共享工作区，以便他们查看你的工作，甚至尝试他们自己的迭代。

然后，只剩下提交你的拉取请求，运行你的GitHub Actions、安全代码扫描，并要求团队成员进行人类代码审查。最妙的是，他们可以利用你的Copilot Workspace来了解你是如何从想法到代码的。

/永久链接/原文链接

InfoQ研究中心发布了《中国生成式AI开发者洞察2024》

InfoQ研究中心发布了《中国生成式AI开发者洞察2024》

April 28, 2024

InfoQ研究中心发布了《中国生成式AI开发者洞察2024》，旨在为行业从业者、希望进入该行业的个人或机构，以及关注生成式AI领域的大众人群提供清晰的行业洞察。

# 研究背景
* 人工智能产业迅速发展，成为政策关注焦点。
* 生成式AI作为产业创新的关键，与实体经济融合成为新生产力发展的引擎。
* 报告通过桌面研究、专家访谈和用户调研，探讨了生成式AI开发者的特征、需求、企业建设升级路径等。

# 生成式AI开发者特征
* 2023年全球人工智能市场收入同比增长20.7%，中国是发展最快的市场之一。
* 生成式AI未来10年有望创造1.3万亿美元收入，国内政策提供支持。
* 开发者普遍工作年限较短，但属于高薪人群，北京开发者规模大，上海薪资高。
* 算法工程师、产品经理是紧缺人才，大模型研发和业务复合型能力是核心竞争力。

# 生成式AI研发团队洞察
* 开发者所在行业集中，中小企业占主导，20人以下小团队常见。
* 团队人才需“懂场景”、“懂模型”、“懂开发”，技术人才是中坚力量。
* 企业AI基础设施多采用云服务，商业大模型和开源构建是主流方式。

# 生成式AI开发者发展预测
* 初入者有四条进阶路线成为资深人士。
* 开发者希望通过权威认证提升竞争力。
* 付费意愿强烈，市场潜力大。
* 未来将逐渐从供应侧企业向应用侧企业迁移。

# 政策指引
政策密集出台，涉及基础设施、核心领域应用等，促进生成式AI健康发展。

# 行业吸引力
生成式AI和AI大模型是应届生投递人数增长最多的赛道，吸引大量高学历人才。

# 生成式AI开发者画像
开发者普遍工作年限较短，职位分布广泛，年薪50万以上占比高。

# 生成式AI开发者工作特征
近6成开发者研究方向超过2个，工具、大模型、数据科学等是主要方向。

# 生成式AI工具使用情况
GPT、百度文心、通义大模型使用率高，开发者对大模型有特定领域应用需求。

# 企业生成式AI研发基础设施
多数企业使用云服务，自建算力设施较少，面临GPU资源紧张、数据合规风险等问题。

# 企业生成式AI研发实践
生成式AI应用全面铺开，办公场景最受关注，企业赋能水平有提升空间。

# 生成式AI开发者晋升路径
初入者可通过不同路径成为AI技术领航者或实践领导者。

# 生成式AI开发者技能和产品付费意愿
开发者愿意通过权威认证提升竞争力，未来付费意愿强烈。

# 生成式AI开发者就职趋势
未来开发者将向应用侧领域迁移，供应侧企业开发者比例将下降。

# 全民开发时代
生成式AI工具普惠化，使用门槛降低，推动全民开发者时代到来。

/永久链接/原文链接