最新的 AI 行业动态与技术新闻
原标题: 《The web runs on tolerance》 评分: 27 | 作者: speckx 💭 把浏览器宽容度类比为社会包容,是不是太随意了? 🎯 讨论背景 原文提出“the web runs on tolerance”,即浏览器对损坏或非标准 HTML 的容错是 Web 成功的基础。评论从历史角度回顾 XML/XHTML 的兴起与 HTML 的宽松策略,并讨论 HTML 的 l...
[图片: 图片 https://image.jiqizhixin.com/uploads/editor/582748ee-b1c6-454f-b696-a98b4b6a9b64/640.png] 作者丨北大团队 编辑丨ScienceAI 近日,北京大学化学与分子工程学院联合计算中心、计算机学院、元培学院发布化学大模型基准 SUPERChem 。该基准针对当前化学评测中题目难度有限、多模态与推理过程...
翻车是真的,希望也是真的。 香港中文大学的一处山间小道,流水小桥,树影斑驳,青苔攀附在陡峭连绵的石梯上。 [图片: 图片 https://image.jiqizhixin.com/uploads/editor/824427a3-4187-45ee-ba2f-72c15e4e1f07/640.png] 无人机视野下500 米的定向越野路线。 一只人形机器人跨过三十度的小桥,走上一段石路,迈过两段台阶...
谷歌 Labs 宣布实验性无限画布工具 Mixboard 迎来「PPT 一键生成」重大更新:集成自研 Nano Banana Pro 图像模型,支持自定义提示词、框选导入、涂鸦编辑,数分钟即可将零散灵感输出为可分享的专业演示,被用户誉为「从混乱到故事的 AI 桥梁」。 [图片: QQ20251209-112402.jpg https://upload.chinaz.com/2025/1209/63...
🚀 Major Qwen Code v0.2.2-v0.3.0 update summary! ✨ Two breakthrough features: 🎯 Stream JSON Support • `--output-format stream-json` for streaming output • `--input-format stream-json` for structured ...
2025 年 12 月 19 日至 20 日,摩尔线程首届 MUSA 开发者大会(MUSA Developer Conference,简称 MDC 2025)将在北京中关村国际创新中心拉开帷幕。作为国内首个聚焦全功能 GPU 的开发者盛会,大会以「创造、链接、汇聚(Create, Connect, Converge)」为核心理念,直面技术自立自强与产业升级的时代命题,旨在汇聚全球 AI 与 GPU...
Meta 宣布与 CNN、Fox News、Le Monde、USA Today 等8家头部媒体签署商业数据授权协议,将在 Meta AI 聊天机器人内提供实时新闻问答与文章外链。首批内容覆盖全球突发、娱乐及本地新闻,用户提问即可返回可点击信源,合作伙伴借此获得新增流量与分成——这是 Meta 自2022年停止新闻付费、2024年砍掉 Facebook「News」标签后, 首次 大规模为新闻内容付...
[图片: 图片 https://image.jiqizhixin.com/uploads/editor/5e951ed2-e305-4422-8755-d4bf5eb45a5c/640.png] 随着多模态大模型(MLLMs)在各类视觉语言任务中展现出强大的理解与交互能力,如何高效地处理原生高分辨率图像以捕捉精细的视觉信息,已成为提升模型性能的关键方向。 然而,主流的视觉编码范式往往难以兼顾性能与...
[图片: 图片 https://image.jiqizhixin.com/uploads/editor/7608077a-b0dd-40d2-a901-67811d9d55ab/640.png] Canvas-to-Image 是一个面向组合式图像创作的全新框架。它取消了传统「分散控制」的流程,将身份参考图、空间布局、姿态线稿等不同类型的控制信息全部整合在同一个画布中。用户在画布上放置或绘制的内容...
IBM 近日宣布将以 110 亿美元收购数据流处理公司 Confluent,每股价格为 31 美元。Confluent 是一家基于 Apache Kafka 构建的平台,能够帮助各类组织实时移动、处理和管理数据。此次收购表明,科技巨头们在强化生成式和智能 AI 所需的数据基础设施方面的竞争愈发激烈。 IBM 首席执行官阿尔温德・克里希纳表示,此次交易是朝着构建智能数据平台迈出的重要一步。他强调,I...
蚂蚁集团正式推出了全新的灵光网页版通用 AI 助手,用户可以通过浏览器直接访问,体验其强大的 “灵光对话” 和 “灵光闪应用” 功能。灵光助手的推出,标志着蚂蚁集团在多端生态建设上的进一步发展,旨在提升工作和学习的效率。 [图片: image.png https://upload.chinaz.com/2025/1209/6390087516757824485555397.png] 灵光助手的一大...
OpenAI近期因产品命名再次卷入商标纠纷,从Sora应用中的“cameo”功能,到其尚未发布的硬件设备名称“io”,都被指与现有商标过度相似,引发行业关注。 今年9月,OpenAI在Sora应用中推出一项深度伪造数字肖像生成功能,允许用户创建个人数字分身并生成个性化视频。该功能以“cameo”为名推出,助推Sora登上苹果iOS下载榜首。 [图片: sora https://pic.chinaz...
近日,英伟达宣布与大型语言模型开发商 Mistral AI 达成合作,旨在加速开发和部署一系列新的开放源模型。根据双方的合作协议,英伟达将利用其强大的平台来支持 Mistral 最新 推出的模型家族 ——Mistral 3。 Mistral 3 系列被描述为开放源、多语言和多模态的,且针对英伟达的 超级 计算和边缘平台进行了优化。该模型采用混合专家(MoE)架构,这种架构的特点是只有与特定任务相关...
原标题: 《The Lost Machine Automats and Self-Service Cafeterias of NYC (2023)》 评分: 23 | 作者: walterbell 💭 要用机器人和售货窗替代服务员才叫现代化吗? 🎯 讨论背景 讨论起自对“纽约失落的自动售餐窗与自助食堂”主题的回忆与延伸,参与者以个人童年经历、电影与纪录片(如纪录片《The Automat》、电...
《纽约时报》向纽约南区联邦法院递交诉状,指控 AI 搜索独角兽 Perplexity「大规模、未经授权地复制与再发行」其新闻、视频、播客等版权内容,并请求禁令与损害赔偿。这是纽时继2023年起诉 OpenAI/Microsoft 后,第二起针对生成式 AI 的版权诉讼 。 [图片: 律师 法律 办公 起诉 法院 https://pic.chinaz.com/picmap/2023041210521...
Match Group 旗下 dating 应用 Hinge 正式推出 AI 驱动功能「Convo Starters」,旨在解决「只点赞不说话」的 awkward silence:用户每次点赞时,系统会在照片/提示下方自动生成3条个性化开场白,可直接发送或二次编辑。新功能已面向全球 iOS/Android 用户推送。 [图片: image.png https://upload.chinaz.com...
今天,《自然》杂志公布了 2025 年度十大人物榜单(Nature's 10)—— 这一榜单旨在选出在当年重大科学事件中占有一席之地的十位人物。 该榜单由《自然》杂志编辑团队评选,旨在突出最具影响力的研究以及正在塑造我们世界的重要发展。 [图片: https://image.jiqizhixin.com/uploads/editor/811ad5a7-b32b-4977-a638-bbba26e5...
12月9日消息,全模态通用AI助手灵光正式推出网页版,补全了灵光的多端生态。用户可通过浏览器直接访问,在电脑端体验其核心的“灵光对话”和“ 灵光闪应用”功能。 网页版延续了“30秒用自然语言生成小应用”的核心优势,实现了与移动端的数据与创作同步。用户可在电脑上描述需求,快速生成、编辑并管理对话和闪应用,并在手机端继续使用和分享。 [图片: 2f598e123f9c10c7fa313508149e3...
Google 宣布在其 AI 试穿实验应用 Doppl 内推出「可购物发现流」(Shoppable Discovery Feed),面向美国18+ 用户率先推送 iOS 与 Android 版。新流全部由 AI 生成视频组成,可一键跳转至品牌官网结账,标志着 Google 首次 把「短视频+AI 生成+即购」整套闭环塞进自家电商实验。 滑滑就能买:15秒 AI 视频 → 直达结账 机制:AI 读取...
近日,谷歌宣布在其实验性应用 Doppl 中推出全新的购物发现功能。该功能旨在通过个性化推荐,帮助用户发现并虚拟试穿各种时尚单品。Doppl 利用人工智能技术生成视频,展示真实产品,并根据用户的个人风格进行服装推荐。 [图片: image.png https://upload.chinaz.com/2025/1209/6390087117528141909604488.png] 用户在使用 Dop...
值得关注的开源 AI 项目
开源前沿语音AI [使用Python开发] [⭐14931]
终端文本编辑器:简单、强大、快速 [使用Rust开发] [⭐1370]
在 Linux (Ubuntu/Fedora) 和 GNOME/KDE 中运行 Microsoft Office/Adobe 等 Windows 应用程序,就像它们是原生操作系统的一部分一样,包括 Nautilus 集成。是 https://github.com/Fmstrat/winapps/ 的硬分支。 [使用Shell开发] [⭐13289]
关于 LLMs、RAGs 和实际 AI 代理应用程序的深度教程。 [使用Jupyter Notebook开发] [⭐22504]
开发者演示幻灯片 [使用TypeScript开发] [⭐42857]
一个开源的氛围编码平台,帮助您构建自己的氛围编码平台,完全基于 Cloudflare 技术栈 [使用TypeScript开发] [⭐3813]
一个更具灵活性和功能的 Notebook LM 开源实现 [使用TypeScript开发] [⭐13362]
一系列旨在帮助开发者快速开始使用 Claude API 构建可部署应用程序的项目 [使用Python开发] [⭐11571]
微舆:人人可用的多Agent舆情分析助手,打破信息茧房,还原舆情原貌,预测未来走向,辅助决策!从0实现,不依赖任何框架。 [使用Python开发] [⭐31752]
12 周,26 节课,52 个测验,面向所有人的经典机器学习 [使用Jupyter Notebook开发] [⭐80778]
前沿的 AI 研究论文
arXiv:2512.07776v1 Announce Type: new Abstract: Monitoring critically endangered western lowland gorillas is currently hampered by the immense manual effort required to re-identify individuals from va...
arXiv:2511.15464v2 Announce Type: replace Abstract: Recent advances in computational pathology have leveraged vision-language models to learn joint representations of Hematoxylin and Eosin (HE) images...
arXiv:2512.01821v2 Announce Type: replace Abstract: Spatial reasoning, the ability to understand and interpret the 3D structure of the world, is a critical yet underdeveloped capability in Multimodal ...
arXiv:2512.07259v1 Announce Type: cross Abstract: Image tile-based approaches are popular in many image processing applications such as denoising (e.g., non-local means). A key step in their use is gr...
arXiv:2512.07760v1 Announce Type: new Abstract: Unsupervised visible-infrared person re-identification (USVI-ReID) aims to match individuals across visible and infrared cameras without relying on any ...
arXiv:2512.04686v2 Announce Type: replace Abstract: Cross-view correspondence is a fundamental capability for spatial understanding and embodied AI. However, it is still far from being realized in Vis...
arXiv:2410.07618v2 Announce Type: replace Abstract: Although Chinese calligraphy generation has achieved style transfer, generating calligraphy by specifying the calligrapher, font, and character styl...
arXiv:2512.07241v1 Announce Type: new Abstract: Brain tumors are one of the most common and dangerous neurological diseases which require a timely and correct diagnosis to provide the right treatment ...
arXiv:2504.06084v2 Announce Type: replace-cross Abstract: Large-scale egocentric video datasets capture diverse human activities across a wide range of scenarios, offering rich and detailed insights i...
arXiv:2509.25374v2 Announce Type: replace-cross Abstract: Longitudinal medical visual question answering (Diff-VQA) requires comparing paired studies from different time points and answering questions...
arXiv:2408.01627v3 Announce Type: replace Abstract: In recent years, the talking head generation has become a focal point for researchers. Considerable effort is being made to refine lip-sync motion, ...
arXiv:2512.07245v1 Announce Type: new Abstract: Textual explanations make image classifier decisions transparent by describing the prediction rationale in natural language. Large vision-language model...
arXiv:2512.06562v1 Announce Type: new Abstract: Recent advances in 3D-aware generative models have enabled high-fidelity image synthesis of human identities. However, this progress raises urgent quest...
arXiv:2512.07379v1 Announce Type: new Abstract: This paper investigates and develops methods for detecting small objects in large-scale aerial images. Current approaches for detecting small objects in...
arXiv:2505.18051v2 Announce Type: replace Abstract: Vision transformers are ever larger, more accurate, and more expensive to compute. The expense is even more extreme at high resolution as the number...
arXiv:2512.06648v1 Announce Type: cross Abstract: Since the emergence of joint-stock companies, financial fraud by listed firms has repeatedly undermined capital markets. Fraud is difficult to detect ...
arXiv:2511.17397v2 Announce Type: replace Abstract: Multimodal Action Quality Assessment (AQA) has recently emerged as a promising paradigm. By leveraging complementary information across shared conte...
arXiv:2512.06363v1 Announce Type: new Abstract: Real-world face recognition systems are vulnerable to both physical presentation attacks (PAs) and digital forgery attacks (DFs). We aim to achieve comp...
arXiv:2512.07305v1 Announce Type: new Abstract: This study revisits the findings of Carl et al., who evaluated the pre-trained Google Inception-ResNet-v2 model for automated detection of European wild...
arXiv:2512.04441v2 Announce Type: replace Abstract: End-to-End autonomous driving (E2E-AD) has emerged as a new paradigm, where trajectory planning plays a crucial role. Existing studies mainly follow...
社交媒体上的 AI 讨论热点
When I logged into my Openreview CVPR author console, I found that my submission id has been changed from 9k+ to 42k+ . Interestingly, the openreview has applied some black colored mask on multiple pa...
经过反复尝试,最终放弃了使用传统自然语言处理(NLP)技术进行本地纠错的方案。该方案虽然在运行速度上表现出色,但实际应用效果并不理想,未能提供显著的帮助。
DeepSeek-V3.2技术报告指出,通过架构创新和高效训练策略,该模型在推理能力和智能体表现上已达到甚至超越了同期顶尖闭源模型,并大幅降低了计算成本。其核心突破是DeepSeek稀疏注意力机制(DSA),该机制智能识别并聚焦关键信息,将处理长文本的计算复杂度从指数级降至线性,同时保持模型理解能力。
关于与大型语言模型(LLM)对话的技巧,核心建议是避免直接询问“你”的看法,而是先识别相关领域的专家,然后让LLM模拟这些专家的角色来回答问题。这样做能显著提升回答的质量和效果。这一观点与前OpenAI科学家Andrej Karpathy的建议不谋而合。
[图片: ChatGPT, Gemini, DeepSeek, Claude, Perplexity, and Grok give response to this article about what one person’s power means. https://external-preview.redd.it/dWN4ajlxMGprMzZnMaUtP4kn2mXItgcRcbrhLIO...
Tesla's AI Automatic Emergency Braking saves a child's life submitted by /u/redsixerfan [link] [comments]
作者提出“幻觉引导世界发展”的观点,暗示人工智能领域中的“幻觉”(即模型生成的不真实但合理的内容)可能在某种程度上推动创新和进步,引导未来发展方向。
特朗普宣布恢复Nvidia H200芯片对中国的出口,但新规定要求25%的销售收入必须上缴联邦政府,这实质上是对相关出口设定了类似关税的限制。这一举措可能会让Anthropic的CEO感到焦虑。一位用户评论指出,好奇中国AI实验室获得美国级别GPU算力后能实现什么。
Nano Banana Pro之所以比ChatGPT image更受欢迎且持久,不仅因为它在语义遵循、中文处理和绘画质量方面表现出色,更关键在于它让图像创作拥有了类似大型语言模型(LLM)的世界知识。这意味着用户通过LLM提示词能获取的结果,都可以通过Nano Banana Pro以视觉形式呈现出来。
作者强烈推荐利用公众号平台探索人机协作内容创造,分享了自己从零开始运营公众号的经验和喜悦。通过AI工具,他成功地将难懂的论文转化为易读文章,并尝试为人物撰写专辑、将播客内容转录成文章。公众号新发布的文章带来了显著的关注增长和打赏,充分展示了AI在内容创作中的巨大潜力。
使用Nano Banana Pro可以方便地更改图像比例,从而获得更具自适应性的视觉效果。这表明该工具在图像编辑和创作方面提供了便捷且高效的功能。
xaicreator正在举办一个圣诞活动,用户可以定制自己的专属头像挂件,并通过分享链接让其他人免费领取。此活动旨在鼓励用户参与创作,并促进社区传播与互动。
作者分享了一个视频短片,标题带有提问性质,“这样的喜欢吗?”旨在引发观众的互动和反馈,了解大家对此类内容的偏好。内容详情需观看视频。
作者分享了在B站一个关于AI制作广告的视频下方的一条评论。这条评论反映了网友对AI广告的看法,具体内容需查看原图片。
作者分享了使用AI工具Lovart解决书籍配图难题的经验。面对30-40张印刷级图片的需求,通过批量上传图片到Lovart,并输入详细提示词,成功生成了满足出版要求的2k清晰度、文字颜色、比例和排版优化后的图片,显著提升了工作效率和图片质量。
智谱公司开源了AutoGLM,这是一个能自动化操作安卓手机的智能体框架,功能类似于豆包手机助手。它能够理解用户任务、规划操作、读取屏幕并执行相应动作。同时,智谱还开源了其底层模型AutoGLM-Phone-9B,该模型基于GLM-4.1V-9B进行微调。
作者分享了一套用于将单张信息卡片扩展为多张的提示词,更符合小红书/公众号等平台的内容属性。该提示词设定用户为“高级社论视觉设计师”,任务是将文本内容转化为多张高审美、杂志风格的HTML5信息海报,并详细定义了“现代社论风 + 瑞士国际主义”的核心风格和视觉秩序感等设计规范。
作者分享了一套用于将单张信息卡片扩展为多张的提示词,更符合小红书/公众号等平台的内容属性。该提示词设定用户为“高级社论视觉设计师”,任务是将文本内容转化为多张高审美、杂志风格的HTML5信息海报,并详细定义了“现代社论风 + 瑞士国际主义”的核心风格和视觉秩序感等设计规范。
n8n 2.0版本正式发布,旨在全面提升安全性、可靠性和性能,将其定位从“快速迭代的功能型工具”转向“企业级稳定平台”。核心理念是“默认安全”,通过隔离执行(如“Task runners”沙盒环境)和严格限制代码节点访问权限(禁止直接读取环境变量和执行任意系统命令),大幅降低安全风险。对于企业用户而言,这使得n8n更合规、更安全,但旧工作流可能需要相应调整。
Nano Banana Pro展示了强大的创作能力,不仅能将一张图片扩展为9张,还能直接配合可灵2.6图生视频功能,快速生成完整的视频作品。这项功能在Lovart平台可以直接实现多图并发,极大提升了创作效率。视频演示了具体操作和提示词效果。
Nano Banana Pro展示了强大的创作能力,不仅能将一张图片扩展为9张,还能直接配合可灵2.6图生视频功能,快速生成完整的视频作品。这项功能在Lovart平台可以直接实现多图并发,极大提升了创作效率。视频演示了具体操作和提示词效果。
作者引用Logan Kilpatrick的评论“Just realized Tony Stark was a vibe coder”,表达了对钢铁侠托尼·斯塔克(Tony Stark)作为“有范儿的代码创造者”的认同和致敬,暗示了一种创新、酷炫的编程文化。
房车旅行者分享亲身经历,警示自媒体博主切勿实时公开准确的地理位置信息。作者曾因提前预告行程遭遇不法分子的威胁,而近期抖音头部主播在南非被绑架的事件再次印证了及时公开行程的风险。建议自媒体发布旅行信息时,应错开时间或空间,避免被精准定位,以确保人身财产安全。
For the last two years, most of what I’ve seen in the AI space is people trying to make models more “obedient.” Better prompts, stricter rules, longer instructions, more role-play. It all revolves aro...
I am building ProjectDepot.ai as a professional platform for AI workspaces rather than a generic prompt library. Key elements: • Each listing is a persistent “project” that combines a system prompt wi...
Live Demo: https://huggingface.co/spaces/MCP-1st-Birthday/auto-distill Hey everyone, I made Auto Distill for a Hackathon. The ambitious goal was to automate the creation of distill.pub style interacti...
[图片: As AI wipes jobs, Google CEO Sundar Pichai says it’s up to everyday people to adapt accordingly: ‘We will have to work through societal disruption’ https://external-preview.redd.it/3Y2h_LWOLk7fVa...
Title. submitted by /u/Mathemodel [link] [comments]
[图片: Online child safety advocates urge California lawmakers to increase protections https://external-preview.redd.it/BSw4Td5solRCTGDmYbxvH0YaBU5RpaIuhlr7HKuz5HI.jpeg?width=640&crop=smart&au...
[图片: OpenAI Should Stop Naming Its Creations After Products That Already Exist https://external-preview.redd.it/6Lifg971qXl_KJ-yaVfMKQ6c2-heoCg56-IvSd5y1jk.jpeg?width=640&crop=smart&auto=web...
[图片: 'Big Short' investor Michael Burry defends his calls for a stock market bubble and predicts a 'Netscape fate' for OpenAI https://external-preview.redd.it/Vze8EQaihjeFAuS0rxO7KcqNjktCm_P1qW28DXECZ...
A while back I shared my open-source implementation of Stanford's Agentic Context Engineering framework here. I've now built a practical application on top of it: a self-learning loop for Claude Code....
We were blocked on evaluation of our multi agentic AI for a while because we assumed we needed a complete dataset before we could trust any results. What finally unblocked us was starting with somethi...
I have been working on an agent style system where behavior changes often as we adjust tools, prompts, and control flows. One recurring problem is evaluation. If the system keeps evolving, when is a g...
I have been experimenting with ways to create evaluation datasets without relying on a large annotation effort. A small and structured baseline set seems to provide stable signal much earlier than exp...
I’ve been exploring architectures that make agent systems reproducible, debuggable, and deterministic. Most current agent frameworks break because their control flow is implicit and their state is hid...
[图片: Has the cost of building software just dropped 90%? https://external-preview.redd.it/SIYlRcGYOzWduE959fZ-NHxLw_vCV0Zj6itYq42A6bc.png?width=640&crop=smart&auto=webp&s=32a461f7c9b5f3...
[图片: Visualization of what is inside of AI models. This represents the layers of interconnected neural networks. https://external-preview.redd.it/eW8zNXZndmJ2MDZnMT3tkNdyHQxJgy8UxYyoEFFO0GLT5-cLTQcR3P...
I’ve been noticing more niche AI image tools popping up that focus on just one think like only logos, only anime, only photorealistic portraits, etc. For those who’ve tried them: Do they actually perf...
[图片: Queer AI Romantic Partners: A New Kind of Relationship | Uncloseted Media https://external-preview.redd.it/FEvExq_zdPQ0fcocvnK0b3XF9k-B8HGDpuPEWPyVVyw.jpeg?width=640&crop=smart&auto=web...