圖/Shutterstock
本文你將看到:
- 中國企業 DeepSeek 勇闖 AI 新世界
- DeepSeek 模型不斷升級,具備更強的邏輯推理
- DeepSeek 以純強化學習提升推理能力,開源驅動 AI 創新發展
- DeepSeek 超越競爭對手的推理與編程能力,具有低成本優勢
- DeepSeek 壓制 AI 硬體股短線走弱,長線利多 AI 應用
AI 領域崛起的「黑馬」DeepSeek 橫空出世,打破了美國大型語言模型現有格局。DeepSeek宣稱 DeepSeek-V3 的訓練僅用了 2,048 塊輝達 H800 GPU(針對中國市場的低配版),花費 55 天運行完成,訓練僅耗資 557.6 萬美元,就做出一個實力接近 OpenAI 的 AI 模型。本篇文章將帶領讀者了解 DeepSeek 的源起和特別之處,並探討 DeepSeek 的崛起如何影響科技股市場,分析 AI 硬體供應商、雲端服務業者及 AI 軟體應用的潛在變化,以及短期的市場壓力與長期的發展機遇。
中國企業 DeepSeek 勇闖 AI 新世界
DeepSeek(全名:杭州深度求索人工智能基礎技術研究有限公司)成立於2023年7月17日,是一家位於中國杭州的人工智慧公司。公司專注於開發先進的大型語言模型(LLM)及相關技術,目標是推動人工智慧領域的創新與發展。
梁文鋒是 DeepSeek 的創辦人兼執行長,原本在浙江大學讀電機工程,後來又繼續深造,取得通信工程的碩士學位。念碩士的時候,他對人工智慧特別感興趣,於是把 AI 技術應用到量化交易上。畢業後,他創立了幻方量化(High-Flyer),逐漸成為中國領先的量化私募基金之一。到了 2019 年,幻方量化的資金規模已經超過千億人民幣。
出於對科學的好奇,他創立了 DeepSeek,並很快推出了第一個 AI 大型語言模型。雖然硬體條件受到限制,但他們透過改良模型架構,成功讓 AI 在更少的運算資源下,也能執行複雜的邏輯推理任務。
DeepSeek 模型不斷升級,具備更強的邏輯推理
DeepSeek 在 2023 年 11 月發布了第一代語言模型 DeepSeek-LLM,類似於 ChatGPT,
可以理解和產生語言的 AI 模型。在基礎架構上同樣採用與 GPT-4 相同的 Transformer 架構;其他的核心技術也與 GPT-4 和 Llama 2 相似,都是業界最先進的 AI 語言模型技術。因此 DeepSeek-LLM 也能做到其他 AI 模型能處理的事情,包括回答問題、生成文章、寫程式碼、翻譯和語言處理。
2024年1月,DeepSeek發布了 DeepSeek-MoE 模型,這是一個比第一代 DeepSeek-LLM 更聰明、更快的模型。最大的特點是它使用了混合專家架構 MoE(Mixture of Expert),這就像AI 內部有很多「專家」,當 AI 看到一個問題時,它會自動給最適合的專家來回答,所以 AI 給出的回答會更聰明和靈活,也更加節省計算資源。也就是說,MoE 架構允許模型在較低的計算成本下,達到比相同規模的傳統 AI 模型更好的效果。
同年4月,DeepSeek推出了 DeepSeek-Math 模型,顧名思義就是一款擅長解決數理問題的 AI 模型。之所以比一般 AI 更適合解數學,是因為這款模型是基於DeepSeek 內部專門用來寫程式的 AI 發展而來的。再結合人工微調(SFT)和強化學習(RL)技術,讓 AI 學習正確的數學推理步驟,並能自己試錯尋找解法。
有了這些基礎之後,DeepSeek在同年5月發布第二代 MoE 模型 DeepSeek-V2,相較於之前的版本,它的語言理解能力更強,回應速度更快,並且能處理更長的對話內容。這樣的升級來自於模型針對長文本處理進行優化,讓模型有超級記憶力,一次能處理約 50,000 字(128K token),在閱讀長篇文章、法律文件、技術報告時表現更好。
2024年12月,DeepSeek推出比 DeepSeek-V2 更強大的 DeepSeek-V3 系列模型,擁有更快的運算速度、更準確的語言理解能力,並且能處理更複雜的數學與編程問題。如果說 DeepSeek-V2 是一個全能型 AI 助手,那麼 DeepSeek-V3 就是一個更聰明、更快速的 AI 專家。DeepSeek-V3 之所以比前代更強,主要是因為它使用了多標記預測技術和進階版 MoE(混合專家)技術,可以讓AI一次寫好幾個字,回應速度顯著提升,還能更準確地回答問題。
而在今年1月,DeepSeek推出 R1模型,讓 AI 更接近人類的思考方式,擁有更強的邏輯推理、更自然的對話能力、更快的運算速度,甚至能像真人一樣理解上下文並進行長時間的對話。R1 的特別之處, 一開始就用強化學習(RL)進行訓練,不先學標準答案,而是透過獎勵機制不斷試驗找到最佳解決方案。這樣讓 AI 自己訓練自己的技術不需要任何人工標註數據,除了節省開發成本,還解放 AI 自我學習能力。
DeepSeek 以純強化學習提升推理能力,開源驅動 AI 創新發展
DeepSeek R1 模型的訓練方式拋棄了傳統的 SFT(有監督微調)方法,轉而採用純強化學習(RL)技術,為大型語言模型(LLM)帶來更強的推理能力。這種創新的訓練方式帶來了多項優勢,包括降低對標註數據的依賴、增強適應性、減少「幻覺」現象、降低訓練成本。
這些優勢對 AI 產業的發展至關重要。隨著訓練成本的下降,企業與研究機構將更容易投入 AI 應用的研發,進一步推動技術創新。此外,DeepSeek R1 作為開源模型,允許用戶透過蒸餾技術,將其推理能力轉移至更小型的 AI 模型,從而實現高效部署並提升自身 AI 產品的性能。這一特性不僅拓寬了 R1 的應用場景,也為開源 AI 社群帶來更大的發展空間。
DeepSeek 超越競爭對手的推理與編程能力,具有低成本優勢
整體上來說,DeepSeek R1 在基準測試中表現優於 OpenAI、Meta、Anthropic 等美國 AI 模型。在數學推理能力、軟體開發能力上,DeepSeek R1 表現優於 OpenAI o1;而在語言理解(多學科知識)、博士級專業知識問答測試中,DeepSeek R1 表現略遜於 OpenAI o1。
從價格上來看,DeepSeek R1 的 API 調用成本比競爭對手低 80%-98%。
DeepSeek 壓制 AI 硬體股短線走弱,長線利多 AI 應用
DeepSeek R1 模型的推出在市場上引發劇烈震盪,導致 1 月 27 日美股 AI 相關個股大幅下挫。其中,費城半導體指數(SOX)下跌逾 9%,輝達(NVDA)與博通(AVGO)分別重挫約 17%,超微(AMD)也下跌超過 6%。這一波跌勢反映出市場對 AI 訓練成本下降的擔憂——如果 AI 訓練變得更便宜,可能會降低對 GPU 的需求,進而影響雲端服務供應商的資本支出回報。
AI 訓練技術的進步雖然降低了模型訓練的成本,但 AI 應用的範圍持續擴展,尤其在邊緣 AI、機器人、自駕車等領域,GPU 仍然是不可或缺的核心算力來源。此外,AI 推理的算力需求並未減少,即便訓練成本下降,企業仍需大量 GPU 來支持 AI 應用的部署與運行。雲端服務供應商如微軟(MSFT)與 Meta(META)也仍在提高資本支出,顯示 GPU 需求並未消失。因此,短期內 AI 硬體類股雖然承壓,但長期仍然成長。
AI 軟體與應用產業則是有望直接受惠於 DeepSeek R1 的技術突破。隨著 AI 開發者開始效仿 DeepSeek 的方法,透過蒸餾技術從開源的大型語言模型中提取新模型,企業能夠顯著降低 AI 訓練成本,進而加速 AI 應用的開發與落地,亦能發揮提升獲利的效果。例如,企業軟體領域的龍頭 Salesforce(CRM)與 SAP(SAP) 可能從中受益。
綜合來看,短期市場對 AI 硬體需求的疑慮導致股價震盪,但 AI 技術的進步正在開啟新的應用場景,為 AI 軟體帶來更多成長機會。
延伸閱讀:
【美股盤勢分析】勞動市場降溫,美股主指齊揚(2025.02.05)
【美股新聞】DeepSeek動搖能源股,跌深後是否值得買進?
【美股新聞】中國AI新創DeepSeek衝擊,AI股市值蒸發1.2萬億美元
【關鍵趨勢】DeepSeek挑戰AI產業格局,美股重挫中隱藏投資良機?
版權聲明
本文章之版權屬撰文者與 CMoney 全曜財經,未經許可嚴禁轉載,否則不排除訴諸法律途徑。
免責宣言
本網站所提供資訊僅供參考,並無任何推介買賣之意,投資人應自行承擔交易風險。