Midjourney 和 DALL-E 雖然好用,但每月的訂閱費用不低,而且你的創作自由度始終受到平台規則的限制。如果你希望擁有完全自主的 AI 繪圖能力——不限次數、不受審查、可以自由調整模型——那麼在自己的電腦上部署 Stable Diffusion 是最佳選擇。本文將從零開始,手把手帶你完成本地部署,讓你擁有一個屬於自己的免費 AI 繪圖工作站。
什麼是 Stable Diffusion?
Stable Diffusion 是由 Stability AI 開發並開源的文字轉圖片(Text-to-Image)AI 模型。與 Midjourney 或 DALL-E 等閉源服務不同,Stable Diffusion 的模型權重完全公開,任何人都可以免費下載並在自己的硬體上運行。這意味著你不需要支付任何月費,也不需要將創作資料上傳到第三方伺服器。
2025 年 8 月,Stability AI 正式發布了 Stable Diffusion 4(SD4),這是該系列迄今最大幅度的升級。SD4 不僅在圖像生成品質上再次突破,更首次引入了影片合成能力,最長可生成 10 分鐘的連續影片,徹底改變了創作者的工作流程。在此之前,SDXL 和 SD 3.5 已經在圖像品質和文字理解上有顯著提升。SD4 則在架構層面採用了全新的 DiT(Diffusion Transformer)設計,大幅提升了語意理解和構圖精準度。此外,SD4 還推出了輕量版(SD4 Lite),專為消費級硬體最佳化,讓入門玩家也能享受新世代的生成品質。社群也持續開發出數以千計的微調模型(Checkpoint)和風格模型(LoRA),涵蓋從寫實攝影到動漫插畫的各種風格。
硬體需求
本地運行 Stable Diffusion 最重要的硬體是顯示卡(GPU)。以下是不同等級的建議配置:
入門配置(SD4 Lite / SDXL 基本可用)
- GPU:NVIDIA RTX 4060 8GB 或 RTX 3060 12GB
- RAM:16GB
- 硬碟:至少 80GB 可用空間(SSD 為佳)
- 可運行 SD4 Lite 輕量版(圖像生成),SDXL 流暢可用
- SD4 完整版影片合成需要更高配置
推薦配置(SD4 流暢體驗)
- GPU:NVIDIA RTX 4070 Ti Super 16GB 或 RTX 4080 Super 16GB
- RAM:32GB
- 硬碟:300GB 以上(SD4 模型檔案更大,加上影片素材會快速累積)
- 可流暢運行 SD4 圖像生成,支援批量生圖和 ControlNet
- 影片合成可處理約 1-3 分鐘片段
高階配置(SD4 影片合成最佳體驗)
- GPU:NVIDIA RTX 4090 24GB 或 RTX 5080 16GB
- RAM:64GB
- 硬碟:1TB 以上 NVMe SSD
- 可完整發揮 SD4 影片合成能力,最長 10 分鐘連續影片
- 支援高解析度批量生圖與多重 ControlNet 疊加
AMD 顯卡注意事項:雖然透過 DirectML 或 ROCm 可以在 AMD 顯卡上運行 Stable Diffusion,但相容性和效能仍不及 NVIDIA。如果你還在考慮購買新顯卡,強烈建議選擇 NVIDIA。
Mac 使用者:搭載 Apple Silicon(M1/M2/M3/M4)晶片的 Mac 可以透過 MPS(Metal Performance Shaders)運行 Stable Diffusion。最新的 M4 Pro/Max 晶片在統一記憶體架構下表現亮眼,配備 48GB 以上記憶體的機型甚至可以流暢運行 SD4 Lite。M4 Max 搭配 128GB 記憶體的頂配機型,在圖像生成效能上已接近 RTX 4080 級別。
安裝方式一:Stable Diffusion WebUI(AUTOMATIC1111)
AUTOMATIC1111 的 Stable Diffusion WebUI 是目前最受歡迎的本地介面,擁有龐大的社群生態和豐富的擴充功能。安裝步驟如下:
Windows 安裝
- 安裝 Python 3.10.x(務必勾選「Add Python to PATH」)
- 安裝 Git
- 開啟命令提示字元,執行:
git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git - 進入資料夾後執行
webui-user.bat - 首次啟動會自動下載相依套件,耗時約 10-20 分鐘
- 出現
Running on local URL: http://127.0.0.1:7860即表示啟動成功
macOS / Linux 安裝
- 確認已安裝 Python 3.10+ 和 Git
- 終端機執行:
git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git - 進入資料夾後執行:
./webui.sh - Mac 使用者會自動使用 MPS 加速
安裝方式二:ComfyUI(進階使用者)
ComfyUI 是另一個熱門的 Stable Diffusion 前端介面,採用節點式(Node-based)工作流設計。如果你有影像處理或 3D 軟體的背景,對節點式介面不陌生,ComfyUI 會給你更大的靈活度。
ComfyUI 的優勢在於:
- 記憶體效率更高:相同硬體下可處理更大的圖片
- 工作流可視化:每個處理步驟一目了然,方便除錯
- 工作流可分享:匯出 JSON 檔即可與他人共享完整工作流
- 新功能支援更快:社群活躍,新模型和技術通常很快就有節點支援
缺點是學習曲線較陡峭,初學者建議先從 WebUI 開始。
模型下載與管理
安裝好介面後,你需要下載 AI 模型(Checkpoint)才能開始生圖。以下是幾個推薦的模型來源和熱門模型:
模型下載平台
- Civitai:最大的 Stable Diffusion 模型社群,可瀏覽範例圖片和使用者評價
- Hugging Face:官方模型和技術導向的模型發布平台
推薦模型
- SD4 系列(最新):SD4 Base(通用型,品質最佳)、SD4 Lite(輕量版,消費級硬體適用)
- SD4 影片合成:SD4 Video(文字轉影片)、SD4 Video Interpolation(影格插值增強)
- 寫實風格:Realistic Vision、CyberRealistic、epiCRealism
- 動漫風格:Anything V5、CounterfeitXL、Animagine XL
- 通用型 SDXL:Juggernaut XL、DreamShaper XL
下載後將模型檔案(.safetensors 格式)放入 models/Stable-diffusion/ 資料夾中,重新整理介面即可選用。
基礎參數調整
開始生圖前,了解幾個關鍵參數會幫助你獲得更好的結果:
- Prompt(正向提示詞):描述你想要的圖片內容,越具體越好。例如「a serene lake surrounded by autumn trees, golden hour lighting, photorealistic」
- Negative Prompt(反向提示詞):描述你不想出現的元素,如「blurry, low quality, distorted hands」
- Sampling Steps(取樣步數):建議 20-30 步,過低品質差,過高浪費時間
- CFG Scale(引導強度):建議 5-9 之間,數值越高越嚴格遵循提示詞但可能過度飽和
- Sampler(取樣器):推薦使用 DPM++ 2M Karras 或 Euler a,穩定且品質好
- Resolution(解析度):SD 1.5 建議 512x512 或 512x768;SDXL 建議 1024x1024 或 1024x1536
新手提示:一開始不需要記住所有參數。先用預設值生幾張圖,觀察結果後再逐步調整。每次只改變一個參數,這樣你才能清楚知道每個參數的影響。
ControlNet:進階構圖控制
ControlNet 是 Stable Diffusion 生態系中最重要的進階功能之一。它允許你透過各種條件圖(如邊緣偵測、人體姿勢、深度圖)來精確控制生成圖片的構圖。
常用的 ControlNet 模式
- Canny Edge:偵測輸入圖片的邊緣線條,生成遵循相同輪廓的新圖片
- OpenPose:偵測人體姿勢骨架,讓生成的人物擺出指定的姿勢
- Depth:利用深度圖控制畫面的空間感和遠近關係
- Scribble:只需要簡單的塗鴉草稿,AI 就能幫你完成精緻的作品
- IP-Adapter:使用參考圖片的風格來引導生成,實現風格遷移
安裝 ControlNet 擴充功能後,你可以在 WebUI 的「ControlNet」面板中上傳控制圖片並選擇模式。這讓 AI 繪圖從「隨機生成」進化為「精確設計」,是專業創作者不可或缺的工具。
常見問題排解
本地部署 Stable Diffusion 時常遇到的問題與解決方案:
- CUDA out of memory(顯存不足):降低圖片解析度、啟用
--medvram或--lowvram參數,或在啟動命令中加入--xformers來優化記憶體使用 - 生成速度過慢:確認是否正確使用 GPU(而非 CPU)運算。在 WebUI 的終端輸出中應該能看到 CUDA 或 MPS 的相關訊息
- 生成的圖片全黑或全白:可能是 VAE 模型問題,嘗試在設定中更換 VAE,或下載推薦的
vae-ft-mse-840000 - 人物手指畸形:這是 AI 繪圖的已知弱點。使用 ADetailer 擴充功能可以自動修復手部細節,效果顯著
- 安裝時出現 Python 套件衝突:建議使用虛擬環境(venv)隔離,或重新執行安裝腳本讓它自動處理依賴
推薦社群資源
Stable Diffusion 社群是目前 AI 繪圖領域最活躍的開源社群之一。以下資源可以幫助你持續學習:
- Reddit r/StableDiffusion:最大的英文討論社群,每日更新技術與作品分享
- Civitai:不僅是模型下載平台,也有豐富的教學文章和提示詞分享
- YouTube:搜尋「Stable Diffusion 教學」可以找到大量中文影片教學
- Discord:AUTOMATIC1111 和 ComfyUI 都有官方 Discord 伺服器,遇到技術問題可以即時求助
- 巴哈姆特 AI 繪圖板:台灣最活躍的中文 AI 繪圖討論社群
SD4 影片合成:全新創作維度
SD4 最令人興奮的新功能莫過於影片合成能力。透過文字描述或參考圖片,SD4 可以生成最長 10 分鐘的連續影片,支援 720p 至 1080p 解析度。這項功能在 ComfyUI 上的支援最為完善,社群已經開發出專門的影片工作流節點。
影片合成的主要應用場景包括:
- 短影音創作:快速生成社群媒體用的短影片素材
- 概念影片:為企劃案或產品發表會製作概念演示影片
- 動畫製作:結合 ControlNet 姿勢控制,創作角色動畫
- 影片風格轉換:將實拍影片轉換為動畫或其他藝術風格
SD4 Lite 的影片合成功能雖然限制在 30 秒以內且最高 720p,但在 RTX 4060 8GB 等消費級顯卡上也能順暢運行,大幅降低了入門門檻。
本地部署 Stable Diffusion 的初始設定確實需要一些時間和耐心,但一旦完成,你就擁有了一個完全免費、不限次數、可以無限客製化的 AI 繪圖與影片創作工具。隨著 SD4 的推出,本地 AI 創作已經從靜態圖像邁入動態影片的新時代。無論是創作插畫、設計概念圖、製作短影音,還是純粹的藝術探索,它都能成為你強大的創作夥伴。