我花三小時復刻了一個要收費的語音工具
2026-02-24 · Simon 巫
因為我不想再讓一個 App「可能」偷聽我說話。
事情從一個隱私疑慮開始
用了一陣子的語音工具,上週我認真考慮要不要把它刪掉。
市面上有一個我很喜歡的語音輸入工具,按一個鍵說話,說完自動貼到任何 App,還會幫你潤稿。
用起來非常順手。
那種體驗真的很絲滑,你腦子裡有想法,不用打字,直接說,說完它幫你整理好,自動貼到你正在用的任何視窗。
用久了之後你會開始覺得打字是一件很麻煩的事情。
然後某一天,臉書上開始有人討論這類工具的隱私問題。
我不是那種看到標題就馬上刪 App 的人。
我去爬了一下大家的留言,看完之後沒有結論,但心裡就是卡了一根刺。
我意識到一件事:這個工具每天都在聽我說工作內容、私人想法、還沒公開的計畫。
不是偶爾,是每天。
那一刻我不知道該怎麼繼續用它,但也不知道沒有它要怎麼辦。
那一刻我突然意識到,這不只是一個 App 的問題。
這是主權的問題。
當你的生產工具握在別人手上,你就永遠只是租戶。
當你的聲音、資料、工作流都經過別人的伺服器,你的效率其實建立在別人的允許之上。
我不想只是用工具。我想擁有它。
「與其擔心,不如自己復刻一個」
然後我在某篇貼文留言裡看到有人丟了這麼一句話。
我盯著那句話看了一下。
以前這種話我會直接划過去,因為「自己復刻」四個字背後是一整座我翻不過去的山。
要會寫程式、要懂音訊處理、要知道怎麼串 API、要處理跨 App 的系統權限,光是列出來就已經讓大多數人關掉視窗了。
但這次我沒有馬上划走。
我想到 Codex。我想到它最近跑出來的那些示範影片。
今天下午突然有了動力,我打開新的視窗,開始打第一行字。
Codex 是 OpenAI 推出的 AI 工程師助手,你用自然語言描述你要什麼,它幫你寫程式、建檔案、處理邏輯。
不是那種「幫你補全一行程式碼」的工具,是真的可以從零開始建一個專案的那種。
我跟它說:我要一個全域熱鍵錄音工具,錄完之後自動語音轉文字,轉完之後幫我潤稿,最後貼到我正在用的 App。
要支援繁體中文,要可以自訂詞典,要打包成一個正常的 macOS App,不要讓我每次都開終端機。
然後它就開始動了。
三個小時,從零到一個真的能用的 App
我沒有寫任何一行程式碼。
但我也沒有在旁邊喝咖啡等它跑完。
整個過程我大概跟它來回了幾十輪。它做出來,我測試,發現問題,告訴它哪裡不對,它修,我再測。
有時候一個 bug 要來回四五次才解乾淨。
中間踩過的坑包括:API 金鑰讀取錯誤導致一直跳 401、音訊格式不對被 Whisper 拒絕、熱鍵邏輯做反了導致錄音瞬間就停、在某些 App 裡貼上完全沒反應。
每一個問題我都要用人話描述給它聽,然後看它怎麼解。
三個小時後,一個叫做 Simon9319 的 macOS App 出現在我桌面上。可以雙擊開啟,不用終端機。
第一次真的錄音測試,我說了一段工作筆記。它轉完,我看了一眼,繁體中文,乾淨,沒有奇怪的錯字。
我盯著那個視窗看了大概五秒。這是我做的東西。
整個工具跑在本地,語音資料走的是我自己的 OpenAI API 金鑰,不經過任何第三方服務的伺服器。
這就是我最在意的部分。不是因為我多懂技術,而是因為我開始把自己的基礎設施握在手裡。
以前我以為一人公司只是少人。現在我才明白,一人公司真正的核心,是你是否開始打造自己的基礎建設:自己的流程、自己的工具、自己的資料、自己的主權。
當這些東西慢慢建立起來,你會發現,你不是在用 AI。
你在指揮它。
能做出這件事的人,不是最會寫程式的人
整個過程讓我感觸最深的,不是「AI 好厲害」。
而是我意識到,現在這個門檻已經低到:只要你能把你要什麼說清楚,你就能做出東西。
我發現一件事。
AI 不會幫助最聰明的人。它會幫助最清晰的人。
如果你連自己要什麼都說不清楚,AI 只會給你模糊的答案。
當你知道問題在哪、你想要什麼結果、你願意一輪一輪修正,它會把你的能力放大十倍。
這件事需要思考,需要耐心,需要願意一輪一輪地來。但不需要你懂 TypeScript,不需要你知道什麼是 IPC,不需要你理解 macOS 的權限怎麼運作。這些東西 AI 都知道,你只需要知道你自己要什麼。
三小時。一個我以為做不到的東西,現在在我桌面上。
這個時代最大的差距,不是會不會寫程式。
是你還在等,還是你已經開始第一步。