Day 08: 資料整合與EPS預測功能
Day 8:寫了 14 小時,但我做出來了
今天是馬拉松。
從早上 8 點寫到半夜,做了一個完整的 EPS 預測功能。
累死了,但超有成就感。
今天做了什麼
同步 Zeabur 股票分類
發現資料不一致
Zeabur 環境的股票清單和本地環境不同!
AI 協助解決
- 比較兩個環境的資料表結構
- 用 Zeabur 的
stock_categories取代本地stock_info - 重新執行 Weekly Healer ETL
- 驗證資料一致性
同步完成 - 兩個環境資料一致
建立 Devlog 資料夾
我的想法
開始記錄開發過程,為未來的技術部落格做準備!
建立完成 - 有了專門的開發日誌目錄
晚上 00:42 - EPS預測功能大工程(跨日開發!)
這是今天最大的挑戰 - 一個完整的新功能模組!
階段一:資料源研究
AI 幫我找到可用的資料來源: • 📰 Google News 財經版 • 鉅亨網 (Anue) • MoneyDJ • Yahoo 奇摩股市
階段二:爬蟲開發
建立的檔案:
• analyst_forecast_fetcher.py - 法人預測爬蟲
• fetchers.py - 法說會新聞抓取
使用的技術: • Playwright - 抓取新聞全文(處理 JS 跳轉) • Regex - 提取法人機構、目標價、EPS 預估 • BeautifulSoup - HTML 解析
階段三:資料庫設計
建立兩個新表:
- eps_forecasts(法人預估)
• institution (法人機構)
• forecast_year (預測年度)
• forecast_quarter (預測季度)
• target_price (目標價)
• eps_estimate (EPS 預估)
- earnings_calls(法說會)
• title (標題)
• full_content (完整內文)
• source (來源)
• source_url (原始連結)
階段四:ETL 整合
整合到 run_etl_v2.py 的 fundamental 模式:
python run_etl_v2.py --mode fundamental --limit 50
支援的法人機構: • 外資:高盛、摩根、瑞銀、花旗、野村... • 本土:國泰、富邦、元大、凱基、統一...
完整功能上線!
😅 今天踩的坑
1. Playwright 在 Zeabur 的部署
問題:需要安裝 Chromium
解決:在 zeabur.yaml 加入:
build:
• pip install playwright
• playwright install chromium
2. Regex 提取的準確性
問題:新聞標題格式不一致
解決:建立多個 pattern,提高匹配率
今天學到的
技術知識 • Playwright 自動化瀏覽器操作 • 複雜的 Regex pattern 設計 • 非同步爬蟲的實作 • 資料庫 migration 管理
系統設計 • 從 0 到 1 建立完整功能模組 • 資料流程的設計 • 重複檢測機制
AI 協作價值 這是最複雜的功能!AI 從頭到尾陪我完成:
- 研究資料源
- 設計架構
- 開發程式
- 🔗 整合 ETL
- 測試驗證
沒有 AI,這可能要花 3-4 天!
明天計畫 • [ ] 資料完整性大檢查 • [ ] 修復 ETL 資料持久化問題 • [ ] 整合股東分散表
💬 今日金句
"AI 從頭到尾陪我完成:研究→設計→開發→整合→測試。沒有 AI,這可能要花 3-4 天!"
累計進度 • 完成功能:資料同步、EPS預測、法說會追蹤 • 資料表數量:+2 個 • ⏰ 累計開發時數:66 小時 • 🔖 今日標籤:#WebScraping #Playwright #EPS預測 #資料整合
🔖 #11天打造AI股票分析系統 #AI開發 #學習紀錄
這是我 55 歲轉職 AI 開發的第 8 天筆記。 如果這篇文章對你有啟發,歡迎留言與我交流。
留言討論 (開發中...)
留言功能即將啟動,敬請期待與 AI 的深度互動。