複習Django及學習相關ai的應用
專案介紹
利用 PTT 網頁文章 作為資料來源,建立一個可定時抓文、儲存、檢索並生成自然語言回答的系統,讓您從實作中了解以下技術與工具如何使用:
學習目標
- 爬蟲技術與排程任務(Celery)
- 資料儲存(MariaDB + Django ORM)
- API 設計(Django REST Framework)
- 向量檢索(Pinecone + LangChain)
- 自然語言生成(Gemini API)
- 全系統 Docker 容器化部署
專案簡介
本專案整合下列技術模組:
| 模組 | 功能 |
|---|---|
| PTT 爬蟲 | 定時抓取特定看板最新文章 |
| RAG 架構 | 結合檢索 + 生成提升問答準確率 |
| Celery + Redis | 實現爬蟲排程與非同步處理 |
| MariaDB | 儲存爬取文章與紀錄任務 log |
| DRF | 提供 REST API 查詢與問答 |
| Pinecone | 向量儲存與語意搜尋 |
| Gemini API | 以上下文生成自然語言回答 |
| Docker | 開發與部署一鍵完成 |
系統架構圖

Reference
2025 iThome 鐵人賽 - 一起來打造 PTT 文章智慧問答系統