Featured image of post Python-WordCloud 文字雲視覺化應用 新聞關鍵字分析

Python-WordCloud 文字雲視覺化應用 新聞關鍵字分析

使用者輸入欲搜尋新聞主題,得到 Google News 新聞搜尋結果,進行中文斷詞,關鍵字分析,使用 Wordcloud 生成文字雲。

小註記 + 重點!

此篇為之前人工智慧課程發想的 Python 應用專題,因最近於職訓課程再次接觸 Python Pandas, Numpy,比較深入了解如何將文字、圖片數據做處理跟轉換,搭配大型語言模型輔助開發,將專案重新 Review & Rewrite。

1.Pandas 資料處理排序

2.Numpy 讀取圖片遮罩

3.新增自定義圖片遮罩

4.使用中研院的斷詞模型

理想目標:擴大文本搜尋範圍,改善斷詞結果,在網頁前端直接生成文字雲,方便分享至社群平台。

輸出結果:

疫情關鍵字文字雲

柯文哲關鍵字文字雲

中文文字斷詞模型初期筆者採用 Jieba 簡體中文為主開發的模型,現在改用中研院開源的中文斷詞模型:

匯入模組

1
2
3
4
5
6
7
pip install pandas
pip install GoogleNews
pip install matplotlib
pip install Pillow
pip install numpy
pip install scipy
pip install wordcloud

參考資料

專案程式碼

使用 Hugo 建立
主題 StackJimmy 設計
已產出:3336字,共 17篇文章