新聞資訊

微軟開源Visual ChatGPT,7天斬獲2.2萬stars

除了大力投資Open AI,微軟還親自下場大搞AI。 7天前,微軟開源了Visual ChatGPT,這個軟件可以連接ChatGPT和一系列視覺模型,以實現在ChatGPT的聊天過程中發送和接收影像。

眾所周知,儘管ChatGPT的功能非常强大,甚至可以用來寫小說寫論文,但現時也僅限於文字交流。 但表情包早已成為日常文字聊天不可或缺的功能。

Visual ChatGPT的出現,就像在以文字交流的APP中首次添加了表情包功能,而且還是根據用戶輸入的文字自動生成的“定制化表情包”,大大提升了ChatGPT的趣味性和應用領域。

一方面,ChatGPT(或LLM)充當通用介面,提供對影像的理解和用戶的互動功能。 另一方面,基礎影像模型通過提供特定領域的深入知識來充當背後的科技專家。

倉庫中列出了科技架構及原理圖:

Demo中共進行了三種不同類型的對話,分別是Visual ChatGPT接收用戶的影像、Visual ChatGPT根據用戶的文字修改影像並發送給用戶,以及Visual ChatGPT識別圖片,並回答用戶的提問。 Visual ChatGPT會根據用戶的輸入,判斷是否需要使用VFM(Visual Foundation Model,視覺基礎模型)來處理該問題。

倉庫中還給出了Visual ChatGPT所使用的影像模型和顯存使用情况:

更詳細的內容可以閱讀Visual ChatGPT的arxiv論文: https://arxiv.org/abs/2303.04671

Visual ChatGPT在3月10日發佈,截至3月16日早15點,該項目已暫獲21.9K Stars,可謂是火箭式上漲。

相關連結:https://github.com/microsoft/visual-chatgpt

What's your reaction?

Related Posts

Load More Posts Loading...No More Posts.
en_USEnglish