開源風暴吞噬AI界?從Stable Diffusion的爆火說起-世界觀速訊

          來源:CSDN博客 | 2022-11-30 14:50:16 |

          近日,文本生成圖像模型Stable Diffusion背后的公司Stability AI宣布獲得了1.01億美元超額融資,估值達10億美元,這家基于開源社區的“草根”企業的風頭一時間甚至蓋過了業界頂級研究機構OpenAI。

          本文作者認為,盡管開源項目存在商業模式、開源許可協議等方面的挑戰,但通過良好開源社區的驅動,AI項目的技術發展、應用廣度和創造空間都有了意想不到的發展,正如開源“吞噬”軟件1.0,“開源AI”運動將在軟件2.0時代不可阻擋。OneFlow社區對此進行了編譯。


          (資料圖片僅供參考)

          作者|swyx

          翻譯|胡燕君、賈川

          文本轉圖像模型的發展周期歷時數年:

          2020年7月:OpenAI發文介紹Image GPT模型,將語言模型應用到圖像領域。

          2022年3月:AI圖像生成平臺Midjourney啟動Beta版本測試。

          2022年4月:OpenAI宣布允許一定數量的用戶對其AI圖像生成工具DALL-E 2 進行“研究性試用”。

          2022年5月:Google以論文形式公布其文本-圖像生成模型Imagen,Imagen由PyTorch實現。

          2022年7月:OpenAI 通過UI/API開放DALL-E 2進行公開測試,參與公測的用戶須先進入等待名單。

          2022年7月:Midjourney通過Discord通訊平臺發布消息表示即將進行公開測試。

          2022年8月:文本-圖像生成模型Stable Diffusion發布,這是一款基于OpenRAIL-M許可的開源模型。

          2022年9月:OpenAI取消DALL-E 2的等待名單。

          GPT-3從公布到被復制歷時10個月:

          2020年5月:OpenAI以論文形式公開GPT-3,并在隨后的6月發布了未公開的Beta版API。

          2020年7月:非營利開源研究組織EleutherAI成立,成為OpenAI的替代者。

          2020年9月:Microsoft獲得GPT-3的獨家授權。

          2021年1月:EleutherAI公布其800G數據集The Pile。

          2021年3月:EleutherAI公布了分別含13億和27億參數的兩版開源GPT-Neo模型(GPT-Neo是對GPT-3的克隆版)。

          2021年11月:OpenAI取消GPT-3的等待名單,開發人員可以直接報名使用其API。

          2022年5月:Meta公布大型語言模型OPT-175B,供研究人員使用,還公布了模型日志和開源許可證明。

          2022年6月:俄羅斯互聯網巨頭Yandex公布了YaLM-100B,這是一個基于Apache-2許可的類GPT開源模型。

          2022年7月:HuggingFace公開了BLOOM-176B,一個基于RAIL許可證明的大型語言模型。

          GPT-2從公布到被復制歷時6個月:

          2019年2月,OpenAI宣布GPT-2誕生,為了避免模型遭到不良利用(如被用于制造虛假新聞等),當時決定不將模型完全開源;3月,OpenAI放棄“非營利機構”的定位,成立OpenAI LP(有限合伙公司),聲稱進入“有限營利”經營模式。

          8月,兩名計算機碩士復制出GPT-2并將其對外公開,稱為OpenGPT-2。

          11月,經過謹慎的分階段逐步公布,OpenAI終于完全開源了含15億參數的GPT-2模型。

          上述時間線已經過高度精簡,實際發展史還可追溯到2015年提出的擴散模型(Diffusion Model)、2017年提出的Transformer模型,以及更早之前對生成對抗網絡(GANs)的研究。

          有趣的是,2022年9月,OpenAI基于MIT許可公開了其Whisper語音轉文本模型,并且不設置付費API。當然,語音轉文本功能遭到不良利用的可能性較低,所以此類模型的開源風險也更低,但也有觀點認為,OpenAI此次的開源決定是受到Stable Diffusion開源后爆紅的影響。

          1

          Dreambooth:開源社區掌舵項目發展

          一個先進的開源社區可以發揮魔法般的作用。專業的研究團隊或資金充足的團隊或許可以開發出很好的基礎模型,但只有開源社區才能更好地將各種用例產品化,并且優化模型的實際落地使用。

          最能體現這一點的例子是Dreambooth的發展。Dreambooth是一個文本轉圖像模型,支持經小樣本學習(Few-Shot Learning)后生成精調圖像,生成的圖像既可保留主體的精細特征,又能為主體切換任意背景。

          Dreambooth體現了文本轉圖像模型的理想優化方向,因為它不止需要用戶下載模型直接運行,還需要用戶根據樣本圖像進行精細訓練,但原始端口需要的內存太大,大多數用戶的訓練設備都無法滿足條件。

          2022年9月,Corridor Digital的一則YouTube視頻展示了Dreambooth的神奇功能,視頻運用文本-圖像生成模型根據視頻創作者本人照片生成特效人物圖像,很快爆火(視頻:https://www.youtube.com/watch?v=W4Mcuh38wyM)

          這是Dreambooth的發展歷程:

          2022年8月26日,Dreambooth宣布誕生;12天后公布了開源端口;又過了25天后,訓練Dreambooth的所需內存空間降低了79%;10月8日,Dreambooth已經能在8GB GPU上訓練。

          對Dreambooth的優化大多數由Xavier Xiao和Shivam Shrirao通過GitHub完成,意大利工程師Matteo Serva也提供了幫助。Xavier Xiao來自新加坡,博士主攻生成模型與優化,現就職于AWS AI;Shivam Shrirao,計算機視覺高級工程師,現居印度。這兩位都并非Dreambooth原始團隊的成員。

          現在,容易優化的地方都已優化完畢,于是有人開始擔心:繼續優化下去的投入產出比會越來越低,但后來這種擔心不攻自破。8月份時,Stable Diffusion可以在內存為5~10GB的GPU上運行——商用GPU的內存一般為6~12GB,蘋果產品都有統一內存(Unified Memory)。到了9月,Stable Diffusion已能在iPhone XS上運行。

          關鍵詞:

          亚洲中文字幕无码一去台湾| 狠狠综合久久综合88亚洲| 亚洲精品无码高潮喷水A片软| 亚洲色少妇熟女11p| 亚洲国产人成在线观看| 亚洲黄色三级网站| 亚洲高清在线mv| 久久亚洲美女精品国产精品| 亚洲精品免费视频| 亚洲综合另类小说色区色噜噜| 亚洲欧好州第一的日产suv| 亚洲熟伦熟女专区hd高清| 亚洲一区二区三区免费观看| 亚洲综合区图片小说区| 亚洲精品乱码久久久久久下载 | 亚洲美女自拍视频| 亚洲综合久久成人69| 亚洲国产精品乱码在线观看97| 亚洲国产精品乱码在线观看97| 亚洲国产av美女网站| 国产成人精品日本亚洲11| 亚洲色大成网站www永久网站| 亚洲人成网站999久久久综合| 亚洲av综合av一区二区三区| 亚洲精品一卡2卡3卡四卡乱码| 亚洲av无码成人精品区一本二本| 久久人午夜亚洲精品无码区| www.亚洲一区| 亚洲国产成人手机在线电影bd | AV在线播放日韩亚洲欧| 亚洲中文字幕无码爆乳av中文| 亚洲一区二区高清| 亚洲精品无码久久久久去q | 亚洲欧美国产日韩av野草社区| 亚洲av无码日韩av无码网站冲| 人人狠狠综合久久亚洲高清| 久久久久久久亚洲精品| 亚洲av伊人久久综合密臀性色| 亚洲黄色免费网站| 亚洲色丰满少妇高潮18p| 亚洲AV无码一区二区三区国产|