美智庫分析小數據人工智能的潛力
美智庫分析小數據人工智能的潛力
小數據方法是指不需要大量數據集進行訓練的人工智能方法,該方法有助于解決沒有標記數據或標記數據很少的情況,減少對從現實世界收集大量數據集的依賴性。小數據方法大致可分為5類:①遷移學習,首先在數據豐富的環境中學習執行任務,然后將所學到的東西“遷移”至數據匱乏的任務中;②數據標記,適用于標記數據有限,但有大量未標記數據的情況,使用自動生成標記或主動學習等方法來理解現有的未標記數據;③人工數據生成,通過創建新的數據點或其他相關技術,力求從少量數據中最大程度地提取信息;④貝葉斯方法,采用機器學習和統計學方法,將有關問題的架構信息納入解決問題的方法中,專注于對其預測的不確定性產生良好的校準估計;⑤強化學習,計算機系統通過試錯來學習如何與環境交互,常用于訓練游戲系統、機器人和自動駕駛汽車。
1.縮小實體間人工智能能力的差距
大型數據集對于許多人工智能應用的作用日益重要。由于不同實體收集、存儲和處理數據的能力各不相同,擁有人工智能能力的大型科技公司可能拉開與其他公司的差距。如果遷移學習、自動標記、貝葉斯方法等方法能夠在數據較少的情況下應用人工智能,那么小型實體在數據方面的準入門檻將會降低,就可以縮小大型和小型實體之間人工智能能力的差距。
2.減少收集個人數據
某些小數據方法可減少收集個人數據的行為,比如人工數據生成或使用模擬訓練算法的方法,這兩種方法不依賴于個人數據,或者具有合成數據以刪除敏感的個人可識別屬性的能力。盡管這并不意味著所有的隱私問題都能得到解決,但通過減少收集大量真實世界數據的需求,可以降低人們對大規模收集、使用或披露消費者個人數據的擔憂。
3.促進數據匱乏領域的發展
人工智能近期的許多進步都是通過可用數據的爆炸式增長而實現的。然而,對于許多重要問題,可以輸入人工智能系統的數據可能很少或根本不存在。小數據方法能夠提供一種基于規則的方式來處理數據的缺乏。可以利用標記和未標記數據,從相關問題遷移知識;也可以利用現有的少量數據點來創建更多的數據點,憑借有關問題領域的先驗知識,或者通過構建模擬或編碼結構假設來冒險進入新的領域。
4.規避“臟數據”
小數據方法可以使受“臟數據”困擾的機構受益。例如,美國防部就存在大量“臟數據”,需要大量時間和人力進行數據清理、標記和組織工作。小數據方法中的數據標記法可以通過自動生成標簽,降低處理大量未標記數據的難度。遷移學習、貝葉斯方法或人工數據方法可以縮減需要清理的數據量,顯著減少“臟數據”的規模。
1.人工智能不等于大數據,也不是大型、預先標記的數據集的代名詞。大數據在過去十年的人工智能熱潮中發揮了作用,但如果把大規模數據收集和標記作為發展人工智能的先決條件,容易將政策制定者引入歧途。
2.對于遷移學習的研究發展迅速,這種方法在未來可能會得到更廣泛的應用。
3.美國和中國在小數據方法領域的競爭非常激烈。美國在強化學習和貝葉斯方法上有很大優勢,但中國在遷移學習方面處于領先地位。
4.相對于整個人工智能領域的投資規模,美國政府對小數據方法的資助比例較小。遷移學習作為一個迅速崛起的領域,有希望獲得美國政府提供的更多資金。
來源:國防科技要聞