2023年,数据湖市场规模增至152亿美元,增长率超过20%,然而,多数企业在从文本数据中获取收益方面遭遇困难。在尝试运用文本生成AI解决结构化数据问题时,数据湖却可能演变为“污水池”。那么,这背后究竟潜藏着哪些问题?
市场增长下的困境
2023年的数据湖市场展现出巨大的规模和显著的增长势头,市场规模已达到152亿美元,增长率超过20%。然而,许多企业在这一领域遇到了挑战。尽管如此,大多数企业未能从文本数据中挖掘出价值。供应商所推广的“将GPT技术融入数据湖”的解决方案看似能够解决一系列问题,但实际上却难以付诸实践。
通用模型的局限
GPT这类通用模型,其掌握的知识中只有5%与特定业务领域相关。众多机构正致力于打造庞大的通用模型,然而,这些模型所需的功能却相对较少。与此同时,有高达54%的组织在基本数据迁移过程中遇到难题,这一状况对人工智能项目的进展产生了影响。此外,通用模型在实际应用过程中也遭遇了众多挑战。
针对性方法的趋势
市场逐渐意识到特定行业人工智能的重要性,企业正逐步转向专注于特定领域的语言模型以及更轻便的模型。这一策略与Gartner的预测相吻合,同时,麦肯锡的研究报告也指出,恰当部署高级文本分析技术能够显著提升效益,例如缩短呼叫处理时长、增强转化率。
商业语言模型的优势
商业语言模型正从价格高昂的通用人工智能模型转变为专注于特定行业、成本效益显著且能迅速实现投资回报的人工智能系统。与GPT模型相比,该模型在运营成本上更为经济,且具有明确的针对性。它能够有效地将非结构化文本转化为易于查询的数据,同时具备良好的可扩展性。
组织面临的现状
众多机构未能拥有处理企业规模非结构化数据的必要资源或工具。在数据迁移过程中,54%的机构面临巨大挑战,高达85%的大数据项目以失败告终。尽管大多数业务数据属于非结构化类型,但能够有效利用这些数据的公司却相对较少。
应对建议与紧迫性
组织需掌握自身情况,明确行业特有的词汇需求,并对预制的BLM选项进行评估。通过现有分析工具的实施,应充分利用现有的基础设施投资。鉴于非结构化数据的增长以及多数组织正尝试人工智能,选用高效的商业语言模型变得尤为紧迫。
在人工智能市场持续扩张的背景下,您倾向于采用那些能够将数据劣势转变为竞争优位的商业语言模型,抑或继续依赖那些虽消耗资源但价值相对有限的通用型解决方案?期待您的评论与见解!







