自“德雷克井”钻探以来的150多年里,钻井行业发生了很大的变化,但原理仍然是一样的:压碎岩石,在地上挖一个大洞。油井的深度和复杂程度呈指数级增长,这就需要重大的技术进步来生产这种迄今为止最便宜的能源。石油和天然气钻井通常也在偏远地区进行,比如海洋中心或沙漠,这使得数据和信息的连接成为一个挑战。
在充分利用数据或大数据方面,其他独特的挑战也减缓了钻井行业的进展。看看其他能够利用数据的行业,比如汽车行业,明显的区别在于数据量和访问的便利性。2014年,当石油价格达到顶峰时,美国大约有1900台钻井平台,这对油田来说是一个巨大的数字;相比之下,福特f150每天的销量约为2500辆。因此,想要为机器学习引擎构建用于故障预测的训练数据的数据科学家可能会想在f150上做这件事。f150的样本量不仅明显更大,而且它们通常也在相同的条件下运行,方差仅作为异常值出现。虽然所有的钻井平台实际上都在做同样的事情,但在皇冠体育州,破碎岩石并将其推到地面与在北达科他州破碎岩石非常不同。
传感器对于数据采集是必要的,这是大数据概念的核心。挑战在于,传感器必须能够在井下遇到的恶劣环境和条件下工作,如高压或高温。钻机设备所承受的冲击和负载是极端的,因此为气候控制环境中的设备制造物联网传感器的公司可能无法生产出足够耐用的传感器,用于钻井行业。数据采集的另一个组成部分是人的方面,必须有很多关于如何输入数据的纪律和重点。NOV在2009年对来自5家钻井承包商和100台钻井平台的钻机数据进行了皇冠体育研究,发现停机时间的最大原因有一个明确的趋势——它被标记为“其他”,而第二大原因是“N/ a”(见图1)。理想情况下,相关人员可以更准确地识别停机时间和特定的根本原因,这将大大减少停机时间。幸运的是,公司和软件解决方案使得输入不良数据变得更加困难,这导致了这方面的不良数据的大幅减少。当前一代的控制系统也足够智能,无需人工输入即可自动提供大部分数据;也就是说,数据质量仍然是应该始终关注的焦点。