在上一篇文章里我们谈了过拟合、欠拟合和交叉验证。很多读者在实际建模时还会遇到另一个非常常见的问题:
我跑出来很多指标:R²、RMSE、MAE、Accuracy、Precision、Recall、F1……
到底该看哪个?哪个指标才真正能反映模型是否“可用”?
这篇文章的目的,就是把评价指标讲清楚,并给出一套更贴合地学场景的选择建议。
一、先统一一个原则:指标是为“业务目标”服务的
评价指标不是越多越好,而是要回答一个问题:
在我的地学任务里,“什么错误最不能接受”?
我更关心漏判,还是误判?
我更关心整体趋势,还是极端值?
例如:
-
预测孔隙度:
-
你可能更关心“误差平均多大”,以及“在高孔段是否偏差很大”。
-
-
岩性分类:
-
你可能更关心“高价值储层岩性是否能识别出来”(Recall),
-
而不仅是总体 Accuracy。
-
因此,先明确目标,再选指标。
二、回归任务(预测一个数):R² 不是万能指标
地学里典型回归任务:孔隙度、渗透率、TOC、含油饱和度、某条曲线预测等。
1) MAE:平均绝对误差(更直观)
含义:平均每个样本差多少(不关心方向)。
-
MAE 越小越好
-
对异常值不如 RMSE 敏感
地学解释:
“我的孔隙度预测平均差 ±x 个百分点”,很容易理解和交流。
2) RMSE:均方根误差(更惩罚大错)
含义:对大误差更敏感,错得离谱会被放大。
-
RMSE 越小越好
-
用于强调“不能出现大错”的场景
地学解释:
如果你特别害怕把某些层段预测得极端离谱(例如把低孔段预测成高孔段),RMSE 比 MAE 更能体现风险。
3) R²:解释方差能力(适合看“拟合程度”,但容易被误用)
含义:模型解释数据波动的程度(1 越接近越好)。
常见误区:
-
R² 高并不代表误差小(样本方差大时,R² 可能很高但误差仍然很大)
-
不同井、不同层段的 R² 不可直接粗暴比较(分布差异会影响)
地学建议:
-
R² 可以看,但必须配合 MAE/RMSE 和剖面图一起看。
-
尤其建议“按井计算 R²/MAE/RMSE”,避免某口井支配总体。
4) MAPE:相对误差(谨慎使用)
含义:误差相对于真实值的比例。
问题:当真实值接近 0 时会爆炸(孔隙度或渗透率可能出现)。
因此地学中用 MAPE 要非常谨慎,除非明确数据范围不会接近 0。
5) 你应该怎么选?(回归指标选择建议)
推荐组合(通用):
-
MAE + RMSE + R²(再配剖面对比图)
如果你更关心“平均误差”:
-
MAE 优先
如果你更关心“极端错判风险”:
-
RMSE 优先(或再加一个 90% 分位误差)
如果你更关心“趋势和相关性”:
-
R² 作为补充(不要单独用)
三、分类任务(预测一个类别):Accuracy 很容易骗人
地学里典型分类任务:岩性类别、储层级别(好/一般/差)、沉积相类型等。
1) Accuracy:总体准确率(只适合类别比较均衡)
含义:预测对的比例。
问题:类别不平衡时会非常“虚高”。
举个地学常见情况:
-
泥岩占 90%,砂岩占 10%。
如果模型永远预测“泥岩”,Accuracy 也有 90%。
但这个模型在实际工作中基本没用。
因此在岩性分类、甜点评价等场景里,Accuracy 只能作为参考,不能作为核心指标。
2) Precision 与 Recall:你更怕“误报”还是“漏报”?
以“识别优质储层(正类)”为例:
-
Precision(精确率):
被模型判为“优质储层”的样本中,有多少是真的优质?-
高 Precision → 少误报(不容易把差段当好段)
-
-
Recall(召回率):
真实优质储层中,有多少被模型找出来?-
高 Recall → 少漏报(不容易错过好段)
-
地学解读:
-
勘探部署时,可能更怕漏掉真正的好段 → 关注 Recall
-
开发措施、精细选段时,可能更怕误把差段当好段 → 关注 Precision
3) F1-score:Precision 与 Recall 的折中
含义:Precision 和 Recall 的综合指标(更稳健)。
当你既不想误报太多,也不想漏报太多,F1 通常比 Accuracy 更有意义。
4) Macro / Weighted:多分类时怎么汇总?
岩性往往是多分类(泥岩、砂岩、灰岩、混合细粒岩…),你会看到:
-
Macro-F1:对每个类别一视同仁(对小类更敏感)
-
Weighted-F1:按样本量加权(大类影响更大)
地学建议:
-
如果你重视少数类(例如“优质储层岩性”是少数),Macro-F1更合适。
-
如果你更重视整体稳定性,Weighted-F1也可以参考,但要警惕大类主导。
5) 混淆矩阵:最“地学友好”的诊断工具
混淆矩阵会告诉你:
-
哪些岩性最容易互相混淆?
-
错误是否符合地质直觉(例如泥岩与混合细粒岩互混可能合理,砂岩与蒸发岩互混可能不合理)
在地学应用中,混淆矩阵通常比一个单一指标更有解释力。
四、地学场景的指标选择:给你三套“常用模板”
模板 A:孔隙度/渗透率预测(回归)
-
MAE(主指标)
-
RMSE(风险指标)
-
R²(趋势指标)
-
按井统计(非常推荐)
-
剖面对比图(必须)
模板 B:岩性分类(多分类)
-
Macro-F1(主指标,兼顾小类)
-
每类 Recall(重点看关键岩性)
-
混淆矩阵(必须)
-
按井留出验证(更贴近实战)
模板 C:甜点评价/优质段识别(二分类)
-
Recall(如果更怕漏掉好段)
-
Precision(如果更怕误报)
-
F1(折中)
-
可加 ROC-AUC / PR-AUC(用于比较不同阈值下的表现)
-
结合成本:漏判与误判的地质/工程代价不同
五、一个经常被忽略的要点:指标要“分层段/分井”看
地学数据天然异质:不同井、不同层段、不同相带分布完全不同。
因此强烈建议:
-
不要只给一个总体指标
-
至少给出:
-
按井统计的指标
-
按层段统计的指标(如每个层位的 F1 或 RMSE)
-
这样你才能回答一个关键问题:
模型到底是“平均还行”,还是“在关键层段失效”?
六、结语:不要追求一个“最高分”,要追求“可解释、可落地”
真正可用的地学模型通常具备三个特征:
-
指标稳定(交叉验证波动小,按井外推不崩)
-
错误可解释(混淆矩阵和剖面图能讲得通)
-
与业务目标一致(你最在意的那类错误被控制住)
文章评论