使用 SimpleImputer 处理缺失值
使用 StandardScaler 或 MinMaxScaler 对数值特征进行标准化/归一化
使用 OneHotEncoder 或 OrdinalEncoder 对分类变量进行编码
应用 SelectKBest, RFECV (递归特征消除与交叉验证) 或基于模型的特征重要性(如来自 RandomForest 的 feature_importances_)来选择最相关的特征,以降低过拟合风险并提高模型可解释性
使用 Pipeline 对象将预处理步骤和估计器(模型)链接成一个单一对象。这避免了数据泄露,并简化了代码。