Preprocessor

8.4. Preprocessor#

章节 8.3 介绍了较为通用的 map()map_batches() 函数。对于结构化的表格类数据,Ray Data 在提供了预处理器(Preprocessor),这是一系列特征处理操作,可以更好地与机器学习模型的训练和推理结合。其使用方式与 scikit-learn 的 sklearn.preprocessing 非常相似,熟悉 scikit-learn 用户可以快速迁移到 Ray Data 的 Preprocessor 上来。对于非结构化数据,比如图片、视频等,仍然建议使用 map() 或者 map_batches()