3. Dask# Dask是一个面向Python的并行计算框架,可以将计算任务扩展到多核和集群上。本章将通过几个案例让读者了解 Dask 的基本原理。 3.1. Dask 简介 3.2. Dask DataFrame 快速入门 创建 Dask DataFrame 执行计算 索引 pandas 兼容 计算图 3.3. 将 Dask 扩展到集群 Dask 集群 LocalCluster 使用命令行启动一个 Dask 集群 启动 Dask 集群 连接 Dask 集群 Python 环境和依赖包管理 SSH、Kubernetes、高性能计算集群 SSH Kubernetes 高性能计算集群 自动缩放 Dask Nanny 3.4. GPU Dask GPU 集群 GPU 任务 案例:奇异值分解 3.5. Task Graph 与数据切分 Task Graph 数据切分 数据切分粒度 数据块过小 数据块过大 迭代式算法 设置正确的数据块大小 仪表盘 设置数据块大小