= fastai_cfg()
cfg 'data') cfg.data,cfg.path(
('data', Path('/home/jhoward/.fastai/data'))
要下载任何数据集或预训练权重,只需按如下方式传入上面提到的任何数据集名称,即可运行 untar_data
path = untar_data(URLs.PETS)
path.ls()
>> (#7393) [Path('/home/ubuntu/.fastai/data/oxford-iiit-pet/images/keeshond_34.jpg'),...]
下载模型预训练权重
path = untar_data(URLs.WT103_BWD)
path.ls()
>> (#2) [Path('/home/ubuntu/.fastai/data/wt103-bwd/itos_wt103.pkl'),Path('/home/ubuntu/.fastai/data/wt103-bwd/lstm_bwd.pth')]
库中默认可用的完整数据集列表如下
HUMAN_NUMBERS: 一个合成数据集,包含文本中的人类数字计数,如 one, two, three, four.. 对使用语言模型进行实验很有用。
IMDB: 完整的 IMDB 情感分析数据集。
IMDB_SAMPLE: 完整的 IMDB 情感分析数据集样本。
ML_SAMPLE: Movielens 样本数据集,用于推荐引擎向用户推荐电影。
ML_100k: Movielens 100k 数据集,用于推荐引擎向用户推荐电影。
MNIST_SAMPLE: 著名的 MNIST 数据集样本,包含手写数字。
MNIST_TINY: 著名的 MNIST 数据集微型版本,包含手写数字。
MNIST_VAR_SIZE_TINY:
PLANET_SAMPLE: 来自 Kaggle 竞赛 Planet: Understanding the Amazon from Space 的行星数据集样本。
PLANET_TINY: 来自 Kaggle 竞赛 Planet: Understanding the Amazon from Space 的行星数据集微型版本,用于更快的实验和原型开发。
IMAGENETTE: imagenet 数据集的一个较小版本,发音类似 'Imagenet',但带有蹩脚的不正宗法语口音。
IMAGENETTE_160: Imagenette 数据集的 160 像素版本。
IMAGENETTE_320: Imagenette 数据集的 320 像素版本。
IMAGEWOOF: Imagewoof 是 Imagenet 中 10 个类别的子集,由于它们都是狗的品种,因此不容易分类。
IMAGEWOOF_160: ImageWoof 数据集的 160 像素版本。
IMAGEWOOF_320: ImageWoof 数据集的 320 像素版本。
IMAGEWANG: Imagewang 结合了 Imagenette 和 Imagewoof,但进行了一些调整,使其成为一个棘手的半监督不平衡分类问题。
IMAGEWANG_160: Imagewang 的 160 像素版本。
IMAGEWANG_320: Imagewang 的 320 像素版本。
SIIM_SMALL: SIIM 数据集的较小版本,目标是从一组胸部 X 光图像中分类气胸。
TCGA_SMALL: TCGA-OV 数据集的较小版本,包含皮下脂肪和内脏脂肪的分割。引用
Holback, C., Jarosz, R., Prior, F., Mutch, D. G., Bhosale, P., Garcia, K., … Erickson, B. J. (2016). Radiology Data from The Cancer Genome Atlas Ovarian Cancer [TCGA-OV] collection. The Cancer Imaging Archive. 论文
Clark K, Vendt B, Smith K, Freymann J, Kirby J, Koppel P, Moore S, Phillips S, Maffitt D, Pringle M, Tarbox L, Prior F. The Cancer Imaging Archive (TCIA): Maintaining and Operating a Public Information Repository, Journal of Digital Imaging, Volume 26, Number 6, December, 2013, pp 1045-1057. 论文
fastai_cfg ()
fastai 的 config.ini
的 Config
对象
这是一个基本的 Config
文件,包含 data
, model
, storage
和 archive
。所有将来的下载都根据下载类型发生在配置文件中定义的路径。例如,所有将来的 fastai 数据集都会下载到 data
路径,而所有预训练的模型权重都会下载到 model
路径,除非更新了默认下载位置。配置文件目录由环境变量 FASTAI_HOME
定义,如果存在,否则设置为 ~/.fastai
。
fastai_path (folder:str)
Config
中 folder
的本地路径
URLs ()
数据集和模型 URL 的全局常量。
默认本地路径是 ~/.fastai/archive/
,但这可以通过传入不同的 c_key
进行更新。注意:c_key
应该是 'archive', 'data', 'model', 'storage'
中的一个。
url = URLs.PETS
local_path = URLs.path(url)
test_eq(local_path.parent, fastai_path('archive'))
local_path
Path('/home/jhoward/.fastai/archive/oxford-iiit-pet.tgz')
local_path = URLs.path(url, c_key='model')
test_eq(local_path.parent, fastai_path('model'))
local_path
Path('/home/jhoward/.fastai/models/oxford-iiit-pet.tgz')
untar_data (url:str, archive:pathlib.Path=None, data:pathlib.Path=None, c_key:str='data', force_download:bool=False, base:str=None)
使用 FastDownload.get
下载 url
类型 | 默认值 | 详情 | |
---|---|---|---|
url | str | 要下载的文件 | |
archive | Path | None | Config 中 archive 键的可选覆盖 |
data | Path | None | Config 中 data 键的可选覆盖 |
c_key | str | data | 在 Config 中提取文件的键 |
force_download | bool | False | 设置为 True 将覆盖现有数据副本 |
base | str | None | 包含配置文件和相对路径基础的目录 |
返回 | Path | 提取的文件路径 |
untar_data
是 FastDownload.get
的一个轻量级封装。它会下载并提取 url
,默认到 ~/.fastai
的子目录(详见 fastai_cfg
),并返回提取后的数据路径。将 force_download
标志设置为 ‘True’ 将覆盖已存在的任何数据副本。有关 c_key
参数的说明,请参阅 URLs
。