外部数据

下载 fastai 数据集的辅助函数

要下载任何数据集或预训练权重，只需按如下方式传入上面提到的任何数据集名称，即可运行 untar_data

path = untar_data(URLs.PETS)
path.ls()

>> (#7393) [Path('/home/ubuntu/.fastai/data/oxford-iiit-pet/images/keeshond_34.jpg'),...]

下载模型预训练权重

path = untar_data(URLs.WT103_BWD)
path.ls()

>> (#2) [Path('/home/ubuntu/.fastai/data/wt103-bwd/itos_wt103.pkl'),Path('/home/ubuntu/.fastai/data/wt103-bwd/lstm_bwd.pth')]

数据集

库中默认可用的完整数据集列表如下

主要数据集

ADULT_SAMPLE: adults 数据集的一个小样本，用于根据人口普查数据预测年收入是否超过 5 万美元。

BIWI_SAMPLE: 一个 BIWI kinect 头部姿势数据库。该数据集包含 20 人的超过 1.5 万张图像（6 名女性和 14 名男性 - 其中 4 人被记录了两次）。对于每一帧，都提供了深度图像、相应的 rgb 图像（均为 640x480 像素）和标注。头部姿势范围涵盖大约 +-75 度偏航和 +-60 度俯仰。

CIFAR: 著名的 cifar-10 数据集，包含 60000 张 32x32 彩色图像，分为 10 个类别，每个类别有 6000 张图像。
COCO_SAMPLE: 用于对象检测的 coco 数据集样本。
COCO_TINY: 用于对象检测的 coco 数据集微型版本。

HUMAN_NUMBERS: 一个合成数据集，包含文本中的人类数字计数，如 one, two, three, four.. 对使用语言模型进行实验很有用。
IMDB: 完整的 IMDB 情感分析数据集。
IMDB_SAMPLE: 完整的 IMDB 情感分析数据集样本。
ML_SAMPLE: Movielens 样本数据集，用于推荐引擎向用户推荐电影。
ML_100k: Movielens 100k 数据集，用于推荐引擎向用户推荐电影。
MNIST_SAMPLE: 著名的 MNIST 数据集样本，包含手写数字。
MNIST_TINY: 著名的 MNIST 数据集微型版本，包含手写数字。
MNIST_VAR_SIZE_TINY:
PLANET_SAMPLE: 来自 Kaggle 竞赛 Planet: Understanding the Amazon from Space 的行星数据集样本。
PLANET_TINY: 来自 Kaggle 竞赛 Planet: Understanding the Amazon from Space 的行星数据集微型版本，用于更快的实验和原型开发。
IMAGENETTE: imagenet 数据集的一个较小版本，发音类似 'Imagenet'，但带有蹩脚的不正宗法语口音。
IMAGENETTE_160: Imagenette 数据集的 160 像素版本。
IMAGENETTE_320: Imagenette 数据集的 320 像素版本。
IMAGEWOOF: Imagewoof 是 Imagenet 中 10 个类别的子集，由于它们都是狗的品种，因此不容易分类。
IMAGEWOOF_160: ImageWoof 数据集的 160 像素版本。
IMAGEWOOF_320: ImageWoof 数据集的 320 像素版本。
IMAGEWANG: Imagewang 结合了 Imagenette 和 Imagewoof，但进行了一些调整，使其成为一个棘手的半监督不平衡分类问题。
IMAGEWANG_160: Imagewang 的 160 像素版本。
IMAGEWANG_320: Imagewang 的 320 像素版本。

Kaggle 竞赛数据集

DOGS: 来自 Dogs vs Cats Kaggle 竞赛的包含猫狗图像的数据集。

图像分类数据集

CALTECH_101: 属于 101 个类别的对象图片。每个类别大约有 40 到 800 张图片。大多数类别约有 50 张图片。由 Fei-Fei Li、Marco Andreetto 和 Marc ’Aurelio Ranzato 于 2003 年 9 月收集。
CARS: Cars 数据集包含 16,185 张图片，分为 196 个汽车类别。
CIFAR_100: CIFAR-100 数据集包含 60000 张 32x32 彩色图像，分为 100 个类别，每个类别有 600 张图像。
CUB_200_2011: Caltech-UCSD Birds-200-2011 (CUB-200-2011) 是 CUB-200 数据集的扩展版本，每个类别的图像数量大约增加了一倍，并添加了新的部件位置标注。
FLOWERS: 一个包含 17 个类别、通过从各种网站收集图像构建的花卉数据集。
FOOD:
MNIST: MNIST 数据集，包含手写数字。
PETS: 一个包含 37 个类别、每个类别约有 200 张图片的宠物数据集。

NLP 数据集

AG_NEWS: AG News 语料库包含来自 AG 网站新闻文章语料库的新闻文章，涉及 4 个最大类别。该数据集包含每个类别的 30,000 个训练样本和 1,900 个测试样本。
AMAZON_REVIEWS: 此数据集包含亚马逊的产品评论和元数据，包括 1996 年 5 月至 2014 年 7 月期间的 1.428 亿条评论。
AMAZON_REVIEWS_POLARITY: 用于情感分析的亚马逊评论数据集。
DBPEDIA: DBpedia 本体数据集包含来自 DBpedia 的 14 个不重叠类别的每个类别的 56 万个训练样本和 7 万个测试样本。
MT_ENG_FRA: 英语到法语的机器翻译数据集。
SOGOU_NEWS: 搜狗-SRR（搜索结果相关性）数据集是为了支持搜索结果相关性估计和排名任务的研究而构建的。
WIKITEXT: WikiText 语言模型数据集是从 Wikipedia 上经过验证的优质文章和特色文章中提取的超过 1 亿个 Token 的集合。
WIKITEXT_TINY: WIKITEXT 数据集的微型版本。
YAHOO_ANSWERS: YAHOO 的问答数据集。
YELP_REVIEWS: Yelp 数据集是 YELP 商家、评论和用户数据的子集，可用于个人、教育和学术目的。
YELP_REVIEWS_POLARITY: 用于对 YELP 评论进行情感分类。

图像定位数据集

BIWI_HEAD_POSE: 一个 BIWI kinect 头部姿势数据库。该数据集包含 20 人的超过 1.5 万张图像（6 名女性和 14 名男性 - 其中 4 人被记录了两次）。对于每一帧，都提供了深度图像、相应的 rgb 图像（均为 640x480 像素）和标注。头部姿势范围涵盖大约 +-75 度偏航和 +-60 度俯仰。
CAMVID: 包含用于分割模型的带标注驾驶数据集。
CAMVID_TINY: 用于分割模型的微型 camvid 数据集。
LSUN_BEDROOMS: 使用深度学习和人工参与的大型图像数据集。
PASCAL_2007: Pascal 2007 数据集，用于识别现实场景中多种视觉对象类别的物体。
PASCAL_2012: Pascal 2012 数据集，用于识别现实场景中多种视觉对象类别的物体。

音频分类

MACAQUES: 来自 Distributed acoustic cues for caller identity in macaque vocalization 的 8 只猕猴的 7285 声 coo 叫声。
ZEBRA_FINCH: 3405 声斑胸草雀叫声，分为 11 种叫声类型。附加标签包括发出叫声的个体名称及其年龄。

医学影像数据集

SIIM_SMALL: SIIM 数据集的较小版本，目标是从一组胸部 X 光图像中分类气胸。
TCGA_SMALL: TCGA-OV 数据集的较小版本，包含皮下脂肪和内脏脂肪的分割。引用

Holback, C., Jarosz, R., Prior, F., Mutch, D. G., Bhosale, P., Garcia, K., … Erickson, B. J. (2016). Radiology Data from The Cancer Genome Atlas Ovarian Cancer [TCGA-OV] collection. The Cancer Imaging Archive. 论文

Clark K, Vendt B, Smith K, Freymann J, Kirby J, Koppel P, Moore S, Phillips S, Maffitt D, Pringle M, Tarbox L, Prior F. The Cancer Imaging Archive (TCIA): Maintaining and Operating a Public Information Repository, Journal of Digital Imaging, Volume 26, Number 6, December, 2013, pp 1045-1057. 论文

预训练模型

OPENAI_TRANSFORMER: GPT2 Transformer 预训练权重。
WT103_FWD: WikiText-103 前向语言模型权重。
WT103_BWD: WikiText-103 后向语言模型权重。

配置

来源

fastai_cfg

 fastai_cfg ()

fastai 的 config.ini 的 Config 对象

这是一个基本的 Config 文件，包含 data, model, storage 和 archive。所有将来的下载都根据下载类型发生在配置文件中定义的路径。例如，所有将来的 fastai 数据集都会下载到 data 路径，而所有预训练的模型权重都会下载到 model 路径，除非更新了默认下载位置。配置文件目录由环境变量 FASTAI_HOME 定义，如果存在，否则设置为 ~/.fastai。

cfg = fastai_cfg()
cfg.data,cfg.path('data')

('data', Path('/home/jhoward/.fastai/data'))

来源

fastai_path

 fastai_path (folder:str)

Config 中 folder 的本地路径

fastai_path('archive')

Path('/home/jhoward/.fastai/archive')

来源

URLs

 URLs ()

数据集和模型 URL 的全局常量。

默认本地路径是 ~/.fastai/archive/，但这可以通过传入不同的 c_key 进行更新。注意：c_key 应该是 'archive', 'data', 'model', 'storage' 中的一个。

url = URLs.PETS
local_path = URLs.path(url)
test_eq(local_path.parent, fastai_path('archive'))
local_path

Path('/home/jhoward/.fastai/archive/oxford-iiit-pet.tgz')

local_path = URLs.path(url, c_key='model')
test_eq(local_path.parent, fastai_path('model'))
local_path

Path('/home/jhoward/.fastai/models/oxford-iiit-pet.tgz')

来源

untar_data

 untar_data (url:str, archive:pathlib.Path=None, data:pathlib.Path=None,
             c_key:str='data', force_download:bool=False, base:str=None)

使用 FastDownload.get 下载 url

	类型	默认值	详情
url	str		要下载的文件
archive	Path	None	`Config` 中 `archive` 键的可选覆盖
data	Path	None	`Config` 中 `data` 键的可选覆盖
c_key	str	data	在 `Config` 中提取文件的键
force_download	bool	False	设置为 `True` 将覆盖现有数据副本
base	str	None	包含配置文件和相对路径基础的目录
返回	Path		提取的文件路径

untar_data 是 FastDownload.get 的一个轻量级封装。它会下载并提取 url，默认到 ~/.fastai 的子目录（详见 fastai_cfg），并返回提取后的数据路径。将 force_download 标志设置为 ‘True’ 将覆盖已存在的任何数据副本。有关 c_key 参数的说明，请参阅 URLs。

untar_data(URLs.MNIST_SAMPLE)

Path('/home/jhoward/.fastai/data/mnist_sample')