在机器学习和深度学习中,我们无法在没有数据的情况下做任何事情。因此,为我们创建数据集的人培训我们的模型是(通常是不受欢迎的)英雄。一些最有用和最重要的数据集是那些成为重要的“学术基线”的数据集;也就是说,由研究人员普遍研究的数据集并用于比较算法改变。其中一些成为家喻户晓的名字(至少,在培训模型的家庭中!),如 m, CiFar 10., 和 想象成.

在Fast.ai我们(和我们的学生)对那些为研究界提供数据集的那些善意的人提供了感谢的债务。我们与AWS合作尝试回复一下:我们使用标准格式在可靠和快速的基础架构上使用标准格式在单个地方提供了一些最重要的数据集(请参阅下文中为完整列表和链接)。如果您在研究中使用任何这些数据集,请通过引用原始纸张(我们在下面提供了适当的引文链接),并且如果您将其作为商业或教育项目的一部分,请考虑添加a注意注意力和数据集的链接。

我们在我们的教学中使用这些数据集,因为他们提供了学生可能遇到的数据类型的实例,并且学术文献有许多模型结果的示例,使用这些数据集可以比较他们的工作。此外,我们还使用数据集 卡格尔比赛,因为卡格上的公共排行榜允许学生在世界上最好的案件测试他们的模型(这里未列出kaggle数据集)。

对于下面的每个数据集,请单击“源”链接以查看Creator的数据集许可证和详细信息,为引文的“Cite”链接以及“下载”链接访问数据集 AWS打开数据集.

图像分类

来源 引文 下载 描述
m Lecun等人。,1998A 下载 小型(28x28)手写灰度数字的经典数据集,在20世纪90年代开发,用于测试当天最复杂的模型;今天,经常被用作介绍深入学习的基本“Hello World”。此FAST.AI数据集版使用标准PNG格式而不是原始的特殊二进制格式,因此您可以使用大多数库中的常规数据管道;如果要仅使用原始的单个输入通道,只需从通道轴中选择单个切片。
cifar10. Krizhevsky,2009年 下载 60000 32x32在10个类中的彩色图像,每级6000张图片(50000次训练图像和10000个测试图像)。今天非常广泛用于测试新算法的性能。此FAST.AI数据集版使用标准PNG格式而不是原始的特定于平台的二进制格式,因此您可以使用大多数库中的常规数据流水线。
cifar100. Krizhevsky,2009年 下载 此数据集就像CiFar-10一样,除了它有100个包含600张图像的类。每个培训图像和100个测试图像每级测试。 CIFAR-100中的100个类分为20个超类。每个图像都有一个“精细”标签(所属的类)和“粗糙”标签(所属的超级类)。
Caltech-UCSD Birds-200-2011 林等。 2015年 下载 图像数据集200鸟类照片(大多数北美);它也可以用于本地化。类别:200;图像数量:11,788;每张图片注释:15份位置,312二进制属性,1个边界框
CALTECH 101. L. Fei-Fei等,2004年 下载 属于101类的物体的图片。每类约40到800张图像。大多数类别有大约50个图像。每个图像的大小约为300 x 200像素。也可用于本地化。
牛津-IIIT宠物 O. M. Parkhi等,2012年 下载 一个37类PET数据集,每个类为大约200张200张图像。图像具有较大的规模变化,姿势和照明。也可用于本地化。
牛津102朵花 nilsback,m-e。和Zisserman,A.,2008年 下载 102类数据集由102个花类别组成,常见于英国。每个类由40到258个图像组成。图像具有大规模,姿态和光变化。
食物-101 Bossard,Lukas等,2014年 下载 101个食品类别,有101,000个图像; 250测试图像和每级750次训练图像。训练图像未清除。所有图像被重新分配,以具有512像素的最大侧长度。
斯坦福汽车 Jonathan Krause等,2013年 下载 196级汽车的16,185张图片。数据分为8,144次训练图像和8,041个测试图像,其中每个课程在50-50分割中均匀分割。课程通常是在制作的水平,模型,年。
想象成te. 基于 邓等人。,2009年 全尺寸 320 px 160 px 来自Imagenet的10个容易分类的课程的子集:Tench,English Springer,Cassette播放器,链锯,教堂,法国喇叭,垃圾车,燃气泵,高尔夫球,降落伞
ImageWoof. 基于 邓等人。,2009年 全尺寸 320 px 160 px 10个难以将类别分类到ImageNet(所有狗品种):澳大利亚梗,边境梗,萨摩耶,比格犬,Shih-Tzu,英文狐狸,罗得岛Ridgeback,Dingo,金毛猎犬,老英语牧羊犬

NLP.

来源 引文 下载 描述
IMDB大型电影评论数据集 Andrew L. Maas等,2011年 下载 二进制情绪分类的数据集,其中包含25,000个高度极化电影评论的培训和25,000次进行测试。还有其他未标记的数据也使用。
Wikitext-103. Stephen Merieny等,2016年 下载 从维基百科的一套经过验证的良好和特色文章中提取超过1亿令牌的集合。广泛用于语言建模,包括Fastai库和ULMFIT算法中使用的预制模型。
Wikitext-2 Stephen Merieny等,2016年 下载 Wikitext-103.的子集;用于测试较小数据集的语言模型培训。
WMT 2015法语/英语并行文本 Callison-Burch等人,2009年 下载 法语/英语并行文本培训翻译模型。法语和英语超过2000万句话。由Chris Callison-Burch创建的数据集,爬行数百万个网页,然后使用一组简单的启发式方法将法语URL转换为英语URL,并假设这些文档是彼此的翻译。
AG新闻 香张等。,2015年 下载 496,835分类新闻文章来自>2000年来自AG的新闻文章的4个最大课程的新闻来源,只使用标题和描述字段。每个班级的培训样本数量为30,000,并测试1900。
亚马逊评论 - 完整 香张等。,2015年 下载 34,686,770亚马逊在2,441,053个产品中提供6,643,669名产品,来自Stanford网络分析项目(SNAP)。此完整数据集包含60,000个培训样本和每级130,000个测试样本。
亚马逊评论 - 极性 香张等。,2015年 下载 34,686,770亚马逊在2,441,053个产品中提供6,643,669名产品,来自Stanford网络分析项目(SNAP)。该子集包含1,800,000个培训样本和200,000个极性情绪中的测试样本。
DBPedia本体论 香张等。,2015年 下载 来自DBPedia 2014的14个非植物课程的40,000个培训样本和5,000个测试样本。
Sogou新闻 香张等。,2015年 下载 2,909,551篇新闻文章来自Sogouca和Sogoucs News Corpora,5个类别。为每个班级选择的培训样本数量为90,000,并测试12,000。请注意,汉字已转换为拼音。
雅虎答案 香张等。,2015年 下载 来自雅虎的10大主要类别!答案全面的问题和答案1.0版数据集。每个类包含140,000个培训样本和5,000个测试样品。
yelp评论 - 完整 香张等。,2015年 下载 来自Yelp DataSet挑战赛的1,569,264个样本2015.此完整数据集具有130,000个培训样本和每种明星的10,000个测试样本。
Yelp评论 - 极性 香张等。,2015年 下载 来自Yelp DataSet挑战赛的1,569,264个样本2015.该子集在每种极性中有280,000个培训样本和19,000个测试样本。

图像本地化

来源 引文 下载 描述
Camvid:基于运动的分割和识别数据集 Brostow等,2008年 下载 分段数据集具有超过700张图像的每像素语义分割,每个图像由第二个人检查和确认为准确性。
Pascal Visual Object类(VOC) Everingham,M等人。,2010 下载 用于对象类识别的标准化图像数据集 - 此处提供2007和2012版本。 2012年版有20个课程。火车/ val数据具有11,530个图像,其中包含27,450 roI注释对象和6,929个分割。还有简化版本的注释对象 2007年版本2012年版本.

椰树

可能是今天最广泛使用的数据集进行对象本地化是 Coco:上下文中的常见对象。这里提供2017版本的所有文件,以及额外的文件 子集 快速创建的数据集。每个Coco数据集的详细信息可从中获取 Coco DataSet Page.。 FAST.AI子集包含所有包含五种选定类别中的一个的图像,将对象限制为只有这五个类别;这些类别是:椅子椅子电视遥控器花瓶。