细说 Data URI

细说 Data URI

2015/08/27 · HTML5 ·
URI

初稿出处:
李靖(@Barret李靖)   

Data ULANDL 早在 一九九四 年就被建议,这个时候有不菲个版本的 Data U奔驰M级L Schema
定义陆陆续续出现在 VRML 之中,随后赶忙,个中的叁个版本被提上了议案——将它做个一个嵌入式的财富放置在
HTML
语言之中。从 RFC 文书档案定稿的年月来看(一九九八年),它是一个备受接待的表明。

Data U途观Is 定义的开始和结果能够看作小文件被插入到其余文书档案之中。UTiguanI
是 uniform resource identifier 的缩写,它定义了接受内容的商业事务以及附带的连带内容,如果附带的连锁内容是三个地方,那么此时的
U君越I 也是多个 U奥迪Q7L (uniform resource locator),如:

ftp://10.1.1.10/path/to/filename.ext

1
2
ftp://10.1.1.10/path/to/filename.ext
http://example.com/source/id

情商前边的原委,可以告诉顾客端一个纯正下载能源的地点,而 ULX570I
并不一定包涵四个地址消息,如(demo):



1


其情商为
data,并告知客商端将那个内容作为 image/gif 格式来深入分析,必要深入分析的内容使用的是
base64 编码。它直接富含了剧情但并不曾四个鲜明的能源地址。

图片 1

Data U中华VL 早在 一九九二年就被提议,那一年有广大个版本的 Data U中华VL Schema 定义陆陆续续出现在
VRML
之中,随后不久,在那之中的多少个本子被提上了议案——将它做个二个嵌入式的财富放置在
HTML 语言之中。从 RFC
文书档案定稿的小运来看(一九九七年),它是三个深受招待的阐明。

☞ 格式

Data UPAJEROI 的格式十一分简便,如下所示:

  • 首先某个是 data: 左券头,它标志这几个内容为贰个 data UENVISIONI 能源。
  • 其次有个别是 MIME
    类型,表示那串内容的表现方式,举例:text/plain,则以文件类型显示,image/jpeg,以
    jpeg 图片情势显得,一样,客户端也会以那几个 MIME 类型来深入分析数据。
  • 其三有个别是编码设置,默许编码是 charset=US-ASCII,
    即数据部分的各类字符都会自动编码为 %xx,关于编码的测验,能够在浏览器地址框输入分别输入上边两串内容,查看效果:

// output: ä½ å¥½ -> 使用暗许的编码体现,故乱码 data:text/html,你好
// output: 你好 -> 使用 UTF-8 展示 data:text/html;charset=UTF-8,你好
// output: 浣犲ソ -> 使用 gbk 展现(浏览器默许编码 UTF-8,故乱码)
data:text/html;charset=gbk,你好 // output: 你好 -> UTF-8
编码,内容先采用 base64 解码,然后呈现data:text/html;charset=UTF-8;base64,5L2g5aW9

1
2
3
4
5
6
7
8
// output: ä½ å¥½ -> 使用默认的编码展示,故乱码
data:text/html,你好  
// output: 你好 -> 使用 UTF-8 展示
data:text/html;charset=UTF-8,你好
// output: 浣犲ソ -> 使用 gbk 展示(浏览器默认编码 UTF-8,故乱码)
data:text/html;charset=gbk,你好
// output: 你好 -> UTF-8 编码,内容先使用 base64 解码,然后展示
data:text/html;charset=UTF-8;base64,5L2g5aW9
  • 第四部分是 base64 编码设定,那是四个可挑选,base64
    编码中仅富含 0-9,a-z,A-Z,+,/,=,在那之中 = 是用来编码补白的。
  • 最终一局地为这么些 Data U陆风X8I
    承载的剧情,它能够是纯文本编写的原委,也足以是经过 base64编码
    的内容。

众多时候我们接纳 data U君越I
来展现一些较长的内容,如一串二进制数据编码、图片等,选用 base64
编码能够让内容变得更其简明。而对图片来讲,在 gzip 压缩之后,base64
图片实际上比原图 gzip
压缩要大,体量扩充大致为百分之四十,所以使用的时候要求权衡。

Data U路虎极光Is 定义的内容能够当做小文件被插入到别的文书档案之中。U君越I 是
uniform resource identifier
的缩写,它定义了接受内容的协商以及附带的有关内容,如若附带的连带内容是一个地址,那么此时的
U途睿欧I 也是二个 URL (uniform resource locator),如:

☞ 兼容性

由于出现时间较早,这段日子主流的浏览器基本都辅助 data UHavalI:

  • Firefox 2+
  • Opera 7.2+
  • Chrome (全体版本)
  • Safari (全部版本)
  • Internet Explorer 8+

然则一些浏览器对 data U冠道I 的施用存在限制:

  • 长度限制,长度超长,在有的用到下会导致内部存款和储蓄器溢出,程序崩溃

Opera 下限制为 4100 个字符,前段时间一度去掉了那么些范围 IE 8+ 下限制为 32,7七11个字符(32kb),IE9 之后移除了那么些限制

1
2
Opera 下限制为 4100 个字符,目前已经去掉了这个限制
IE 8+ 下限制为 32,768 个字符(32kb),IE9 之后移除了这个限制
  • 在 IE 下,data U凯雷德I 只允许被用到如下地点:
    • object (images only)
    • img、input type=image、link
    • CSS 中允许利用 U牧马人L 证明的地点,如 background
  • 在 IE 下,Data UEvoqueI 的内容必需是通过编码调换的,如 “#”、”%”、非
    US-ASCII 字符、多字节字符等,必须经过编码转换

☞ 低版本IE的消除之道 – MHTML

MHTML 便是 MIME HTML,是 “Multipurpose Internet Mail Extensions
HyperText 马克up Language”
的简称,它就疑似二个带着附属类小部件的邮件日常,如下所示:

/** FilePath: */ /*!@ignore
Content-Type: multipart/related; boundary=”_ANY_SEPARATOR”
–_ANY_SEPARATOR Content-Location:myidBackground
Content-Transfer-Encoding:base64
iVBORw0KGgoAAAANSUhEUgAAAAUAAAAFCAYAAACNbyblAAAAHElEQVQI12P4//8/w38GIAXDIBKE0DHxgljNBAAO9TXL0Y4OHwAAAABJRU5ErkJggg==
–_ANY_SEPARATOR– */ .myid { background-image:
url(“”);
*background-image:
url(mhtml:); }

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
/** FilePath: http://example.com/test.css */
/*!@ignore
Content-Type: multipart/related; boundary="_ANY_SEPARATOR"
 
–_ANY_SEPARATOR
Content-Location:myidBackground
Content-Transfer-Encoding:base64
 
iVBORw0KGgoAAAANSUhEUgAAAAUAAAAFCAYAAACNbyblAAAAHElEQVQI12P4//8/w38GIAXDIBKE0DHxgljNBAAO9TXL0Y4OHwAAAABJRU5ErkJggg==
–_ANY_SEPARATOR–
*/
 
.myid {
  background-image: url("");
  *background-image: url(mhtml:http://example.com/test.css!myidBackground);
}

上面的一串注释就像三个附属类小部件,这一个附属类小部件内容是贰个可以称作 myidBackground 的
base64 编码图片,在三个 class 叫做 myid 的 css
中用到了它。这里有几点需要小心:

  • _ANY_SEPARATOR 能够是任性内容
  • 在”附属类小部件”截至地方须求丰裕得了符 _ANY_SEPARATOR,否则在 Vista 和
    Win7 的 IE7
    中会出错。
  • 附属类小部件代码注意不要被压缩工具给干掉了

此处存在三个坑:部分系列相配情势下的 IE8 也认知 css 中的 hack
符号 *,但是不援助 mhtml,所以地点的原委不会生效。管理方案估算就唯有利用
IE 的准绳注释了。

ftp://10.1.1.10/path/to/filename.ext
http://example.com/source/id

☞ HTTPS 下的安全提醒

HTTPS 展开页面,当在 IE6、7 下接纳 data UXC90Is 时,会看出如下提示:

图片 2

MS 的演讲是:

您正在查阅的网址是个平平安安网址。它应用了 SSL (保险套接字层)或
PCT(保密通信才具)那样的安全磋商来确定保障您所收发消息的安全性。
当站点使用安全协议时,您提供的消息比如姓名或银行卡号码等都通过加密,别的人不能够读取。但是,这些网页同不常间满含未利用该安全磋商的花色

很醒目,IE 嗅到了”未利用安全契约的品类”。

浏览器在条分缕析到一个 U哈弗I
的时候,会率先判别合同头,要是是以 http(s) 开头,它便会树立一个网络链接下载能源,假诺它开掘协议头为 data:,便会将其用作一个Data U中华VI 能源实行分析。

图片 3

可是从 chrome 的瀑布流,大家可以做这么的猜疑:

图中各种 Data U帕杰罗I
都倡导了需要,可是情形都以 data(from cache),禁止使用缓存之后,依旧那样。所以能够肯定,浏览器在下载源码分析成
DOM 的时候,会将 Data UQX56I 的资源剖判出来,并缓存在地面,最后 Data USportageI
各样对应地点都会倡导三遍呼吁,只是那么些伏乞还未创建链接,就被察觉存在缓存的浏览器给拍死了。

共谋前面包车型客车从头到尾的经过,可以告知客商端多少个正确下载能源的地方,而 U奥迪Q7I
并不一定包括二个地方音讯,如(demo):

☞ 安全阀门

Data U路虎极光I 在 IE 下有大多安全限制,事实上,相当多 xss 注入也得以将 data UEvoqueI
的源头作为入口,使用 data UHighlanderI 绕过浏览器的过滤。

JavaScript

// 绕过浏览器过滤
src=”data:text/html,<script>alert(“Xss”)</script><!–

1
2
// 绕过浏览器过滤
http://example.com/text.php?t="><script src="data:text/html,<script>alert("Xss")</script><!–

这里能够极大程度的疏散,很有趣,值得读者去追究。



☞ 扩张阅读

  • RFC 2397 RFC文档
  • MDN –
    data_URIs MDN文档
  • MSDN – data
    Protocal.aspx) MSDN文档
  • NC –
    data_uris_explained
  • phpied –
    MHTML

    1 赞 1 收藏
    评论

图片 4

其情商为 data,并告知客商端将以此情节作为 image/gif
格式来深入分析,要求深入分析的原委使用的是 base64
编码。它直接包蕴了内容但并未八个显明的财富地址。

发表评论

电子邮件地址不会被公开。 必填项已用*标注