从输入URL到页面显示
总体来说,从浏览器输入URL到页面显示分为以下几个步骤:
- 浏览器查找域名对应的IP地址
- 浏览器向IP地址发送HTTP请求
- 服务端处理HTTP请求
- 服务端发送HTML响应
- 浏览器渲染显示HTML网页
- 连接结束
涉及到的协议有:
- DNS:获取域名对应的IP
- TCP:与服务端建立TCP连接
- IP:建立TCP连接时,在网络层使用IP协议发送数据
- OSPF:IP数据包在路由器之间转发使用OSPF开放最短路径优先协议
- ARP:路由器在与服务器通信时,使用ARP协议将IP地址转换为MAC地址
- HTTP:在TCP建立之后,使用HTTP协议访问网页
HTTP状态码有哪些
HTTP协议
HTTP协议介绍
HTTP超文本传输协议(Hypertext Transfer Protocol)。HTTP协议就是用来规范超文本的传输,超文本也就是网络上的包括文本在内的各式各样的消息,具体来说,主要是规范浏览器和服务器端的行为的。
HTTP是一个无状态协议,也就是说服务器不维护任何有关客户端过去所发请求的信息。有状态协议会更加复杂,需要维护状态(历史信息),而且如果客户端或者服务器失效,会产生状态的不一致,解决这种不一致的代价更高。
优点:拓展性强、速度快、跨平台支持性好
HTTP协议通信过程
- 服务器在80端口等待客户的请求
- 浏览器发起到服务器的TCP连接(创建socket)
- 服务器接收来自浏览器的TCP连接
- 浏览器(HTTP客户端)与Web服务器(HTTP服务端)交换HTTP消息
- 关闭TCP连接
HTTPS协议
HTTPS协议简介
HTTPS协议HyperText Transfer Protocol Secure是HTTP的加强安全版本。HTTPS是基于HTTP的,也是利用TCP作为底层协议,并额外使用SSL/TLS协议作为加密和安全认证。默认端口号是443。
HTTPS 协议中,SSL 通道通常使用基于密钥的加密算法,密钥长度通常是 40 比特或 128 比特。
优点:保密性好、信任度高
SSL/TLS协议
HTTPS 之所以能达到较高的安全性要求,就是结合了 SSL/TLS 和 TCP 协议,对通信数据进行加密,解决了 HTTP 数据透明的问题。
SSL和TLS的区别
SSL和TLS没有太大的区别。SSL安全套接字协议Secure Socket Layer,首发于1996年,实际上已经是SSL3.0。1999年,SSL3.0进一步升级,被称为TLS1.0。因此,TLS是基于SSL的,但由于习惯叫法,通常把HTTPS中核心加密协议称为SSL/TLS协议。
SSL/TLS工作原理
非对称加密
SSL/TLS的核心要素是非对称加密。非对称加密采用两个密钥——公钥和私钥。公钥是用来加密的,私钥是用来解密的。在通信时,私钥仅又解密者保存,公钥由任何想要与解密者通信的发送者所知。
非对称加密的公钥和私钥需要采用一种复杂的数学机制生成(密码学认为,为了较高的安全性,尽量不要自己创造加密方案)。公私钥对的生成算法依赖于单向陷门函数。
单向函数:已知单向函数 f,给定任意一个输入 x,易计算输出 y=f(x);而给定一个输出 y,假设存在 f(x)=y,很难根据 f 来计算出 x。
单向陷门函数:一个较弱的单向函数。已知单向陷门函数 f,陷门 h,给定任意一个输入 x,易计算出输出 y=f(x;h);而给定一个输出 y,假设存在 f(x;h)=y,很难根据 f 来计算出 x,但可以根据 f 和 h 来推导出 x。
上图就是一个单向函数(不是单项陷门函数),假设有一个绝世秘籍,任何知道了这个秘籍的人都可以把苹果汁还原成苹果,那么这个秘籍就是“陷门”。
在这里,函数 f 的计算方法相当于公钥,陷门 h 相当于私钥。公钥 f 是公开的,任何人对已有输入,都可以用 f 加密,而要想根据加密信息还原出原信息,必须要有私钥才行。
对称加密
使用 SSL/TLS 进行通信的双方需要使用非对称加密方案来通信,但是非对称加密设计了较为复杂的数学算法,在实际通信过程中,计算的代价较高,效率太低,因此,SSL/TLS 实际对消息的加密使用的是对称加密。
对称加密:通信双方共享唯一密钥 k,加解密算法已知,加密方利用密钥 k 加密,解密方利用密钥 k 解密,保密性依赖于密钥 k 的保密性。
网络通信的信道是不安全的,传输报文对任何人是可见的,密钥的交换肯定不能直接在网络信道中传输。因此,使用非对称加密,对对称加密的密钥进行加密,保护该对称密钥不在网络信道中被窃听。这样,通信双方只需要一次非对称加密,交换对称加密的密钥,在之后的信息通信中,使用绝对安全的密钥,对信息进行对称加密,即可保证传输消息的保密性。
公钥传输的依赖性
信任问题:攻击者Attacker给Client发送一个诈包,伪装成Server Public Key,实际上是Attacker Public Key。当Client收到Attacker Public Key,会以为这是Server Public Key,用它对信息加密并发送给Server。Attacker在网络中捕获信息密文,并使用Attacker Seceret Key就能解密获取信息。而Server并不能知道消息。
为了公钥传输的信赖性问题,第三方机构应运而生——证书颁发机构(CA,Certificate Authority)。CA 默认是受信任的第三方。CA 会给各个服务器颁发证书,证书存储在服务器上,并附有 CA 的电子签名(见下节)。
当客户端(浏览器)向服务器发送 HTTPS 请求时,一定要先获取目标服务器的证书,并根据证书上的信息,检验证书的合法性。一旦客户端检测到证书非法,就会发生错误。客户端获取了服务器的证书后,由于证书的信任性是由第三方信赖机构认证的,而证书上又包含着服务器的公钥信息,客户端就可以放心的信任证书上的公钥就是目标服务器的公钥。
数字签名
数字签名要解决的问题,是防止证书被伪造。第三方信赖机构 CA 之所以能被信赖,就是 靠数字签名技术。
HTTP和HTTPS的区别
- 端口号 :HTTP 默认是 80,HTTPS 默认是 443。
- URL 前缀 :HTTP 的 URL 前缀是
http://
,HTTPS 的 URL 前缀是https://
。 - 安全性和资源消耗 : HTTP 协议运行在 TCP 之上,所有传输的内容都是明文,客户端和服务器端都无法验证对方的身份。HTTPS 是运行在 SSL/TLS 之上的 HTTP 协议,SSL/TLS 运行在 TCP 之上。所有传输的内容都经过加密,加密采用对称加密,但对称加密的密钥用服务器方的证书进行了非对称加密。所以说,HTTP 安全性没有 HTTPS 高,但是 HTTPS 比 HTTP 耗费更多服务器资源。
HTTP1.0和HTTP1.1
响应状态码
HTTP/1.0仅定义了16种状态码。HTTP/1.1中新加入了大量的状态码,光是错误响应状态码就新增了24种。比如说,100 (Continue)
——在请求大资源前的预热请求,206 (Partial Content)
——范围请求的标识码,409 (Conflict)
——请求与当前资源的规定冲突,410 (Gone)
——资源已被永久转移,而且没有任何已知的转发地址。
缓存处理
HTTP/1.0提供的缓存机制非常简单。服务器端使用Expires
标签来标志(时间)一个响应体,在Expires
标志时间内的请求,都会获得该响应体缓存。服务器端在初次返回给客户端的响应体中,有一个Last-Modified
标签,该标签标记了被请求资源在服务器端的最后一次修改。在请求头中,使用If-Modified-Since
标签,该标签标志一个时间,意为客户端向服务器进行问询:“该时间之后,我要请求的资源是否有被修改过?”通常情况下,请求头中的If-Modified-Since
的值即为上一次获得该资源时,响应体中的Last-Modified
的值。
如果服务器接收到了请求头,并判断If-Modified-Since
时间后,资源确实没有修改过,则返回给客户端一个304 not modified
响应头,表示”缓冲可用,你从浏览器里拿吧!”。
如果服务器判断If-Modified-Since
时间后,资源被修改过,则返回给客户端一个200 OK
的响应体,并附带全新的资源内容,表示”你要的我已经改过的,给你一份新的”。
HTTP/1.1的缓存机制在HTTP/1.0的基础上,大大增加了灵活性和扩展性。基本工作原理和HTTP/1.0保持不变,而是增加了更多细致的特性。其中,请求头中最常见的特性就是Cache-Control
,详见MDN Web文档 Cache-Controlopen in new window.
连接方式
HTTP/1.0 默认使用短连接 ,也就是说,客户端和服务器每进行一次 HTTP 操作,就建立一次连接,任务结束就中断连接。当客户端浏览器访问的某个 HTML 或其他类型的 Web 页中包含有其他的 Web 资源(如 JavaScript 文件、图像文件、CSS 文件等),每遇到这样一个 Web 资源,浏览器就会重新建立一个TCP连接,这样就会导致有大量的“握手报文”和“挥手报文”占用了带宽。
为了解决 HTTP/1.0 存在的资源浪费的问题, HTTP/1.1 优化为默认长连接模式 。 采用长连接模式的请求报文会通知服务端:“我向你请求连接,并且连接成功建立后,请不要关闭”。因此,该TCP连接将持续打开,为后续的客户端-服务端的数据交互服务。也就是说在使用长连接的情况下,当一个网页打开完成后,客户端和服务器之间用于传输 HTTP 数据的 TCP 连接不会关闭,客户端再次访问这个服务器时,会继续使用这一条已经建立的连接。
如果 TCP 连接一直保持的话也是对资源的浪费,因此,一些服务器软件(如 Apache)还会支持超时时间的时间。在超时时间之内没有新的请求达到,TCP 连接才会被关闭。
有必要说明的是,HTTP/1.0仍提供了长连接选项,即在请求头中加入Connection: Keep-alive
。同样的,在HTTP/1.1中,如果不希望使用长连接选项,也可以在请求头中加入Connection: close
,这样会通知服务器端:“我不需要长连接,连接成功后即可关闭”。
HTTP 协议的长连接和短连接,实质上是 TCP 协议的长连接和短连接。
实现长连接需要客户端和服务端都支持长连接。
Host头处理
域名系统(DNS)允许多个主机名绑定到同一个IP地址上,但是HTTP/1.0并没有考虑这个问题,假设我们有一个资源URL是http://example1.org/home.html,HTTP/1.0的请求报文中,将会请求的是GET /home.html HTTP/1.0
.也就是不会加入主机名。这样的报文送到服务器端,服务器是理解不了客户端想请求的真正网址。
因此,HTTP/1.1在请求头中加入了Host
字段。加入Host
字段的报文头部将会是:
GET /home.html HTTP/1.1
Host: example1.org
这样,服务器端就可以确定客户端想要请求的真正的网址了。
带宽优化
范围请求
HTTP/1.1引入了范围请求(range request)机制,以避免带宽的浪费。当客户端想请求一个文件的一部分,或者需要继续下载一个已经下载了部分但被终止的文件,HTTP/1.1可以在请求中加入Range
头部,以请求(并只能请求字节型数据)数据的一部分。服务器端可以忽略Range
头部,也可以返回若干Range
响应。
如果一个响应包含部分数据的话,那么将带有206 (Partial Content)
状态码。该状态码的意义在于避免了HTTP/1.0代理缓存错误地把该响应认为是一个完整的数据响应,从而把他当作为一个请求的响应缓存。
在范围响应中,Content-Range
头部标志指示出了该数据块的偏移量和数据块的长度。
状态码100
HTTP/1.1中新加入了状态码100
。该状态码的使用场景为,存在某些较大的文件请求,服务器可能不愿意响应这种请求,此时状态码100
可以作为指示请求是否会被正常响应,过程如下图:
然而在HTTP/1.0中,并没有100 (Continue)
状态码,要想触发这一机制,可以发送一个Expect
头部,其中包含一个100-continue
的值。
压缩
许多格式的数据在传输时都会做预压缩处理。数据的压缩可以大幅优化带宽的利用。然而,HTTP/1.0对数据压缩的选项提供的不多,不支持压缩细节的选择,也无法区分端到端(end-to-end)压缩或者是逐跳(hop-by-hop)压缩。
HTTP/1.1则对内容编码(content-codings)和传输编码(transfer-codings)做了区分。内容编码总是端到端的,传输编码总是逐跳的。
HTTP/1.0包含了Content-Encoding
头部,对消息进行端到端编码。HTTP/1.1加入了Transfer-Encoding
头部,可以对消息进行逐跳传输编码。HTTP/1.1还加入了Accept-Encoding
头部,是客户端用来指示他能处理什么样的内容编码。
总结HTTP1.0和1.1区别
- 连接方式 : HTTP 1.0 为短连接,HTTP 1.1 支持长连接。
- 状态响应码 : HTTP/1.1中新加入了大量的状态码,光是错误响应状态码就新增了24种。比如说,
100 (Continue)
——在请求大资源前的预热请求,206 (Partial Content)
——范围请求的标识码,409 (Conflict)
——请求与当前资源的规定冲突,410 (Gone)
——资源已被永久转移,而且没有任何已知的转发地址。 - 缓存处理 : 在 HTTP1.0 中主要使用 header 里的 If-Modified-Since,Expires 来做为缓存判断的标准,HTTP1.1 则引入了更多的缓存控制策略例如 Entity tag,If-Unmodified-Since, If-Match, If-None-Match 等更多可供选择的缓存头来控制缓存策略。
- 带宽优化及网络连接的使用 :HTTP1.0 中,存在一些浪费带宽的现象,例如客户端只是需要某个对象的一部分,而服务器却将整个对象送过来了,并且不支持断点续传功能,HTTP1.1 则在请求头引入了 range 头域,它允许只请求资源的某个部分,即返回码是 206(Partial Content),这样就方便了开发者自由的选择以便于充分利用带宽和连接。
- Host头处理 : HTTP/1.1在请求头中加入了
Host
字段。
HTTP 如何保存用户状态?
HTTP 是一种不保存状态,即无状态(stateless)协议。也就是说 HTTP 协议自身不对请求和响应之间的通信状态进行保存。那么我们保存用户状态呢?Session 机制的存在就是为了解决这个问题,Session 的主要作用就是通过服务端记录用户的状态。典型的场景是购物车,当你要添加商品到购物车的时候,系统不知道是哪个用户操作的,因为 HTTP 协议是无状态的。服务端给特定的用户创建特定的 Session 之后就可以标识这个用户并且跟踪这个用户了(一般情况下,服务器会在一定时间内保存这个 Session,过了时间限制,就会销毁这个 Session)。
在服务端保存 Session 的方法很多,最常用的就是内存和数据库(比如是使用内存数据库 redis 保存)。既然 Session 存放在服务器端,那么我们如何实现 Session 跟踪呢?大部分情况下,我们都是通过在 Cookie 中附加一个 Session ID 来方式来跟踪。
Cookie 被禁用怎么办?
最常用的就是利用 URL 重写把 Session ID 直接附加在 URL 路径的后面。
URI 和 URL 的区别是什么?
- URI(Uniform Resource Identifier) 是统一资源标志符,可以唯一标识一个资源。
- URL(Uniform Resource Locator) 是统一资源定位符,可以提供该资源的路径。它是一种具体的 URI,即 URL 可以用来标识一个资源,而且还指明了如何 locate 这个资源。
URI 的作用像身份证号一样,URL 的作用更像家庭住址一样。URL 是一种具体的 URI,它不仅唯一标识资源,而且还提供了定位该资源的信息。