PHP的fopen()方法将指定的文件资源绑定到一个流上。如果文件路径是”scheme://…” 的格式,则被当成一个URL,PHP将搜索对应的协议处理器(也被称为封装协议)来处理此模式。因此可以通过fopen()方法来获取大部分的网页前台源代码。
但是,很多网站出于安全性考虑,在处理请求时,往往会对请求来源的合法性进行验证,这个时候简单的通过上述方式来获取网页源代码时,将会被目标服务器拒绝。此时,我们就需要模拟HTTP的方式来发送GET/POST请求,从而合法得通过目标服务器的验证,再通过获取请求的响应输出流来得到网页前台源代码。
下面是利用fsockopen方法打开网站的Scoket连接,通过构造并发送HTTP报文头来模拟HTTP情求来实现获取网页源代码的方法:
// 需要访问的网页地址 $url = “http://www.example.com/index.html”; // 打开网页Scoket连接 $handler = fopen($url, "r"); if (!$handler) { // 发送HTTP报文头 $host = "www.example.com"; $request = "/index.html"; $header = "GET " . $request . " HTTP/1.1\r\n"; $header .= "Host: " . $host . "\r\n"; $header .= "Connection: Close\r\n\r\n"; $handler = fsockopen($host, 80); fwrite($handler, $header); } // 读取网页响应数据 while (!feof($handler)) { $line = fgets($handler, 1024); echo($line); } // 关闭网页Scoket连接 fclose($handler);
其中HTTP报文头的结构可以根据网页请求的具体需要来添加其它相关信息。