关于PHP中获取网页源代码的说明

PHP的fopen()方法将指定的文件资源绑定到一个流上。如果文件路径是”scheme://…” 的格式,则被当成一个URL,PHP将搜索对应的协议处理器(也被称为封装协议)来处理此模式。因此可以通过fopen()方法来获取大部分的网页前台源代码。

但是,很多网站出于安全性考虑,在处理请求时,往往会对请求来源的合法性进行验证,这个时候简单的通过上述方式来获取网页源代码时,将会被目标服务器拒绝。此时,我们就需要模拟HTTP的方式来发送GET/POST请求,从而合法得通过目标服务器的验证,再通过获取请求的响应输出流来得到网页前台源代码。

下面是利用fsockopen方法打开网站的Scoket连接,通过构造并发送HTTP报文头来模拟HTTP情求来实现获取网页源代码的方法:

// 需要访问的网页地址
$url = “http://www.example.com/index.html”;
// 打开网页Scoket连接
$handler = fopen($url, "r");
if (!$handler) {
    // 发送HTTP报文头
    $host = "www.example.com";
    $request = "/index.html";
    $header = "GET " . $request . " HTTP/1.1\r\n";
    $header .= "Host: " . $host . "\r\n";
    $header .= "Connection: Close\r\n\r\n";
    $handler = fsockopen($host, 80);
    fwrite($handler, $header);
}
// 读取网页响应数据
while (!feof($handler)) {
    $line = fgets($handler, 1024);
    echo($line);
}
// 关闭网页Scoket连接
fclose($handler);

其中HTTP报文头的结构可以根据网页请求的具体需要来添加其它相关信息。

发表回复