您的位置: 首页 / PHP / 关于 CURL 的几点心得

关于 CURL 的几点心得

Published at Jan 26, 3pm

CURL 是 Client URL Library Functions 的缩写,由 Daniel Stenberg 创建,更多内容可以参考他的网站。最近几天突然对 HTTP 采集有了兴趣。之前我在做这方面程序,一般通过两种方法,一个是利用 PHP 自身的文件操作函数。PHP 的 fopen,readfile 都是可以支持 http 协议的,这样可以很方便的获取互联网上的内容。另一种方法是通过 PHP 的 Socket 函数,这个方法的好处是对各种协议都可以支持,缺点是使用起来比较麻烦,要对协议有一定的了解。在 HTTP 获取方面,运用 Socket 的 Snoopy 类是一个非常好用的 PHP HTTP 客户端,也是我原来最常用的方法。

随便翻翻 PHP 手册就会发现,PHP 本身可以支持 libcurl。用 C/C++ 写成的 libcurl 相比 Snoopy 更快速更可靠,而且除了 HTTP 协议外,还广泛支持其他协议( https, ftp, ladp 等等)。libcurl 并不是 PHP 默认加载的模块,具体如何启用可以参考 PHP 手册,这里就不多说了。PHP libcurl 使用非常简单,例如:

  1. <?php
  2.     $ch = curl_init("http://www.php.net");
  3.     curl_exec($ch);
  4.     curl_close($ch);
  5. ?>

三行简单的程序就可以完成对 http://www.php.net 页面的读取并输出。当然更多的用法可以参考 PHP 手册。这里只说说我在写程序时遇到的一个问题,例如下面的程序:

  1. <?php
  2.     $ch = curl_init();
  3.     curl_setopt($ch, CURLOPT_URL, "http://www.php.net");    //指定读取 php.net
  4.     curl_setopt($ch, CURLOPT_HEADER, 1);            //返回内容中包含 HTTP 头
  5.     curl_setopt($ch, CURLOPT_NOBODY, 1);            //不读取页面内容
  6.     curl_exec($ch);                        //执行 (1)
  7.     curl_setopt($ch, CURLOPT_URL, "http://www.php.net");    //指定读取 php.net
  8.     curl_setopt($ch, CURLOPT_HEADER, 0);            //返回内容中不包含 HTTP 头
  9.     curl_setopt($ch, CURLOPT_NOBODY, 0);            //读取页面内容
  10.     curl_exec($ch);                        //执行 (2)
  11.     curl_close($ch);
  12. ?>

按照我的想法,程序应该可以分别返回 HTTP 响应报头和页面的内容。可是上面这段程序执行结果为:(1)处正常返回 HTTP 响应报头,(2)不会返回任何内容。查了很多资料都没有提到这个问题。最终无奈,只好在读取(2)之前重新执行 curl_init(),即将上程序改成这样:

  1. <?php
  2.     $ch = curl_init();
  3.     curl_setopt($ch, CURLOPT_URL, "http://www.php.net");    //指定读取 php.net
  4.     curl_setopt($ch, CURLOPT_HEADER, 1);            //返回内容中包含 HTTP 头
  5.     curl_setopt($ch, CURLOPT_NOBODY, 1);            //不读取页面内容
  6.     curl_exec($ch);                        //执行 (1)
  7.     curl_close($ch);
  8.     $ch = curl_init();
  9.     curl_setopt($ch, CURLOPT_URL, "http://www.php.net");    //指定读取 php.net
  10.     curl_setopt($ch, CURLOPT_HEADER, 0);            //返回内容中不包含 HTTP 头
  11.     curl_setopt($ch, CURLOPT_NOBODY, 0);            //读取页面内容
  12.     curl_exec($ch);                        //执行 (2)
  13.     curl_close($ch);
  14. ?>

返回结果正常。虽然可以通过这种方法解决问题,但对这个现象我感觉非常的奇怪。是 libcurl 本身的问题,还是我使用的方法不当呢?还希望熟悉 curl 的朋友帮忙指正一下。

php, curl

收藏和分享本文 17fav 收藏本文发表您的观点或推荐本文 Loading...

6 Responses

  1. Feb 11, 1pm / LINK / REPLY
    Gravatar

    我没有试过,不过感觉问题在第一次调用
    curl_close上面
    不用如何?

  2. Dec 15, 10am / LINK / REPLY
    Gravatar

    你想让它具有多线程的功能?
    或者有一次请求后,分别读出 header 和body的方法的

    呵呵

  3. Dec 15, 12pm / LINK / REPLY
    Gravatar

    我是笑容。想起来了,你可以打开 header 返回的 选项
    在发现第一个空行后,前面的是 header 后面的是 body

    这是一个规定来着
    所以寻找到第一个空行 就找到了body和header的分界

  4. Dec 15, 12pm / LINK / REPLY
    Gravatar

    to 笑容: 明白了,谢谢 :smile:

  5. Jan 16, 11pm / LINK / REPLY
    Gravatar

    我来告诉你正确答案:
    after:
    curlsetopt($ch, CURLOPTHEADER, 0); //返回内容中不包含 HTTP 头
    add call :
    curlsetopt($ch, CURLOPTHTTPGET, 1);

  6. Jan 17, 12am / LINK / REPLY
    Gravatar

    to cs: 改天试试,谢谢。

Now, It's your Turn!

BACK TO Article / Comments


收藏 & 分享

Powered by 17fav.com