当前位置:七道奇文章资讯网站建设网站编程
日期:2011-12-08 13:02:00  来源:本站整理

完善抓取谷歌链接的php代码[网站编程]

赞助商链接



  本文“完善抓取谷歌链接的php代码[网站编程]”是由七道奇为您精心收集,来源于网络转载,文章版权归文章作者所有,本站不对其观点以及内容做任何评价,请读者自行判断,以下是其具体内容:
01 <?php
02
03 header("Content-Type: text/html;charset=utf-8");
04
05 set_time_limit(0);
06
07
08 function geturl($keywords, $page){
09
10 $page = ($page - 1) * 10;
11
12 $content = file_get_contents("http://www.谷歌.com/search?sclient=psy-ab&hl=en&start=$page&source=hp&q=$keywords&pbx=1&oq=$keywords&aq=f&aqi=g4");
13 //<h3 class="r"><a href="http://en.wikipedia.org/wiki/MagiCans" onmousedown="return hlprwt(this, 'http://en.wikipedia.org/wiki/MagiCans')">
14 //$preg = '/<h3\s*class="r">.*<\/h3>/im';
15
16 $preg = '/<h3\s*class="r"\s*>.*/im';
17
18 preg_match_all($preg, $content, $m);
19
20 preg_match_all('/<a(.*?)>(.*?)/', $m[0][0], $ms);
21
22
23 $list = array();
24
25 foreach ($ms[1] as $link){
26
27 preg_match('/http:\/\/[a-zA-Z0-9._-]*/', $link, $matches);
28
29 if (!empty($matches[0])){
30 $list[] = $matches[0];
31 }
32 }
33
34 $list = array_unique($list);
35
36 return $list;
37 }
38
39 $keywords = "Ugg+Delaine+Boots";
40 $page = 10;
41
42 for ($i=1;$i<=$page;$i++){
43
44 echo '这是第',$i,'页';
45
46 $url = geturl($keywords, $i);
47
48 foreach ($url as $u){
49 echo "$u ";
50 }
51 }

当某页后果数目小于设定后果数目时刻(意味着搜索到末尾了),就终止业务.

01 <?php
02 header("Content-Type: text/html;charset=utf-8");
03 set_time_limit(0);
04 function geturl($keywords, $page, $num)
05 {
06 $page = ($page - 1) * 10;
07 $content = file_get_contents("http://www.谷歌.com/search?sclient=psy-ab&hl=en&start=$page&source=hp&q=$keywords&pbx=1&oq=$keywords&num=$num&aq=f&aqi=g4");
08 $preg = '/<h3\s*class="r"\s*>.*/im';
09 preg_match_all($preg, $content, $m);
10 preg_match_all('/<a(.*?)>(.*?)/', $m[0][0], $ms);
11
12 $list = array();
13 foreach ($ms[1] as $link)
14 {
15 preg_match('/http:\/\/[a-zA-Z0-9._-]*/', $link, $matches);
16 if (!empty($matches[0]))
17 {
18 $list[] = $matches[0];
19 }
20 }
21 $list = array_unique($list);
22 return $list;
23 }
24
25 $keywords = 'site:kugou.com+inurl:upload';
26 $page = 10;
27 $num = 20;
28 for ($i=1;$i<=$page;$i++)
29 {
30 $url = geturl($keywords, $i, $num);
31 print_r('Page: '.$i.' Results Count: '.count($url).'');
32 foreach ($url as $u)
33 {
34 print_r($u.'');
35 }
36 if (count($url)<$num)
37 {
38 break;
39 }
40 }
41 ?> 

  以上是“完善抓取谷歌链接的php代码[网站编程]”的内容,如果你对以上该文章内容感兴趣,你可以看看七道奇为您推荐以下文章:
  • 完善抓取谷歌链接的php代码
  • 本文地址: 与您的QQ/BBS好友分享!
    • 好的评价 如果您觉得此文章好,就请您
        0%(0)
    • 差的评价 如果您觉得此文章差,就请您
        0%(0)

    文章评论评论内容只代表网友观点,与本站立场无关!

       评论摘要(共 0 条,得分 0 分,平均 0 分) 查看完整评论
    Copyright © 2020-2022 www.xiamiku.com. All Rights Reserved .