存档:

文章标签 ‘Caffeine’

Google 爬虫又学了一招:理解 JavaScript 代码

2010年6月27日

Google数以亿计的爬虫们每天都在以光速索引着互联网上的信息,以便我们能通过Google搜索到最新的内容。最近Google的发言人告诉福布斯说他们的爬虫现在可以跟JavaScript做深入互动了,它们甚至可以理解JavaScript代码,这将使Google可以索引到更丰富的内容。

让一个程序理解JavaScript并不是一件简单的事,没有哪种算法可以应用到任何程序上,在任何点,告诉你这个程序是否可以继续无限循环下去,然而如果Google的爬虫可以处理JavaScript,他们就必须解决这种困难。

Google爬虫变得越来越快越来越聪明还要感谢新的Caffeine系统,正是这个新系统使得Google爬虫具备了理解甚至处理代码的能力,以更好的解析富媒体。

Via Mashable

Google 搜索产品经理 Dylan Casey 谈实时搜索

2010年6月15日

Search Engine Land主编参加了TWTRCON大会,今天主办方David Berkowitz邀请来了Google搜索产品经理Dylan Casey跟大家谈谈实时搜索。

问:为什么实时搜索结果对Google用户来说是重要的?

答:对于一个发布平台来说,内容是重要的。所以我们先是加入了对博客的支持,之后是微博客。其意义并不在于一个URL地址,更在于这些元数据和信息可以帮助我们理解网页内容和意义。这些内容都从何而来?它们之间关联如何?这就是为什么使得他们跟Google和用户是相关的原因。

问:SEO的问题呢?

答:这是人人都关心的,特别是品牌所有者。继续发布优质内容!关注于频率和质量。这依然是重点因为我们将这些内容呈现在搜索结果里的因素跟之前其它内容是没有区别的。

这些内容会有限存活下去吗?那可不一定,因为Google有回复功能(指Google Buzz的回复功能

问:这些自然搜索结果的变化对付费搜索结果有影响吗?

答:二者之间没有任何关联。不过假设人们认为广告也许会跟实时内容互动的话效果就不错。

问:Facebook是实时领域的王者,这对使得实时内容变得更开放会有什么影响吗?

答:网络越开放就越好,不仅对Google,对所有人都是。然而以前人们认为内容都是私有的,这就需要更加小心的去管理。

如果用户之后将twitter里的某句话删掉,就要通过Google的twitter存档搜索来查找,然后再到twitter删除之,因为twitter本身的显示限制无法找到某个单独的tweet。

问:新闻和实时搜索谁更重要?

答:很多例子能证明Google意识的到记者对报纸的重要性。

问:但是页面空间是有限的,而且Google News里已经有了实时搜索结果。

答:没错,当你通过Google通用搜索或OneBox获得新闻搜索结果的时候,页面里同时会呈现出实时搜索结果。比如Scarlett在MTV颁奖典礼上获奖的时候,人们也许就会在它刚发生的时候就搜索,当然你想看到刚刚发生的事情。

问:Google Buzz和Google Wave如何了?

答:Buzz有多重要?我认为真的非常重要,特别是可以针对一个内容开展对话的功能。我们不仅可以Buzz,还可以评论。Google认为Buzz跟其它平台一样重要。

对于Wave,还需要给那些说“加我QQ”或“MSN找我”的人们一些时间,事情一直在变化,人们还需要时间发现Wave的真谛。

问:实时搜索的未来如何?

答:我们还需要花时间解决如何在主搜索结果页面里触发实时搜索的问题,获得大量在人们没有看到期待中的实时结果的反馈,反之亦然。我们要来回来去找到一个平衡点,不过我可以保证我们会做出改进。

对于Caffeine引擎的改变,它可以就是否是实时内容做出分类。

观众问:Google的Twitter存档搜索只能得到前几个月的结果啊现在?

答:我们正在跟Twitter就那些更老的内容进行合作。

观众问:实时搜索算法是怎么样的?

答:问的好,大家都带笔了没?哈哈……

笼统的说,人们已经理解了Google的PageRank算法是如何工作的了。对于实时搜索,它可以看到某个内容在短期内被“锐推”的频率。我们花了很多时间跟人们沟通,工程师也下了不少功夫,努力创新。它跟搜索很像,不过我们还没完全解决。

完毕~~~~

Via Search Engine Land

Google 官方宣布新的网页索引系统 Caffeine

2010年6月9日

尽管我们在去年8月就知道Google要上马Caffeine网页索引系统了,但是Google官方今天才正式宣布。Caffeine系统可提供比以前多一半的新的索引结果,也就是说Google可以收集到比以前更多的信息,而且Caffeine的索引速度比以前更快,它也是Google实时搜索可以实现的重要元素。

实际上当你在Google进行搜索的时候,Google并不是在做实时搜索,而是搜索Google之前已经索引到的存放在数据库里的内容,随着网络的进化,内容极大的丰富,不仅是数量上的增加,还包括更丰富的形式,比如视频、图片、新闻、实时更新等等,而且人们对搜索引擎的期待越来越高,他们希望找到最新的最相关的信息,内容发布商则希望他们前脚发出的内容,后脚就可以在Google搜索到。

为了赶上网络的进化和人们的期望,Google祭出了Caffeine,上图显示了老式索引系统和Caffeine索引系统的区别。老系统有多个层,一些是最新的内容而其它则是较老的内容,但大多数的层需要几周才会更新一次。为了更新一个老的索引层,Google需要重新将整个网络分析一遍才可以,所以不能保证让你看到最新的内容。

而有了Caffeine,Google可以在很短的周期里就分析一遍网络,并更新索引库。而且Google可以做到只要一发现新的网页、网页里新的信息就立即将它们加入到索引库里,它们立刻就会被你搜索到。

Google还透露说,Caffeine每一秒可以并行处理成百上千个页面,如果将这些网页都打印出来,堆在一起能达到3英里厚。Caffeine每天会在单个数据库里增加将近1亿GB的新数据,你需要62万5千个最大的iPod才能存的下这些信息,如果将这些iPod连起来能排出40英里。

Via Google Blog

Google 说 Caffeine 引擎全面上线还得有几个月

2010年2月27日

google-caffeine-cup

Caffeine引擎已经在小范围的测试了,之前还有人猜测它已经大规模上线了,但今天Google官方回应说:

我们将在未来数个月内于所有数据中心启用它。

为什么Caffeine这么久才开始大规模部署?而不是之前Matt Cutts说的去年圣诞假日呢?Google也做了解释:

我们针对这个基础架构的重大改进做了很多测试。我们想让新的系统可以超越当前的系统,所以需要花时间来确保一切正常。

Via Search Engine Roundtable
Pic Via Ennum

作者: musiXboy 分类: 故事/传闻 标签: ,

Google 悄悄地启用 1e100.net,打枪地不要

2010年2月9日

大概在去年10月中期,Google悄悄地启用了一个新的域名:1e100.net,如果你查看其Alexa排名的话就可以发现,这个域名启用后就立即蹿升到世界排名第44位左右,也就是说每天有3%的全球网民都在访问这个域名,其用户甚至超过了AOL、BBC和Apple.com。

来自对这个域名的监控显示,似乎有随机连接在访问这个域名,甚至在你打开一些应用程序之前就会访问一下这个域名,这使得很多对安全敏感的人士将其从本机封掉,以避免恶意软件的攻击。

不过实际上这个域名是属于Google的,所谓1e100就是10的100次方,也就是数字1后面跟着100个零,这个数字被称为googol,Google这个词汇就是由googol变形而来。

硅谷云计算组织的Sebastian Stadil说,1e100.net翻译过来就是“Google Network”,一直在增长中的Google自己DIY的数据中心已经达到了40个,在最近的公司简介中,Google说它拥有100万到1000万台服务器,全球数据中心在100到1000个。

通过域名的Who is查询可以看到,Google在去年9月24日注册了1e100.net,通过Alexa排名可以看到在10月中旬这个域名正式启用。

Google对此的回应说,这个域名只是用于“我们网络之间服务器的识别之用”,如果真是这样的话Google这些服务器之间的识别还必须通过DNS查询(因为是域名而非直接的IP),但是DNS经常会被黑客攻击来使服务器连接错误的目标,这一点比较奇怪。

硅谷网络架构师Richard Bennett说了自己的猜测:“但这无法解释为什么Alexa会捕捉到这个域名的使用情况,我不知道反向DNS是如何做到这一点的。”

有人发现自己在开机后还未打开任何应用程序的时候,就发现电脑在连接这个服务器,应该是Google的更新软件在试图进行软件更新,但是此时在进程中看不到Google的更新服务启动了,非常奇怪。还有人说它捕捉到了这些服务器之间在传输各种各样的文件。

Google Webmaster Central帮助论坛里的一个帖子提到说,FeedBurner的爬虫会使用1e100.net来识别捕捉到的内容。实际上FeedBurner的爬虫并不使用google.com这个域名来,而是来自74.125.44.136,对应域名yx-out-f136.1e100.net。

值得注意的是,Google在去年8月宣布开始测试新的搜索引擎Caffeine,同时他们重写了公司的分布式文件系统,也就是将Google File System升级到了第二代,被称为GFS2,当然Google服务器端的平台也会完全被重写。另外,Google正在部署一个全球的系统,可以在硬件发生问题的时候自动迁移并复制数据中心之间的元数据,这个被称为Spanner自制的系统可以防止某个数据中心的带宽出问题、丢包、供电和资源问题,在出现紧急状况时生效。

Google在去年10月中期首次宣布了Spanner系统,也正是此时1e100.net浮出水面了,巧合?

Google到底想用这个新域名做什么?这确实是个值得深挖的话题。

Via The Register

Matt Cutts 确认已经有一处数据中心启用 Caffieine 技术

2009年11月28日

DigitalPoint Forums, Google Webmaster HelpWebmasterWorld的多个论坛都有人汇报说他们看到了明显变化的搜索结果(不是指界面变化,而是搜索结果的排名和数据的变化),也就是说Google最新的Caffieine技术已经起效了,尽管在此之前Matt Cutts曾经说过Caffieine要到假期后才会大规模上线

Matt Cutts今天已经确认说,209.85.225.103这个数据中心已经开始启用Caffieine技术,用这个IP搜索会有一半的概率遇到Caffieine生效的新结果,大家可以自己体验一下。

Via Search Engine Roundtable

作者: musiXboy 分类: 故事/传闻 标签: , ,

全球唯一一个使用 Google Caffeine 的数据中心被人肉到?

2009年11月17日

google-caffeine-cup

Matt Cutts在上周证实说使用Caffeine作为引擎的数据中心已经上线了,但目前他们还只在这一个数据中心进行了部署,预计年底的假日才会推广到更多数据中心使用。那么好奇害死猫的人们就开始人肉了,这唯一一个使用Caffeine的Google数据中心在哪里呢?如何确保自己能体验到Caffeine引擎的Google搜索呢?

WebmasterWorld论坛里,大家开始了激烈的讨论和不断的人肉探索,最终锁定216.239.59.103这个数据中心,不过由于Matt Cutts在拉斯维加斯出差,所以还未得到他的最终确认,当然Google官方是不会对此做任何回应的。

Update:Matt Cutts回应说,不是这个IP。然后又有人说是应该是66.102.7.18

Via Search Engine Roundtable
Pic Via Ennum

Matt Cutts 澄清说到今年假日 Caffeine 才会大规模上线

2009年11月11日

今天大家都在传Google新的搜索引擎Caffeine已经上线了,Matt Cutts在自己博客纠正了大家,这个新的索引技术直到年底的假日期间才会大规模上线,所以现在站长们还不必太过焦虑了。

自从Google在8月开始测试Caffeine引擎以来,得到的反馈都是很积极的,所以目前他们确认已经将Caffeine投放上线了,但仅限于Google的一个数据中心而已。对于大多数人来说,Google搜索后得到的结果依然是老引擎来驱动的,这也是为了利用小范围测试来继续改进Caffeine技术,只有一小撮人能有幸体验到Caffeine引擎。

Via Matt Cutts

Google 搜索新引擎 Caffeine 已经上线!

2009年11月10日

google-caffeine

很久没有听到关于Google新的Caffeine引擎的消息了,这个在09年8月开始测试的引擎实际上已经正式投入使用了。你现在访问Google搜索的沙盒,将会看到这样的提示:

谢谢您!

感谢所有通过Caffeine沙盒进行搜索并给我们反馈的人们。

我们相信Caffeine已经准备好了应对更多受众使用,我们很快将在一个数据中心的更广范围内激活Caffeine,所以这个沙盒已经没有存在的必要了,我们感谢站长和发布者们给我们带来的测试和正面反馈。

由此看来,Caffeine引擎已经上线了,我们逐渐会感受到变化,如果你紧盯着自己网站某些关键字在Google搜索结果页面,也许会看到很大幅的排名变化,别紧张,这就是Caffeine带来的变化。

Via Search Engine Journal

作者: musiXboy 分类: 故事/传闻 标签: ,

Matt Cutts 确认 Google 用新一代文件系统来跑 Caffeine 引擎

2009年8月20日

Matt Cutts在最近的采访中透露说,Google Caffeine搜索引擎确实是跑在Google新一代的文件系统上(GFS2)。

Matt Cutts说:

Caffeine表面下隐藏着很多新技术,其中之一就是下一代的文件存储系统,也就是GFS2。

尽管我们不知道GFS2对比上一代GFS到底先进在哪里,但大家都认为GFS最初只为搜索所设计,并不适合YouTube、Gmail这样的应用,新版的GFS2将能更好的支持现有的Google产品,对于更强调大规模索引和实时性的Caffeine引擎来说,老的GFS可能完全无法实现。

Via Search Engine Roundtable

作者: musiXboy 分类: 故事/传闻 标签: , ,