Эта тема на forum.dklab.ru


wolandino: определение ИЦ и PR ресурса...
Приветствую,
Вопрос может быть и избит... но все же... каким образом можно определить ИЦ и ПР ресурса?
Интересуют теоретические аспекты, а не готовые решения
Владимир Хоменко:
Можно, поподробнее, что такое ИЦ и ПР?

ПР это PR (Page Rank) ?
wolandino:
ИЦ = Индекс Цитирования Яндекса
ПР = PR = Page Rank
deMone:
Индекс Цитирования никак. Ну, почти... Можно выдрать его из страницы http://search.yaca.yandex.ru/yca/cy/ch/WWW.SITE.RU/, но это не так-то просто. Кодов определения Яндекс не выдаёт, да и чтобы как-то определить ИЦ нужно иметь поисковую базу Яндекса, что, естественно, невозможно.

Насчёт ПР -- где-то читал... поищите...
Mich:
http://search.cpan.org/author/YKAR/WWW-Google-PageRank-0.10/lib/WWW/Google/PageRank.pm - на Perl.
wolandino:
Индекс Цитирования никак. Ну, почти... Можно выдрать его из страницы

к такому варианту я склонялся... и хотел брать его на вооружение

А вот что скажете по определению PR сайта? Залез в Гугл АПИ - но в данной версии там нет возможности определения ПР... Видел несколько готовых решений, но, как я уже говорил, интересуют теоретические аспекты.
wolandino:
решение найдено:

<?php

define('GOOGLE_MAGIC', 0xE6359A60);

function zeroFill($a, $b)
{
$z = hexdec(80000000);
if ($z & $a)
{
$a = ($a>>1);
$a &= (~$z);
$a |= 0x40000000;
$a = ($a>>($b-1));
}
else
{
$a = ($a>>$b);
}
return $a;
}


function mix($a,$b,$c) {
$a -= $b; $a -= $c; $a ^= (zeroFill($c,13));
$b -= $c; $b -= $a; $b ^= ($a<<8);
$c -= $a; $c -= $b; $c ^= (zeroFill($b,13));
$a -= $b; $a -= $c; $a ^= (zeroFill($c,12));
$b -= $c; $b -= $a; $b ^= ($a<<16);
$c -= $a; $c -= $b; $c ^= (zeroFill($b,5));
$a -= $b; $a -= $c; $a ^= (zeroFill($c,3));
$b -= $c; $b -= $a; $b ^= ($a<<10);
$c -= $a; $c -= $b; $c ^= (zeroFill($b,15));

return array($a,$b,$c);
}

function GoogleCH($url, $length=null, $init=GOOGLE_MAGIC) {
if(is_null($length)) {
$length = sizeof($url);
}
$a = $b = 0x9E3779B9;
$c = $init;
$k = 0;
$len = $length;
while($len >= 12) {
$a += ($url[$k+0] +($url[$k+1]<<8) +($url[$k+2]<<16) +($url[$k+3]<<24));
$b += ($url[$k+4] +($url[$k+5]<<8) +($url[$k+6]<<16) +($url[$k+7]<<24));
$c += ($url[$k+8] +($url[$k+9]<<8) +($url[$k+10]<<16)+($url[$k+11]<<24));
$mix = mix($a,$b,$c);
$a = $mix[0]; $b = $mix[1]; $c = $mix[2];
$k += 12;
$len -= 12;
}

$c += $length;
switch($len) /* all the case statements fall through */
{
case 11: $c+=($url[$k+10]<<24);
case 10: $c+=($url[$k+9]<<16);
case 9 : $c+=($url[$k+8]<<8);
/* the first byte of c is reserved for the length */
case 8 : $b+=($url[$k+7]<<24);
case 7 : $b+=($url[$k+6]<<16);
case 6 : $b+=($url[$k+5]<<8);
case 5 : $b+=($url[$k+4]);
case 4 : $a+=($url[$k+3]<<24);
case 3 : $a+=($url[$k+2]<<16);
case 2 : $a+=($url[$k+1]<<8);
case 1 : $a+=($url[$k+0]);
/* case 0: nothing left to add */
}
$mix = mix($a,$b,$c);
return $mix[2];
}

function strord($string) {
for($i=0;$i<strlen($string);$i++) {
$result[$i] = ord($string{$i});
}
return $result;
}

function getrank($url) {
$url = 'info:'.$url;
$ch = GoogleCH(strord($url));
$file = "http://www.google.com/search?client=navclient-auto&ch=6$ch&features=Rank&q=$url";
$data = file($file);

$rankarray = explode (':', $data[2]);
$rank = $rankarray[2];
return $rank;
}

echo 'PageRank: '.getrank($url);

?>
Константин Жинько [tIT]:
Я с Яндексом делал так:


function getCI($url)
{

$my_host = parse_url($url);
$cit_index_url = "http://search.yaca.yandex.ru/yca/cy/ch/{$my_host['path']}/";

$data = file_get_contents($cit_index_url);

$upurl = str_replace('.', '\.', $url);
$upurl = str_replace('/', '\/', $upurl);

$reurl[1] = (strpos($url, 'www') == 0)?'http:\/\/www\.':'http:\/\/';
$reurl[1] .= $upurl;

$reurl[2] = (strpos($url, 'www') == 0)?'http:\/\/':'http:\/\/www\.';
$reurl[2] .= $upurl;

$reurl[3] = (strpos($url, 'www') == 0)?'www\.'.$upurl:$upurl;

$reurl[4] = (strpos($url, 'www') == 0)?$upurl:'www\.'.$upurl;

$reg_www = "/<a href=\"(http:\/\/www\.yandex\.ru\/yandsearch\/\?text=&Link={$reurl[1]}.+?&iserverurl={$reurl[3]}.+?)\".+?>.+?<\/a>/si";
$reg = "/<a href=\"(http:\/\/www\.yandex\.ru\/yandsearch\/\?text=&Link={$reurl[2]}.+?&iserverurl={$reurl[4]}.+?)\".+?>.+?<\/a>/si";

if(preg_match_all($reg_www, $data, $pockets))
{
$to_parse = $pockets[1][0];
}
if(preg_match_all($reg, $data, $pockets))
{
$to_parse = $pockets[1][0];
}

$my = parse_url($to_parse);
$my = parse_str($my['query'], $out);

return $out['ci'];
}

Константин Жинько [tIT]:
wolandino
+1 =))
очень помогло =)
wolandino:
Константин Жинько

Спасибо!

p.s 1:1 :)
Nik0: Google
что-то не работает запрос к Google... может есть другой способ?
Константин Жинько [tIT]:
Nik0
Найдите.
pav:
Писал давно. Просто выдрал из расширения к FF код на JS и переписал на php. Оно работает и по сей день.


function zeroFill($a, $b) {
$z = hexdec(80000000);
if ($z & $a) {
$a = ($a>>1);
$a &= (~$z);
$a |= 0x40000000;
$a = ($a>>($b-1));
} else {
$a = ($a>>$b);
}
return $a;
}

function GPR_toHex8($intega){
$Ziffer = "0123456789abcdef";
return $Ziffer[($intega%256)/16].$Ziffer[$intega%16];
}

function GPR_hexEncodeU32($num) {
$result = GPR_toHex8(zeroFill($num,24));
$result .= GPR_toHex8(zeroFill($num,16) & 255);
$result .= GPR_toHex8(zeroFill($num,8) & 255);
return $result . GPR_toHex8($num & 255);
}


function GPR_awesomeHash($value) {
$GPR_HASH_SEED = "Mining PageRank is AGAINST GOOGLE'S TERMS OF SERVICE. Yes, I'm talking to you, scammer.";
$kindOfThingAnIdiotWouldHaveOnHisLuggage = 16909125;
for($i = 0; $i < strlen($value); $i++ ) {
$kindOfThingAnIdiotWouldHaveOnHisLuggage ^= ord(substr($GPR_HASH_SEED, $i % strlen($GPR_HASH_SEED),1)) ^ ord(substr($value, $i,1));
$kindOfThingAnIdiotWouldHaveOnHisLuggage = zeroFill($kindOfThingAnIdiotWouldHaveOnHisLuggage,23) | $kindOfThingAnIdiotWouldHaveOnHisLuggage << 9;
}
return '8'.GPR_hexEncodeU32($kindOfThingAnIdiotWouldHaveOnHisLuggage);
}

function getrank($url) {
$ch = GPR_awesomeHash($url);
$file = "http://toolbarqueries.google.com/search?client=navclient-auto&features=Rank&ch=$ch&q=info:$url";
$data = file($file);

$rankarray = explode (':', $data[2]);
$rank = $rankarray[2];
if (!$rank) $rank=0;
return $rank;
}

Константин Жинько [tIT]:
pav
+1
Ярослав Витязев:
По поводу тИЦ. Яндекс.Бар получает данные в виде XML, который легко парсится. Насколько я помню там никаких YANDEX_MAGIC'ов не было. :)
Действительно: http://bar-navig.yandex.ru/u?ver=2&url=http://forum.dklab.ru&show=1&post=1


<urlinfo>
<url domain="forum.dklab.ru">/</url>
<tcy rang="5" value="1700"/>

<topics>
<topic title="Тема: Веб-программирование" url="http://www.yandex.ru/yaca/c280-0-0-0-0=0.html"/>
</topics>
<textinfo>

Тема: Веб-программирование
Источник: Частный</textinfo>
</urlinfo>


Заодно так можно узнать и рубрику в каталоге Яндекса.
Anonymous:
Ярослав Витязев, спасибо за ссылку, не знал. Позже зарегюсь - поставлю плюс )
pav, Ваш последний код неправильно определяет PR.
pav:
pav, Ваш последний код неправильно определяет PR.
На основе чего был сделан этот вывод?
Anonymous:
pav, сверял показание кода и тулбара. А также другого скрипта: http://www.tigir.com/scripts/pagerank.php (чьи показания совпадают с показанием тулбара, проводилась очная ставка :) )
Но как я понял тулбар показывает не точные данные, я прав?
При тесте страницы - тулбар и pagerank.php показывали 5, ваш код - 2. Кто прав?
georgi: Вот вам скрипт который получает ИЦ Яндекса
Вернет вам тиц в цифрах!

<?php

function getYandexTic($url)
{

$xml='http://bar-navig.yandex.ru/u?ver=2&lang=1049&url='.$url.'&target=_No__Name:5&show=1&thc=0';

$obj=new DOMDocument();

$obj->load($xml);

$urlinfo=$obj->childNodes;
foreach ($urlinfo as $url)
{
$nodes=$url->childNodes;

foreach ($nodes as $node)
{


if($node->nodeName=='tcy')
{

$attributes=$node->attributes;
foreach ($attributes as $atribut)
{

if($atribut->name=='value')
{
$tic=$atribut->value;
}

}


}






}


}

return $tic;
}
?>

modjo:
А есть ли какой-то сервис чтобы проверить забанен ли домен или нет. В частности Гугл интересует. Потому что бывает вообще не ставишь бэки - оп и через недельку на тебе - PR=2. За что спрашивается? :)
А бывает совсем наоборот - ставишь сотни бэков, регишься в белых каталогах... и хоть бы один бэк был виден! Вообще тишина. Такое ощущение что Гугл переходит, но не обращает внимание. В то же время на Яндексе уже сотни бэков, а в Гугле - 0. Соответственно ПР тоже 0. Хотя где-то проверял ПР - вообще показало -1. Это как понимать? Может это и есть показательно забаненности? Потому что другой нулевой домен проверял - просто 0.
Ярослав Витязев:
modjo, да, есть такой сервис: http://google.com, вводите в строку запроса site:адресСайта, и, если видите страницы -- значит сайт не забанен.

По поводу остального, включая отрицательный PageRank - почитайте специализированные форумы и документы на сервере компании Google, написанное вами мало коррелирует со здравым смыслом.
NetWork:
Вот так лучше работать я Яндексом


/*-------------------------------------------------------------------------*/
// ФУНКЦИЯ ОПРЕДЕЛЕНИЯ YANDEX тИЦ
/*-------------------------------------------------------------------------*/
/**


function getTCY($url) {
#считываем XML-файл с данными
$xml = file_get_contents('http://bar-navig.yandex.ru/u?ver=2&show=32&url='.$url);

#если XML файл прочитан, то возвращаем значение параметра value, иначе возвращаем тИЦ равен 0
return $xml ? (int) substr(strstr($xml, 'value="'), 7) : 0;
}


Ещё можно Aport ИЦ посмотреть. Если интересно могу выложить как сделать. Вот у меня только с Google PR проблемы.
NetWork:
Вот с этим проблема. Но локальном всё нормально, а на серваке PR всегда 0. ЧТо може быть?


/*-------------------------------------------------------------------------*/
// ФУНКЦИЯ ОПРЕДЕЛЕНИЯ PageRank САЙТА НА GOOGLE
/*-------------------------------------------------------------------------*/
/**
* $url = "www.google.com";
* echo "PageRank of ".$url." is:<br />".getrank($url);
*/


define("GOOGLE_MAGIC", 0xE6359A60); //Define the named constant "GOOGLE_MAGIC"

//unsigned shift right
function zeroFill($a, $b) {
$z = hexdec(80000000);
if ($z & $a) {
$a = ($a>>1);
$a &= (~$z);
$a |= 0x40000000;
$a = ($a>>($b-1));
}
else {
$a = ($a>>$b);
}
return $a;
}

function mix($a, $b, $c) { //This function is used in the Google Checksum calculation
$a -= $b;
$a -= $c;
$a ^= (zeroFill($c,13));
$b -= $c;
$b -= $a;
$b ^= ($a<<8);
$c -= $a;
$c -= $b;
$c ^= (zeroFill($b,13));
$a -= $b;
$a -= $c;
$a ^= (zeroFill($c,12));
$b -= $c;
$b -= $a;
$b ^= ($a<<16);
$c -= $a;
$c -= $b;
$c ^= (zeroFill($b,5));
$a -= $b;
$a -= $c;
$a ^= (zeroFill($c,3));
$b -= $c;
$b -= $a;
$b ^= ($a<<10);
$c -= $a;
$c -= $b;
$c ^= (zeroFill($b,15));
return array($a,$b,$c);
}

function GoogleCH($url, $length=null, $init=GOOGLE_MAGIC) { //Calculate the Google Checksum for a given URL
if(is_null($length)) {
$length = sizeof($url);
}
$a = $b = 0x9E3779B9;
$c = $init;
$k = 0;
$len = $length;
while($len >= 12) {
$a += ($url[$k+0] +($url[$k+1]<<8) +($url[$k+2]<<16) +($url[$k+3]<<24));
$b += ($url[$k+4] +($url[$k+5]<<8) +($url[$k+6]<<16) +($url[$k+7]<<24));
$c += ($url[$k+8] +($url[$k+9]<<8) +($url[$k+10]<<16)+($url[$k+11]<<24));
$mix = mix($a,$b,$c);
$a = $mix[0];
$b = $mix[1];
$c = $mix[2];
$k += 12;
$len -= 12;
}
$c += $length;
switch($len) /* all the case statements fall through */
{
case 11: $c+=($url[$k+10]<<24);
case 10: $c+=($url[$k+9]<<16);
case 9 : $c+=($url[$k+8]<<8);
/* the first byte of c is reserved for the length */
case 8 : $b+=($url[$k+7]<<24);
case 7 : $b+=($url[$k+6]<<16);
case 6 : $b+=($url[$k+5]<<8);
case 5 : $b+=($url[$k+4]);
case 4 : $a+=($url[$k+3]<<24);
case 3 : $a+=($url[$k+2]<<16);
case 2 : $a+=($url[$k+1]<<8);
case 1 : $a+=($url[$k+0]);
/* case 0: nothing left to add */
}
$mix = mix($a,$b,$c);
return $mix[2];
}

function strord($string) { //converts a string into an array of integers containing the numeric value of the char
for($i=0;$i<strlen($string);$i++) {
$result[$i] = ord($string{$i});
}
return $result;
}

function getrank($url, $prefix="info:", $datacenter="www.google.com") { //This is the function used to get the PageRank value.
//If $prefix is "info:", then the Toolbar pagerank will be returned.
//$datacenter sets the datacenter to get the results from. e.g., "www.google.com", "216.239.53.99", "66.102.11.99".
$url = $prefix.$url;
$ch = GoogleCH(strord($url)); //Get the Google checksum for $url using the GoogleCH function.
$file = "http://$datacenter/search?client=navclient-auto&ch=6$ch&features=Rank&q=$url";
//To get the Crawl Date instead of the PageRank, change "&features=Rank" to "&features=Crawldate"
//To get detailed XML results, remove "&features=Rank"
$oldlevel = error_reporting(0); //Suppress error reporting temporarily.
$data = file($file);
error_reporting($oldlevel); //Restart error reporting.
if(!$data || preg_match("/(.*)\.(.*)/i", $url)==0) return "0"; //If the Google data is unavailable, or the URL is invalid, return "N/A".
//The preg_match check is a very basic url validator that only checks if the URL has a period in it.
$rankarray = explode (":", $data[2]); //There are two line breaks before the PageRank data on the Google page.
$rank = trim($rankarray[2]); //Trim whitespace and line breaks.
if($rank=="") return "N/A"; //Return N/A if no rank.
return $rank;
}

function getrealrank($url, $datacenter="www.google.com"){
$ch = GoogleCH(strord($url));
$array = xmltoarray("http://$datacenter/search?client=navclient-auto&ch=6$ch&q=$url");
$infoarray = $array['GSP'][0]['RES'][0]['R'];
$nonwwwurl = str_replace("www.", "", $url);
$urlpermutationsarray = array($url, "http://".$url, "http://www.".$url, $url."/", "http://".$url."/", "http://www.".$url."/", $nonwwwurl, "http://".$nonwwwurl, "http://www.".$nonwwwurl, $nonwwwurl."/", "http://".$nonwwwurl."/", "http://www.".$nonwwwurl."/");
for($i=0; $i<count($infoarray); $i++){
$urlU = $infoarray[$i]['U']; //U is the URL. UE is the 'clean' URL.
$urlrank = $infoarray[$i]['RK'];
foreach($urlpermutationsarray as $permutation){
if(strtolower($permutation)==strtolower($urlU)) return $urlrank; //Case insensitive match.
}
}
return "Unknown"; //If no matches found.
}

NetWork:
Подскажие в чём может быть проблема. При определении Page Rank (функция: топик выше) на локальном всё нормально определяется, а на серваке всегда 0. Ну и как можно исправить, если это возможно.
Матвей:
вот тже млин проблема .. куча скриптов перепробывал на локалке нормально, на серваке не работает!
что делать?!
Alx:
NetWork эти страшные скрипты на пхп собственно считают некоторый хеш от имени домена, который потом вставляется в запрос для получения ПР. Тоже столкнулся с проблемой что с моего компа скрипт работает а с сервера нет. Оказалось, как ни странно, правильность работы скрипта зависит от ОС. Например на Win XP работает, на FreeBSD 5.X работает, FreeBSD 6.X нет и т.д. Проблема связана с какими-то тонкостями двоичной математики, в которых разбираться у меня нет желания.

В то же время есть перл-модуль WWW::Google::PageRank, который тоже считает этот хеш, без вышеуказанных капризов.
Мое решение проблемы: перл-скрипт для вычисления хеша (код взят из WWW::Google::PageRank), вызываемый из пхп через system
NetWork:
вот тже млин проблема .. куча скриптов перепробывал на локалке нормально, на серваке не работает!
что делать?!
Иногда нужно обратиться к сисадмину.
У меня на серваке стоит запрет на работу со сторонними IP адресами для функций include, file и т.д. Приходиться добавлять доступ для нужных IP и всё нормально.

Эта тема на forum.dklab.ru