Back to site

Адаптыўная On-Line старонка Значэнне вылічэнняў

Серж Абитебул

INRIA
Дамен дэ Voluceau, 78150 Rocquencourt, Францыя

Serge.Abiteboul @ inria.fr

(Таксама працуе на Xyleme)

Міхай Перада

Xyleme SA
6 Rue Эміль Верхарна, 92210 Сэн-Клу, Францыя

Mihai.Preda @ xyleme.com

Грэгары Cobeña

INRIA
Дамен дэ Voluceau, 78150 Rocquencourt, Францыя

Gregory.Cobena @ inria.fr

(Таксама працуе на Xyleme)

Аўтарскае права належыць аўтара / ўладальніка (уладальнікаў).
WWW2003, 20 траўня - 24, 2003, Будапешт, Венгрыя.
ACM 1-58113-680-3/03/0005.

Абстрактны

Вылічэнне важнасці старонкі ў велізарны дынамічны графік у апошні час прыцягвае вялікую ўвагу з-за Інтэрнэту. Старонка важнасці, або рэйтынг старонкі вызначаецца як fixpoint матрыцы раўнання. Папярэднія алгарытмы вылічэнні гэта аўтаномна і патрабуюць выкарыстання вялікай колькасці дадатковых працэсараў, а таксама дыскавыя рэсурсы (напрыклад, для захоўвання, абслугоўвання і прачытаў спасылку матрыцы). Увядзем новую OPIC алгарытм, які працуе ў рэжыме онлайн, а таксама выкарыстоўвае значна менш рэсурсаў. У прыватнасці, ён не патрабуе захоўвання спасылку матрыцы. Гэта он-лайн ў тым, што ён увесь час паляпшае сваю ацэнку важнасці старонкі ў той час як вэб / граф наведаў. Такім чынам, можна выкарыстоўваць для сканавання фокус на найбольш цікавыя старонкі. Дакажам карэктнасць OPIC. Мы прадстаўляем Адаптыўная OPIC, які таксама працуе ў рэжыме онлайн, але дынамічна адаптуецца да зменаў у Інтэрнэце. Варыянт гэтага алгарытму ў цяперашні час выкарыстоўваецца Xyleme.
Мы паведамляем аб эксперыментах з сінтэтычным дадзеных. У прыватнасці, мы вывучаем збежнасць і адаптыўнасць алгарытмаў для розных стратэгій планавання для старонак для наведвання. Мы таксама паведамляем аб эксперыментах на аснове поўзае значнай часткі Інтэрнэту.

Ключавыя словы

Гіперспасылка аналізу графа і яго ўжыванне для пошуку і ранжыравання.


Увядзенне

Аўтаматызаванае сродак вэб наведванняў вэб-старонак вымання для выканання якой-небудзь аперацыі, такія як індэксаванне, архіваванне, сайт праверкі і г. д. [ 3, 11, 24 ]. Робат выкарыстоўвае спасылкі на старонкі ў знойдзеных старонак адкрыць для сябе новыя старонкі. Усе старонкі на сайт не мае такое ж значэнне. Напрыклад, Луўр хатнюю старонку важней гэтая старонка невядомага чалавека. Інфармацыя старонку значэнне з'яўляецца вельмі каштоўным. Ён выкарыстоўваецца пошукавымі машынамі для адлюстравання вынікаў у парадку важнасці старонкі [ 11 ]. Гэта таксама карысна для кіраўніцтва асвяжае і адкрыццё старонак: важныя старонкі павінны быць абноўлены часцей [*] і пры сканаванні для новых старонак, важныя старонкі павінны быць абраныя першымі [ 6 ]. Пасля некаторых ідэй [ 16 ], Пэйдж і Брын прапанаваў паняцце важнасці старонкі на аснове структуру спасылак у Інтэрнэце [ 21 ]. Гэта было затым выкарыстоўваецца Google з выдатным поспехам. Інтуітыўна старонка важна, калі Ёсць шмат важных старонак, якія паказваюць на яго. Гэта прыводзіць да вылічэння fixpoint шляхам шматразовага множання матрыцы спасылкі паміж старонкамі з вектарам бягучая адзнака важнасці старонкі, пакуль адзнака стабільнай, т. е. да fixpoint будзе дасягнута.
Галоўным пытаннем у гэтым кантэксце з'яўляецца памер сеткі, мільярды старонак [ 15, 23 ]. Метады былі распрацаваны для разліку важнасці старонкі эфектыўна, напрыклад, [ 12 ]. Вэб сканавання і сувязь матрыцы вылічаюцца і захоўваюцца. Версія матрыца затым замарожваюць і адзін асобны працэс вылічае аўтаномным важнасці старонкі, якія могуць заняць некалькі гадзін або дзён для вельмі вялікі граф. Такім чынам, ядро тэхналогіі для аўтаномных алгарытмаў хуткага рэдкія множання матрыц (у прыватнасці, шырокае выкарыстанне паралелізму). Гэта класічныя вобласці, напрыклад, [ 25 ]. Алгарытм мы прапануем вылічае значэнне старонках он-лайн, з абмежаванымі рэсурсамі, пры сканаванні сеткі. Ён можа быць выкарыстаны засяродзіцца паўзком на самыя цікавыя старонкі. Больш таго, яна цалкам інтэграваная ў працэс сканавання, што вельмі важна з моманту набыцця вэб-старонак з'яўляецца самай дарагой часткай сістэмы.
Інтуітыўна кажучы, некаторыя `` наличными''изначально размеркаваных на кожную старонку і кожную старонку, калі ён поўзаў распаўсюджвае свае бягучыя грашовыя сродкі ў роўнай ступені да ўсіх старонак яна паказвае. Гэты факт фіксуецца ў гісторыі старонкі. Важнасць старонкі, то атрыманыя з `` крэдытнай истории''части старонкі. Інтуіцыя з'яўляецца тое, што струмень наяўнасці праз старонку прапарцыйная яе важнасці. Важна адзначыць, што значэнне, якое мы вылічыць не бярэ на сябе што-небудзь пра выбары старонак для наведвання. Калі старонка ``''чакае некаторы час, перш чым наведаць, ён акумулюе грашовыя сродкі і мае больш, каб распаўсюдзіць на наступным візіце. У раздзеле 1 і 2, мы ўяўляем фармальнай мадэлі і мы дакажам правільнасць алгарытму.
На практыцы справа ідзе складаней. Па-першае, ранжыраванне вынікаў пошуку па пошукавай сістэмы павінны быць заснаваныя на іншых фактараў, акрамя важнасці старонкі. Можна выкарыстоўваць такія крытэрыі, як ўваходжання слоў з запыту і свае пазіцыі. Гэтыя крытэрыі, як правіла, ад пошуку інфармацыі [ 26 ], якія шырока выкарыстоўваліся з першага пакалення пошукавых сістэм, напрыклад, [ 3 ]. Можна таксама хочуць зрушэння рэйтынгу адказаў на аснове інтарэсаў карыстальнікаў [ 19, 22 ]. Такія цікавыя аспекты ігнаруюцца тут. З іншага боку, мы канцэнтруем увагу на іншы важны аспект важнасці старонкі, варыяцыі значэнне пры змене сеткі.
Вэб-ўвесь час мяняецца. Пры аўтаномным алгарытму, нам трэба перазапусціць вылічэнняў. Хоць метады могуць быць выкарыстаны прымаць пад увагу папярэднія разлікі, некалькі дарагіх ітэрацый па ўсёй графе павінны быць выкананы аўтаномна алгарытму. Мы пакажам, як змяніць он-лайн алгарытм, каб адаптавацца да зменаў. Інтуітыўна, гэта дасягаецца шляхам уліку толькі апошняе акно гісторыі.
Некалькі варыянтаў адаптыўнага он-лайн алгарытму. Размеркаванай рэалізацыі аднаго з іх на самой справе выкарыстоўваюцца сканары Xyleme [ 27, 28 ]. Алгарытмы апісваюцца з дапамогай вэб-тэрміналогіі. Тым не менш, методыка дастасоўная ў большай налады для любога графіка. Акрамя таго, мы лічым, што размеркаванай версіі он-лайн алгарытм можа быць карысна ў сеткавых прыкладаннях, калі спасылка матрыцы размеркавана паміж рознымі сайтамі.
Адзначым таксама даследаванні, якія мы правялі з бібліятэкарамі з Французскай нацыянальнай бібліятэкі, каб вырашыць, калі старонка значэнне можа быць выкарыстаны для выяўлення вэб-сайтаў, якія павінны быць у архіў. Дакладней, мы абмяркуем некаторыя эксперыменты, і мы падрабязна, як выкарыстоўваць нашу сістэму для падтрымкі новых крытэраў значнасці, такія як сайт-заснаваныя значэнне.
Пашыраныя тэзісы гэтай працы апублікаваны ў [ 2 ]. Кароткія і неафіцыйная прэзентацыя алгарытму, якая там будзе. Афіцыйнае прадстаўленне, падрабязнасці вынікаў, а таксама абмеркаванне эксперыментаў з'яўляюцца новымі.
Артыкул арганізавана наступным чынам. Спачатку прывядзем мадэлі і, у прыватнасці, нагадаць вызначэнне важнасці. У раздзеле 2 мы ўводзім алгарытм факусоўкі на статычнай графікі. У раздзеле 3, мы разглядаем розныя стратэгіі і паўзком мы пераходзім да дынамічнай графікі, гэта значыць графікі, якія ўвесь час абнаўляюцца, як Інтэрнэт. Наступны раздзел прысвечаны ўкараненню і абмяркоўваюцца некаторыя эксперыменты. Апошні раздзел выснову.


Мадэль

У гэтым раздзеле мы ўяўляем фармальнай мадэлі. Чытанне гэтага раздзелу не з'яўляецца абавязковым для разумення астатняй частцы артыкула.

Інтэрнэт як графік

Мы лічым, што World Wide Web як арыентаваны граф $ G $. Вэб-старонак вяршыняў. Спасылку з адной старонкі на іншую форму накіраванае рабро. Мы кажам, што арыентаваны граф $ G $ звязана, калі пры арыентаванымі рэбрамі ператвараюцца ў не арыентаванымі рэбрамі, у выніку граф сувязяў у звычайным сэнсе. Арыентаваны граф $ G $ называецца моцна сувязным, калі для ўсіх пар вяршынь $ I, J $ існуе арыентаваны шлях, які ідзе з $ I $ да $ J $ Наступныя арыентаваных рэбраў $ G $. Граф называецца апериодической, калі існуе $ K $, Што для ўсіх пар вяршынь $ I, J $ існуе арыентаваны шлях даўжыні дакладна $ K $ пераходзе ад $ I $ да $ J $ Наступныя арыентаваных рэбраў $ G $. Такім чынам апериодичности варта моцная складнасць. Калі вэб графік не падлучаны, кожны кампанент складнасці можа быць разгледжаны асобна.

Граф ў выглядзе матрыцы

Дазваляць $ G $ быць любы арыентаваны граф з $ N $ вяршыняў. Зафіксуем адвольную замовы паміж вяршынямі. $ G $ можна прадставіць у выглядзе матрыцы $ L [1.. п, 1.. N] $ такі, што: Ёсць некалькі натуральных спосабаў кадавання графа ў выглядзе матрыцы, у залежнасці ад таго, што маёмасць неабходна пасля. Напрыклад, Google [ 21, 19 ] вызначае з градусаў $ Г [я] $ пра старонку, колькасць выходных спасылак, і ўсталюеце $ L [I, J] = 1 / г [я] $ калі ёсць спасылка з $ I $ да $ J $. У рабоце [ 16 ], Клейнберг прапануе стварыць $ K [I, J] = 1 $ калі ёсць спасылка з $ I $ да $ J $, А затым устанаўлівае $ L = K ^ {T} * K $ (Там, дзе $ K ^ {T} $ з'яўляецца транспонированной матрыцай $ K $ ).

Значэнне

Асноўная ідэя заключаецца ў вызначэнні важнасці старонкі ў індуктыўным шляхам, а затым вылічыць яго з дапамогай fixpoint. Калі граф змяшчае $ N $ вузлоў, значэнне прадстаўляецца ў выглядзе вектару $ \ Бар х $ ў $ N $ мерным прасторы. Мы разгледжаны тры прыкладу, у якіх значэнне вызначаецца індуктыўна раўнаннем $ \ Бар x_ {да 1} = L \ бар x_k $ : Ва ўсіх выпадках гэта прыводзіць да вырашэння індукцыяй раўнанне тыпу $ \ Бар x_ {да 1} = L \ бар x_k $ дзе $ L $ з'яўляецца неадмоўнае матрыцы. Гэта можа быць дасягнута з дапамогай перабору $ X_k $. На жаль, па зразумелых прычынах модуль, гэта вельмі верагодна, разыходзяцца або сыходзяцца да нуля. Заўважым, што мы зацікаўлены толькі ў адноснай важнасці старонкі, а не іх абсалютныя значэння. Гэта азначае, што толькі кірунак $ X_k $ мае стаўленне, а не яго норма. Такім чынам, больш разумна разглядаць наступныя індукцыі (у эквіваленце для вылічэння значэння), якая выкарыстоўвае папярэдні крок індукцыі, але перенормирует пасля кожнага кроку:
\ {Displaymath пачаць} \ бар x_ {да 1} = \ долі {L \ бар x_k} {\ паралельна L \ бар x_k \ паралельна} \ даг) \ {канцы displaymath}

Вылічальная важнасці старонак такім чынам, адпавядае знаходжанне fixpoint $ \ Бар х $ да $ (\ Даг) $, Кожная $ Я ^ {й} $ каардыната $ X $ быўшы важнасці старонкі $ I $. Па вызначэнні, такія fixpoint ёсць уласны вектар $ L $ з рэальным станоўчым уласным значэннем. Калі $ \ Бар x_0 $ з'яўляецца лінейнай камбінацыяй ўсіх уласных вектараў, якія маюць рэальнае пазітыўнае ўласнае значэнне, то лёгка бачыць, што $ (\ Даг) $ будзе сыходзіцца да ўласных подпространством адпаведны дамінуючага ўласнага значэння (гэта значыць, якая з'яўляецца максімальнай). Такім чынам, калі $ X_0 $ Не дастаткова агульнымі (напрыклад, не нуль), значэнне адпавядае уласны вектар $ L $ якіх ўласнае значэнне станоўчае сапраўднае, і якія модуль з'яўляецца максімальным сярод усіх іншых уласных значэнняў. Для кожнай неадмоўнае матрыцы $ L $, Заўсёды існуе такі уласны вектар (гл. Перона-Фробениуса тэарэма 1,1 ), але некаторыя праблемы могуць паўстаць: Усе гэтыя выпадкі цалкам характарызуецца ў тэарэме Перона-Фробениуса, што мы даем наступны.
Тэарэма 01/01 Перона-Фробениуса [ 10 ] Няхай $ L $ быць неадмоўнае матрыцы адпаведнай графе $ G $.
  • Там існуе ўласнае значэнне $ R $, Што рэальна, станоўчыя і якая больш, чым модуль любога іншага ўласнага значэння.
  • Калі $ G $ цесна звязана тое вектарнае прастору для $ R $ мае памернасць 1.
  • Калі $ G $ апериодична і $ \ Бар x_0 $ дастаткова агульным, то індукцыя $ (\ Даг) $ сыходзіцца да ўласных для $ R $ з модулем 1 [*].
Для вырашэння праблемы канвергенцыі, Google [ 11 ] выкарыстоўвае наступны патч. Нагадаем, што $ L $ вызначаецца ў гэтым выпадку $ L [I, J] = 1 / г [я] $ калі і толькі калі існуе рабро з $ I $ да $ J $. Новую матрыцу $ L '$ вызначаецца так, што $ L '[I, J] = L [I, J] + \ Эпсілан $ дзе $ \ $ Эпсілан невялікі рэальным. Затым fixpoint вылічаецца па $ L '$ замест $ L $. Звярніце ўвагу, што $ L '$ адпавядае новы граф $ G '$ які $ G $ плюс невялікі ``''краю для любой пары $ I, J $. Заўважым, што новы граф $ G '$ цесна звязаная і апериодических такім чынам збежнасць $ (\ Даг) $ гарантуецца тэарэмай 1,1. Для кожнага $ \ $ Эпсілан, Гэта дае значэнне вектару $ \ Бар x_ \ Эпсілан $. Гэта не цяжка даказаць, што, калі Эпсілан імкнецца да нуля, $ \ Бар x_ \ Эпсілан $ сыходзіцца да ўласных $ L $ з максімальнай рэчыўнай станоўчае значэнне. Такім чынам, для Эпсілан досыць малая, $ \ Бар x_ \ Эпсілан $ можна разглядаць як добрае набліжэнне значэння. Па якой-то загадкавай прычыне, Google наборы $ \ $ Эпсілан да $ 0,2 $ [*].


Яшчэ адзін спосаб справіцца з праблемай збежнасці разгледзець наступныя пакет канвергенцыі:

\begin{displaymath}(\dag ') ~~~\bar y_{n+1} = \frac{Ly_n + y_n}{\parallel Ly_n + y_n \parallel}\end{displaymath}

Калі $ R $ з'яўляецца максімальнае ўласнае лік неадмоўнае матрыцы $ L $ затым $ Т 1 $ можа быць паказана, што максімальнае ўласнае $ L + I $. Такім чынам, рашэнне $ \ Бар ў $ з $ (\ Даг ') $ Таксама рашэнне $ \ Даг $. Калі $ L $ моцна сувязных, то $ L + I $ апериодична і, такім чынам, $ (\ Даг ') $ сыходзіцца да важнасці. Калі $ L $ не моцна звязаны можа быць некалькі лінейна незалежных уласных вектараў, але ўсё жа лёгка паказаць, што $ (\ Даг ') $ сыходзіцца да праекцыі $ \ Бар x_0 $ на подпространства, якія адпавядаюць ўсіх рашэнняў.

На вэб-

Вылічэнне важнасці старонкі ў велізарны дынамічны графік у апошні час прыцягвае вялікую ўвагу з-за сеткі, напрыклад, [ 18, 21, 19, 22, 9 ]. Гэта з'яўляецца сур'ёзнай праблемай на практыцы, што вэб не моцна звязаныя паміж сабой. Напрыклад, у гальштуку-матылю [ 4 ] бачанне сеткі, у вузлах ня адгалінаванні назад у ядро сеткі. Хоць тыя ж вылічэнні мае сэнс, яно дасць ўяўленне пра важнасць, без жаданай семантыкі. Інтуітыўна, выпадковае блуканне будзе вывесці нас з ядра і будзе `` ловушку''на старонках, якія не вядуць назад у ядро (`` ранг раковина''в адпаведнасці з [ 21 ]). Так, старонкі ў ядры (напрыклад, хатнюю старонку Белы Дом) будзе мець нулявыя значэння. Такім чынам, забеспячэнне моцнай складнасці графа (ад `` патчаў'') з'яўляецца больш важным, з семантычнай пункту гледжання, чым для матэматычнага прычынах. Аналагічным чынам у Google, мы праводзім моцнай складнасці графа, уводзячы невялікія краю''''. Дакладней, на наш графік, кожны вузел паказвае на унікальную віртуальную старонку. З іншага боку, гэтая віртуальная старонка паказвае на ўсе астатнія вузлы.

Наш алгарытм

Наш алгарытм вылічае уласны вектар $ (\ Даг ') $, І не патрабуе якіх-небудзь здагадак на графіцы. У прыватнасці, ён працуе на якую-небудзь сувязь матрыцы $ L $ калі выказаць здагадку, што $ L $ можа быць прачытана радок за радком. Дакладней, для кожнай старонкі $ I $, Які чытаецца, мы выкарыстоўваем значэння $ L [I, J] $ дзе $ L [я, у]> 0 $. Напрыклад, у спасылцы матрыцы Google, гэтыя значэнні адпавядаюць выходных спасылак (старонак $ J $ паказаў на старонку $ I $ ), Якія, як вядома пры невялікіх выдатках шляхам разбору HTML-файл. Разам з тым кошт можа быць вышэй у некаторых іншых выпадках (напрыклад, калі $ L [я, у]> 0 $ уяўляе якія ўваходзяць спасылак, мы павінны захоўваць і чытаць індэкс спасылак). З пункту гледжання канвергенцыі, розныя выпадкі характарызуюцца такім жа чынам, як і раней, напрыклад, калі $ G $ моцная сувязь, рашэнне адзіна і не залежыць ад пачатковага вектару $ X_0 $. Папярэдняя праца ў багацці ў галіне ланцугоў Маркава і вылічэнні матрыцы fixpoint, напрыклад, [ 7 ] або [ 18 ]. У большасці выпадкаў, бясконцай матрыцай пераходных ажыццяўляецца шляхам павелічэння памеру вядомыя матрыцы блока. Некаторыя працы таксама разгледзець магчымасць змены вэб графіку, напрыклад, дадатковыя вылічэнні набліжэння старонка значэнне мае прапанаваны ў [ 5 ]. Наколькі нам вядома, наш алгарытм з'яўляецца новым. У прыватнасці: Напрыклад, пасля сканавання $ 400 $ мільёнаў старонак у Інтэрнэце, у нас ёсць адносна дакладнае набліжэнне старонкі значэнне для больш $ 1 $ мільярдаў старонак, гэта значыць нават часткi матрыцы, што мы пакуль не ведаем. Недахопам для нашага алгарытму з'яўляецца тое, што строга з улікам разліковай мадэлі коштам паўзком у Інтэрнэце, а ў іншых выпадках сыходзіцца павольней, чым іншыя, пасля чытання той жа старонкі.


Статычная графіка: OPIC

Разгледзім у гэтым раздзеле выпадку статычнага графа (не абнаўленне). Мы апісваем алгарытм спасылка матрыцы ад Google $ L $, Як вызначана раней. Гэта можа быць абагульненая на працу для іншых матрыц спасылцы. Мы прадстаўляем OPIC алгарытм і паказаць яе правільнасць. Мы коратка спынімся на перавагах тэхнікі над аўтаномнай алгарытму. Мы будзем разглядаць дынамічныя графы ў наступным раздзеле.

Неафіцыйнае апісанне

Для кожнай старонкі (кожны вузел на графіцы), мы трымаем двух значэнняў. Мы называюць першым грашовыя сродкі. Першапачаткова, мы распаўсюджваем наяўныя грошы, каб кожны вузел, напрыклад, калі Ёсць $ N $ вузлы, якія мы распаўсюджваем $ 1 / N $ для кожнага вузла. Хоць алгарытм працуе, грашовы вузел запісу апошняй інфармацыі даведаліся пра старонцы, а дакладней, сума наяўных грошай, атрыманых старонак з моманту апошняга было сканаваць. Мы таксама запіс (крэдыт) гісторыі старонкі, сума наяўных грошай, атрыманых старонку з пачатку алгарытму да апошняга часу было сканаваць. Наяўнымі, як правіла, захоўваюцца ў аператыўнай памяці, у той час як гісторыя можа быць захавана на дыску. Калі старонка $ I $ здабываецца вэб-агента, мы ведаем, старонкі звязаныя з ёй. Іншымі словамі, мы маем на бязвыплатнай аснове выходных інфармацыйных сувязяў для атрыманага старонцы. Мы запісваем яе наяўнымі ў гісторыі, то значыць, мы дадаем яго да гісторыі. Мы таксама распаўсюджваем гэтыя грошы пароўну паміж усімі старонкамі яна паказвае. Мы скідаем грашовых старонку $ I $ у 0. Гэта адбываецца кожны раз, калі мы чыталі старонкі. Мы ўбачым, што гэта дае дастаткова інфармацыі, каб вылічыць значэнне старонкі, які выкарыстоўваецца ў стандартных метадаў. Мы будзем разглядаць у далейшым раздзеле, як гэта можа быць адаптаваны для апрацоўкі дынамічных графікаў.

Падрабязнае апісанне

Мы выкарыстоўваем два вектары $ C [1.. N] $ (Грашовых сродкаў) і $ H [1.. N] $ (Гісторыя). Ініцыялізацыі $ C $ не ўплывае на вынік. Гісторыя старонкі проста лік. Больш падрабязную гісторыю будуць неабходныя, калі мы пяройдзем да адаптыўнай версіі алгарытму. Будзем лічыць, што гісторыя $ H $ захоўваецца на дыску і $ C $ захоўваецца ў аператыўнай памяці. У мэтах аптымізацыі вылічэнні $ \ Vert H \ Vert = \ sum_i {H [я]} $, Пераменная $ G $ ўводзіцца так, каб $ G = \ верціць H \ Vert $ на кожным кроку. Алгарытм складаецца ў наступным:

OPIC:
On-line Page Importance Computation

for each i let C[i] := 1/n ;
for each i let H[i] := 0 ;
let G:=0 ;
do forever
begin
 choose some node i ;
 %% each node is selected
 %% infinitely often

 H[i] += C[i];
 %% single disk access per page

 for each child j of i,
  do C[j] += C[i]/out[i];
 %% Distribution of cash
 %% depends on L

 G += C[i];
 C[i] := 0 ;
end
 На кожным этапе ацэнкі любой старонкі $ K $ Значэнне 'ов з'яўляецца $ (Н [да] + З [да]) / (G +1) $. Звярніце ўвагу, што алгарытм не накладвае якіх-небудзь патрабаванняў аб парадку мы наведваем вяршыні графа тых часоў, пакуль кожны вузел наведваецца бясконцае колькасць разоў (некаторыя мінімальныя справядлівасці). Гэта істотна, бо сканаванне палітыка часцяком рэгулююцца такія меркаванні, як робаты выключэння, ветлівасць (пазбягайце хуткастрэльныя), хуткасць змены старонкі, арыентаваныя сканавання. Пакуль наяўнымі дзяцей захоўваецца ў аператыўнай памяці, ні доступу да дыска неабходна абнавіць яго. У той час мы наведваем вузел (паўзём яго), спіс яго дзяцей даступныя на самым дакуменце і не патрабуе доступу да дыска. Кожная старонка мае па крайняй меры аднаго дзіцяці, дзякуючы невялікай ``''краю, якія мы прадставілі ў папярэднім раздзеле (і гэта паказвае на віртуальнай старонцы). Тым не менш, па практычных меркаваннях, грашовыя віртуальнай старонцы не распаўсюджваецца ўсё адразу. Гэтае пытанне, у прыватнасці, звязаныя з адкрыццём новых старонак і кіравання пераменнага памеру графікі, якія мы разгледзім пазней. 
Вызначэнне 02/01 Заўважым, $ $ C_t і $ $ H_t значэнняў вектараў $ C $ і $ H $ ў канцы $ T $ -М кроку алгарытму. Вектар $ C_0 $ пазначае значэнне вектару $ C $ пры ініцыялізацыі (усе запісы $ 1 / N $ ). Дазваляць $ X_t $ быць вызначаны:
\begin{displaymath}X_t = \frac{H_t}{\vert H_t\vert}\end{displaymath}

i.e.,
\begin{displaymath}\forall j, X_t[j]= \frac{H_t[j]}{(\sum_i H_t[i])} \end{displaymath}

Можна даказаць, што:
Тэарэма 02/01 Калі выказаць здагадку, граф сувязяў, калі $ T $ імкнецца да бясконцасці, $ \ Vert H_t \ Vert $ імкнецца да бясконцасці і
\begin{displaymath}\left\vert (L'*X_t)-X_t \right\vert < \frac{1}{\vert H_t\vert} \end{displaymath}

і $ \ Vert X_t \ Vert = 1 $. Такім чынам, вектар $ X_t $ сыходзіцца да вектару значэнне, г.зн.
\ {Displaymath пачаць} X_ {Значэнне} = lim_ {т \ + стрэлка направа \ infty} X_t \ канца {displaymath}

Каб даказаць гэтую тэарэму, мы выкарыстоўваем тры наступных лема:
Лема 02/02 агульная сума ўсіх наяўных сталая і роўная пачатковаму значэнню, т. е. для кожнага $ T $, \ (\ Sum_ {я = 1} ^ {п} C_t [я] = \ sum_ {я = 1} ^ {п} C_0 [я] = 1 \)
Гэта відавочна па індукцыі, так як мы толькі распаўсюджваць кожны вузел наяўнымі сярод дзяцей.
Лема 02/03 Пасля кожнага кроку $ T $, У нас ёсць для кожнай старонкі $ J $,
\ {Displaymath пачаць} H_t [у] + C_t [у] = C_0 [у] + \ sum_ {(я ~ ~ продка з ~ J)} (\ долі {L [I, J]} {з [я]} * H_t [я]) \ {канцы displaymath}

Доказ па індукцыі даецца ў дадатку. Ён працуе з разгляду двух выпадках: альбо $ J $ чытаецца, ці іншую старонку для чытання.
Лема 02/04 Калі усе старонкі бясконца чытаць, $ \ {Sum_j H_t [у]} $ імкнецца да бясконцасці.
Для гэтага мы павінны даказаць, што існуе $ Е> 0 $ такія, што, пачынаючы ў любы час $ T $, $ \ {Sum_j H_t [у]} $ у канчатковым выніку павелічэнне $ E $. Разглядаць $ Е = 1 / п $, То ёсць $ E $ сярэдні кошт грашовых сродкаў на ўсіх старонках. У той час $ T $, Ёсць старонкі $ J $ якія маюць больш $ E $ наяўнымі. Наяўнымі старонкі $ J $ не можа змяншацца да $ J $ чытаецца. Гэтая старонка будзе прачытаць яшчэ адзін раз пасля $ T $ таму што ўсе старонкі чытаць бясконцую колькасць разоў. Такім чынам, гісторыя старонак павялічыцца, па крайняй меры $ E $ калі старонка $ J $ чытаецца, і гэта прывядзе да павелічэння $ \ {Sum_j H_t [у]} $. Цяпер мы можам даказаць, як паказана ў дадатку, што:
Лема 02/05 $ \ Lim_ {т \ + стрэлка направа \ infty} \ верціць L '* X_t-X_t \ Vert = 0 $
Па лема 2,5, $ X_t $ ісці бясконца блізкая да ўласных вектарам $ L $ дамінуючага ўласнага значэння $ R $. Гэта прадугледжвае выкарыстанне $ X_t = H_t / G $ ў якасці ацэнкі важнасці старонкі. Мы можам дадаць $ 1 $ (Гэта значыць $ \ Sum_i C_t [я] $ ), Каб назоўнік $ G $ з дапамогай наяўных назапашаных з моманту апошняга сканавання, і, такім чынам (у сярэднім) некалькі лепш ацэнка. Дакладней, можна выкарыстоўваць для старонкі $ J $,
\begin{displaymath}\frac{H_t[j]+C_t[j]}{( \sum_i H_t[i]) + 1} \end{displaymath}

Перавагі ў параўнанні з офф-лайн алгарытмаў:

Галоўная перавага нашага алгарытму з'яўляецца тое, што яна дазваляе сканцэнтраваны сканавання. Таму што наш алгарытм запусціць анлайн і яго вынікі адразу становяцца даступнымі для гусенічных, мы выкарыстоўваем яго засяродзіцца паўзком на самыя цікавыя старонкі для карыстачоў. Гэта асабліва цікава ў кантэксце стварэння вэб-архіва [ 1 ], калі Ёсць строгія патрабаванні (і абмежаванні) на сканіраванне працэсу. Больш таго, паколькі ў нас няма для захоўвання матрыцы, але толькі вектар, наш алгарытм дае наступныя перавагі:
  1. Яна патрабуе менш рэсурсаў захоўвання дадзеных, чым стандартныя алгарытмы.
  2. Яна патрабуе менш рэсурсаў цэнтральнага працэсара, памяці і дыскавай доступу, чым стандартныя алгарытмы.
  3. Гэта лёгка ажыццявіць.
Наш алгарытм таксама добра прыстасаваныя да бесперапыннай ``''стратэгіі сканавання. Прычына ў тым, што захаванне і падтрыманне спасылку матрыцы падчас ``''бесперапынны абыход Web (калі старонкі абнаўляюцца часта) значна даражэй, чым для аднаго здымка ``''абыход Web (калі кожная старонка чытаецца толькі адзін раз). На самай справе, калі інфармацыя аб канкрэтных старонак павінен быць прачытаны і часта абнаўляецца, колькасць выпадковых доступу да дыска можа стаць абмяжоўвалым фактарам. У нашым эксперыменце, напрыклад, гусенічныя было атрыманне сотні старонак у секунду на кожны ПК (гл. раздзел 4 ). Тым не менш, адзначыць, што захоўванне спасылку матрыцы могуць быць карысныя па-за вылічэнні важнасці старонкі. Напрыклад, з улікам старонку $ Р $, Google падае спіс старонак, якія паказваюць на яго. Гэта азначае, што матрыца (ці яго Транспанаванне) падтрымліваецца ў той ці іншай форме. Іншае выкарыстанне спасылку матрыцы праяўляецца ў рабоце [ 14 ].


Сканіраванне Стратэгіі

У гэтым раздзеле мы разгледзім спачатку паўзком розных стратэгій, якія ўплываюць на збліжэнне нашага алгарытму. Затым, мы вывучаем, якім чынам яны могуць быць выкарыстаны ў выпадку змянення графіка. Рэалізацыі аспекты і эксперыменты разглядаюцца ў наступным раздзеле.

Аб збежнасці

Як згадвалася раней, памылкі ў нашай ацэнцы абмежаваная $ \ Долі {1} {\ верціць H_t \ Vert $}. Назавем
\ {Displaymath пачаць} \ долі {1} {G_ {т}} = \ долі {1} {\ верціць H_t \ Vert} = 1 / {\ sum_k H_ {т} [да]} \ {канцы displaymath}

Памылка фактар, хоць гэта, строга кажучы, не памылка (але верхняя мяжа для яго). Зараз, у прынцыпе, можна абраць вельмі дрэнны стратэгіі, якая вельмі часта выбіраюць старонак з вельмі нізкімі грашовымі сродкамі. (Правільнасць алгарытму патрабуе, каб кожная старонка чытаецца бясконца шмат разоў, але не патрабуе стратэгія выбару старонкі, каб быць разумным.) З іншага боку, калі мы абярэм вузлы з вельмі вялікімі грашыма, памылка фактару зніжаецца хутчэй. Для ілюстрацыі разгледзім тры стратэгіі выбару старонкі:
  1. Random: Мы выбіраем наступнай старонцы поўзаць выпадкова з роўнай верагоднасцю. (Справядлівасць: для кожнага $ T_0 $, Верагоднасць таго, што старонка будзе прачытаць у нейкай $ T> t_0 $ імкнецца да 1, калі $ T $ імкнецца да бясконцасці.)
  2. Прагны: Мы чытаць далей старонкі з высокім наяўнымі. Гэта прагны спосаб паменшыць значэнне памылкі фактар. (Справядлівасць: Для моцна складны граф, кожная старонка чытаць бясконцую колькасць разоў, паколькі яна назапашвае грашовыя сродкі, пакуль не будзе ў канчатковым выніку чытаць гл лема. 6,2 у дадатку).
  3. Цыкл: Абярэм які-небудзь вызначаным парадку і выкарыстоўваць яго для цыклу вакол набору старонак. (Справядлівасць відавочна.) Мы разглядалі гэтую стратэгію старонцы выбару проста мець параўнанні з сістэматычнай стратэгіі. Нагадаем, што сістэматычнае стратэгіі выбару старонкі навязваць непажаданыя абмежаванні на сканіраванне старонак.
Заўвага 3.1 (Xyleme) стратэгіі для выбару наступнай старонцы, каб чытаць, якія выкарыстоўваюцца ў Xyleme блізкая да прагным. Яна прызначана для аптымізацыі нашых ведаў Інтэрнэце [ 20 ], цікавасць кліентаў на некаторых участках сеткі, і асвяжальны з самых важных старонак, якія часта мяняюцца.
Каб атрымаць пачуццё таго, як выпадковыя і прагных прагрэсу, давайце разгледзім некаторыя ацэнкі значэння памылкі фактарам для гэтых двух стратэгій выбару старонкі. Выкажам здагадку, што пры ініцыялізацыі, агульная сума наяўных на ўсіх старонках $ 1 $ і што Ёсць $ N $ старонак. Тады: Такім чынам, памылка фактар памяншаецца ў сярэднім у два разы хутчэй, чым з прагныя Выпадковыя. Мы ўбачым, з эксперыментамі (гл. раздзел 4 ), што, сапраўды, прагныя сыходзіцца хутчэй. Больш за тое, прагныя факусуе свае рэсурсы на важных старонак, якія адпавядаюць інтарэсам карыстальнікаў. На гэтых старонках памылкі фактар прагных прагныя памяншаецца яшчэ хутчэй.

Змяняецца графік

Разгледзім зараз дынамічны графік (выпадак у Інтэрнэце). Старонкі прыходзяць і знікаюць і краю таксама. З-за часу, якое патрабуецца для сканавання Web (некалькі тыдняў ці месяцаў), нашы веды аб графе не з'яўляецца дасканалым. Старонка значэнне мае зараз рухаецца мэты, і мы адзіная надзея застацца блізка да яго. Зручна думаць аб зменнай $ G = \ верціць H \ Vert $ як гадзіннік. Разгледзім два моманты часу $ T-T, T $ адпаведны $ G $ якія маюць значэнне $ Т-Т $ і $ T $. Дазваляць $ H_ {т-т, т} [я] $ быць у агульнай складанасці грашовыя сродкі дададзеныя ў гісторыі старонкі $ I $ паміж часам $ Т-Т $ і $ T $, Г.зн. $ H_ {т} [я]-H_ {т-т} [я] $. Дазваляць
\begin{displaymath}\forall j, X_{t,T}[j]=\frac{H_{t-T,t}[j]}{(\sum_i H_{t-T,t}[i])}=\frac{H_{t-T,t}[j]}{T} \end{displaymath}

Таму што зацвярджэнне тэарэмы 2,3 не накладвае ўмова на пачатковую стан $ X_t $, То відавочна, што $ X_ {т, т} $ сыходзіцца да вектару значэнне, калі $ T $ імкнецца да бясконцасці. (Заўважым, што з іншага боку, для фіксаванага $ T $, Калі $ T $ імкнецца да бясконцасці, $ X_ {т, т} $ не сыходзіцца да вектару значэнне.) Выкарыстоўваючы дадзеныя, сабраныя паміж $ Т-Т $ і $ T $, Прыходзіць да ігнаруючы гісторыю да часу $ Т-Т $ і, пачынаючы з стану наяўнасці на момант $ Т-Т $ для пачатковага стану. Заўважым, што гэта стан можа быць не больш інфарматыўным, чым першы дзяржава з роўным размеркаваннем грашовых сродкаў. Такім чынам, ацэнка важнасці старонкі, гледзячы на гісторыю паміж $ T $ (Цяпер), і $ Т-Т $. Мы называем інтэрвал $ [T-T, T] $ (Час) акна. Існуе кампраміс паміж дакладнасцю і адаптируемость да зменаў і крытычнага параметру тэхнікі з'яўляецца выбар памеру акна.

Адаптыўны алгарытм OPIC

Апішам (варыянты) алгарытму, а менавіта адаптыўны OPIC, якія вылічаюць (ы) важнасці старонкі на аснове часовага акна. У Адаптыўная OPIC, мы павінны мець некаторую інфармацыю аб гісторыі ў прыватнасці часовае акно. Мы разгледзелі наступныя палітыкі акно: У наступным, мы называем мерай пары ( $ C, G $ ). Адзначым, што ў акне зменных, мы захоўваем дакладна $ K $ меры, і што ў інтэрпаляцыі, мы захоўваем толькі адзін. Адзначым таксама, што ў асноўнай Window, шэраг мер, вар'іруецца ад адной старонкі да іншай. У нашым аналізе OPIC Адаптыўныя, там будзе два асноўных аспекты: (я) стратэгія выбару старонкі, якія выкарыстоўваюцца (напрыклад, прагны або выпадковага) і (II) акна палітыку, якая лічыцца (напрыклад, фіксаваныя акна або інтэрпаляцыі). Пераменная Акно з'яўляецца самым простым у рэалізацыі, так як мы павінны падтрымліваць, для кожнай старонкі, фіксаваны лік значэнняў.

Фіксаваныя акна

Трэба мець на ўвазе, што некаторыя старонкі будуць чытацца рэдка (напрыклад, раз у некалькі месяцаў), у той час як іншыя будуць чытаць, можа быць штодня. Так Ёсць велізарныя адрозненні ў памеры гісторый. Для вельмі вялікіх гісторый, цікава выкарыстоўваць метады сціску, напрыклад, для групы з некалькіх паслядоўных мер у адну. Наадварот, у нас занадта мала мер для вельмі ўсё роўна старонак. Гэта аказвае негатыўны ўплыў на хуткасць збежнасці алгарытму. Пры ўсталёўцы мінімальнага ліку мер на старонку (скажам, 3), эксперыменты паказваюць, што мы атрымліваем лепшыя вынікі. Гл. раздзел 4.

Інтэрпаляцыя

Яна прызначана для выкарыстання мала рэсурсаў. Сапраўды, для кожнай старонкі гісторыі проста складаецца з двух значэнняў. Гэта тое, што мы тэставалі на рэальных дадзеных, вэб (гл. раздзел 4 ). Гэта палітыка, фактычна выкарыстоўваюцца ў Xyleme [ 27, 20, 28 ]. Яна заснаваная на фіксаваным часовым акне памеру $ T $. Алгарытм выкарыстоўвае для гісторыі двух вектараў $ H [1.. п], G [1.. N] $ :
Малюнак 1: Простая інтэрпаляцыя
\ Includegraphics [шырыня = 0,48 \ TextWidth] {} interpolate.eps
Калі мы наведваем старонку і абнавіць яе гісторыі, па нашых адзнаках грашовых сродкаў, якія былі дададзеныя да гэтай старонцы ў інтэрвале $ T $ Да гэтага візіту. Гл. малюнак 1, на інтуіцыі інтэрпаляцыі. Мы ведаем, што быў дададзены ў сваёй наяўнасці паміж часам $ G [я] $ і $ G $, $ C [я] $. Інтэрпаляцыі мяркуецца, што старонка назапашвае наяўныя лінейна. Гэта было пацверджана эксперыментальна. Дакладней, гісторыя абнаўляецца наступным чынам:
\begin{displaymath} \begin{array}{lll} H[i]*\frac{T - (G - G[i])}{T} + C[i] &&...... C[i]*\frac{T}{G - G[i]} && \makebox{otherwise} \end{array} \end{displaymath}

Пашырэнне графа

Калі лік вузлоў павялічваецца, адносная цяжкасць прысвоіць грашовыя сродкі і гісторыі новыя вузлы асвятляюцца некаторыя амаль філасофскія пытанні аб важнасці старонак. Разгледзім вызначэнне значэння на аснове $ (\ Даг) $. Калі мы поўзаць новых старонак, гэтыя старонкі набываць пэўнае значэнне. Важнасць раней вядомых старонках механічна памяншаецца ў сярэднім толькі таму, што мы паўзлі некалькіх старонках. Гэта ставіцца, напрыклад, у мадэлі выпадковых блуканняў: даданне новых старонак ненулявое верагоднасцю варта чытаць можа толькі памяншацца верагоднасць іншыя старонкі для чытання. Аднак гэтыя змены ў важнасці старонак здацца несправядлівым і не чакаецца карыстальнікамі сістэмы. Супастаўны кожнай новай старонкі па змаўчанні гісторыю, якая адпавядае важнасці нядаўна прадставіла старонак. Эксперыменты пацвердзілі гэта будзе добрая ацэнка. Прычына ў тым, што важныя старонкі выяўляюцца па-першае, у той час як новыя або нядаўна прадставіла старонак, часта найменш важныя з іх.

Арыентаваныя поўзаць і адкрыццё старонкі

У нашай сістэме планавання старонак, якія будуць чытаць у асноўным залежыць ад колькасці наяўнасці ``''для кожнай старонкі. Хуткасць сканавання дае агульная колькасць старонак, якія мы можам прачытаць як для адкрыцця і абнаўлення. Нашы важнасці старонкі архітэктура дазваляе размяркоўваць рэсурсы паміж адкрыццём і абнаўлення. Напрыклад, калі мы хочам зрабіць больш адкрыццяў, мы паступім наступным чынам: (я) ўзяць з сабой наяўныя грошы з віртуальнага старонку і распаўсюджваць яго на старонкі, якія былі яшчэ не чытаў (II), мы павялічваем значэнне `` невялікі'' краёў, якія паказваюць на віртуальнай старонцы, так што ён назапашваецца больш грошай. Для абнаўлення больш старонак, мы робім наадварот. Мы таксама можам выкарыстоўваць падобны метад засяродзіцца поўзаць на падмноства цікавых старонак у Інтэрнэце. Напрыклад, мы можам выкарыстоўваць гэтую стратэгію, каб засяродзіць нашы поўзаць на старонках XML [ 27, 20 ]. У некаторых іншых прыкладанняў, мы, магчыма, аддадуць перавагу хутка выявіць новыя старонкі. Напрыклад, мы прадстаўляем агенцтва друку "копія трэкера ', якая дапамагае выяўлення копіі сваіх правадоў навіны праз Інтэрнэт. Праблема Навіны старонак з'яўляецца тое, што яны часта доўжацца толькі некалькі дзён. У OPIC алгарытму працэс наступным чынам для кожнай спасылкі: старонкі, якія меркавана змяшчаюць навіны провада (напрыклад, таму што URL змяшчае `` Навіны'') атрымліваюць некаторыя дадатковыя ``''наяўнымі. Гэтая грашовая бярэцца з (адзіны) віртуальнай старонцы, так што агульная сума наяўных грошай у сістэме не мяняецца. Іншыя крытэрыі могуць быць выкарыстаны, напрыклад, мы працуем над выкарыстаннем семантычнага спасылкі, напрыклад, шляхам аналізу слоў, знойдзеных побач з HTML-якар спасылкі.


Укараненне і эксперыменты

Мы рэалізавалі і выпрабаваны первый стандартны аўтаномны алгарытм вылічэнні значэння старонкі, то варыянтаў адаптыўнага OPIC. Мы каротка апішам некаторыя аспекты рэалізацыі. Затым справаздачу аб першых эксперыментах на сінтэтычных дадзеных, то на вялікую калекцыю вэб-старонак.

Размеркаванай рэалізацыі

Наша рэалізацыя аўтаномнага алгарытму з'яўляецца стандартнай і не будуць абмяркоўвацца тут. Мы рэалізавалі размеркаванай версіі Адаптыўная OPIC, якія могуць быць параметризованы выбраць стратэгію выбару старонкі, акно палітыкі, памер акна і г.д. Адаптыўная OPIC працуе на кластары Linux ПК. Код на З + +. Corba выкарыстоўваецца для сувязі паміж кампутарамі. Кожны гусенічных адказвае за частку старонак у Інтэрнэце. Выбар наступнай старонцы, каб чытаць гусенічных ажыццяўляецца асобны модуль (Старонка Scheduler). Раскол паміж старонкамі розных сканараў вырабляецца з дапамогай Хэш-функцыі $ H_ {URL} $ у URL. Кожны гусенічных ацэньвае важнасць старонкі яна адказвае. Яго частка наяўных вектар у асноўнай памяці, у той час як сваю частку гісторыі на дыск. Гусенічны таксама выкарыстоўвае (у памяці) хэш-табліцы, што дазваляе карце URL апрацоўвацца дадзеных гусенічных яго ідэнтыфікатар (цэлае лік) ў сістэме. Нарэшце, ён выкарыстоўвае карту з ідэнтыфікатары URL. Апошняя карта можа знаходзіцца на дыску. Кожны гусенічных скануе мільёны старонак у дзень. Прапускная здольнасць была відавочна абмяжоўвалым фактарам у эксперыментах. Для кожнай старонкі, папоўз, гусенічных атрымлівае ідэнтыфікатар старонкі з старонкі планавальніка, а затым выконвае наступныя дзеянні:
Выбарка: Ён атрымлівае URL старонкі, здабывае старонку з сеткі і аналізуе яго;
Грашовыя пераклады: Ён размяркоўвае бягучых грашовых частцы старонкі, каб старонкі звязаныя з ёй. Для кожнай такой старонцы, ён выкарыстоўвае $ H_ {URL} $ атрымаць імя сервера, які адказвае за гэтую старонку. Ён пасылае перадачы `` деньги''на гэты сервер з указаннем URL старонкі, а колькасць. Гэта буфер званкі ў сеткі.
Запісаў: Ён абнаўляе гісторыю старонкі і скідае свае грашовыя сродкі да нуля. Абнаўленне гісторыі патрабуе аднаго доступу да дыска.
Кожны гусенічных і працэсы перакладу заказы, якія паступаюць ад іншых сервераў. Сувязі з'яўляюцца асінхроннымі. Варта адзначыць, што для кожнай старонкі, папоўз, Ёсць толькі два дыска, адзін для атрымання метададзеных старонкі і адзін для абнаўлення метададзеных, у тым ліку гісторыі. Акрамя таго, Ёсць Corba сувязі (па лакальнай сеткі), а галоўнае доступу да памяці.

Сінтэтычныя дадзеныя

Хоць мы пачалі нашы эксперыменты з вялікай калекцыяй спасылак на вэб-сайце, сінтэтычных дадзеных даў нам больш гнуткасці для вывучэння розных ўваходных і выхадных параметраў, такіх як: памер графік, графік падлучэння, змянення стаўкі, тыпы змяненняў, размеркаванне ў градусах, з-градусаў і важнасці старонкі, значэнне памылкі, рэйтынг памылак.

Граф мадэлі

Намі былі праведзены эксперыменты з рознымі сінтэтычнымі графаў, якія змяшчаюць дзесяткі мільёнаў вэб-старонак. Гэтыя эксперыменты паказалі, што выкарыстанне вельмі вялікіх графаў істотна не зменіць вынікі. Напрыклад, мы пачалі з графікамі, атрыманыя з дапамогай размеркавання Пуасона ў сярэднім якія ўваходзяць спасылак, некалькі спрошчаным здагадка. Затым мы правялі эксперыменты з больш складанымі размеркавання пасля нядаўніх даследаванняў вэб-графа [ 4 ], напрыклад, з размеркавання электраэнергіі $ P (I = п) = 1 / п ^ {2,1} $. Вынікі былі даволі падобныя на тых, атрыманыя з дапамогай размеркавання Пуасона. Для таго, каб таксама кантраляваць размеркаванне выходных спасылак і карэляцыі паміж імі, мы паспрабавалі некалькі мадэляў графа ў духу [ 8 ], але нават са значнымі зменамі ў графе параметраў, мадэляў вынікі не моцна змяніліся з Простая мадэль графа. Такім чынам, мы тады абмежавана нашу ўвагу на даволі просты графікі адносна невялікі памер, каб быць у стане праверыць шырока, напрыклад, розныя старонцы выбару стратэгій, розных памераў акна, розныя мадэлі змены сеткі. У астатніх гэтага падзелу мы разгледзім простую мадэль, графік на аснове размеркавання электраэнергіі на якія ўваходзяць рэбраў. Больш падрабязна апушчаны. Лік вузлоў мацуецца да N = 100000 вузлоў.

Уплыў выбару стратэгіі старонку

Па-першае, мы вывучылі канвергенцыі OPIC для розных стратэгій выбару старонкі. Мы лічылі, Random, цыкла і прагныя. Мы параўналі значэння ацэнкі ў розных кропках поўзаць, пасля сканавання $ N $ старонак, да к $ 10 * N $ старонак. Памылкі вылічаем бок сярэдняя па мностве старонак памылкі паміж вылічэнні OPIC ў гэтым стане і значэнні fixpoint. Дакладней, вылічаць сярэдняе працэнт памылкі:
\ {Displaymath пачаць} 100 * \ долі {\ sum_j \ долі {\ верціць X [у]-Imp [у] \ верціць} {Imp [у]}} {N} \ {канцы displaymath}

дзе $ $ Imp атрымліваецца шляхам запуску аўтаномнай алгарытм пакуль не будзе дасягнута fixpoint (з нязначнай памылкай).
Малюнак 2: Канвергенцыя OPIC (на ўсіх старонках)
Малюнак: Convergene ад OPIC (на ўсіх старонках)
Разгледзім мал 2. Памылка прыкладна такая ж, для прагных і цыклу. Гэты вынік быў чакаць, так як папярэднія даследаванні [ 13 ], паказваюць, што пры стандартнай мадэлі кошту, адзінай стратэгіі абнаўлення выконваць так жа добра, як адрасныя абнаўлення. Як мы і чакалі, Выпадковыя працуе значна горш. Мы таксама параўналі гэтыя, некалькі штучна, у офф-лайн алгарытму. У аўтаномным рэжыме, кожнай ітэрацыі матрыцы вылічэнне на $ N $ старонак, так што мы разлічваем $ N $ `` Прасканаваных страниц''для кожнай ітэрацыі. Аўтаномны алгарытм сыходзіцца амаль як цыкл і прагныя. Гэта не дзіўна, бо як сканіраванне $ N $ старонак з цыклам прыкладна адпавядае прадузятым ітэрацыі матрыцы.
Малюнак 3: Канвергенцыя OPIC (на важныя старонкі)
Малюнак: Convergene ад OPIC (на важныя старонкі)
Зараз разгледзім малюнак 3. Памылка вымяраецца цяпер толькі дзесяць адсоткаў старонак, цікавых на практыцы. Для гэтага мноства старонак, Прагны (гэта значыць з улікам важных старонак) сыходзіцца хутчэй, чым іншыя, у тым ліку аўтаномны алгарытм. Мы таксама вывучылі дысперсіі. Гэта прыкладна тое ж самае для ўсіх старонцы выбару стратэгіі, напрыклад, амаль няма Старонка адноснай хібнасці больш чым у два разы сярэдняя памылка. Мы таксама разгледзелі альтэрнатыўныя меры памылкі. Напрыклад, мы разглядалі памылкі ўзважаная з важнасцю старонку або памылку на адносную важнасць, які быў коратка згаданы. Мы таксама разгледзелі памылкі ў замове старонак, калі іх значэнне выкарыстоўваецца для ранжыравання вынікаў запытаў. Усе гэтыя розныя меры памылкі прыводзяць да істотнай розніцы ў выніках.

Уплыў памераў акна

Малюнак 4: Уплыў памераў акна
Малюнак: Уплыў памераў акна
Як ужо гаварылася, маленькае акно, тым больш рэакцыя на змены, але за кошт некаторых адсутнасць дакладнасці. У серыі эксперыментаў было праведзена з мэтай вызначыць, як шмат. Каб прааналізаваць уплыў памер акна, мы выкарыстоўваем Адаптыўная OPIC з прагныя стратэгіі і фіксаванай Акно $ M $ поўзае, гэта значыць, мы захоўваем для кожнай старонкі гісторыі з часу апошняй $ M $ поўзае па старонцы. Аналагічныя вынікі былі атрыманы з іншымі варыянтамі алгарытму. Разгледзім мал 4 ігнаруючы інтэрпаляцыя палітыкі на дадзены момант. Абменнага курсу з'яўляецца колькасць старонак, якія маюць свае ступені ў значна змененыя (г.зн. падзяліць намінальнай двух або памножыць на два) падчас поўзання $ N $ старонак, дзе $ N $ гэта колькасць старонак, на графіку (гэта значыць час для `` один''обход графік). Для кожнага змены хуткасці граф папоўз у дзесяць разоў. На малюнку паказаны вынік для $ M $ = 4, 8, 16. Важна заўважыць, што мы можам атрымаць досыць блізка да fixpoint з даволі невялікімі вокнамі (напрыклад, $ M = 8 $ тут). Як згадвалася раней, кампраміс рэактыўнасці на змены ў параўнанні з дакладнасцю. Калі часовае акно становіцца занадта малы (напрыклад, $ M = 4 $ тут), памылкі важней. Гэта таму, што кожная мера для старонкі дае толькі вельмі грубіянскую ацэнку гэтай старонкі значэнне, таму памылкі занадта вялікая. Такая памылка можа ўсё яшчэ быць прымальным для некаторых прыкладанняў. Цяпер заўважым, інтэрпаляцыя эксперымент на малюнку 4. Па-першае, звернеце ўвагу, што яна выконвае амаль гэтак жа добра, як вялікія вокны зменнай (напрыклад, $ M = 16 $ ) На графіку з невялікімі зменамі. Акрамя таго, ён адаптуецца лепш вышэй змены стаўкі (напрыклад, больш чым на 1 працэнт). Такім чынам, разгледзім цяпер параўнанне розных палітык акна.

Уплыў акно палітыкі

Мы параўналі розныя палітыкі для захавання гісторыі. У гэтым дакладзе мы выкарыстоўваем зноў прагныя стратэгіі. Розныя палітыкі вокны могуць спатрэбіцца розныя рэсурсы. Каб быць справядлівымі, мы абралі палітыку, што прыкладна прасіў аналагічную суму сродкаў. Як правіла, мы разлічваем на захоўванне шэраг мер, мы захоўваем. (Нагадаем, што мера складаецца са значэння $ C $ і адзін для $ G $.) Пяць палітыкі, якую мы выкарысталі ў параўнанні паміж 4 і 8 мер, за выключэннем інтэрпаляцыі, што па вызначэнні выкарыстоўвае толькі 1. Мал 5 паказвае сярэдні лік мер, якія выкарыстоўваюцца на старонцы ў кожным канкрэтным выпадку. Гэтыя меры залежаць Выпраўленая Акно ў абыход хуткасці, якая была тут, каб быць $ N $ старонак у месяц (хуткасць была абраная тут так, каб акно фіксаванага памеру будзе выкарыстоўваць прыкладна столькі ж рэсурсаў, як і іншыя). Мы таксама разгледзелі варыянт акно фіксаванага памеру, сілы кожнай старонкі, каб мець мінімальны лік мер, а менавіта Палепшанае акно фіксаванага памеру. Мы, неабходныя для эксперыменту згаданых тут мінімум 3 мер. Звярніце ўвагу, што гэта прывяло для гэтага канкрэтнага набору дадзеных у павелічэнні сярэдняга ліку мер з $ 4 $ да $ 6,1 $.
Малюнак 5: Захоўванне рэсурсаў на часовае акно
Тып і памер акна Меры на старонку
Пераменная акна 8 мер 8
Фіксаваныя акна 8 месяцаў 8,4
Improved Fixed Window 4 months 6.1
Interpolation 4 months 1
Figure 6: Influence of window's types
Малюнак: Уплыў тыпу акна

Зараз разгледзім малюнак 6. Гэта паказвае, што для падобнага шэраг мер, Variable Window працуе лепш, чым акно фіксаванага памеру. Выпраўленая праблема з акна, што вельмі нешматлікія меры захоўваюцца усё роўна старонак і збліжэнне ідзе вельмі павольна з-за памылак на такіх старонках. З іншага боку, паляпшэнне Выпраўлена палітыкі Window дае значна лепшыя вынікі. Паляпшэнне надыходзіць на самай справе з больш надзейнасць усё роўна старонак. Найбольш заўважным вынікам аб выкарыстанні вокнаў з'яўляецца тое, што алгарытм інтэрпаляцыі палітыкі пераўзыходзіць іншыя варыянты, спажываючы пры гэтым менш рэсурсаў. На самай справе, памылка, якія ўносяцца інтэрпаляцыі можна занядбаць. Акрамя таго, інтэрпаляцыя, здаецца, пазбегнуць некаторых `` шум''введен, калі старыя мера дададзеныя (або выдаленыя) у Адаптыўная OPIC. У пэўным сэнсе, інтэрпаляцыя выступае ў якасці фільтра на паслядоўнасці мер. Вядома, збліжэнне ўсіх варыянтаў адаптыўных алгарытмаў залежыць ад часовага інтэрвалу, які выкарыстоўваецца. Выдатнае паводзіны інтэрпаляцыі пераканаў нас прыняць яго для нашых эксперыментаў з поўзае па сетцы. Гэта лічыцца наступным.


Вэб дадзеных

Мы правялі эксперыменты з выкарыстаннем вэб-сканары з Xyleme [ 28 ]. Поўзаць выкарыстоўвалі стратэгію старонку выбару Xyleme, што раней было згадана і звязана з прагным. Гісторыя была кіравацца пры дапамозе інтэрпаляцыі палітыкі. Падчас тэсту, колькасць ПК вагалася ад 2 да 8. Кожны ПК было мала месца на дыску і менш чым 1,5 Гб аператыўнай памяці. Некаторыя разумную ацэнку важнасці старонкі для найбольш важных старонак была атрымана на працягу некалькіх дзён, як важныя старонкі чытаюцца часцей, і выявіў, раней, чым іншыя. Эксперыменты працягваліся на працягу некалькіх месяцаў. Мы выявілі 1000000000 URL-адрасоў, і толькі 400 мільёнаў з іх былі на самай справе чытаць. Звярніце ўвагу, што з-за спосабу мы выяўляем старонак, гэтыя 400000000 адносна важных старонак. Больш таго, мы маглі б даць разумныя ацэнкі важнасці нават на старонках, якія ніколі не чытаў. Гэты эксперымент быў досыць (з абмежаваным чалавечым праверкі вынікаў) да высновы, што алгарытм можа быць выкарыстаны ў вытворчай асяроддзі. Як правіла, для ўсіх практычных ужыванняў значэнне мы разглядалі (напрыклад, ранжыраванне вынікаў запыту або планаванне абнаўлення старонкі), дакладнасць прынёс алгарытм хутка дастаткова. Перавага алгарытму таксама, што ён хутка выяўляе новыя важныя старонкі, каб іх можна было чытаць раней. Асноўнае пытанне заключаецца ў выбары памеру часовага акна. Спачатку устанавіў яе занадта малая што прывяло да непажаданых змен важнасць некаторых старонках. Затым мы выкарыстоўвалі занадта вялікія вокны і рэактыўнасці на змены былі занадта абмежаванымі. Нарэшце, акно было створана да 3 месяцаў. Гэтая велічыня залежыць ад хуткасці сканавання, якое ў нашым выпадку быў абмежаваны прапускной здольнасці сеткі. Наш спектакль аналіз таксама паказаў, што з дапамогай нашай сістэмы (Xyleme гусенічных і адаптыўнай OPIC), можна, напрыклад, поўзаць і вылічыць важнасці старонкі (а таксама падтрымліваць гэта веданне) па графіку да 2 мільярдаў старонак толькі з 4 ПК абсталяваны кожны з 4 Гб аператыўнай памяці і невялікі дыск. У кантэксце вэб Архіваванне [ 1 ], мы таксама правялі эксперыменты, каб вырашыць, калі нашы меры па важнасці старонкі могуць быць выкарыстаны для выбару старонак, якія ўяўляюць цікавасць для французскай нацыянальнай бібліятэкі. Мы выбралі тысячы вэб-сайтаў, і $ 8 $ розных прафесійных бібліятэкараў месца кожнага сайта, каб вырашыць, якія сайты павінны быць заархіваваны (з 1 па 4 шкале). Мы вызначылі эталоннага значэння для кожнага сайта зыходзячы з сярэдняй гэтых рэйтынгах. Нарэшце, мы вызначылі "адзнака" бібліятэкара як колькасць сайтаў, у якім яго званне было ідэнтычна спасылцы. Ацэнкі бібліятэкараў вагалася ад 60 да 80 адсоткаў, а ацэнка нашых мер важнасці старонкі было 65 адсоткаў. Гэта азначае, што нашы захады, заснаваныя толькі на старонцы значэнне мела так добра, як прафесійны бібліятэкар, хоць і не так добра, як лепшыя з іх. У цяперашні час мы працуем над выкарыстаннем іншых крытэрыяў [ 1 ] для паляпшэння `` автоматического''библиотекаря.

Іншыя паляпшэння

Падчас нашых эксперыментаў, мы высветлілі, што семантыка сувязей у дынамічных старонак (часта) не так добра,as in pages fully written by authors. Links written by authors usually points to more relevant pages. On the other hand, most links in dynamic pages often consist in other (similar) queries to the same database. For instance, forum archives or catalog pages often contain many links that are used to browse through classification. Similarly, we found out that ``internal'' links (links that point to a page on the same web site) are less useful to discover other relevant pages than ``external'' links (links to a page on some other web site). To solve both problems, we are currently working on a notion of site-based importance [1] that consider links between web-sites instead of links between web-pages. We are currently experimenting our algorithm with this new notion of importance per site.

Заключэнне

Мы прапанавалі просты алгарытм для рэалізацыі ва ўмовах абмежаванасці рэсурсаў рэалістычныя вылічэнні важнасці старонкі за графа такога памеру, як Інтэрнэт. Мы паказалі, як правільнасць і выгода тэхнікі. Наш алгарытм можа быць выкарыстаны для павышэння эфектыўнасці сканавання сістэмы, паколькі яна дазваляе засяродзіцца на онлайн рэсурсы для важных старонак. Яна таксама можа быць прадузятым ўлічваць канкрэтных галінах, якія ўяўляюць цікавасць для карыстальнікаў [ 1 ]. Больш за эксперыменты на рэальных дадзеных відавочна неабходныя. Было б, у прыватнасці, цікава праверыць варыянтаў адаптыўнага OPIC з вэб-дадзенымі. Тым не менш, такія тэсты з'яўляюцца вельмі дарагімі. Каб глыбей зразумець алгарытмы, больш эксперыменты праводзяцца з сінтэтычнымі дадзенымі. Мы эксперыментавалі з рознымі варыянтамі Адаптыўная OPIC. Мы лічым, што лепшыя ацэнкі важнасці могуць быць атрыманы і працуюць над гэтым. Адной з праблем з'яўляецца налада алгарытмаў і, у прыватнасці, выбар (адаптацыі) часовыя вокны. Мы таксама працягваем нашы эксперыменты па змене графікаў і ў прыватнасці на ацэнку вытворнае значэнне. У рэшце рэшт мы хочам прааналізаваць больш глыбокага ўздзеяння розных канкрэтных мадэляў графік, як гэта зроблена ў [ 17 ] для аўтаномнага алгарытму. Мы таксама працуем над дакладны матэматычны аналіз хуткасці збежнасці розных алгарытмаў. Спадзяюся, што гэты аналіз дасць нам межах хібнасці значэння, а таксама будзе накіроўваць нас пры ўстанаўленні памеру вокнаў і ацэнкі змены ў значэння. Мы таксама ўдасканаленне кіравання зноў адкрыліся старонак. Алгарытм, прадстаўленыя тут вылічае важнасці старонкі, што залежыць ад усяго графа, гледзячы на адной старонцы за раз, незалежна ад парадку наведвання старонак. Было б цікава, каб знайсці іншыя ўласцівасці граф вузлоў, якія могуць быць вылічаныя аналагічна.

Падзякі

Мы хочам падзякаваць Люк Segoufin, Ларан Минье і Това Міла для абмеркавання дадзенай працы.

Бібліяграфія

1
С. Абитебул, Г. Cobeña, Дж. Masanes, Г. Sedrati.
Першы вопыт архівавання вэб-французску.
ECDL 2002 года.
2
С. Абитебул, М. Папярэд, Г. Cobeña.
Вылічальная вэб-старонкі без захавання значэння Графік сеткі (пашыраны реферат).
IEEE-CS дадзеных інжынерна бюлетэнь, тым 25, 2002.
3
Alta Vista.

http://www.altavista.com/.
4
Андрэй З. Бродэр І інш.
Графік структуры Ў Інтэрнэце.
WWW9/Computer Networks, 2000.
5
Стыў Чэн, Сінція Дворк, Раві Кумар, Дэн Сайман, Д. Sivakumar.
Спасылка эвалюцыі: аналіз І алгарытмы.
У семінар па алгарытмаў І мадэляў для вэб трафік (WAW), 2002.
6
Junghoo Чо, Гектар Гарсія-Молина, і Лоўрэнс старонку.
Эфектыўнае сканаванне праз URL замовы.
Кампутарныя сеткі і ISDN-сістэмы, 30 (1-7) :161-172, 1998.
7
Брэх Кай Чунг.
Аднародныя ланцугу Маркава верагоднасці пераходу.
Springer, 1967.
8
Колін Купер і Алан М. Фрыз.
Агульнай мадэлі ад неориентированного Інтэрнэце.
У Еўрапейскім сімпозіуме па алгарытмах, стар 500-511, 2001.
9
Ю. Д. Донг Чжан.
Эфектыўны алгарытм для ранжыравання вэб-рэсурсаў.
9-я міжнародная канферэнцыя World Wide вэб-2000.
10
Ф. Р. Gantmacher.
Ужыванне тэорыі матрыц.
У ІЛ выдаўцоў, стар 64-79, 1959.
11
Google.

http://www.google.com/.
12
Т. Haveliwala.
Эфектыўныя вылічэнні PageRank.
Тэхнічны справаздачу, Стэнфардскі універсітэт, 1999.
13
Х. Гарсія-Молина Дж. Чо.
Сінхранізацыя баз дадзеных для паляпшэння свежасці.
SIGMOD 2000 года.
14
MR Henzinger Дж. Дын.
Пошук звязаных старонках сусветнай павуціны.
8th International World Wide Web Conference, 1999.
15
А. Бродэр К. Бхарата.
Ацэнка адноснага памеру і перакрыцці грамадскіх пошукавых Інтэрнэт.
7-я Міжнародная World Wide Web канферэнцыі (WWW7), 1998.
16
Джон М. Клейнберг.
Аўтарытэтныя крыніцы ў гіперспасылкамі навакольнага асяроддзя.
Часопіс АСМ, 46 (5) :604-632, 1999.
17
Г. В. Meghabghab.
Вэб-старонкі Google у рэйтынгу звярталіся ў розныя тапалагічнымі структуры графа сеткі.
JASIS 52 (9), 2001.
18
Раджыў Мотвани і Прабхакар Рагхаван.
Рандомізірованного алгарытмы.
ACM Computing Surveys, 28 (1) :33-37, 1996.
19
Лоўрэнс старонку, Сяргей Брын, Раджыў Мотвани, і Тэры Вінаграда.
Рэйтынгу PageRank цытата: Навядзенне парадку ў Інтэрнэце, 1998.
20
М. Папярэд.
Збор дадзеных для склада XML.
DEA тэзіс Парыж 7 Універсітэт, 2000.
21
Л. Старонка С. Брын.
Анатомія буйнамаштабнага гіпертэкставай пошукавай сеткі.
WWW7 канферэнцыі, камп'ютэрных сетак 30 (01/07), 1998.
22
Б. Дом С. Чакрабарти, М. ван дэн Берг.
Арыентаванага сканавання: новы падыход да тэмы канкрэтнага адкрыццё вэб-рэсурс.
Восьмы канферэнцыі World Wide вэб-1999.
23
Л. Джайлс С. Лоўрэнс.
Даступнасць і распаўсюджванне інфармацыі ў Сеткі.
Прырода, 1999.
24
Пошук рухавікоў гадзіны.

www.searchenginewatch.com/.
25
С. Таледа.
Паляпшэнне памяці, прадукцыйнасць сістэмы разрэджаных матрыц-вектарнага множання.
IBM Часопіс даследаванняў і развіцця, 41 (6): 711 - 1997 года?.
26
CJ ван Rijsbergen.
Інфармацыйна-пошукавая.
Лондан, Butterworths, 1979.
27
Люсі Xyleme.
Дынамічны склад для XML-дадзеных з сеткі.
IEEE дадзеных інжынерна бюлетэнь, 2001.
28
Xyleme.

www.xyleme.com.

Дадатак: доказ карэктнасці

Лема 5.1 (гл. лема 2,3 ) Пасля кожнага кроку $ T $, У нас ёсць для кожнай старонкі $ J $,
\ {Displaymath пачаць} H_t [у] + C_t [у] = C_0 [у] + \ sum_ {(я ~ ~ продка з ~ J)} (\ долі {L [I, J]} {з [я]} * H_t [я]) \ {канцы displaymath}



Доказ па індукцыі. Відавочна, што зацвярджэнне дакладна ў момант часу $ T = 0 $. Няхай яно дакладна ў момант часу $ T $ для кожнага элемента $ J $. Разгледзім элемент $ J $ на кроку $ T 1 $. На кроку $ T 1 $ старонка $ K $ абыходзе. Магчымыя два выпадкі: калі $ J = да $, То правы тэрмін не змяняецца: $ \ FORALL я, я \ NEQ у, H_ {т 1} [я] = H_t [я] $. Левае значэнне тэрміна не змяняецца ні, наяўныя дадаецца $ H $, А затым ўсталяваць на нуль. Так $ H_ {т 1} [у] + C_ {т 1} [у] = H_t [у] + C_t [у] $ І роўнасць дакладна пры $ T 1 $. Калі $ J \ NEQ да $. Затым $ C_ {т 1} [у] $ павялічваецца на $ C_t [да] * \ долі {L [I, J]} {з [я]} $. Так
\begin{displaymath} H_{t+1}[j]+C_{t+1}[j]= \end{displaymath}


\begin{displaymath} C_0[j] + \sum_{(i~ancestor~of~j)} ( \frac{L[i,j]}{out[i]} *H_t[i] ) +C_t[k]*\frac{L[k,j]}{out[k]} \end{displaymath}

Зараз \ (\ FORALL я, я \ NEQ да, H_ {т 1} [я] = H_t [я] \), А таксама \ (H_ {т 1} [да] = H_t [да] + C_t [да] \), І гэта паказвае вынік.
Лема 05/02 Разгледзім моцна складны граф. $ C $ ў наяўнасці якога-небудзь вузла $ I $ у канчатковым выніку прыводзіць да $ З / п ^ N $ ў грашовых $ J $. Для кожнага $ J $, $ H_t [у] $ імкнецца да бясконцасці.


Кожны вузел расшчапляе значэнне не больш чым на $ N $, Таму што яна не можа мець больш $ N $ розных спасылках. Мы мяркуем, што граф моцна звязаны, так што шлях ад $ I $ да $ J $, І гэта не больш чым на $ N $. Адзначым, $ P_1... P_k $ старонак для гэтага шляху. Мы лічым, што кожная старонка папоўз бясконцую колькасць разоў. Так што мы ў канчатковым выніку будзе поўзаць $ P_1 $, То ў канчатковым выніку $ P_2 $,... да $ P_k $. Такім чынам, мы, у канчатковым рахунку распаўсюдзілі па крайняй меры $ З / п ^ N $ ў грашовых $ J $. Разгледзім любы момант $ T $, Некаторыя вузел утрымоўвае па крайняй меры $ 1 / N $ наяўнымі (з-за $ \ Sum_ {я} C_t [я] = 1 $ ). Такім чынам, у канчатковым выніку павелічэнне грашовых $ J $ (Такім чынам, у рэшце рэшт яе гісторыі) па $ 1 / п ^ N $. Такім чынам $ H_t [у] $ імкнецца да бясконцасці.
Лема 05/03 $\lim_{t\rightarrow +\infty}\vert L'*X_t-X_t\vert=0 $


Па вызначэнні $ X_t $, Для кожнага $ I $,
\ {Displaymath пачаць} X_t [я] = H_t [я] / \ {сума H_t [у]} \ {канцы displaymath}

Тады, па лема 2,3,
\ {Displaymath пачаць} H_t [у] + C_t [у] = C_0 [у] + \ sum_ {(я ~ ~ продка з ~ J)} (\ долі {L [I, J]} {з [я]} * H_t [я]) \ {канцы displaymath}

Давайце паглядзім на $ J $ й каардынаты $ \ Vert L '* X_t-X_t \ Vert $ :
\ {Displaymath пачаць} \ налева \ Vert \ долі {(L '* H_t-H_t) [у]} {\ sum_k H_t [да]} \ права \ верціць =...... _0 [У]} {\ sum_k H_t [да]} \ права \ Vert \ Leq \ долі {1} {\ sum_k H_t [да]} \ {канцы displaymath}

Яе мяжа роўны 0, таму што, калі $ T $ імкнецца да бясконцасці, $ \ {Sum_j H_t [у]} $ імкнецца да бясконцасці (па лема 2,4 ) і $ C_0 [у] $, $ C_t [у] $ абмежаваныя 1.
Тэарэмы 05/04 мяжа $ X_t $ з'яўляецца $ X_ {Значэнне} $, Г.зн.
\ {Displaymath пачаць} lim_ {т \ + стрэлка направа \ infty} X_t = X_ {Значэнне} \ {канцы displaymath}



Па папярэднім вынікам,
\begin{displaymath}\lim_{t\rightarrow +\infty}\vert(L'-1)*X_t\vert=0 \end{displaymath}

дзе 1-адзінкавая матрыца (1 на дыяганалі і 0 у іншым месцы). Разгледзім зараз раскладанне $ X_t = S_t + $ d_t дзе $ $ S_t знаходзіцца ў $ Кег (L'-1) $ (Ядро матрыцы $ L'-1 $ ), І $ $ D_t у адпаведныя артаганальных прасторы, дзе абмежаванне $ L'-1 $ звернем. Таму што $ $ S_t знаходзіцца ў $ Кег (L'-1) $, У нас ёсць \ (\ FORALL т, L '* X_t-X_t = L' * d_t-d_t \) і г.д.
\ {Displaymath пачаць} \ lim_ {т \ + стрэлка направа \ infty} \ Vert (L'-1) * d_t \ Vert = 0 \ {канцы displaymath}

Цяпер мы можам абмежавацца артаганальнай прасторы $ Кег (L'-1) $, У якім $ L'-1 $ мае зваротную называецца $ H $. Матрычнага множання бесперапынная, мы можам памножыць злева на $ H $, Якая з'яўляецца пастаяннай, і, такім чынам,
\begin{displaymath}\lim_{t\rightarrow +\infty}\vert D_t\vert=0 \end{displaymath}

Цяпер, калі мы выкарыстоўваем той факт, што няма адзінага рашэння для fixpoint $ L '$, Што азначае, што $ Кег (L'-1) $ мае памернасць $ 1 $ і што
\ {Displaymath пачаць} \ FORALL т, X_t = \ alpha_t * X_ {Значэнне} + d_t \ канца {displaymath}

дзе $ \ $ Alpha_t з'яўляецца Скалярыя. Цяпер з-за $ \ Vert d_t \ Vert $ сыходзіцца да нуля, а $ \ Vert X_t \ Vert = \ верціць X_ {Значэнне} \ Vert = 1 $, Мы маем:
\ {Displaymath пачаць} lim_ {т \ + стрэлка направа \ infty} X_t = X_ {Значэнне} \ {канцы displaymath}



Зноскі

... часта [*]
Google [ 11 ], здаецца, выкарыстоўвае такую стратэгію для абнаўлення старонкі; Xyleme [ 28 ] робіць.
... 1 [*]
Звярніце ўвагу, што адваротнае дакладна ў тым сэнсе, што калі граф не апериодический заўсёды можна знайсці $ X_0 $ так, што $ (\ Даг) $ не сыходзіцца
... [*]
Вялікага значэння $ \ $ Эпсілан павялічыць хуткасць збежнасці

Рыгор Cobeña, 2003/02/25, INRIA (Domaine дэ Voluceau, Rocquencourt BP105, 78153 Le Chesnay), Францыя
Published (Last edited): Apr 16 , source: http://www2003.org/cdrom/papers/refereed/p007/p7-abiteboul.html