۳-۳-۱-الگوریتمهای مبتنی بر انتشار برچسبها:
ایده اصلی این الگوریتم این است که یک مجموعه از صفحات با برچسب های شناخته شده را در نظر گرفته و برچسب های گره های دیگر براساس قوانین انتشار محاسبه شود.
یکی از اولین الگوریتم ها در این دسته Trustrank است که اعتماد را از مجموعه صفحات خوب از راه رتبه بندی شخصی انتشار می دهد. در واقع ایده اصلی این الگوریتم این است که صفحات قابل اعتماد عمدتاً به صفحات قابل اعتماد دیگر لینک می شوند و به ندرت به صفحات هرزنامه لینک می شوند ]۶۸[.
الگوریتم TrustRank:
برای انتخاب یک مجموعه صفحات خوب استفاده از رتبه شخصی معکوس پیشنهاد می شود که به عنوان یک گراف با لبه های برعکس عمل می کند. با داشتن امتیاز رتبه صفحه معکوس محاسبه شده برای تمام صفحات روی وب، K صفحه بالایی را در نظر گرفته می شود و به کاربران اجازه داده می شود تا در مورد اعتبار این صفحات قضاوت کنند. سپس یک بردار رتبه صفحه شخصی ایجاد کردند که اجزا فقط به صفحات قضاوت شده معتبر مطابقت دارند که غیر صفر هستند. در نهایت، رتبه صفحه شخصی شده محاسبه شده است. TrustRank ویژگی های بهتری را نسبت به رتبه صفحه برای کاهش رتبه هرزنامه وب نشان میدهد.
( اینجا فقط تکه ای از متن فایل پایان نامه درج شده است. برای خرید متن کامل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. )
این الگوریتم نمره اعتماد را به هر صفحه تخصیص می دهد، مجموعه فرزند D یک نمره اعتماد مثبت اولیه دارد و به همه صفحات دیگر نمره صفر تخصیص داده شده است.
اگرD i 1/|D| = t0,i
در بقیه موارد ۰
ti+1=ti+(1-)t0
ti بردار نمرات اعتماد در تکرار i است ، B ماتریس انتقال و α فاکتور تنزل است .t0 بردار شخصی شده است .سخت ترین قسمت الگوریتم انتخاب مجموعه فرزند است ، روش های متعددی برای این کار استفاده می شود ، یکی از آنها محاسبه رتبه معکوس روی گراف وب به منظور شناسایی سایت هایی است که از تعداد زیادی از سایت های دیگر در دسترس هستند ]۶۸,۶۹[.
الگوریتم Anti-Trustrank:
مقابل TrustRank، انتشار بی اعتمادی از یک مجموعه صفحات هرزنامه شناخته شده روی یک گراف معکوس مورد توجه قرار گرفت. یک مجموعه اولیه بین صفحات با مقادیر رتبه صفحه بالا انتخاب شده است.Anti-TrustRank بر این اساس است که به ندرت اتفاق میافتد صفحهی خوبی به صفحهی بدی اشاره کند. همچنین این اصل میرساند که صفحاتی که به هرزنامهها اشاره دارند خودشان به احتمال زیاد هرزنامه هستند.
الگوریتم Anti–Trust Rank از مجموعه بنیادی صفحات حاوی هرزنامه که به طور دستی برچسبگذاری شده اند، آغاز شده و در جهت معکوس در امتداد پیوندهای ورودی انتشار مییابد. صفحهای را که دارای رتبه ارزش TrustRank بیشتر از ارزش آستانه مشخص شده بود، به عنوان صفحهی حاوی هرزنامه طبقه بندی می شود. اصل تقریبی جداسازی به طور کل ما را قادر به تشخیص صفحات خوب از صفحات نه چندان خوب می کند ]۶۸[.
همچنین ایده انتشار توسط تحلیل این که چگونه استراتژی های گسترش اعتماد و بی اعتمادی میتوانند با هم کار کنند، مورد بررسی قرار گرفته است. اعتماد در الگوریتم TrustRank انتشار یافته است - هر فرزند یک قسمت مساوی از c. اعتماد و درستی پدر را به دست می آورد، دو استراتژی ارائه شده است:
تقسیم پایدار[۵۹]، زمانی که هر فرزند همان قسمت کاهش یافته از امتیاز c.TR(p) درستی پدر را بدون توجه به تعداد فرزندان به دست می آورد.
تقسیم لگاریتمی[۶۰]، زمانی که هر فرزند یک قسمت مساوی از امتیاز پدر را که توسط الگوریتم تعداد فرزندان c.نرمال شده است را به دست می آورد ]۴۳[.
یکیدیگر از استراتژیها، استراتژی تجمیع اعتماد جزیی مختلف است، در حالیکه TrustRankدر واقع مجموع مقادیر اعتماد از هریک از والدین است. به طور خاص، در اینجا استراتژی سهم حداکثر در نظر گرفته شده است، زمانی که مقدار حداکثر ارسال شده توسط والدین، استفاده شده است؛ و استراتژی والد حداکثر، هنگامیکه انتشار انجام شده است برای ضمانت این است که امتیاز فرزند از حداکثر نمره والدین تجاوز نکند. در نهایت، از یک ترکیب خطی از مقادیر اعتماد و بی اعتمادی استفاده می شود ]۴۸[:
TotalScore(p)= η.TR(p) – β . AntiTR(p)
که (۰,۱)?η, β است. براساس آزمایشات انجام شده، ترکیبی ازهردو استراتژی انتشار درتنزل رتبه هرزنامه نتیجه بهتری می دهد(۸۰ درصد ازسایتهای هرزنامه از۱۰ تای بالادرمقایسه TrustRank و PageRank ناپدید میشوند)، سهم حداکثر با تقسیم لگاریتمی (Logarithmic splitting) بهترین راه برای محاسبه مقادیر اعتماد و بی اعتمادی است.
تعدادی از الگوریتمها ویژگی تجزیه رتبه صفحه را مورد استفاده قرار می دهند تا مقدار رتبه صفحه نابجا را که از گرههای مشکوک می آید، برآورد کنند ]۷۰,۷۱[. یکی از این الگوریتم SpamRank است؛ که پشتیبان ها را برای یک صفحه با بهره گرفتن از شبیهسازیهای مونت کارلو مییابد، با تحلیل این که آیا امتیاز رتبه صفحه شخصی PPR()i با بایاس گرههای مشکوک توزیع شده است، یک نمره پنالتی به هر صفحه اختصاص میدهد و در نهایت SpamRank را برای هر صفحه به عنوان یک PPR با بردارهای شخصی مقداردهی اولیه شده با نمره پنالتی محاسبه می کند. ماهیت الگوریتم در اختصاص نمرات پنالتی است. تمام حمایتکننده های یک صفحه را توسط امتیازات رتبه صفحه آنها با بهره گرفتن از ذخیره کردن با افزایش پهنا به طور نمایی، محاسبه همبستگی بین شاخص bin و لگاریتم تعداد دفعات مشاهده شده در bin، و سپس اختصاص امتیاز پنالتی به پشتیبان ها به وسیله مجموع امتیازات صفحاتی که آنها پشتیبانی می کنند،تفکیک میشوند.
مفهوم توده هرزنامه[۶۱] مقدار را که از صفحات هرزنامه می آید اندازه گیری می کند ]۷۲[. مشابه TrustRank به هسته صفحات خوب شناخته شده احتیاج دارد تا مقدار رتبه صفحه را که از صفحه های هرزنامه می آید تخمین بزند. این الگوریتم در دو مرحله کار می کند. ابتدا، بردارهای PageRank و TrustRankرا محاسبه می کند و مقدار توده هرزنامه هر صفحه را با بهره گرفتن از فرمول = محاسبه می کند. سپس، حد آستانه، که به مقدار توده هرزنامه وابسته است، ایجاد می شود. شایان ذکر است که الگوریتم می تواند دانش را در مورد صفحات بد به طور مؤثری به کار ببرد.
الگوریتم دیگری برای تشخیص هرزنامه براساس تحلیل لینک مبتنی بر اعتبار است. در این جا مفهوم k-ScopedCredibility برای هر صفحه تعریف می شود و توسط چندین روش تخمین زده می شود. ابتدا مفهوم BadPath تعریف می شود، یک قدم زدن تصادفی k جهشی[۶۲] با شروع از یک صفحه درست و پایان در یک صفحه هرزنامه، و سپس محاسبه نمره tuned k-Scoped Credibility به صورت زیر [۷۳]:
(۳-۲)
(p) (= (p)
که k پارامتر تعیین کننده طول یک قدم زدن تصادفی است، (p) یک فاکتور منفی اعتبار است که فقط به مقدار دانش جزئی از کل صفحات هرزنامه روی وب نیاز داشته است، و P( =+1. نمره اعتبار می تواند برای پایین آوردن وزن یا هرس کردن لینکهای با اعتبار پایین قبل از رتبه بندی مبتنی بر لینک یا برای تغییر بردار شخصی در PPR، TrustRank، یا Anti-TrustRankاستفاده شود [۷۳].
۳-۳-۲- رتبه بندی تابعی:
کار اصلی به وسیله بایزا-یتز[۶۳] و همکاران انجام شد. آنها مفهوم رتبه بندی تابعی را بیان کردند که تعمیم PageRank به وسیله توابع تعدیل مختلف است ]۷۴[. تحقیقات نشان دادهاند که صفحات هرزنامه باید به تغییرات در ضریب تعدیل محاسبه رتبه صفحه بسیار حساس باشند. یک راه کاهش رتبه صفحات هرزنامه در نظر گرفتن ضریب تعدیلی است که مشارکت مستقیم نخستین سطح از لینکها را حذف می کند.
Damping(t)= ۰ t ≤ T
C t >T
تابع رتبه صفحه تعدیل شده که C یک ثابت نرمالسازی و ضریب تعدیل مورد استفاده برای رتبه صفحه ، t طول مسیرها است. این تابع صفحاتی که سهم بزرگی از رتبه خود را از چند سطح نخست لینکها بدست میآورند جریمه می کند. یک روش خیلی سریع برای محاسبه رتبه صفحه تعدیل شده وجود دارد. با توجه به محاسبه رتبه صفحه، تصاویر لحظهای از مقادیر رتبه صفحه در تکرارهای مختلف را ذخیره کرده و سپس تفاوت را محاسبه کرده و مقادیر نهایی محاسبه رتبه صفحه نرمالسازی می شود. ضرورتاً این بدین معنی است که رتبه صفحه تعدیل شده را میتوان بدون هزینه در حین تکرارهای رتبه صفحه محاسبه نمود.
باید توجه نمود که به تعداد همسایههای غیرمستقیم به تعداد همسایههای مستقیم نیز بستگی دارد، کاهش مشارکت سطح نخست لینکها توسط این روش بدین معنی نیست که چیزی کاملاً متفاوت از رتبه صفحه محاسبه می شود. در واقع، برای بیشتر صفحات، هر دو معیار همبستگی شدیدی با هم دارد. در عمل، مشاهده می شود که برای میزبانهای هرزنامه، رتبه صفحه تعدیل شده کمتر از رتبه صفحه است.
هم چنین محققین از توابع تعدیل عمومی برای کشف هرزنامه استفاده کرده و الگوریتم truncatedPageRank را ارائه داده اند که از مدل نمایی کوتاه شده استفاده می کند ]۷۵[. این الگوریتم بر این اساس است که صفحات هرزنامه تعداد زیادی پشتیبان در فواصل نزدیک دارند، در حالیکه این تعداد کمتر از تعداد مورد انتظار در فواصل بیشتر است. به این دلیل، توابع تعدیل برای آن که سهم مستقیم اولین سطوح از لینکهای داخلی را نادیده بگیرد، استفاده می شود.
damping(j) =
در این روش از یک الگوریتم شمارش استفاده می شود تا تعداد پشتیبانهای یک صفحه به طور مؤثر و کارآمد تخمین زده شود.
۳-۳-۳- الگوریتمهای هرس لینک و وزندهی دوباره
الگوریتمهای متعلق به این طبقه برای یافتن لینکهای نامطمئن و کاهش آنها هستند. کار اصلی انجام شده در این الگوریتمها این است که مشکلات موجود در الگوریتم HITS را مورد بررسی قرار میدهد، مثل تسلط روابط تقویت کننده دو طرفه و انحراف موضوع[۶۴] گراف همسایه، و روشهای پیشنهاد شده راه حلها افزودن یک تحلیل لینک با یک تحلیل محتوا است. یکی از روشها این است که اگر k صفحه از یک سایت وجود داشته باشد که به یک صفحه تنها روی یک سایت دیگر لینک شده است، به هر یال یک وزن معتبر نسبت می دهند و اگر یک صفحه تنها از اولین سایت به l صفحه روی سایت دیگر اشاره کند، وزن قطبیت را نسبت می دهند. برای مقابله در برابر انحراف موضوع، از گسترش پرس و جو به وسیله گرفتن k کلمه بالایی تکرار شونده از هر قسمت ابتدایی صفحه بازیابی شده و هرس کردن مجموعه صفحات کاندید، با در نظر گرفتن ارتباط صفحات به عنوان یک فاکتور در محاسبات HITS استفاده شده است ]۷۶[.
روش دیگر، روشی برای محاسبه میزان اعتبار است که قسمت بردار مشخصه الگوریتم HITS را به روش زیر اصلاح می کند. به جای محاسبه یک بردار مشخصه اصلی A، تمام بردارهای مشخصه ماتریس محاسبه میشوند و سپس بردار مشخصه روی مجموعه ریشه در نظر گرفته می شود (مجموعه ای از صفحاتی که در آغاز توسط کلمات کلیدی موتور جستجو بازیابی شده اند، همانطوری که در HITS است)، سرانجام نمره اعتبار به عنوان اجزا و مؤلفه های مشابه این بردار مشخصه معرفی میشوند ]۷۷ .[
الگوریتم دیگر، الگوریتم SALSA است که مفهوم ارتباط محکم[۶۵] (TKC) را معرفی می کند، که دو قدم زدن تصادفی را برای تخمین اعتبار و نمره قطبیت را برای صفحات در یک زیر گراف ابتدایی بازیابی شده به وسیله جستجوی مبتنی بر کلمه کلیدی، اجرا می کند. زیر گرافهای اصلی و معکوس برای به دست آوردن دو امتیاز مختلف مطرح شده اند ]۷۸[. ادامه این روند شامل ساختار خوشهبندی روی صفحات و الگوهای پیوسته آنها برای پایین آوردن میزان لینکهای بد است ]۷۹[. روش کلیدی شمردن تعداد خوشههای اشارهگر به یک صفحه به جای تعداد گره های انفرادی و تک است. در این مورد اعتبار یک صفحه به صورت رابطه زیر تعریف می شود ]۴۸[:
(۳-۳)
aj=
که= Sik و l(i) یک مجموعه از صفحات لینک شده از صفحه است.
روش دیگر مفهوم لینکهای"neponistic” را معرفی می کند – لینکهایی که به دلایلی بیشتر از حد استحقاق خود قرار میگیرند، برای مثال، لینکهای هادی[۶۶] روی یک وبسایت یا لینکهای بین صفحات در یک مزرعه لینک. سپس الگوریتم C4.5 برای تشخیص لینکهای neponistic با بهره گرفتن از ۷۵ ویژگی باینری مختلف مثل IsSimilarHeaders,IsSimilarHost اجرا میشود. در نهایت پیشنهاد هرس کردن یا کاهش وزن لینکهای neponistic داده می شود ]۸۰[.
۳-۳-۴ - الگوریتمهای مبتنی بر پالایش برچسبها:
ایده پالایش برچسبها در تحقیقات مربوط به یادگیری ماشین برای مسائل طبقه بندی برای مدتی طولانی مورد مطالعه قرار گرفت. در این قسمت الگوریتمی را معرفی میکنیم که این ایده را برای کشف هرزنامه وب اجرا می کند.یکی ازالگوریتمهای این گروه به صورت زیر است ]۴۴ [.
این الگوریتم در دو مرحله کار می کند. ابتدا برچسبها با بهره گرفتن از یک الگوریتم کشف هرزنامه که در]۸۱[ اشاره شده، اختصاص داده میشوند. سپس، در مرحله دوم برچسبها به یکی از سه روش زیر پالایش میشوند. یک روش انجام خوشهبندی گراف وب است. اگر اکثر صفحات موجود در یک خوشه هرزنامه پیش بینی شده باشند، آنگاه تمام صفحات موجود در خوشه را به عنوان هرزنامه مشخص میشوند. پیش بینیهای الگوریتم پایه ]۱,۰[ هستند، سپس مقدار میانگین خوشه محاسبه و با یک حد آستانه مقایسه می شود. همان فرایند برای پیش بینی غیرهرزنامه انجام می شود.
روشهای دیگر پالایش برچسب ها مبتنی بر انتشار با قدم زدن تصادفی است. قسمت مهم، مقداردهی اولیه بردار شخصیسازی در PPR توسط نرمالسازی پیش بینیهای الگوریتم مبنا است: = ، که یک پیش بینی الگوریتم مبنا و مؤلفه بردار متناظر با صفحه p است ]۸۲[.
در نهایت، روش سوم استفاده از یادگیری گرافیکی پشته ای[۶۷] است. این ایده برای گسترش دادن ویژگیهای اصلی یک شی با ویژگی جدید است که یک پیش بینی میانگین برای صفحات وابسته در گراف است و یک الگوریتم یادگیری ماشین را دوباره اجرا می کند و محققین بعد از دو بار یادگیری ۳ درصد بهبود را نتیجه گرفته اند ]۸۳ .[
۳-۴-روش های مبتنی بر محتوا و لینک:
۳-۴-۱- مطالعات مبتنی بر کاهش ویژگی: