کلمه[۱۳۸]ی منحصر به فرد امین مولفه در امین سند از یک توزیع چند جملهای[۱۳۹] با پارامتر پیروی میکند:
(۳-۵)
کلمات منحصر به فردی که در عنوان ام قرار دارند از یک توزیع دیریکله با پارامتر تبعیت میکنند:
(۳-۶)
توزیع اسناد موجود در مجموعه اسناد[۱۴۰] از یک توزیع دیریکله با پارامتر تبعیت میکنند:
(۳-۷)
یکی از راههای استفاده از LDA یرای یادگیری نمایش عناوین هر سند و کلمات منتسب به هر عنوان روش “نمونه گیری گیبس[۱۴۱]” است. این روش با یک بیان خیلی ساده به گونه زیر عمل میکند:
با حرکت روی هر سند، کلمات آن را به صورت تصافی[۱۴۲] به یکی ازعنوان در نظر گرفته شده انتساب میدهد. با این انتساب تصادفی نمایش عناوین همه اسناد و توزیع کلمات هر عنوان به صورت ابتدایی ارائه می شود.
برای بهبود خروجی مرحله قبل و نزدیک شدن به جواب واقعی، روی هر سند حرکت میکند.
( اینجا فقط تکه ای از متن فایل پایان نامه درج شده است. برای خرید متن کامل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. )
برای هر کلمه در :
برای هر عنوان دو چیز را محاسبه می کند:
که برابر است با نسبت کلمات در سند که در حال حاظر به عنوان منتسب شده اند.
که برابر است با نسبت کلمات در تمام اسناد که به عنوان منتسب شده اند.
به یک عنوان جدید منتسب می شود و جدید از احتمال بدست می آید. یعنی احتمال تولید کلمهی توسط .
بعد از تکرار مراحل قبل به تعداد خیلی زیاد، الگوریتم به یک حالت دائمی[۱۴۳] میرسد و عناوین هر سند و کلمات منتسب به هر عنوان ارائه می شود.
روش پیشنهادی
بر اساس آنچه در بالا شرح داده شد، اکنون الگوریتم ارائه شده را به طور کامل شرح میدهیم.
روش CDBLC[144]
در این پژوهش، برای کشف تشکل های پنهان، یک مدل تولیدی به نام CDBLC ارائه کرده ایم که به معنی شناسایی تشکل های پنهان بر اساس لینک و محتوا است. این روش سعی میکند در شبکه های اجتماعی تشکلهایی راکشف کند که از نظر مفهومی[۱۴۵] نیز معنادار باشند و برای رسیدن به این هدف هم از لینک های موجود در گراف شبکه استفاده می کند هم از محتوای عناوین در اسناد شیکهی اجتماعی.
فرض ابتدایی ما این است که عناوین یک سند در شبکه اجتماعی، از ترکیب عناوین تشکلی که سند مذکور در آن قرار دارد مشتق می شود، همچنین افرادی که با این سند در ارتباط هستند در زمینه کاری موجود در تشکل فعالیت دارند.
شکل (۳-۳) نحوه پردازش داده ها را در CDBLC نشان میدهد. برای درک بهتر موضوع، هم زمان با توضیح الگوریتم یک مثال شکلی نیز ارائه میکنیم.
شکل۳-۳- روند کشف تشکلهای پنهان در CDBLC
در این مدل، ابتدا تشکل های ابتدایی بر اساس روش مبتنی بر لینک SBM شناسایی میشوند. این تشکل های کشف شده به عنوان نقطه شروع برای فاز دوم مورد استفاده قرار میگیرند. شکل (۳-۴) ساختار مبتنی بر لینک شبکه مورد استفاده برای مثال است.
شکل ۳-۴- گراف مبتنی بر لینک برای شبکه مثال.
دایرههای آبی نشان دهنده گرهها و خطوط آبی نشان دهنده لینک بین گرهها است.
شکل (۳-۵) نشان میدهد SBM پس از اعمال روی شبکه گراف با ساختار لینک، محل هایی که تراکم ارتباطات زیاد است را به عنوان تشکل در نظر میگیرد.
شکل ۳-۵- اعمال روش SBM بر روی گراف شبکه.