TitleDescriptionKeywordsGeneratorRobots

 

موتور جستجوی هوشمند اخبار

موتور گردآوری و جستجوگر تیتراخبار

افزایش روزافزون وب سایتهای خبری و پوشش حداکثری رویدادهای روز توسط این وب سایت ها امکان مشاهده همه آنها را از کاربر سلب می کند. در گذشته اخبار بیشتر از شکل مکتوب و روزنامه ها انتقال پیدا می کرد، اما در دنیای امروز، روزنامه ها اخبار دیروز را چاپ می کنند و برای آگاهی از اخبار لحظه ای دنیا اینترنت بهترین ابزار است. سازمانهای مختلف با توجه به نوع فعالیت، نیازمند آگاهی از اخبار مرتبط با حوزه ی کاری خود هستند. به همین دلیل در گذشته بریدن بخش های مرتبط به سازمان از جراید یکی از کارهای معمول به خصوص در روابط عمومی سازمانها بوده است. امروزه عمل بریدن و انتخاب خبر مرتبط با سازمان توسط نرم افزار و از روی منابع اینترنتی انجام می گردد.

نرم افزار تیتراخبار با استفاده از خزشگر قدرتمند و بهره گیری از الگوریتم های هوشمند امکان گردآوری اخبار در سطح وسیع از وب سایتهای خبری فارسی را دارد. در ادامه امکانات نرم افزار شرح داده شده است.

 

نمایی از صفحه اول نرم افزار 

 

امکانات نرم افزار گردآوری اخبار

  • تعریف منابع خبری در سه دسته خبرگزاری، سایت خبری تحلیلی و دستگاه دولتی(این امکان برای سازمان­های دولتی و برای سایت­هایی که قانون جرائم ­رایانه­ای را رعایت کنند قابل ارائه است.)
  • امکان دریافت خبر از انواع منابع RSS و ATOM
  • امکان استخراج خبر از سایت­های خبری بدون نیاز به RSS و ATOM
  • امکان استخراج متن کامل خبر از بیشتر وب سایت­ها بدون نیاز به تعریف تگ­ها
  • امکان استخراج عکس­های خبر با کمترین میزان تعریف تگ
  • کند و تند شدن خودکار نرخ بازبینی سایت­های خبری با توجه به دسته­ی سایت و ساعت در شبانه روز به طوری که هیچ یک از خبرها از روی خبرگزاری خارج نشود
  • ذخیره­ی طولانی مدت اخبار
  • گروه­بندی اخبار در گروه­های سیاسی داخلی، سیاسی خارجی، اجتماعی، ورزشی، اقتصادی، علم و تکنولوژی ، فرهنگی و هنری به شکل خودکار
  • تعریف گروه­های کوچک­تر به شکل زیر مجموعه­ی گروه­های اصلی
  • جستجو در عنوان و متن کامل اخبار
  • جستجوی هوشمند در عنوان­های خبری
  • ساخت بولتن
  • تعریف کلمه کلیدی توسط کاربر و نمایش اخبار مرتبط با کلمات کلیدی

اخبار دارای کلمه کلیدی

 

  • ارسال اخبار مرتبط با کلمات کلیدی به کاربر توسط ایمیل در زمان­های مشخص
  • یادگیری علاقه­ی کاربر به موضوعات مختلف به شکل هوشمند و نمایش اخبار مرتبط با علاقه ­مندی

 خبار بر اساس علاقه­ی کاربر

 

  • ارسال اخبار مرتبط با علاقه­مندی کاربر در زمان­های مشخص توسط ایمیل
  • دسترسی به تیتر اخبار برای همه بازدیدکنندگان
  • تعریف اعضاء در 4 سطح
    • عضو رایگان: با بازدید کننده­ی معمولی تفاوتی ندارد، کاربرانی که از عضویت­های بالاتر استفاده می­کنند زمانی که عضویت آنها به پایان می­رسد به این سطح تنزل پیدا می­کنند. تنها مزیت این عضو به نسبت بازدیدکننده معمولی امکان مشاهده متن اخبار بدون نیاز به بازبینی سایت اصلی است.
    • مشاهده متن کامل در نرم­افزار بدون نیاز به مراجعه به سایت اصلی

  • عضویت برنزی: امکان تعریف کلمه کلیدی و یا طبقه­بندی برای هر گروه
    • عضویت نقره­ای: امکانات گروه برنزی با تعداد بیشتر به علاوه دریافت ایمیل و تعریف طبقه­بندی برای همه گروه­ها
    • عضویت طلایی: همه امکانات گروه نقره­ای را با تعداد بیشتر دارا است.
  • API های مختلف برای دسترسی توسط دستگاه­های همراه
  • امکان چاپ اخبار

 

 امکان چاپ اخبار

 

ساختار کلی نرم­ افزار

تیتراخبار از نرم­افزارهای مختلفی تشکیل شده است. این نرم­افزارها به شکل سیستمی یکپارچه عمل نموده و در نهایت آن چیزی که در وب مشخص است را به کاربر ارائه می­دهند. در ادامه فهرست نرم­افزارها و بخش­های مختلف آمده است.

خزشگر

خزشگر مسئولیت دریافت همه­ی اطلاعات مورد نیاز از اینترنت را بر عهده دارد. خزشگر تمام اطلاعات دریافتی را نیز پردازش کرده تا امکان استفاده از اطلاعات عملیات داده کاوی نیز فراهم باشد. نرم­افزار خزشگر به شکل ویندوزی اجرا و توسط زبان C# در دات­نت نسخه 4 تهیه شده است.

نمایی از نرم افزار خزشگر

خزشگر با توجه به اطلاعاتی که از کاربر برای منابع دریافت کرده است به شکل multithread شروع به دریافت اخبار می­کند. میزان threadهای دریافت و پردازش اطلاعات با توجه به تعداد منابع مهم است.

اخبار طی چند مرحله دریافت می­شوند، اگر منبع خبری به شکل XML باشد تیتراخبار و لینک آن به راحتی استخراج شده و باتوجه به لینک، صفحه اصلی آن از اینترنت دریافت می­شود. پس از دریافت صفحه­ی اصلی با استفاده از الگوریتم­های پردازش متن، متن اصلی خبر استخراج می­گردد. در صورت تعریف الگوی تصویر، تصویر مربوطه نیز استخراج شده و به همراه متن خبر ذخیره می­گردد. خزشگر می­تواند به طور خودکار گروه خبری (اقتصادی، سیاسی و ... ) را انتخاب کند یا اینکه کاربر هنگام تعریف منبع نوع آن را مشخص کرده باشد. پس از ذخیره متن خام خبر، با استفاده از الگوریتم­های داده­کاوی عنوان خبر تجزیه و تحلیل می­گردد. خروجی الگوریتم­ها نیز ذخیره شده تا بعداً برای جستجو استفاده شود.

برای منابعی که به شکل XML نیستند (RSS یا ATOM نیست)، کاربر از سه روش می­تواند استفاده کند. مشخص کردن الگوی لینکهای خبر، مشخص کردن الگوی لینکهای غیر خبری یا بر عهده خزشگر بگذارد. در حالتی که الگو مشخص می­شود، کاربر می­بایست شمای کلی از لینکهای آن منبع را برای اخبار به خزشگر بدهد، این الگو می­تواند برای لینک­های خبری یا غیر خبری باشد. اشکال این روش زمانی مشخص می­شود که تعداد منابع خیلی زیاد است و کاربر نمی­تواند صحت الگوها را همیشه مشخص کند. برای حل این مشکل الگوریتم دیگری ابداع شد که لینکهای خبری را به شکل خودکار از متن صفحه اصلی سایت استخراج می­کند. در این حالت عنوان­های خبر، لینک و به دنباله­ی آن، متن کامل به شکل خودکار استخراج می­گردد.

 

کاربر می­تواند در هنگام تعریف منبع مشخص کند که نیازی به متن اصلی خبر نیست و در چنین حالتی دیگر اصل صفحه دریافت نمی­گردد.

خزشگر نیاز به دید مستقیم مسیر ذخیره سازی تصاویر و همچنین دسترسی پر سرعت به SQL Server و در صورت امکان روی کارت شبکه­ی دیگری به اینترنت دارد.

پنل مدیریت

پنل مدیریت نرم­افزاری تحت وب و با تکنولوژی ASP.NET WebForms برای کنترل همه­ی منابع خبری است. در این بخش مدیر سیستم می­تواند کنترل­های زیر را اعمال کند.

  1. تعریف خبرگزاری­ها و لینکهای منبع هر کدام

 

تعریف و ویرایش سایتهای اصلی

تعریف و ویرایش منابع هر کدام از سایتهای اصلی

ابزار کنترل صحت RSS و ATOM

 

پیامهای مربوط به وب سایت شامل:

  • عضو جدید
  • تعویض رمز عبور
  • درباره ما
  • حریم کاربران
  • تماس با ما
  • تایید مالی
  • پایان اعتبار

 

دیگر بخشها شامل:

  1. لاگ خطاها
  2. تایید اعضا و مالی
  3. آزمایش صحت کارکرد الگوریتم­ها بر روی وب سایتها
  4. مشاهده بازدید خبرها
  5. مشاهده تعداد خبرگزاری­ها و یا سایتهای خبری در هر thread

وب سایت قابل مشاهده توسط کاربر

خروجی همه­ی اطلاعاتی که توسط خزشگر دریافت می­شود در وب سایت اصلی نمایش داده خواهد شد. این وب سایت گروه­های مختلف خبر (سیاسی، اجتماعی و ... ) را جداگانه پوشش داده و در صفحه­های مختلف همه­ی اطلاعات را نمایش می­دهد. صفحه اصلی آخرین اخبار دارای تصویر از هر گروه، آخرین اخبار وارد شده و اخبار پربازدید 24 ساعت گذشته را نمایش می­دهد.

 

صفحه اصلی

صفحه علم و تکنولوژی

 کاربر پس از ورود به سایت و کلیک بر روی لینک­ها علاقه­ی خود را به سیستم آموزش می­دهد. پس از مدتی که سیستم علاقه­ی کاربر را آموزش دید در قسمت آخرین اخبار بر اساس علاقه آنها را نمایش می­دهد. مرتب سازی این اخبار بر اساس امتیاز و تاریخ است.

  اخبار مورد علاقه

کاربر امکان تعریف کلمه­ی کلیدی را داشته و پس از تعریف می­تواند آخرین اخبار را بر اساس کلمه­های کلیدی وارد شده مشاهده کند.

 

تعریف کلمه­های کلیدی

 

مشاهده­ی اخبار بر اساس کلمه­های کلیدی

امکان تعریف طبقه­بندی­های مختلف زیر مجموعه­ی گروه­های اصلی وجود دارد. کاربر شرحی از اطلاعات مورد نیاز به فارسی وارد کرده و سپس طبقه بندی را می­سازد. با استفاده از الگوریتم­های هوشمند اخبار مناسب با شرح وارد شده بر اساس امتیاز و تاریخ مرتب سازی و نمایش داده می­شود.

 

طبقه بورس زیر مجموعه­ی اقتصادی

اعضا بدون نیاز به مشاهده سایت اصلی می­توانند متن خبر را مشاهده کنند. این عملیات با استفاده از کلیک بر روی  در انتهای هر خبر انجام می­شود.

مشاهده متن کامل خبر

جستجو به چند شکل و در زمان بندی های مختلف قابل اجراست. جستجوی هوشمند وابسته به یک شکل ظاهری کلمه نیست و نتایج را بر اساس امتیاز آن مرتب سازی می­کند. البته جستجوی هوشمند برای عبارت های چند کلمه­ای مناسب­تر است.

 جستجوی کلیدواژه ای

 تعداد عنوانهای خبری هر روز نیز در سایت نمایش داده می­شود.

 

جستجوی هوشمند

تعداد عنوانهای خبری هر روز نیز در سایت نمایش داده می­شود.

APIهای در دسترس برای دستگاه­ها

با توجه به اینکه امروزه ابزارهای همراه مانند تلفن همراه و تبلت ها همه گیر شده اند، اکثر سرویس های اینترنتی بخشی از سرویس خود را به این ابزار و لوازم اختصاص داده اند. این سرویس ها معمولا یا به شکل مستقیم نرم افزار برای لوازم موبایل تولید می کنند و یا با در اختیار گذاشتن API امکان استفاده از امکانات سرویس را در لوازم مختلف فراهم می کنند.

در سرویس تیتراخبار سرویس API برای همین موارد تولید شد. این سرویس با استفاده از زبان C# و تکنولوژی WebAPI تولید شده است. این تکنولوژی امکان استفاده از سرویس را در پلاتفرم های مختلف فراهم می کند. API به شکل REST پیاده سازی شده است و خروجی اطلاعات به دو شکل JSON و XML تولید می شود. این API با استفاده از کتابخانه های نرم افزاری معمول در iOS و Android به سادگی قابل استفاده است.

سخت افزار و نرم افزار مورد نیاز

سرور مورد نیاز برای این نرم­افزار با توجه به تعداد کاربر و تعداد منابع تعیین می­شود. حداقل 16 گیگابایت رم و تعداد 16 هسته سی­پی­یو برای راه­اندازی و زیر بار بردن نیاز است. با چنین سخت افزاری می­توان روزانه حدود 12هزار خبر را از حدود 400 لینک منبع دریافت، ذخیره و اندیس سازی کرد. هارد دیسک­های سرور به علت تراکنش­های بسیار زیاد می­بایست 15هزار دور در دقیقه باشند. فضای هارد دیسک­ها نیز با توجه به تعداد منابع، تعداد خبرها، عکسها و ذخیره متن کامل تعیین می­شود. برای حدود 2 میلیون خبر به همراه متن کامل 50 گیگابایت فضای SQL Server و برای 700هزار تصویر در ابعاد اصلی 60 گیگابایت فضای هارد دیسک مصرف می­شود.

نرم­افزارهای مورد نیاز برای اجرای سیستم تیتراخبار  Windows Server 2008 R2 و SQL Server 2008 R2 و IIS به همراه دات نت 4 می­باشد.