تبلیغات
بهار 86 ماهان سورف FellowEquality.com

چهارشنبه 5 تیر 1387 11:06 ق.ظ

نویسنده : اصغر محمدیان
ارسال شده در: عمومی ،
سرویس اخبار شبکه علمی کشور
مقدمه
در سالهای پیشین روزنامه‌ها و رسانه‌هایی مانند رادیو و تلویزیون منبع اصلی پخش اخبار در جوامع مختلف و دنیا بوده است. اما امروزه، با توجه به نیازجوامع به دسترسی به همه اخبار در کوتاه‌ترین زمان ممکن، شبکه جهانی اینترنت مبدل به مهمترین منبع دستیابی به اخبار در سراسر جهان شده است. طولانی بودن فواصل انتشار روزنامه‌ها و محدودیت زمانی در رسانه‌هایی مانند تلوزیون و عدم توانایی آنان در ارائه تمامی اخبار روزانه باعث شده که این رسانه‌ها نتوانند با اینترنت به عنوان یک ابزار اطلاع رسانی کامل برای مصرف کنندگان خبر رقابت کنند.
اما مشکل اینترنت در امر اطلاع رسانی، پراکندگی اطلاعات موجود در شبکه جهانی است. اگرچه تمامی اطلاعات و اخبار موجود در اینترنت از طریق یک پایانه قابل دسترسی هستند، اما پراکندگی اطلاعات در سایتهای مختلف که تعداد آنها بسیار زیاد است، امکان زیر نظر داشتن تمامی اخبار انتشار یافته از مراکز پخش خبر را عملاً غیر ممکن میسازد. با توجه به این نکته، ایجاد یک مرکز تجمع جهت ارائه تمامی اخبار منتشره از سوی خبرگزاریها ، روزنامه‌ و منابع مختلف از اهمیتی خاص برخوردار می‌شود. سرویس اخبار ارائه شده در شبکه علمی کشور با توجه به این نکات طراحی شده است. این سرویس با جمع‌آوری اخبار از منابع مختلف خبری و ارائه آن از طریق یک سایت واحد این امکان را فراهم می‌سازد تا کاربران بتوانند از طریق یک نقطه به تمامی اخبار و اطلاعات خبری منتشره از منابع مختلف دسترسی داشته باشند.

سایت‌های خبری
اغلب خبرگزاریها و رسانه‌های عمومی اقدام به انتشار اخبار از طریق سایت‌های خود می‌کنند. می‌توان گفت که سایت‌های خبری در کنار وبلاگها، نمونه‌های پرکاربرد دسته‌ای از نرم‌افزارهای تولید محتوا در اینترنت موسوم به Content Manager می‌باشند. پروتکل‌هایی برای انتشار اخبار به صورت Web Service وجود دارد که می‌توانند مورد استفاده نرم ‌افزارها و سیستم‌های خودکار قرار گیرد. از جمله این پروتکل‌های می‌توان به RSS، RDF ، Atom و NNTP اشاره کرد که سه پروتکل اول نسخه‌های خاصی از زبان داده‌ای XML می‌باشند. برخی از Content Managerها توانایی ارائه Web Service به صورت خودکار را دارند که این سرویس‌ها می‌توانند مورد استفاده سایر نرم‌افزارها قرار گیرند و برخی از سایت‌ها(از جمله بیشتر سایتهای خبری موجود به زبان فارسی) نیز از ارائه این خدمات امتناع می‌کنند.

Crawler اخبار
Crawler یا خزنده به دسته‌ای از نرم‌افزارها گفته می‌شود که با واکشی صفحات وب می‌تواند داده‌هایی از آنها را استخراج کرده و جهت پردازش‌های بعدی آماده کند. از این تکنیک می‌توان در جهت واکشی و ذخیره سازی اخبار از منابع مختلف و ارائه آنها از طریق یک سایت واحد استفاده کرد. با این دیدگاه Crawler طراحی شده قادر است با استفاده از الگوهای تعریف شده برای هر سایت خبری ، در فواصل زمانی تعیین شده به سایت خبری مورد نظر مراجعه کرده و اخبار جدید را استخراج نماید.

مشخصات سیستم طراحی شده
Crawler طراحی شده به منظور واکشی اخبار در قالب دو زیر سیستم پیاده سازی شده و زیر سیستم سوم، جهت واکشی Content اخبار نیز در مراحل پایانی پیاده سازی قرار دارد. این زیرسیستم‌ها برای محیط سیستم عامل ویندوز با زبان برنامه سازی دلفی پیاده سازی شده است و از Mysql به عنوان موتور بانک اطلاعاتی استفاده می‌کند.

.:. RSS Builder
زیر سیستم اول مورد استفاده در این سیستم ، نرم افزار RSS Builder است. این نرم‌افزار هوشمند با دریافت آدرس صفحات سایتهای خبری و روزنامه‌ها و همچنین ، Pattern توصیف کننده بخش‌های مختلف سایت مذکور و با اعمال الگوریتم‌های مکاشفه‌ای (heuristic) برروی داده‌های متنی اطلاعات موجود در صفحات را در قالب رشته‌های تطبیق پذیر با الگوهای تعریف شده استخراج می‌کند و در قالب استاندارد RSS ذخیره می‌کند. داده‌های تبدیل شده به RSS در این نرم افزار به طور مستقل به عنوان یک سرویس جانبی قابل ارائه است. همچنین این نرم‌افزار از یک الگوریتم هوشمند پردازش زمان بهره می‌برد که قادر است اطلاعات مربوط به زمان انتشار مطالب را در قالب‌ها ، فرمت‌ها و تقویم‌های مختلف (هجری شمسی، میلادی و GMT های مختلف زمانی) استخراج کرده و به تقویم و زمان مبدا تعریف شده در آن (هجری شمسی، تهران) تبدیل کند.
از جمله توانایی‌های دیگر این نرم افزار تولید آدرس‌های دینامیک Content Manger ها می‌باشد. برخی از سایتها از جمله روزنامه‌ها از آدرس‌های دینامیک برای انتشار محتویات خود استفاده می‌کنند که این امر موجب ناممکن شدن پردازش این گونه از سایتها توسط Crawler های متعارف می‌گردد. اما با فراهم آوردن امکان توصیف الگو مورد استفاده در آدرس دینامیک این‌گونه از سایتها با ایجاد یکScript Language خاص این‌گونه از آدرس‌ها، امکان پردازش این دسته از سایت‌ها توسط این Crawler فراهم آمده است.

.:. News Feeder
زیر سیستم دوم مورد استفاده در این سیستم، نرم افزار News Feeder است. این نرم افزار قادر است با دریافت آدرس RSS Feederهای دور و یا نزدیک و با مراجعه ادواری به آنها ، محتوای اطلاعاتی آنها را دریافت و در بانک اطلاعاتی محلی ذخیره کند. از آنجایی که در بسیاری از موارد سایت‌های خبری فارسی اطلاعات خود را در قالب پروتکلهای مرسوم ارائه نمی‌دهند و یا اطلاعات ارائه شده در Web Service های آنها ناکافی و بعضاً دارای اشتباهات گرامری است ، در سیستم فعلی نرم افزار News Feeder اغلب اطلاعات را از زیر سیستم اول دریافت می‌کند تا سایتهای ارائه دهنده اخبار. این نرم افزار در حال حاضر پروتکل‌های RSS v1.0 ، RSS v2.0 و RDF را پشتیبانی می‌کند.

.:. Content Fetcher
زیر سیستم در حال پیاده سازی Content Fetcher نرم افزار مستقلی است که با دریافت آدرس های اینترنتی از یک بانک اطلاعاتی و در اختیار داشتن الگوهای تعریف شده برای هر سایت خبری ، محتوای اطلاعاتی آنها را استخراج کرده و مجدداً در بانک اطلاعاتی ذخیره می‌کند. توجه به این نکته ضروری است که صفحات تولید شده توسط Content Manager ها ممکن است به دو صورت محتوای اطلاعات را در اختیار بگذارند. در برخی موارد (مانند سایت‌های روزنامه‌ها) عنوان و محتوای اخبار در قالب یک صفحه واحد ارائه می‌شوند که در این حالت نرم افزار RSS Builder با ارائه Pattern مناسب قادر به استخراج مستقیم محتوای اطلاعات می‌باشد. در حالت دیگر، سایت‌های خبری ممکن است در صفحات خود عنوان و آدرس خبر را ارائه دهند و در محتوای اخبار از طریق آن آدرس، در اختیار قرار گیرد. در این حالت نرم‌افزارContent Fetcher می‌تواند با دریافت آدرس‌ها از یک بانک اطلاعاتی و الگوهای مرتبط ، محتوای اخبار را استخراج کند. با توجه به تعداد زیاد اخبار منتشره از سوی منابع مختلف، لازم است که واکشی و ذخیره سازی محتویات خبری به صورت موازی انجام شود.به این لحاظ الگوریتم طراحی شده در این زیر سیستم الزاماً باید از روش‌های موازی سازی استفاده کند.
WEB Interface
اینترفیس ایجاد شده برای News Crawler شبکه علمی کشور، یک وب سایت ساده و کم حجم در آدرس http://akhbar.iranscience.net میباشد. در صفحه اصلی این سایت، آخرین 10 خبر دریافتی براساس طبقه بندیهای مختلف گنجانده شده است. در منوی اصلی سایت، دسته بندی موضوعی اخبار قرار دارد که با کلیک بر روی هر موضوع، آخرین 200 خبر در ارتباط با آن موضوع در دو صفحه برای کاربر نمایش داده می شود. بدلیل بروزرسانی مداوم اطلاعات کلیه صفحات سایت بطور خودکار و هر 5 دقیقه یکبار بهنگام (Refresh) می شوند. همچنین برای دسترسی به اخبار یک مرکز خاص اعم از خبرگزاری، روزنامه و یا سایت اطلاع رسانی، اخبار هریک از این مراکز به تفکیک و از طریق کلیک بر نام آنها قابل دستیابی میباشد.
علاوه بر این جهت جلوگیری از اتلاف وقت کاربر و نیز دسترسی به اخبار آرشیوی، امکان جستجو در عناوین خبری نیز در این سایت قرار داده شده است. این سایت با تکنولوژی PHP پیاده سازی شده است و دو سرور (یکی ویندوزی و دیگری لینوکسی) جهت راه اندازی آن بکار گرفته شده است.

سایت‌های تحت پوشش
در حال حاضر اخبار از 22 منبع خبری شامل 16 خبرگزاری و سایت خبری و 6 روزنامه توسط Crawler طراحی شده، واکشی می‌شوند. با استخراج الگوهای بیشتر از سایتهای خبری بزودی سایتهای تحت پوشش این پروژه افزایش می‌یابد. در عین حال با ارتقاء زیر سیستم‌هایRSS Builder و News Feeder به الگوریتم‌های پردازش موازی امکان کاهش بازه‌های زمانی رجوع به منابع بوجود خواهد آمد. سایتهای تحت پوشش این پروژه در حال حاضر عبارتند از :

خبرگزاریها 

خبرگزاری دانشجویان ایران (ایسنا)http://isna.ir
خبرگزاری جمهوری اسلامی ایران (ایرنا)http://www.irna.ir
خبرگزاری فناوری اطلاعات (ایتنا)http://www.itna.ir
خبرگزاری کار ایران (ایلنا)http://www.ilna.ir
خبرگزاری ورزشی ایران(ایپنا)http://www.ipna. info
خبرگزاری جامعه جوانان ایرانی (سینا)http://syna.ir
خبرگزاری موجhttp://www.mojnews.com
خبرگزاری بازتابhttp://www.baztab.com
خبرگزاری فارسhttp://www.farsnews.com
خبرگزاری مهرhttp://www.mehrnews.com
خبرگزاری شریفhttp://sharifnews.com
واحد مرکزی خبرhttp://www.iribnews.ir


سایتهای خبری

سایت خبری آی تی ایرانhttp://itiran.com
سایت خبری همکاران سیستمhttp://www.systemgroup.net
سایت خبری باشگاه خبرنگاران جوانhttp://www.yjconline.com
سایت خبری شبكه فن‌آوری اطلاعات ایرانhttp://www.iritn.com


مطبوعات

روزنامه ایرانhttp://www.iraninstitute.com
روزنامه شرقhttp://www.sharghnewspaper.com
روزنامه همشهریhttp://www.hamshahri.org
روزنامه جام جمhttp://www.jamejamdaily.com
روزنامه هموطن سلامhttp://www.hamvatansalam.com
روزنامه عصر ارتباطhttp://www.ictnews.i



دیدگاه ها : () 




آخرین ویرایش: - -

FellowEquality.com

foot pain bottom of feet
دوشنبه 12 تیر 1396 08:41 ب.ظ
Hello there, You have performed an incredible job. I will definitely digg
it and for my part recommend to my friends. I am sure they will be benefited from this
website.
foot pain after pregnancy
یکشنبه 4 تیر 1396 01:43 ب.ظ
Loving the information on this website, you have done
great job on the blog posts.
http://belindamcclure1.soup.io/post/595013701/Hammer-Toes-What-Causes-Them
یکشنبه 31 اردیبهشت 1396 09:43 ب.ظ
Hey, I think your site might be having browser compatibility issues.
When I look at your website in Firefox, it looks fine but when opening in Internet
Explorer, it has some overlapping. I just wanted to
give you a quick heads up! Other then that, very good blog!
Aubrey
سه شنبه 19 اردیبهشت 1396 07:29 ق.ظ
As the admin of this web page is working, no doubt very soon it
will be famous, due to its feature contents.
BHW
پنجشنبه 31 فروردین 1396 10:43 ب.ظ
I go to see day-to-day some blogs and websites to read content, except this website gives feature based articles.
sadegh
دوشنبه 24 تیر 1387 09:07 ق.ظ
سلام دوست عزیز
شما می توانید لینك باكس ما را در هر اندازه ای كه بخواهید در وبلاگ خود قرار دهید تا لینكتان را ثبت كنید و آمار سایتتان بالا رود لینك های ما همگی ثابت هستند و در صفحه اصلی قرار دارند برای همیشه
به دلیل عدم استفاده از بنرهای تبلیغاتی در لینك باكس سرعت لینك باكس ما نسبت به سایر لینك باكس ها بالاتر است واین باعث می شود كه وب سایت شما دچار مشكل نشود
توجه داشته باشید كه ثبت لینك در سایت های پربازدیدكننده رتبه شما را در موتورهای جستوجو بالا می برد
http://sadegh.mihanblog.com
بای
 
لبخندناراحتچشمک
نیشخندبغلسوال
قلبخجالتزبان
ماچتعجبعصبانی
عینکشیطانگریه
خندهقهقههخداحافظ
سبزقهرهورا
دستگلتفکر