اگر امروز از «چت‌جی‌پی‌تی» (ChatGPT)، «جمینی» (Gemini) یا هر مدل زبانی بزرگ دیگری سوال بپرسید، پاسخ آن‌ها در واقع بر شانه‌های میلیون‌ها صفحه متنی ایستاده است که در وب منتشر شده‌اند. در میان تمام این منابع، «ویکی‌پدیا» (Wikipedia) یکی از مهم‌ترین و تاثیرگذارترین آن‌ها در آموزش مدل‌های هوش‌مصنوعی است؛ هم به خاطر حجم داده، هم کیفیت نسبی محتوا و هم مجوز باز استفاده.
به همین دلیل، نقش ویکی‌پدیا در آموزش مدل‌های هوش مصنوعی امروز به یکی از موضوعات کلیدی در بحث‌های فنی و اخلاقی پیرامون هوش‌مصنوعی تبدیل شده است.

مدل‌های زبانی بزرگ یا LLMها (Large Language Models) مثل «جی‌پی‌تی-۳» (GPT-3) روی میلیاردها کلمه متن آموزش می‌بینند و برای این کار به مجموعه‌داده‌های عظیم و ساختارمند نیاز دارند. پژوهش‌ها نشان می‌دهد که ویکی‌پدیا، در کنار کتاب‌ها و اخبار، جزو ارکان اصلی این مجموعه‌داده‌هاست و به صورت مستقیم روی کیفیت، دقت و حتی سوگیری این مدل‌ها تاثیر می‌گذارد.

در عین حال، استفاده گسترده از ویکی‌پدیا برای آموزش مدل‌های هوش‌مصنوعی پرسش‌های جدیدی درباره پایداری این دانشنامه، حقوق مشارکت‌کنندگان انسانی، شفافیت و نسبت دادن منبع ایجاد کرده است.

ویکی‌پدیا به عنوان ستون فقرات داده در مدل‌های هوش‌مصنوعی

نخستین دلیل پررنگ بودن نقش ویکی‌پدیا در آموزش مدل‌های هوش مصنوعی، ماهیت باز و ساختارمند آن است. ویکی‌پدیا میلیون‌ها مقاله در زمینه‌های مختلف دارد که با فرمت نسبتاً استاندارد، بخش‌بندی مشخص، پیوندهای درون‌متنی و منابع شفاف منتشر شده‌اند. این ویژگی‌ها آن را به منبعی ایده‌آل برای الگوریتم‌های یادگیری‌ماشینی تبدیل می‌کند.

از دید یک مدل زبانی، هر صفحه ویکی‌پدیا یک نمونه آموزشی طولانی و غنی است که در آن تعاریف، مثال‌ها و توضیحات به‌هم پیوسته در کنار هم قرار گرفته‌اند. این ساختار به مدل کمک می‌کند تا هم معنای واژه‌ها را بهتر درک کند، هم رابطه بین مفاهیم را یاد بگیرد و هم نحوه نوشتن متن منسجم و دانشنامه‌ای را بیاموزد.

از طرف دیگر، مجوزهای باز ویکی‌پدیا (مانند CC BY-SA) استفاده از این محتوا را برای پژوهشگران و شرکت‌ها ممکن می‌کند؛ البته به شرط رعایت انتساب و اشتراک‌گذاری مشابه. باز بودن مجوزها، هزینه حقوقی استفاده از داده را کاهش می‌دهد و به همین دلیل بسیاری از مجموعه‌داده‌های مشهور آموزش مدل‌های زبانی، نسخه‌ای از ویکی‌پدیا را در خود دارند.

ابعاد مختلف نقش ویکی‌پدیا در آموزش مدل‌های هوش مصنوعی

نقش ویکی‌پدیا در آموزش مدل‌های هوش مصنوعی را می‌توان در چند بعد اصلی بررسی کرد: حجم و پوشش داده، کیفیت و به‌روزبودن محتوا، ساختار لینک‌ها و چندزبانه بودن. هر کدام از این ابعاد، بخشی از توانمندی‌های مدل را شکل می‌دهند؛ از درک مفاهیم عمومی گرفته تا پاسخ به سوالات تخصصی.

مطالعات نشان می‌دهد که در برخی مدل‌ها مانند «جی‌پی‌تی-۳»، چند درصد قابل‌توجه از کل توکن‌های آموزشی از ویکی‌پدیا آمده است و این سهم، با توجه به کیفیت داده، تاثیر زیادی بر خروجی مدل دارد. در مصاحبه‌ها و پژوهش‌های مستقل نیز تاکید شده که ویکی‌پدیا بخش مرکزی دیتاست مدل‌های محبوبی مثل ChatGPT و Gemini است.

حجم و پوشش گسترده دانش در ویکی‌پدیا

یکی از مهم‌ترین مزیت‌های ویکی‌پدیا، حجم عظیم و پوشش تقریباً سراسری آن از موضوعات مختلف است؛ از تاریخ و جغرافیا گرفته تا علوم‌پایه، فناوری، زندگی‌نامه‌ها و فرهنگ عامه. این تنوع، داده‌ای «متوازن‌تر» نسبت به بسیاری از منابع تخصصی برای مدل فراهم می‌کند و کمک می‌کند مدل در طیف وسیعی از موضوعات پاسخ‌گو باشد.

برای مدل‌های زبانی بزرگ که باید در نقش یک دستیار عمومی ظاهر شوند، توانایی پاسخ‌گویی به سوالات گسترده و عمومی حیاتی است. در اینجا محتوای عمومی و در عین حال نسبتاً دقیق ویکی‌پدیا، به مدل کمک می‌کند تا حداقل یک سطح پایه از دانش عمومی قابل قبول داشته باشد.

ساختار پیوندها و داده‌های ساختاریافته

یکی دیگر از جنبه‌های مهم نقش ویکی‌پدیا در آموزش مدل‌های هوش مصنوعی، ساختار لینک‌ها و داده‌های ساختاریافته است. پیوندهای داخلی، الگوها و جعبه‌های اطلاعات (infobox) در صفحات، زمینه‌ای برای یادگیری روابط بین موجودیت‌ها مثل افراد، سازمان‌ها، مکان‌ها و رویدادها فراهم می‌کنند.

علاوه بر خود ویکی‌پدیا، پروژه‌های مرتبط مثل «ویکی‌دیتا» (Wikidata) و مجموعه‌داده‌هایی مانند Wiki-Quantities و Wiki-Measurements نیز برای آموزش مدل‌هایی که باید با اعداد و کمیت‌ها کار کنند، استفاده می‌شوند. این داده‌ها امکان می‌دهند که مدل، علاوه بر متن آزاد، نوعی فهم ساختاری از جهان هم به دست آورد.

تاثیر کیفیت و به‌روزبودن ویکی‌پدیا بر عملکرد مدل‌های زبانی

کیفیت داده، یکی از مهم‌ترین عوامل در عملکرد مدل‌های هوش‌مصنوعی است. پژوهش‌ها نشان داده‌اند که ویکی‌پدیا به خاطر سازوکار داوطلبانه و بازبینی همتایان، از نظر نگارشی و دقت نسبی، در مقایسه با بسیاری از منابع وب وضعیت بهتری دارد و همین موضوع آن را برای آموزش مدل‌ها جذاب‌تر می‌کند.

از سوی دیگر، ویکی‌پدیا به سرعت نسبت به رویدادهای جدید به‌روزرسانی می‌شود. این ویژگی کمک می‌کند مدل‌ها، حتی اگر با تاخیر، تصویری نسبتاً به‌روز از جهان به دست آورند. برخی پژوهش‌ها حتی روی این تمرکز کرده‌اند که تا چه حد مدل‌ها اطلاعات «قدیمی» ویکی‌پدیا را بازتولید می‌کنند و چطور می‌توان این مشکل را کاهش داد.

چالش خطاها و سوگیری در داده‌های باز

با وجود تمام مزایا، ویکی‌پدیا بی‌نقص نیست. خطاهای انسانی، سوگیری‌های فرهنگی و جنسیتی، کم‌بودن پوشش برخی زبان‌ها یا مناطق جغرافیایی و مقالات ناقص، همه می‌توانند مستقیماً به مدل منتقل شوند و در پاسخ‌ها بازتاب پیدا کنند.

برای کاهش این مشکل، پژوهشگران معمولاً ویکی‌پدیا را قبل از استفاده در مدل، پیش‌پردازش می‌کنند؛ برای مثال: حذف بخش‌های کم‌کیفیت، فیلتر کردن تخریب‌ها، و گاهی وزن‌دهی بیشتر به زبان‌ها یا موضوعاتی که کیفیت بهتری دارند. با این حال، ریشه بسیاری از سوگیری‌ها در خود داده است و بدون اصلاح محتوا، اصلاح کامل مدل دشوار خواهد بود.

نقش جامعه داوطلبان در بهبود داده آموزشی

تفاوت مهم ویکی‌پدیا با بسیاری از منابع دیگر این است که پشت آن یک جامعه داوطلب جهانی قرار دارد. این جامعه مدام در حال ویرایش، تکمیل و بهبود مقالات است و همین کار، به صورت غیرمستقیم، کیفیت داده آموزشی مدل‌ها را هم بهبود می‌دهد.

در زبان فارسی هم وضعیت مشابه است؛ هرچه مشارکت در «ویکی‌پدیای فارسی» بیشتر و کیفیت مقالات بالاتر باشد، در نسل‌های بعدی مدل‌های زبانی، شانس بیشتری داریم که پاسخ‌های دقیق‌تر و عادلانه‌تری درباره موضوعات ایرانی و فارسی دریافت کنیم. در نتیجه، مشارکت در ویکی‌پدیا نه فقط یک فعالیت فرهنگی، بلکه نوعی سرمایه‌گذاری داده‌ای برای آینده هوش‌مصنوعی است.

مخاطرات و چالش‌های وابستگی شدید هوش‌مصنوعی به ویکی‌پدیا

هرچقدر نقش ویکی‌پدیا در آموزش مدل‌های هوش مصنوعی پررنگ‌تر شود، پرسش‌هایی درباره پایداری این دانشنامه، حقوق مشارکت‌کنندگان و عدالت داده‌ای مطرح می‌شود. تحقیقات اخیر نشان می‌دهد که وابستگی مدل‌ها به ویکی‌پدیا می‌تواند در بلندمدت روی رفتار کاربران، اقتصاد و حتی حیات خود پروژه اثر بگذارد.

از یک سو، ربات‌های خزنده شرکت‌های هوش‌مصنوعی فشار زیادی به سرورهای ویکی‌پدیا وارد می‌کنند و هزینه زیرساخت را بالا می‌برند؛ در حالی که این پروژه عمدتاً از کمک‌های خرد مردمی و داوطلبان زنده می‌ماند. از سوی دیگر، اگر کاربران به جای مراجعه مستقیم به ویکی‌پدیا فقط از مدل‌های زبانی پاسخ بگیرند، ممکن است بازدید انسانی و مشارکت داوطلبان کاهش پیدا کند.

چالش دیگر، موضوع شفافیت و انتساب است. اگر مدل‌ها محتوا را از ویکی‌پدیا می‌آموزند اما هنگام پاسخ‌گویی منبع را مشخص نمی‌کنند، سوال این است که حق مشارکت‌کنندگان انسانی چه می‌شود و چگونه باید به آن‌ها اعتبار داد. همین مساله باعث شده بنیاد ویکی‌مدیا از شرکت‌های هوش‌مصنوعی بخواهد هنگام استفاده از داده، هم از نظر مالی و هم از نظر ذکر منبع، سهم عادلانه‌ای برای ویکی‌پدیا قائل شوند.

همکاری‌های جدید و مجموعه‌داده‌های ویژه هوش‌مصنوعی

در سال‌های اخیر، بنیاد «ویکی‌مدیا» (Wikimedia Foundation) رویکرد فعال‌تری نسبت به مدل‌های هوش‌مصنوعی در پیش گرفته است. یکی از اقدامات مهم، انتشار مجموعه‌داده‌های ساختاریافته و «بهینه‌شده برای یادگیری‌ماشینی» است که از طریق پلتفرم‌هایی مانند «کگل» (Kaggle) در دسترس توسعه‌دهندگان قرار گرفته‌اند.

این مجموعه‌ها شامل بخش‌بندی واضح مقاله‌ها، خلاصه‌ها، جعبه‌های اطلاعات و لینک تصاویر هستند و هم برای مدل‌های زبانی و هم برای مدل‌های چندرسانه‌ای مفیدند. هدف از این کار، هم کاهش فشار خزنده‌های بی‌رویه بر سرورها است و هم ارائه یک مسیر شفاف، اخلاقی و استاندارد برای استفاده از داده‌ها در آموزش مدل‌ها.

در کنار این، ویکی‌پدیا در حال مذاکره برای قراردادهای لایسنس با شرکت‌های بزرگ فناوری است تا بین استفاده رایگان برای کاربران عادی و استفاده انبوه تجاری توسط شرکت‌های هوش‌مصنوعی تمایز قائل شود.

راهنمای استفاده مسئولانه از ویکی‌پدیا در پروژه‌های هوش‌مصنوعی

با توجه به جایگاه ویژه ویکی‌پدیا، برای پژوهشگران و کسب‌وکارهایی که قصد دارند از این منبع در آموزش مدل‌های هوش‌مصنوعی استفاده کنند، رعایت چند اصل کلیدی ضروری است. این اصول، هم به حفظ پایداری اکوسیستم کمک می‌کند و هم ریسک‌های حقوقی و اخلاقی را کاهش می‌دهد.

مهم‌ترین توصیه‌ها عبارت‌اند از:

بررسی دقیق مجوزها و رعایت کامل شرایط CC BY-SA، به‌ویژه در مورد انتساب و اشتراک‌گذاری مشابه
استفاده از نسخه‌های رسمی و مجموعه‌داده‌های بهینه‌شده که خود ویکی‌مدیا منتشر می‌کند، به جای خزیدن بی‌رویه روی سایت اصلی
ترکیب داده‌های ویکی‌پدیا با منابع دیگر تا از سوگیری‌های احتمالی یک منبع واحد کاسته شود
سرمایه‌گذاری روی پیش‌پردازش داده: حذف تخریب‌ها، بررسی کیفیت و متعادل‌سازی زبان‌ها و موضوعات
مشارکت در خود ویکی‌پدیا (به‌ویژه نسخه‌های زبانی کمترپوشش‌داده‌شده مثل فارسی) به عنوان نوعی بازگشت ارزش به منبع داده

در کنار این اصول، توجه به رهنمودهای داخلی خود ویکی‌پدیا درباره استفاده از مدل‌های زبانی بزرگ نیز مهم است. در نسخه‌های مختلف زبانی، از جمله فارسی، صفحات راهنما تاکید می‌کنند که متن تولیدشده توسط مدل‌ها نباید بدون بازبینی انسانی وارد مقالات شود و خطراتی مانند منبع‌سازی جعلی و اطلاعات نادرست را یادآور می‌شوند.

در این زمینه، مطالعه (( مقاله جامع ویکی پدیا )) می‌تواند تصویری کامل‌تر از ساختار، سیاست‌ها و نحوه کار این دانشنامه به شما بدهد و کمک کند استفاده داده‌ای شما با روح همکاری و شفافیت آن سازگار باشد.

هوش‌مصنوعی در خدمت ویکی‌پدیا؛ رابطه‌ای دوطرفه

جالب است که رابطه ویکی‌پدیا و هوش‌مصنوعی یک‌طرفه نیست. همان‌طور که نقش ویکی‌پدیا در آموزش مدل‌های هوش مصنوعی بسیار پررنگ است، خود ویکی‌پدیا نیز در حال استفاده از ابزارهای هوش‌مصنوعی برای بهبود فرایند ویرایش، ترجمه و تشخیص تخریب است.

در سال‌های اخیر، پروژه‌های مختلفی برای استفاده از مدل‌ها در پیشنهاد به‌روزرسانی مقالات قدیمی، کمک به ترجمه میان‌زبانی و ساده‌سازی کارهای تکراری ویراستاران اجرا شده است. با این حال، سیاست رسمی این است که هوش‌مصنوعی جایگزین ویراستاران انسانی نشود و خروجی آن تنها به عنوان ابزار کمکی، و نه منبع نهایی محتوا، استفاده شود.

در چنین چارچوبی، مطالعه (( راهنمای کامل ویکی پدیا )) به توسعه‌دهندگان و پژوهشگران کمک می‌کند بفهمند که این پروژه آزاد چگونه در حال تنظیم تعادل بین بهره‌گیری از هوش‌مصنوعی و حفظ کنترل انسانی است.

سخن آخر

در جمع‌بندی، می‌توان گفت نقش ویکی‌پدیا در آموزش مدل‌های هوش مصنوعی نه فقط فنی، بلکه عمیقاً اجتماعی و اخلاقی است. از یک سو، این دانشنامه آزاد با داده‌های گسترده، ساختارمند و نسبتاً باکیفیت خود، یکی از ستون‌های اصلی آموزش مدل‌های زبانی بزرگ در جهان به شمار می‌رود. از سوی دیگر، همین نقش پررنگ سوال‌هایی درباره پایداری مالی، حقوق مشارکت‌کنندگان، شفافیت و عدالت داده‌ای مطرح کرده است.

برای پژوهشگران و کسب‌وکارها، استفاده مسئولانه از ویکی‌پدیا به معنای رعایت مجوزها، اتکا به مجموعه‌داده‌های رسمی، ترکیب منابع و تلاش برای بهبود خود دانشنامه است. برای کاربران عادی نیز، شناخت بهتر این رابطه باعث می‌شود هنگام استفاده از مدل‌های زبانی، نقش «دانش جمعی» پشت صحنه را فراموش نکنند. اگر قصد دارید عمیق‌تر با تاریخچه، ساختار و سیاست‌های این دانشنامه آشنا شوید، مطالعه (( مقاله جامع ویکی پدیا )) بهترین نقطه شروع است.

سوالات متداول درباره نقش ویکی‌پدیا در آموزش مدل‌های هوش مصنوعی

۱. چرا ویکی‌پدیا تا این حد در آموزش مدل‌های زبانی مهم است؟
زیرا ویکی‌پدیا ترکیبی از حجم بالای داده، کیفیت نسبی، ساختار منظم و مجوز باز را در کنار هم دارد. مدل‌های زبانی برای یادگیری الگوهای زبان و دانش عمومی به چنین منبعی نیاز دارند و به همین دلیل، ویکی‌پدیا در بسیاری از مجموعه‌داده‌های آموزشی حضور پررنگی دارد.

۲. آیا مدل‌هایی مثل ChatGPT دقیقاً روی محتوای ویکی‌پدیا آموزش دیده‌اند؟
جزئیات کامل آموزش هر مدل معمولاً منتشر نمی‌شود، اما پژوهش‌ها و مصاحبه‌های مستقل نشان می‌دهد که ویکی‌پدیا بخش مهمی از داده آموزشی مدل‌های مشهوری مثل GPT-3 و سایر LLMها بوده است و کارشناسان بر نقش مرکزی آن در این فرآیند تاکید کرده‌اند.

۳. استفاده از ویکی‌پدیا در آموزش مدل‌های هوش‌مصنوعی چه خطراتی دارد؟
خطرهای اصلی شامل انتقال خطاها و سوگیری‌های موجود در مقالات، فشار زیرساختی به سرورهای ویکی‌پدیا به‌خاطر خزنده‌های خودکار، و کاهش شفافیت درباره منبع واقعی اطلاعات است. همچنین اگر شرکت‌ها بدون انتساب و بازگشت ارزش از این داده‌ها استفاده کنند، پایداری پروژه در بلندمدت تهدید می‌شود.

۴. ویکی‌پدیا برای مواجهه با موج هوش‌مصنوعی چه کار می‌کند؟
بنیاد ویکی‌مدیا مجموعه‌داده‌های ساختاریافته و بهینه برای یادگیری‌ماشینی منتشر کرده، به‌دنبال قراردادهای لایسنس عادلانه با شرکت‌های بزرگ است و هم‌زمان از هوش‌مصنوعی به عنوان ابزار کمکی برای ویرایش و ترجمه بهره می‌گیرد؛ بدون این که تولید خودکار محتوا را جایگزین مشارکت انسانی کند.

۵. اگر بخواهیم در پروژه خود از داده‌های ویکی‌پدیا استفاده کنیم، چه نکاتی را باید رعایت کنیم؟
باید مجوز CC BY-SA را به‌دقت رعایت کنید، از مجموعه‌داده‌های رسمی و بهینه‌شده استفاده کنید، داده‌ها را پیش‌پردازش و کیفیت‌سنجی کنید و در صورت امکان بخشی از ارزش ایجادشده را با مشارکت در بهبود خود ویکی‌پدیا برگردانید. همچنین پیشنهاد می‌شود برای درک بهتر ساختار و سیاست‌ها، حتماً به (( راهنمای کامل ویکی پدیا )) مراجعه کنید.