SUKABUMIUPDATE.com - Pernahkah Updaters bertanya-tanya bagaimana AI seperti ChatGPT atau Gemini bisa tahu segalanya? Jawabannya terletak pada data pelatihan yang masif. Dan, yang mengejutkan bahwa penelitian terbaru mengungkapkan bahwa sebagian besar pengetahuan AI justru berasal dari diskusi dan konten informal pengguna internet, bukan hanya dari sumber formal.
Platform berbasis konten buatan pengguna (UGC) seperti Reddit, YouTube, dan Facebook telah menjadi sumber data dominan dalam pelatihan kecerdasan buatan (AI). Berdasarkan laporan Reuters Institute dan analisis para ahli, data dari platform UGC menyumbang lebih dari 80% dari total data yang digunakan untuk melatih beberapa model AI besar. Reddit disebut sebagai kontributor terbesar, menyumbang sekitar 40%, diikuti oleh YouTube (24%) dan Facebook (20%). Proporsi ini bahkan melampaui data dari situs web resmi atau artikel formal.
Peran Penting Data UGC dalam Pengembangan AI
Data yang berasal dari diskusi daring, komentar, transkrip video, dan unggahan pengguna dinilai sangat berharga bagi para pengembang AI karena beberapa alasan:
Baca Juga: Mana AI yang Terbaik? DeepSeek Chat, Gemini, Grok, atau ChatGPT?
1. Kaya Bahasa Alami: Data UGC memuat cara manusia berkomunikasi sehari-hari, lengkap dengan slang, idiom, dan struktur percakapan informal yang membuat AI lebih natural.
2. Beragam Perspektif: AI dapat mempelajari berbagai sudut pandang, pengalaman, dan solusi masalah langsung dari interaksi pengguna.
3. Cepat dan Terkini: Platform UGC sering kali lebih cepat dalam menangkap tren dan informasi terkini dibanding sumber-sumber formal.
Dampak dan Tantangan Penggunaan Data UGC
Meskipun menjadi fondasi penting, ketergantungan pada data UGC juga menimbulkan sejumlah tantangan:
1.Risiko Misinformasi: AI berpotensi mempelajari dan menyebarkan informasi yang tidak akurat jika tidak disaring dengan baik.
2.Isu Etika dan Lisensi: Banyak platform, termasuk Reddit dan Stack Overflow, mulai membatasi akses data mereka dan meminta kompensasi finansial. Contohnya, Reddit telah menjalin kemitraan dengan beberapa perusahaan AI senilai sekitar $60 juta per tahun, seperti dilaporkan oleh Bloomberg pada Mei 2024.
3.Bias dan Ketidakakuratan: Tanpa kurasi yang tepat, AI dapat mengadopsi bias yang ada dalam percakapan daring.
Baca Juga: Gemini, Model AI Buatan Google Saingan ChatGPT dari OpenAI
Pandangan Para Ahli: "Pedang Bermata Dua"
Prof. Nurullah Armağan, Pakar Etika AI dari Universitas Indonesia, menyebut penggunaan data UGC sebagai "pedang bermata dua". "Di satu sisi, ia membuat AI lebih manusiawi dan kontekstual. Namun, tanpa filter ketat, AI berisiko memperkuat misinformasi dan bias yang sudah ada di masyarakat," jelasnya dalam webinar pada Maret 2024.
Senada dengan itu, Dr. Emily Roberts, Peneliti Kebijakan Teknologi di Oxford Internet Institute, menekankan pentingnya regulasi. "Perlindungan terhadap hak kekayaan intelektual dan privasi pengguna harus menjadi prioritas sebelum data ini digunakan untuk pelatihan AI," ujarnya dalam wawancara dengan TechPolicy Press pada Februari 2024.
Dominasi data UGC sebagai sumber pelatihan AI mencerminkan pergeseran paradigma. AI kini tidak lagi hanya belajar dari konten yang terkurasi, tetapi juga dari interaksi kolektif dan percakapan para pengguna internet. Para ahli sepakat bahwa tantangan terbesar saat ini adalah memastikan penggunaan data yang bertanggung jawab dan terus mengembangkan mekanisme penyaringan yang kuat agar AI tetap akurat, aman, dan etis.
(Dari berbagai sumber)