Model bahasa besar ada dimana-mana, termasuk berjalan di latar belakang aplikasi pada perangkat yang Anda gunakan untuk membaca ini. Saran pelengkapan otomatis dalam teks dan email Anda, respons kueri yang disusun oleh Gemni, Copilot, dan ChatGPT, serta gambar yang dihasilkan dari DALL-E semuanya dibuat menggunakan LLM.
Dan mereka semua dilatih tentang dokumen dan gambar nyata.
Pakar keamanan komputer David Evans di Fakultas Teknik dan Sains Terapan Universitas Virginia dan rekan-rekannya baru-baru ini melaporkan bahwa metode umum yang digunakan pengembang kecerdasan buatan untuk menguji apakah data pelatihan LLM berisiko terpapar tidak berfungsi sebaik dulu. pikiran.
Dipresentasikan pada Konferensi Pemodelan Bahasa bulan lalu, makalah tersebut menyatakan dalam abstraknya, “Kami menemukan bahwa MIA hampir tidak mengungguli tebakan acak untuk sebagian besar pengaturan di berbagai ukuran dan domain LLM.”
Apa itu MIA? Kebocoran?
Saat membuat model bahasa besar, pengembang pada dasarnya mengambil pendekatan penyedot debu. Mereka menyedot teks sebanyak yang mereka bisa, sering kali dari bagian penjelajahan di internet, serta sumber yang lebih pribadi, seperti email atau penyimpanan data lainnya, untuk melatih aplikasi kecerdasan buatan agar memahami properti dunia tempat mereka bekerja.
Hal ini penting dalam hal keamanan data pelatihan, yang dapat mencakup tulisan atau gambar yang diposting oleh jutaan pengguna internet.
Kemungkinan kerentanan, baik bagi pembuat konten atau mereka yang melatih LLM, sangatlah besar.
Serangan inferensi keanggotaan, atau MIA, adalah alat utama yang digunakan pengembang AI untuk mengukur risiko paparan informasi, yang dikenal sebagai kebocoran, jelas Evans, seorang profesor ilmu komputer yang menjalankan Security Research Group di UVA dan salah satu penulis penelitian tersebut.
Evans dan mahasiswa Ph.D yang baru saja lulus, Anshuman Suri, penulis kedua makalah tersebut, yang sekarang menjadi peneliti pascadoktoral di Universitas Northeastern, berkolaborasi dengan para peneliti di Universitas Washington dalam penelitian ini.
Penelitian ini didukung oleh Pusat Pembelajaran Mesin Tepercaya National Science Foundation.
Nilai utama dari tes inferensi keanggotaan pada LLM adalah sebagai audit privasi, jelas Evans. “Ini adalah cara untuk mengukur seberapa banyak informasi yang bocor oleh model tentang data pelatihan tertentu.
Misalnya, menggunakan perangkat lunak permusuhan untuk menilai produk aplikasi yang diminta untuk menghasilkan gambar seorang profesor yang sedang mengajar mahasiswa dengan “gaya” seniman Monet dapat menghasilkan kesimpulan bahwa salah satu lukisan jembatan Monet membantu pelatihan AI.
“MIA juga digunakan untuk menguji apakah – dan jika ya, seberapa banyak – model tersebut telah menghafal teks kata demi kata,” tambah Suri.
Mengingat potensi tanggung jawab hukum, pengembang ingin mengetahui seberapa kokoh pipa pondasi mereka.
Slide ini menunjukkan bagaimana serangan inferensi keanggotaan dapat dimulai. Menilai produk dari sebuah aplikasi yang diminta untuk menghasilkan gambar seorang profesor yang sedang mengajar mahasiswa dengan “gaya” seniman Monet dapat menghasilkan kesimpulan bahwa salah satu lukisan jembatan Monet membantu pelatihan AI. (Berkontribusi)
Seberapa Pribadi LLM Itu? Seberapa Efektifkah MIA Itu?
Para peneliti melakukan evaluasi skala besar terhadap lima MIA yang umum digunakan. Semua alat permusuhan dilatih pada kumpulan data pemodelan bahasa sumber terbuka yang populer yang dikenal sebagai “the Pile.” Sebuah kelompok penelitian nirlaba bernama EleutherAI merilis koleksi model bahasa yang besar secara publik pada bulan Desember 2020.
Microsoft dan Meta, bersama dengan universitas besar seperti Stanford, semuanya telah melatih LLM aplikasi terpilih pada kumpulan data.
Apa yang ada di data pelatihan? Kumpulan data yang dikumpulkan dari entri Wikipedia, abstrak PubMed, latar belakang Kantor Paten dan Merek Dagang Amerika Serikat, subtitel YouTube, matematika Google DeepMind, dan banyak lagi — mewakili total 22 lokasi web populer dan kaya informasi.
Masalahnya adalah data bahasa tidak seperti rekaman untuk pelatihan model tradisional, sehingga sangat sulit untuk mendefinisikan apa itu anggota pelatihan.
Pile tidak difilter berdasarkan siapa yang memberikan persetujuan, meskipun peneliti dapat menggunakan alat Eleuther untuk menyempurnakan model, berdasarkan jenis kekhawatiran etis yang mungkin mereka miliki.
“Kami menemukan bahwa metode saat ini untuk melakukan serangan inferensi keanggotaan terhadap LLM tidak benar-benar mengukur inferensi keanggotaan dengan baik, karena metode tersebut mengalami kesulitan dalam menentukan kumpulan kandidat non-anggota yang mewakili eksperimen tersebut,” kata Evans.
Salah satu alasannya adalah ketidakstabilan bahasa, dibandingkan dengan jenis data lainnya, dapat menimbulkan ambiguitas mengenai apa saja yang termasuk dalam kumpulan data.
“Masalahnya adalah data bahasa tidak seperti catatan untuk pelatihan model tradisional, sehingga sangat sulit untuk mendefinisikan apa yang dimaksud dengan anggota pelatihan,” katanya, sambil mencatat bahwa kalimat dapat memiliki kemiripan yang halus atau perbedaan makna yang dramatis berdasarkan perubahan kecil. dalam pilihan kata.
“Juga sangat sulit untuk menemukan calon non-anggota yang berasal dari sebaran yang sama, dan menggunakan batas waktu pelatihan untuk hal ini rawan kesalahan karena sebaran bahasa sebenarnya selalu berubah.”
Hal itulah yang menyebabkan penelitian yang dipublikasikan sebelumnya menunjukkan bahwa MIA efektif namun justru menunjukkan inferensi distribusi, Evans dan rekan-rekannya menegaskan.
Perbedaan ini “dapat dikaitkan dengan pergeseran distribusi, misalnya, anggota dan non-anggota tampaknya diambil dari domain yang sama namun dengan rentang waktu yang berbeda,” tulis makalah tersebut.
Penelitian sumber terbuka berbasis Python mereka kini tersedia di bawah proyek payung yang disebut MIMIR, sehingga peneliti lain dapat melakukan tes inferensi keanggotaan yang lebih terbuka.
Khawatir? Risiko Relatif Masih Rendah
Bukti sejauh ini menunjukkan bahwa risiko inferensi untuk catatan individual dalam data pra-pelatihan adalah rendah, namun tidak ada jaminan.
“Kami memperkirakan risiko inferensi untuk LLM lebih kecil karena ukuran korpus pelatihan yang sangat besar, dan cara pelatihan dilakukan, sehingga teks individual sering kali hanya dilihat beberapa kali oleh model dalam pelatihan,” kata Evans.
Pada saat yang sama, sifat interaktif dari jenis LLM open source ini membuka lebih banyak jalan yang dapat digunakan di masa depan untuk melakukan serangan yang lebih kuat.
“Namun, kami tahu bahwa jika musuh menggunakan LLM yang ada untuk melatih data mereka sendiri, yang dikenal sebagai fine-tuning, data mereka jauh lebih rentan terhadap kesalahan dibandingkan data yang terlihat selama fase pelatihan awal model,” kata Suri. .
Kesimpulan para peneliti adalah bahwa mengukur risiko privasi LLM merupakan sebuah tantangan, dan komunitas AI baru mulai mempelajari cara melakukannya.