செயற்கை நுண்ணறிவை பொறுத்தவரை தரவுகள் தான் எல்லாம். தரவுகளின் பரப்பு எந்த அளவு விரிந்திருக்கிறதோ அந்த அளவு செயற்கை நுண்ணறிவு நுட்பத்தின் தரமும் இருக்கும். ஏனெனில் தரவுகள் கொண்டே செயற்கை நுண்ணறிவு மென்பொருளுக்கு பயிற்சி அளிக்கப்படுகிறது. தரவுகளுக்கு இடையிலான பொதுத்தன்மைகளையும், அவற்றுக்குள் மறைந்திருக்கும் இணைப்பு புள்ளிகளையும் செயற்கை நுண்ணறிவு கண்டறிந்து செயல்படுவதே அவற்றின் செயல்திறனாக அமைகிறது.
இதுவரை நாம் பார்த்த ஆக்கத்திறன் நுட்பங்களுக்கும் தரவுகளே அடிப்படை. மனிதர்கள் அளிக்கும் தரவுகளை கொண்டே செயற்கை நுண்ணறிவு சார்ந்த மென்பொருள்கள் செயற்கை ஆக்கங்களை உருவாக்கித் தருகின்றன. கம்ப்யூட்டர் உருவாக்கும் ஆக்கங்கள் என குறிப்பிடப்படும் இந்த நுட்பங்களின் வரிசையில் அமைந்த செயற்கை ஊடகங்கள் பற்றி பார்த்தோம். சாட்ஜிபிடியின் பதில்களும், ஆக்கங்களும் கூட இத்தகைய செயற்கை ஊடகம் தான்.
இந்த வரிசையில் இப்போது செயற்கை நுண்ணறிவுக்கு பயிற்சி அளிக்கும் தரவுகளும் கூட செயற்கையாகவே உருவாக்கப்படுகின்றன என்பது தெரியுமா? இவை செயற்கை தரவுகள் என்று குறிப்பிடப்படுகின்றன. அதாவது கம்ப்யூட்டர்கள் உருவாக்கப்படும் தரவுகள் என்று பொருள்!
செயற்கை நுண்ணறிவு திறனுக்கு அடிப்படையாக அமையும் தரவுகளை திரட்டுவதிலும், அவற்றுக்கு பயிற்சி அளிக்கும் அல்காரிதம்களிலும் பல்வேறு பிரச்சனைகள் இருப்பதாக பேசப்பட்டு வருகிறது. இந்நிலையில் தரவுகளே கம்ப்யூட்டர்களால் உருவாக்கிக்கொள்ளப்படுவதை எப்படி புரிந்து கொள்வது?
பிக்டேட்டா என்று சொல்லப்படும் பெருந்தரவுகளின் பயன்பாடு பற்றி பரவலாக அறிந்திருக்கிறோம். ஆனால், செயற்கை தரவு என்பது குழப்பமாக இருக்கலாம். இதன் விளைவு என்ன என்றும் கவலைகொள்ள வைக்கலாம். ஆனால் செயற்கை நுண்ணறிவு துறையில் இருப்பவர்கள், செயற்கை தரவுகளை இத்துறையின் இயல்பான அடுத்தகட்ட வளர்ச்சியாக எடுத்துக்கொண்டு, ஆய்வில் ஈடுபட்டுள்ளனர். அவர்களை பொருத்தவரை இயற்கை தரவுகளுடனான பிரச்சினை சங்கிலிகள் இல்லாத தொழில்நுட்ப பொக்கிஷமாக செயற்கை தரவுகளை பார்க்கின்றனர் என்றும் அறிய முடிகிறது. மருத்துவ துறை ஆய்வு துவங்கி, தானோட்டி கார்களுக்கு பயிற்சி அளிப்பது வரை தேவையான தரவுகளை செயற்கையாகவே உருவாக்கி கொள்கின்றனர் என்றால் பார்த்துக்கொள்ளுங்கள்.
இந்த இடத்தில் செயற்கை தரவுகள் பற்றி இன்னும் கொஞ்சம் விரிவாக பார்க்க வேண்டும். நிஜ உலகில் இருந்து அதாவது மனித செயல்பாடுகளில் இருந்து தான் தரவுகளை பெற முடியும் எனும் போது, செயற்கை தரவுகள் எங்ஙனம் சாத்தியம் ஆகிறது? என கேட்கலாம். செயற்கை தரவுகளுக்கும் நிஜ உலக தரவுகள் தான் அடிப்படை. ஆனால், நிஜ உலக தரவுகளை அப்படியே பயன்படுத்தாமல், அவற்றை அலசி ஆராய்ந்து, அதன் அடிப்படையில் கம்ப்யூட்டர்கள் உருவாக்கும் தரவுகள் செயற்கை தரவாக அமைகிறது.
நிஜ உலக தரவுகளில் பொதிந்திருக்கும் அனைத்து தரவு புள்ளிகளும் செயற்கை தரவுகளில் இருக்கும், ஆனால், நிஜ உலக தரவுகளின் அடையாளங்கள் எதுவும் இல்லாமல் இருக்கும். தரவுகளின் தன்மையையும், அவற்றின் புள்ளிகளுக்கு இடையிலான தொடர்புகளையும் கண்டறியும் திறன் செயற்கை நுண்ணறிவுக்கு இருப்பதால் அவற்றையே பயிற்சியாக கொண்டு அதே போல தன்மை கொண்ட இன்னொரு வடிவிலான தரவுகளை உருவாக்கித் தந்து விடுகிறது. இந்த தரவுகளை கொண்டு, செயற்கை நுண்ணறிவு மென்பொருள்களுக்கு பயிற்சி அளிக்கலாம்.
எல்லாம் சரி, தரவுகளை செயற்கையாக உருவாக்குவதற்கான தேவை என்ன? இயற்கை தரவுகள் கொட்டிக்கிடக்கின்றன என்றாலும், அவற்றை கையாள்வதில் பலவித சிக்கல்கள் இருக்கின்றன. முக்கியமாக தரவுகள் தனிமனிதர்களை அடையாளம் காட்டுவதாக இருப்பது தனியுரிமை நோக்கில் மிக்கப்பெரிய சிக்கலாக அமைகிறது. பல நாடுகளில் தரவுகள் பயன்பாடு தொடர்பான தனியுரிமை சட்டங்கள் தீவிரமாக உள்ளன. ஆனால் செயற்கை தரவுகள் தனிமனித அடையாளம் இல்லாதவை என்பதால் அவற்றை கொண்டு செயற்கை நுண்ணறிவு நுட்பங்களை உருவாக்கும் போது தனியுரிமை பிரச்சனை இருப்பதில்லை.
உதாரணத்திற்கு, கிரெடிட் கார்டு பயன்பாடு தரவுகள் நிதிச்சேவை நுட்பங்களை உருவாக்க கைகொடுக்கலாம். இவற்றை வங்கிகளிடம் இருந்து திரட்டலாம் என்றாலும், தொடர்புடைய மனித வாடிக்கையாளர்களின் அடையாளங்களில் இருந்து இவற்றை பிரிப்பது கடினம். இதே போல, மருத்துவ ஆய்வுக்கு நோயாளிகள் தொடர்பான தரவுகள் தேவை என்றாலும், அவை நோயாளிகளின் அடையாளம் கொண்டிருக்கும் என்பதால் அவற்றை பயன்படுத்த தடை விதிக்கப்படலாம்.
இந்த சிக்கல்களுக்கு எல்லாம் தீர்வாக அமைவது தான் செயற்கை தரவுகள். வங்கி வாடிக்கையாளர்கள் அடையாளம் இல்லாமல், அதே போன்ற தரவுகளை கம்ப்யூட்டர் உருவாக்கித்தந்து விடுகிறது. இந்த தரவுகளை எந்த பிரச்சனையும் இல்லாமல் பயன்படுத்தலாம். தானோட்டி கார்களுக்கு பயிற்சி அளிக்க நிஜ உலக போக்குவரத்து விவரங்கள் போலவே அமையும் செயற்கை தரவுகள் பயன்படுத்தப்படுகின்றன. அதே போல மோசடி தடுப்பு அமைப்புகளை உருவாக்கவும் செயற்கை தரவுகள் உதவுகின்றன. மேலும் பல்வேறு விதமான சோதனை அமைப்புகளிலும் இத்தகைய தரவுகள் பயன்படுத்தப்படுகின்றன.
செயற்கை தரவுகளை புரிந்து கொள்ள, அநாமதேய தரவுகளுடன் இவற்றை ஒப்பிட்டு பார்க்க வேண்டும். மூல தரவுகளில் இருந்து அடையாள அம்சங்களை நீக்கிவிடுவது அநாமதேய தரவுகள் என கருதப்படுகிறது. அநாமதேய தரவுகளை பயன்படுத்துவது தனியுரிமை நோக்கில் உதவினாலும், இந்த வகை தரவுகள் முழுவதும் பாதுகாப்பானது அல்ல என கருதப்படுகிறது. அநாமதேய தன்மையை மீறி, தரவுகளின் மூல அடையாளம் கசிந்த சர்ச்சைக்குள்ளான தருணங்களும் உண்டு.
இந்த பின்னணியில் தான் கம்ப்யூட்டர் உருவாக்கும் செயற்கை தரவுகள் வருகின்றன. நிஜ தரவுகள் அடிப்படையில், அவற்றில் தோன்றும் புள்ளியியல் உறவுகளை கொண்டு மாதிரி முறையில் உருவாக்கப்படுவதால் செயற்கை தரவுகள், மூலத்தின் அடையாள அம்சங்கள் ஏதுமின்றி, ஆனால் மூலத்தை போன்ற தன்மையை கொண்டிருக்கின்றன. எனவே தான் நிஜ உலக ஆய்விற்கு பலவிதங்களில் பயன்படுகின்றன.
தனியுரிமை நோக்கில் செயற்கை தரவுகளை உருவாக்கும் எண்ணம் 1990-களின் துவக்கத்திலேயே விவாதிக்கப்பட்டாலும், 2010-களில் அமெரிக்காவின் எம்.ஐ.டி பல்கலையின் கம்ப்யூட்டர் கல்லூரி ஒன்றின் முதன்மை ஆய்வாளர்களில் ஒருவரான கல்யாண் வீரமாசனேனி (Kalyan Veeramachaneni ) தலைமையிலான குழு செயற்கை தரவுகள் ஆக்கத்தில் முக்கிய திருப்பத்தை கொண்டு வந்தது.
இணையம் மூலமான கல்வி சார்ந்த தரவுகளை கைவசம் கொண்டிருந்த நிலையில், தனது ஆய்வு மாணவர்கள் கொண்டு இவற்றை ஆய்வு செய்ய வீரமாசனேனி கூறினார். இணைய கல்வியில் மாணவர்கள் செயல்பாடு தொடர்பான புரிதலை இந்த ஆய்வு மூலம் உணரலாம் என கருதினார். ஆனால், மூல தரவுகளின் அடையாளத்தை நீக்கி பயன்படுத்த வேண்டியிருந்ததால் இந்த செயல்முறை மிகவும் தாமதமானது. இதற்கு தீர்வாக தான், மூல தரவுகளை சிக்கல் இல்லாமல் செயற்கை தரவுகளாக மறு உருவாக்கம் செய்து பயன்படுத்தும் வழியை கண்டுபிடித்தார். இதன் தொடர்ச்சியாக செயற்கை தரவுகள் உருவாக்கத்திற்கான செயற்கை தரவு பெட்டகம் (Synthetic Data Vault) கருவியையும் உருவாக்கினார்.
தற்போது செயற்கை நுண்ணறிவு துறையில் செயற்கை தரவுகள் முக்கிய அங்கமாக மாறத்துவங்கியிருக்கிறது. இனி வரும் காலத்தில் செயற்கை தரவுகள் அதிகம் பயன்படுத்தப்படும் வாய்ப்பு இருப்பதாகவும் தெரியவந்துள்ளது. செயற்கை நுண்ணறிவு ஆய்வில் இருந்த தடைகளை செயற்கை தரவுகள் நீக்கியிருப்பதாகவும் கருதப்படுகிறது. ஆனால் செயற்கை தரவுகள் தொடர்பான கேள்விகளும் இல்லாமல் இல்லை.
அவற்றை தொடர்ந்து பார்க்கலாம்.
(சாட்ஜிபிடி சரிதம் தொடரும்)