சாட்ஜிபிடியை மையமாக கொண்டே, செயற்கை நுண்ணறிவின் பல்வேறு அம்சங்களை பார்த்து வருகிறோம். கடந்த வாரம் பார்த்த செயற்கை தரவுகளை சரியாக புரிந்து கொள்ளவும் சாட்ஜிபிடியை உதாரணமாக கொள்வது பொருத்தமாக இருக்கும். இது சாட்ஜிபிடியை இன்னும் சரியாக புரிந்து கொள்ளவும் உதவும்.
செயற்கை தரவுகள் எனும் போது பொய்யானவை, போலியானவை என பொருள் வருவது, இவை சார்ந்து இயங்கும் செயற்கை நுண்ணறிவு நுட்பங்கள் குறித்து அச்சத்தை ஏற்படுத்தலாம் என்றாலும், இவற்றை ஆக்கத்தரவுகள் என கொள்வதே சரியாக இருக்கும். அதாவது கம்ப்யூட்டரால் உருவாக்கப்படும் தரவுகள்! இவற்றுக்கு அடிப்படையாக இருப்பவை நிஜ உலகத்தின் தரவுகள்தாம்.
செயற்கை தரவுகளில் பல வகைகள் இருக்கின்றன என்பதும், இவற்றை பல வழிகளில் உருவாக்கலாம் என்பதும் கவனிக்கத்தக்கது. அந்த வகையில் பார்த்தால், சாட்ஜிபிடியை, எழுத்து வடிவிலான செயற்கை தரவு உருவாக்கம் என கொள்ளலாம். இதற்காக மொழி மாதிரி எனும் வழி பின்பற்றப்படுகிறது.
சாட்ஜிபிடி மனிதர்களோடு மனிதர்கள் போலவே உரையாடும் தன்மை கொண்டிருந்தாலும், அடிப்படையில் அது செயற்கையான எழுத்து வடிவங்களை உருவாக்கித்தருகிறது. மனித எழுத்து ஆக்கங்களை அடிப்படையாக கொண்டு அது செயற்கையாக உருவாக்குகிறது. மூலத்தரவுகளை கொண்டு, அவற்றின் அடிப்படை அம்சங்களை பிரதிபலிக்கும் பொய்த்தரவுகள் உருவாக்கப்படுவது போலவே சாட்ஜிபிடியும் செயல்படுகிறது.
இதே போலவே, உருவங்களையும், வீடியோக்களையும் கூட செயற்கையாக உருவாக்கி கொள்ளலாம். சும்மாயில்லை, ஒரு பூனை உருவத்தை கொண்டு ஓராயிரம் பூனையையும் செயற்கையாக உருவாக்கலாம். பூனைக்கான மாதிரி எனும் அம்சம் இதற்கு உதவுகிறது. கம்ப்யூட்டர் துறையில் ஏற்கனவே பயன்படுத்தப்படும் சிமிலேஷன் எனப்படும், நிஜத்தின் கம்ப்யூட்டர் உருவகத்தின் செயல்பாட்டிற்கும் இது தான் அடிப்படை.
இந்த பின்னணியில் சாட்ஜிபிடியின் சகாவான டால்-இ எனப்படும் டாலி நுட்பத்தை நோக்கலாம்.
டாலியும் அதன் போட்டியாளரான மிட்ஜர்னியும், நிஜ காட்சிகள் அல்லது உருவங்கள் போன்ற தோற்றத்தை நொடிப்பொழுதில் உருவாக்கித் தருகின்றன. மனிதர்கள் போலவே பேசுவதை கூட விட்டுத்தள்ளுங்கள். மனிதர்கள் போலவே இயந்திரங்கள் ஓவியம் வரைவதும் படம் எடுத்து தருவதும் உண்மையிலேயே வியப்பையும், அதிர்ச்சியையும் ஒரு சேர ஏற்படுத்துகின்றன. கம்ப்யூட்டர்களால் படைப்பூக்கத்தின் பக்கம் கூட நெருங்க முடியாது எனும் நம்பிக்கையை அசைத்துப்பார்க்கும் இந்த நுட்பங்களை எப்படி புரிந்து கொள்வது?
மனிதகுலம் இனி படைப்பூக்கத்திற்கு சொந்தம் கொண்டாட முடியாதா எனும் கேள்வியை அசைப்போட்டபடி, டாலி (DALL-E) மற்றும் மிட்ஜர்னி நுட்பங்கள் செயல்படும் விதத்தை பார்க்கலாம்.
மெட்டுக்கு பாட்டெழுதும் கவிஞரைப் போல டாலி, எழுத்து வடிவிலான கட்டளைகளை ஏற்று பொருத்தமான உருவங்களை அளிக்கிறது. ’பியானோ வாசிக்கும் பூனையை உருவாக்கு’ என்று சொன்னாலும், அது உருவாக்கித்தரும். வான்கா பாணியில் மோனலிசாவை உருவாக்கித்தர சொன்னலும் அப்படியே உருவாக்கும்.
இணையத்தில் பகிரப்படும் டாலி மற்றும் மிட்ஜர்னி ஆக்கங்களை பார்த்தால் வியக்காமல் இருக்க முடியாது. இவை எல்லாம் எப்படி சாத்தியமாகின்றன? இந்த கேள்விக்கான பதில் கிளிப்(CLIP) நுட்பத்தில் அடங்கியிருக்கிறது. கிளிப் பற்றி பார்ப்பதற்கு முன், முதல் கம்ப்யூட்டர் பார்வை பற்றி கொஞ்சம் தெரிந்து கொள்ளலாம்.
கம்ப்யூட்டர் விஷன் எனும் கம்ப்யூட்டர் பார்வையை கம்ப்யூட்டர்களின் பார்க்கும் திறன் என புரிந்து கொள்ளலாம். அதாவது இயந்திரங்களை பார்க்க வைப்பது. அதாவது மனிதர்கள் போலவே இவ்வுலகை பார்த்து அதில் உள்ள பொருட்களையும், தோற்றங்களையும் கண்டறிந்து, அடையாளம் காண்பது.
கம்ப்யூட்டர்களின் பார்க்கும் திறன் என்று குறிப்பிட்டாலும் மனிதர்கள் போல கம்ப்யூட்டர்கள் பார்ப்பதாக கொள்வது சரியான புரிதலாக இருக்காது. ஏனெனில் மனித மூளை காட்சிகளை புரிந்து கொள்ளும் வகையில் கம்ப்யூட்டரால் உலகை பார்க்க ஒரு நாளும் முடியாது. மாறாக, எந்த உருவத்தையும் பிக்சல் துகளாக உடைத்து, அந்த துண்டுகளுக்கு எண்ணிக்கை கொடுத்து அந்த எண்ணிக்கைகள் அடிப்படையில் உருவத்தில் அடங்கியுள்ள அம்சங்களை கம்ப்யூட்டர்கள் அடையாளம் காண்கின்றன.
அதே போல மனிதர்கள் ஒருமுறை பூனையை பார்த்து புரிந்து கொண்டால், வேறு எந்த பூனையையும் பூனை என கண்டுகொள்வார்கள். ஆனால் கம்ப்யூட்டருக்கு, ஒரு பூனையை பார்க்க, ஓராயிரம் அல்ல ஒரு லட்சத்திற்கும் மேலான பூனைகளை காண்பித்து அவை எல்லாம் பூனை என குறிப்பிட்டு பயிற்சி அளிக்க வேண்டும். அப்போது தான் கம்ப்யூட்டரால் பூனையை ’காண’ முடியும். இதே போல நாய் அல்லது குதிரையை பார்க்கவும் தனியே பயிற்சி அளிக்க வேண்டும்.
ஆயிரக்கணக்கில் உருவங்களை திரட்டுவதும், அவற்றை அடிக்குறிப்பிடுவதும் கம்ப்யூட்டர் பார்வையில் முக்கியமான அம்சம். ஆக, கம்ப்யூட்டர்களை பார்க்க வைக்க, மிகப்பெரிய தரவுகள் அமைப்பு தேவை. அதே நேரத்தில், இத்தனை பெரிய தரவுகள் அமைப்பை கையாள்வதற்கு தேவையான வன்பொருள் ஆற்றலிலும் போதாமைகள் இருந்தன. ஆனால், தொடர் ஆய்வு மற்றும் வன்பொருள் திறன் மேம்பாட்டால் கம்ப்யூட்டர் பார்வை நுட்பமும் மேம்பாடு கண்டிருக்கிறது.
இந்த மேம்பாட்டின் அடுத்த கட்டமாகவே, கிளிப் எனும் ’கான்ட்ராஸ்டிவ் லாங்குவேஜ் இமேஜ் பிரிடிரைனிங்’ அமைகிறது. சாட்ஜிபிடியில் எப்படி, எழுத்து வடிவம் கொண்டு பயிற்சி அளிக்கப்படுகிறதோ, அதே போல கிளிப்பில் உருவங்கள் மற்றும் அவற்றுக்கான விளக்கக் குறிப்புகள் கொண்டு பயிற்சி அளிக்கப்படுகின்றன. அதோடு முக்கியமாக உருவங்கள் மற்றும் அவற்றுக்கான விளக்கக் குறிப்புகள் இடையிலான பாலமாகவும் விளங்குகிறது.
அதாவது, பூனை படத்தை பூனை படம் என அறிவதோடு, பூனை ஓவியம், சாலை நடுவே பூனை, கார் முன் இருக்கும் பூனை என்றெல்லாம் விதவிதமாக விளக்க குறிப்புகளுடன் பயிற்சி அளிக்கப்படுகிறது. இந்த புரிதலோடு, புதிய தோற்றத்தை உருவாக்கித்தர கோரப்படும்போது, உருவம் மற்றும் விளக்கக் குறிப்புகளுக்கான எண்ம விவரங்களை மனதில் கணக்கு போட்டு செயல்படுகிறது. இதனடிப்படையில் புதிய தோற்றத்தையும் உருவாக்கித் தருகிறது.
ஆக, எண்ணற்ற படங்கள், ஓவியங்கள், காட்சிகள், அவற்றுக்கான விளக்கக் குறிப்புகள் அடிப்படையில் அளிக்கப்பட்ட பயிற்சி கொண்டு, பெருங்கடலை பின்னணியாக கொண்ட சூரியோதய காட்சி தேவை என்றால், உடனே உருவாக்கித்தந்து தனது படைப்பாற்றல் குறித்து மயக்கம் கொள்ள வைக்கிறது. ஒருவிதத்தில் காட்சி விளக்க அகராதியை இந்த நுட்பம் கைவசம் வைத்திருப்பதாகவும் புரிந்து கொள்ளலாம்.
எப்படி பார்த்தாலும், எழுத்து வடிவிலான கட்டளைக்கு ஏற்ப காட்சிகளை உருவாக்கித்தரும் திறன் நம்ப முடியாததாகவே இருப்பதாகவே தோன்றலாம். இந்த இடத்தில் தான் ’டிப்யூஷன் மாடல்’ எனப்படும் ’கரைதல் மாதிரி நுட்பம்’ வருகிறது. இந்த நுட்பம் செயல்படும் விதத்தை புரிந்துகொள்ள, கியூப் புதிர் விளையாட்டை நினைவில் கொள்வோம். இந்த கன சதுரத்தில் சிதறிக்கிடக்கும் வண்ணங்கள் ஒவ்வொன்றையும் ஒரே பக்கத்தில் வரவைக்க, ஒவ்வொரு கட்டமாக நகர்த்தி, ஒரே வண்ண கட்டங்களை ஒவ்வொன்றாக அருகருகே கொண்டு வர முயல்கிறோம் அல்லவா? இதே போலவே, டிப்யூஷன் நுட்பமும் செயல்படுகிறது.
டிப்யூஷன் நுட்பத்தில், உருவங்கள் அல்லது காட்சியின் பிக்சல் துண்டுகள் வெவ்வேறாக கலைக்கப்பட்டு, எவ்வித தொடர்பும் இல்லாத வெற்று இரைச்சலாக ஆக்கப்பட்டு அதிலிருந்து கொஞ்சம் கொஞ்சமாக மூல காட்சியை உருவாக்கும் வகையில் பயிற்சி அளிக்கப்படுகிறது. இதே முறையில், இந்த மாதிரியால் மூல உருவத்தை கொண்டு புதிதாக உருவத்தையும் உருவாக்க முடியும்.
ஆக, மூல ஆக்கத்தை கொண்டு, செயற்கையாக உருவாக்கித்தரும் கம்ப்யூட்டரின் திறனையே, செயற்கை நுண்ணறிவு மூலம் புதிய ஆக்கங்களின் உருவாக்கமாக கொள்கிறோம். இதே முறையில், டைனோசர் ஒன்று மைக் வைத்து பாடுவது போன்ற சித்திரத்தை உருவாக்கிக் கொள்ளலாம். நடக்காத நிகழ்வு ஒன்றின் படத்தையும் உருவாக்கிக் கொள்ளலாம். இங்கு தான் கம்ப்யூட்டர் உருவாக்கம் போலியின் வடிவம் கொண்டு பிரச்சினையாகிறது.
(சாட்ஜிபிடி சரிதம் தொடரும்)