ആര്ട്ടിഫിഷ്യല് ഇന്റലിജന്സും ലാംഗ്വേജ് കോര്പ്പറയും തമ്മിലുള്ള ബന്ധം ദശകങ്ങളായി നിലനില്ക്കുന്ന ഒന്നാണ്. 1950-കളില് റൂള്-അധിഷ്ഠിത സംവിധാനങ്ങള് (Rulebased systems) ഉപയോഗിച്ചു തുടങ്ങിയിടത്താണ് ഇതിന്റെ തുടക്കം. എന്നാല്, 1980കള് യന്ത്രലോകവും ഭാഷാശാസ്ത്ര വിജ്ഞാനശാഖയും തമ്മിലുള്ള പരസ്പര കൈമാറ്റത്തിന്റെ കാലഘട്ടമായി കണക്കാക്കുന്നു. ഈ ഇടപെടലുകള് നാച്ചുറല് ലാംഗ്വേജ് പ്രോസസ്സിങ്ങിന്ഉ (NLP; Natural Language Processing)ജ്ജീവനം നല്കി.
ആര്ട്ടിഫിഷ്യല് ഇന്റലിജന്സിന്റെ (AI) പ്രാരംഭ ഘട്ടത്തില്, റൂള്-അധിഷ്ഠിത സംവിധാനങ്ങള് മുഖ്യമായിരുന്നു. ഈ സംവിധാനങ്ങളില്, ഭാഷയെ സംസ്കരിക്കുന്നത് പ്രത്യേകമായി തയ്യാറാക്കിയ റൂളുകള് ഉപയോഗിച്ചിരുന്നു, എന്നാല് ഇത് വളരെ സങ്കീര്ണ്ണമായ ഒരു പ്രക്രിയയായിരുന്നു. ഇതിന് പരിഹാരമായി, മനുഷ്യ ഭാഷാ കഴിവിനെ (Linguistic competence) കൂടുതല് കാര്യക്ഷമമായി പ്രതിഫലിപ്പിക്കാന് ആവശ്യമായ കമ്പ്യൂട്ടര് മോഡലുകള് നിര്മ്മിക്കാന് തുടങ്ങി. ടെക്സ്റ്റ് കോര്പ്പറകളുടെ (text corpora) വലിയ ശേഖരങ്ങള് ഉപയോഗിച്ച് സ്റ്റാറ്റിസ്റ്റിക്കല് മോഡലുകള് വികസിപ്പിക്കുവാന് ശ്രമം നടന്നു, ഇത് 1980-കളുടെ അവസാനം റൂള്-അധിഷ്ഠിത രീതികളെ മാറ്റിസ്ഥാപിക്കുന്നതിന് വഴിവെച്ചു.
എന്എല്പി (NLP) സംവിധാനങ്ങളെ പരിശീലിപ്പിക്കാനായി വലിയ തോതിലുള്ള ഡാറ്റ സ്റ്റാറ്റിസ്റ്റിക്കല് മോഡലുകള്ക്കായി ശേഖരിച്ചിരുന്നു. പെന് ട്രീബാങ്ക് പോലെയുള്ള ഇന്റര്നെറ്റ് റിസോഴ്സുകളുടെ വേഗതയേറിയ വളര്ച്ച ഇതിന് പിന്തുണയായി. 2001-ല്, യോഷുവ ബെന്ജിയോയും സംഘവും ന്യൂറല് ഭാഷാ മോഡലുകള് അവതരിപ്പിച്ചു, ഇത് ഭാഷാ പ്രോസസ്സിങ്ങിന്(processing) പുതിയ മാനദണ്ഡങ്ങള് സൃഷ്ടിച്ചു. ഇതിന്റെ സഹായത്തോടെ വിവര്ത്തനം, സെര്ച്ച് എഞ്ചിനുകള്, വോയ്സ്-ആക്റ്റിവേറ്റഡ് അസിസ്റ്റന്റുകള് പോലുള്ള എന്എല്പി ആപ്ലിക്കേഷനുകള് മെച്ചപ്പെട്ടതായിത്തീര്ന്നു.
2000-കളിലും 2010-കളിലും, വേര്ഡ് 2 വെക് (Word2Vec) പോലുള്ള പുതിയ അല്ഗോരിതങ്ങള് കൊണ്ടുവന്നത് മെഷീന് ലേണിംഗ് ടെക്നിക്കുകളുമായി എന്എല്പിയെ കൂടുതല് മുന്നോട്ടുനയിച്ചു. ഇതിലൂടെ, വലിയ ടെക്സ്റ്റ് ഡാറ്റാസെറ്റുകളില് പരിശീലനം നേടിയ ഭാഷാ മോഡലുകള്ക്ക് മനുഷ്യ സമാനമായ വാചകങ്ങള് സൃഷ്ടിക്കാനും ഭാഷകള് വിവര്ത്തനം ചെയ്യാനും, സങ്കീര്ണ്ണമായ ചോദ്യങ്ങള്ക്ക് ഉത്തരം നല്കാനും കഴിവുണ്ടായി. ഇതുവഴി, വ്യാകരണപരമായി ശരിയായതും അര്ത്ഥവത്തുമായ പുതിയ വാചകങ്ങള് സൃഷ്ടിക്കുന്നതില് മോഡലുകള് കൂടുതല് പ്രാവീണ്യം കൈവരിച്ചു.
2017-ല് ഗൂഗിള് ട്രാന്സ്ലേറ്റ് ന്യൂറല് സീക്വന്സ്-ടു-സീക്വന്സ് (Sequence to Sequence) മോഡല് സ്വീകരിച്ചതോടെ വിവര്ത്തന സേവനങ്ങള് ന്യൂറല് മോഡലുകളിലേക്കുള്ള മാറ്റത്തിന് തുടക്കം കുറിച്ചു. പരമ്പരാഗത സ്റ്റാറ്റിസ്റ്റിക്കല് രീതികളെ അപേക്ഷിച്ച്, ഈ സമീപനം വാക്യങ്ങളെ സമഗ്രമായി വ്യാഖ്യാനിക്കാന് ശേഷിയുള്ള ഒരു വഴിത്തിരിവായി. ഡീപ് ലേര്ണിംഗ് അടിസ്ഥാനമാക്കിയ ന്യൂറല് നെറ്റ്വര്ക്കുകളുടെ ഉപയോഗത്തോടെ കൂടുതല് കൃത്യവും സന്ദര്ഭ-അടിസ്ഥാനവുമായ (context based) വിവര്ത്തനത്തിന് വഴിയൊരുക്കി, എന്എല്പിയുടെ (NLP)പുരോഗതിക്ക് പുതിയ തുടക്കം രേഖപ്പെടുത്തി.
ഈ പുരോഗതിയില്, കൂടുതല് കാര്യക്ഷമമായ എന്എല്പി ആപ്ലിക്കേഷനുകള് വികസിപ്പിക്കാന് ഗവേഷകരും ഡെവലപ്പര്മാരും ചേര്ന്ന് പുതിയ സാങ്കേതികവിദ്യകള് ഉപയോഗപ്പെടുത്തി. ജിപിടി-3 പോലുള്ള ലാര്ജ് ലാംഗ്വേജ് മോഡലുകളും (LLMs) അതിന്റെ പിന്ഗാമികളും ഈ മുന്നേറ്റങ്ങളുടെ ഫലമായി മുന്നോട്ട് വന്നു. വിപുലമായ ഡാറ്റാസെറ്റുകളില് പരിശീലനം നേടിയ ഈ മോഡലുകള് പുതിയ വാചകങ്ങള് സൃഷ്ടിക്കുന്നതില് നിന്ന് ഭാഷകള് വിവര്ത്തനം ചെയ്യുന്നതിലേക്കും, കോഡ് എഴുതുന്നതിലേക്കും വിവിധ പ്രവര്ത്തനങ്ങള് കൈകാര്യം ചെയ്യുന്നതിലേക്കും പ്രപ്തമായി.
ഭാഷാ കോര്പോറകളെ വൈജ്ഞാനിക കേന്ദ്രമാക്കുന്നതിലൂടെ, മനുഷ്യബുദ്ധിയെ (human cognition)മെഷീന് ലേണിംഗ് മോഡലുകളിലേക്ക് കൈമാറ്റം ചെയ്യുന്നത് ആധുനിക കൃത്രിമബുദ്ധിയുടെ (AI) വികസനത്തിന്റെ ഒരു പ്രധാന ഘടകമായി മാറിയതായി കരുതാം.
വൈവിധ്യമാര്ന്ന വാചക സ്രോതസ്സുകള്
ജിപിടി-4 പോലുള്ള ലാര്ജ് ലാംഗ്വേജ് മോഡലുകള് (ഘഘങ)െ പരിശീലിപ്പിക്കുന്നതിനായി കോര്പോറ അല്ലെങ്കില് ഡാറ്റാസെറ്റുകളില് പുസ്തകങ്ങള്, വെബ്സൈറ്റ് ഉള്ളടക്കം, വിക്കിപീഡിയ പോലുള്ള അറിവുശേഖരങ്ങള്, സോഷ്യല് മീഡിയ പോസ്റ്റുകള്, ഉല്പ്പന്ന-സേവന അവലോകനങ്ങള്, പൊതു ഇ-മെയിലുകള് എന്നിവയില് കാണപ്പെടുന്ന കൂടുതല് അനൗപചാരികമായ(informal) വാചക സ്രോതസ്സുകള് ഉള്പ്പെടുന്നു. ഈ വൈവിധ്യമായ ഡാറ്റ സ്രോതസ്സുകള് പല ഭാഷകളുടെയും വാചകങ്ങളും, അവരുടെ പ്രാദേശിക ശൈലികളും എല്എല്എമ്മുകള്ക്ക് മനസ്സിലാക്കാനും സൃഷ്ടിക്കാനും സഹായിക്കുന്നു.
നാച്ചുറല് ലാംഗ്വേജ് പ്രോസസ്സിംഗ് (NLP), ഡാറ്റാ സയന്സ്, ഡാറ്റാ എഞ്ചിനീയറിംഗ് മേഖലകളില് പ്രൊഫഷണലുകള്ക്കായി കഗ്ഗിള് (Kaggle) കൃത്രിമ ബുദ്ധിയിലേക്ക് അനുയോജ്യമായ ഡാറ്റാസെറ്റുകള് നല്കുന്നു. ഗിറ്റ്ഹബിന്റെ ഓസം പബ്ലിക് ഡാറ്റ (GitHub’s Aweosme Public Data)പോലുള്ള ശേഖരങ്ങള് പരിശീലനത്തിന് ഉപയോഗപ്രദമാണ്. ഈ ഡാറ്റാസെറ്റുകളില് ചിലത് മുന്കൂട്ടി പ്രോസസ്സുചെയ്തതും വിശകലനം ചെയ്തതുമാണെങ്കില്, മറ്റ് ചിലതില് ഉപയോഗത്തിന് മുമ്പ് ശുചീകരണവും (cleaning) സജ്ജീകരണവും(organisation) ആവശ്യമാണ്. ക്വാണ്ടിറ്റേറ്റീവ് ഡാറ്റ ഉള്പ്പെടുന്ന ഡാറ്റാസെറ്റുകള് കൂടാതെ സമ്പന്നമായ ഭാഷാ വാചകങ്ങള് കൂടി അടങ്ങിയിരിക്കുന്ന ഈ സ്രോതസ്സുകള് ഭാഷാ മോഡലുകള്ക്ക് വലിയ പിന്തുണയേകുന്നു.
എ.ഐ ടെക്സ്റ്റ് കോര്പോറയ്ക്ക് പുറമെ, റെക്കോര്ഡുചെയ്ത സംഭാഷണങ്ങള്, പോഡ്കാസ്റ്റുകള്, അഭിമുഖങ്ങള്, വോയ്സ് കമാന്ഡുകള് എന്നിവ ഉള്പ്പെടുന്ന ഓഡിയോ കോര്പോറയും എല്എല്എമ്മുകളെ കൂടുതല് പ്രാപ്തിയുള്ളതാക്കുന്നു. ഇവ സംസാര ഭാഷയിലെ ശബ്ദം, താളം, സ്വരം, സന്ദര്ഭം എന്നിവ മനസ്സിലാക്കാനും എളുപ്പമാക്കാനും സഹായിക്കുന്നു.
മനുഷ്യജീവിതത്തില് ഭാഷയുടെ സ്വാധീനം വൈവിധ്യത്തെ സമ്പന്നമാക്കുകയും ലോകത്തെക്കുറിച്ചുള്ള നമ്മുടെ ധാരണയെ ആഴത്തില് സമൃദ്ധമാക്കുകയും ചെയ്യുന്നു. ഭാഷാശാസ്ത്രജ്ഞര് ഭാഷയെ സാംസ്കാരിക, സാമൂഹിക, മനഃശാസ്ത്രപരമായ വൈവിധ്യങ്ങളോടൊപ്പം ഏകോപിച്ചിരിക്കുന്ന ഒരു സമഗ്ര പ്രതിഭാസമായി കണക്കാക്കുന്നു. ഭാഷ ആശയവിനിമയത്തിനുള്ള ഉപാധിയായി മാത്രമല്ല, ഒരു സമൂഹത്തിന്റെ സ്വത്വത്തിന്റെ, മൂല്യങ്ങളുടെ, പങ്കിട്ട അനുഭവങ്ങളുടെ പ്രതിഫലനമായും മാറുന്നു. ഭാഷ സാമൂഹിക ഇടപെടലുകള് രൂപപ്പെടുത്തുകയും, സാംസ്കാരിക പൈതൃകത്തെ സൂക്ഷിക്കുകയും, മനുഷ്യന് ഉള്ളറിഞ്ഞ ലോകത്തെക്കുറിച്ചുള്ള ഉള്ക്കാഴ്ച നല്കുകയും ചെയ്യുന്നു. ലോകത്തെ നാം എങ്ങനെ കാണുന്നു, മനസ്സിലാക്കുന്നു, വ്യാഖ്യാനിക്കുന്നു എന്നതിനെയെല്ലാം ഭാഷ പ്രതിഫലിപ്പിക്കുന്നു. ഭാഷ നമ്മുടെ വ്യക്തിത്വത്തിലും സാംസ്കാരിക ഐക്യത്തിലും ഉള്ക്കൊള്ളപ്പെടുന്നതിനാല്, അത് നമ്മുടെ പൈതൃകവും കൂട്ടായ ഉത്തരവാദിത്തവുമാണ്.
എന്നാല്, എഐ, എന്എല്പി പോലെയുള്ള സാങ്കേതിക പുരോഗതിയുടെ പശ്ചാത്തലത്തില്, ഭാഷയെ ഡിജിറ്റല് വിപണിയിലെ ഒരു വ്യാപാര ചരക്കായി മാറ്റുന്ന പ്രവണത ഉയര്ന്നിട്ടുണ്ട്. എഐ മോഡലുകള് മെച്ചപ്പെടുത്തുന്നതിനായി വന്തോതില് ഓണ്ലൈന് ഭാഷാ ഡാറ്റ ശേഖരിക്കുന്നതില്, ടെക് കമ്പനികള് ചിലപ്പോള് മതിയായ ധാര്മ്മിക അവബോധമില്ലാത്ത പദ്ധതികള് സ്വീകരിക്കുന്നു. ഭാഷ ലാഭച്ചരക്കായി മാറുമ്പോള്, ഇത് സാംസ്കാരിക സ്വത്വത്തെ ദുര്ബലപ്പെടുത്തുകയും ഭാഷാപരമായ സര്ഗാത്മകതയെ കുറയ്ക്കുകയും ചെയ്യുന്നു. കൂടാതെ, ഭാഷയെ ഒരു വാണിജ്യ ചരക്കാക്കാനുള്ള ഈ ശ്രമം, വ്യക്തിഗതവും സാംസ്കാരിക സ്വകാര്യതയുടെയും സ്വതത്തിന്റെയും മേലുള്ള കടന്നുകയറ്റമായി മാറുന്നുണ്ട്.
എ.ഐയുമായി ബന്ധപ്പെട്ട ധാര്മ്മികവും സ്വകാര്യതാ പ്രശ്നങ്ങളും സൂചിപ്പിക്കുന്ന ചില ഉദാഹരണങ്ങള് താഴെ നല്കിയിരിക്കുന്നു:
2024 ഏപ്രില് 6-നു ന്യൂയോര്ക്ക് ടൈംസ് പ്രസിദ്ധീകരിച്ച’How Tech Giants Cut Corners to Harvest Data for AI എന്ന ലേഖനത്തില് പറയുന്നതുപോലെ, ഓപ്പണ് എഐ, ഗൂഗിള്, മെറ്റ തുടങ്ങിയ കമ്പനികള് അവരുടെ എഐ സിസ്റ്റങ്ങള് പരിശീലിപ്പിക്കാന് ഓണ്ലൈന് ഡാറ്റ ശേഖരിക്കുന്നതിനായി അവരുടെ കോര്പ്പറേറ്റ് നയങ്ങള് മറികടക്കുകയും, ആന്തരിക നിയമങ്ങള് മാറ്റുകയും, പകര്പ്പവകാശ നിയമങ്ങള് ലംഘിക്കുന്ന രീതികള് സ്വീകരിക്കുകയും ചെയ്തിരുന്നു.
2021-ഓടെ, ഓപ്പണ് എഐയ്ക്ക് അതിന്റെ എഐ മോഡലുകള്ക്ക് ആവശ്യമായ ഭാഷാ ഡാറ്റയുടെ കുറവ് അനുഭവപ്പെടുകയായിരുന്നു. ഈ പ്രശ്നത്തിന് പരിഹാരം കാണുന്നതിന്, ഗൂഗിള് ഗവേഷകര് Whisper എന്ന സംഭാഷണ തിരിച്ചറിയല് ഉപകരണം വികസിപ്പിച്ചു, യൂട്യൂബ് വീഡിയോകളുടെ ഓഡിയോ ട്രാന്സ്ക്രൈബ് ചെയ്യാനുള്ള കഴിവുമായി. ഇതുവഴി, വിലപ്പെട്ട സംഭാഷണ കോര്പ്പറകള് എഐ മോഡലുകളുടെ വികസനത്തിന് ഉപയോഗപ്പെടുകയുണ്ടായി. എന്നാല്, ഇത് യൂട്യൂബിന്റെ നിബന്ധനകള് ലംഘിക്കുന്നതാണ് എന്നാണ് ഓപ്പണ് എഐയിലെ ചിലരെങ്കിലും അഭിപ്രായപ്പെട്ടത്. യൂട്യൂബിന്റെ ഉള്ളടക്കം പുറത്തുള്ള ആപ്ലിക്കേഷനുകള് ഉപയോഗിക്കുന്നത് നിരോധിച്ചിട്ടുള്ള സാഹചര്യത്തിലും, ഓപ്പണ് എഐ ഒരു ദശലക്ഷം മണിക്കൂറിലധികം വീഡിയോകള് ട്രാന്സ്ക്രൈബ് ചെയ്യുകയും, അതിനെ ജിപിടി-4 പോലുള്ള ആധുനിക എഐ മോഡലുകള്ക്കുള്ള അടിസ്ഥാനമായി ഉപയോഗിക്കുകയും ചെയ്തു.
ന്യൂയോര്ക്ക് ടൈംസ് പുറത്തുവിട്ട മെറ്റയുടെ മാനേജര്മാര്, നിയമവിദഗ്ദ്ധര്, എഞ്ചിനീയര്മാര് തമ്മിലുള്ള ആഭ്യന്തര മീറ്റിംഗുകളിലെ വിവരങ്ങള് പ്രകാരം, വ്യാപകമായ ടെക്സ്റ്റുകളുടെ ആക്സസ് ലഭ്യമാക്കുന്നതിനായി പ്രസിദ്ധീകരണ ഭീമനായ Simon & Schuster- ഏറ്റെടുക്കാന് മെറ്റ ശ്രമിച്ചിരുന്നു. ഉള്ളടക്കം സൃഷ്ടിക്കുന്നവരുമായി വ്യക്തിഗത ലൈസന്സിംഗ് ഉടമ്പടികള് കൈവരിക്കുന്നത് സമയം ആവശ്യമുള്ള പ്രവൃത്തിയാണ് എന്ന കാരണം പറഞ്ഞ് ഗൂഗിള്, മെറ്റ പകര്പ്പവകാശപ്പെട്ട ഉള്ളടക്കങ്ങള് ശേഖരിക്കുകയും, ഇതിന്റെ നിയമപരമായ പ്രത്യാഘാതങ്ങളെ അവഗണിക്കുകയും ചെയ്തതായി റിപ്പോര്ട്ട് ചെയ്യപ്പെട്ടു.
ഇതിന് പുറമേ, ഗൂഗിള് അതിന്റെ എഐ മോഡലുകള്ക്ക് ഡാറ്റ ശേഖരിക്കുന്നതിനായി യൂട്യൂബ് വീഡിയോകളെ ട്രാന്സ്ക്രൈബ് ചെയ്തതും, ഇത് കണ്ടെന്റ് ക്രിയേറ്റര്മാരുടെ പകര്പ്പവകാശങ്ങള്ക്ക് എതിരെയുള്ള വെല്ലുവിളിയായി മാറുകയും ചെയ്തു. 2022-ല്, ഗൂഗിള്, ഗൂഗിള് ഡോക്സ്, ഗൂഗിള് മാപ്സ് റെസ്റ്റോറന്റ് അവലോകനങ്ങള്, മറ്റ് പൊതുമധ്യത്തില് ലഭ്യമായ ഓണ്ലൈന് ഉള്ളടക്കങ്ങള് അതിന്റെ എഐ സിസ്റ്റങ്ങള് മെച്ചപ്പെടുത്തുന്നതിനായി ശേഖരിക്കാന് സേവന നിബന്ധനകള് വികസിപ്പിക്കുകയും ചെയ്തു. ഗൂഗിള് ജീവനക്കാരുടെ ആന്തരിക സംഭാഷണങ്ങള് പ്രകാരം, ഇത്തരം പ്രവര്ത്തനങ്ങള് വ്യക്തിഗത സ്വകാര്യത ലംഘനങ്ങളോടൊപ്പം, ഭാഷയെ എഐ വ്യവസായത്തിന് അത്യാവശ്യമായ ഒരു ഇന്ധനമാക്കി മാറ്റിയതായി വ്യക്തമാക്കുന്നു.
ഇന്നത്തെ കാലഘട്ടത്തില്, മനുഷ്യ-സമാനമായ വാചകങ്ങള്, ചിത്രങ്ങള്, ശബ്ദം, വീഡിയോ എന്നിവ തല്ക്ഷണം സൃഷ്ടിക്കാന് കഴിവുള്ള എഐ സാങ്കേതിക വിദ്യകള്, ഡിജിറ്റല് ഡാറ്റയുടെ അതിവിശാലമായ ശേഖരണത്തെ ആശ്രയിച്ചാണ് പ്രവര്ത്തിക്കുന്നത്. ന്യൂയോര്ക്ക് ടൈംസ് വെളിപ്പെടുത്തിയതുപോലെ, ഈ ഉയര്ന്ന നിലവാരമുള്ള എഐ സിസ്റ്റങ്ങള് സൃഷ്ടിക്കുന്നതിനുള്ള തീവ്രശ്രമത്തില്, ഓപ്പണ് എഐ, ഗൂഗിള്, മെറ്റ തുടങ്ങിയ കമ്പനികള് അവരുടെ നിബന്ധനകളിലും നയങ്ങളിലും ഇളവുകള് വരുത്തുകയും, നിയമപരമായ പരിധികള് ലംഘിക്കുകയും ചെയ്യുന്നു.
2024 ഒക്ടോബര് 18-ന് ഫോര്ച്യൂണ് ഇ-മാസികയില് പ്രസിദ്ധീകരിച്ച ലേഖനത്തില്, എലോണ് മസ്കിന്റെ ഉടമസ്ഥതയിലുള്ള ട്വിറ്റര്/എക്സ് ഉപയോക്തൃ ഡാറ്റ (user data) ) ടെക് ഭീമന്മാര്ക്ക് ഉപയോഗിക്കാന് അനുവദിക്കുന്ന പുതിയ നയങ്ങള് പ്രഖ്യാപിച്ചു. നവംബര് 15 മുതല് പ്രാബല്യത്തില് വന്ന ഈ നയങ്ങള്, മസ്കിന്റെ ഗ്രോക്ക് എഐ സംരംഭത്തിനപ്പുറത്തേക്കും, മറ്റുള്ള ഡാറ്റ ലൈസന്സിംഗ് അവസരങ്ങളിലേക്ക് വ്യാപിപ്പിക്കാനും, ട്വിറ്റര്/എക്സിന്റെ വരുമാന സ്രോതസ്സുകള് വര്ദ്ധിപ്പിക്കാനും സഹായിക്കുന്നു. ഉപയോക്താക്കള്ക്ക് ഈ നയങ്ങളില് നിന്ന് ഒഴിവാകാനുള്ള അവകാശം ഉണ്ടായിരുന്നുവെങ്കിലും, അത് എങ്ങനെ പ്രാവര്ത്തികമാക്കാമെന്നത് സംബന്ധിച്ച് വ്യക്തതയില്ല.
ഡിജിറ്റല് ഡാറ്റയിലേക്കുള്ള നിയന്ത്രണരഹിതമായ ആക്സസ് ധാര്മ്മികതയും സ്വകാര്യതയും ചോദ്യവലയില് ആക്കുന്നു. ഓപ്പണ് എഐ, ഗൂഗിള്, മെറ്റ, ട്വിറ്റര്/എക്സ് തുടങ്ങിയ കമ്പനികള് വന്തോതില് ഡാറ്റ ശേഖരിക്കുന്നതിനായി പരമ്പരാഗത മാര്ഗ്ഗങ്ങള് മറികടക്കുകയും, നിയമപരമായ പരിധികളെ വെല്ലുവിളിക്കുകയും ചെയ്യുന്നു. ഡാറ്റ കൈകാര്യം ചെയ്യുന്നതിലെ വീഴ്ചകളുടെ ഗൗരവം 2018-ലെ പ്രശസ്തമായ കേംബ്രിഡ്ജ് അനലിറ്റിക്ക സംഭവത്തില് കാണാനാവുന്നു. ഈ രാഷ്ട്രീയ കണ്സള്ട്ടിംഗ് ഏജന്സി 87 ദശലക്ഷത്തിലധികം ഫേസ്ബുക്ക് ഉപയോക്താക്കളുടെ ഡാറ്റ ചോര്ത്തി, അവരുടെ സാമൂഹിക ബന്ധങ്ങള് വിശകലനം ചെയ്യുകയും തിരഞ്ഞെടുപ്പ് പ്രചാരണത്തിനായി ഉപയോഗിക്കുകയും ചെയ്തു. ഈ സംഭവം ഡാറ്റയുടെ ദുരുപയോഗത്തെക്കുറിച്ചുള്ള ലോകബോധം ഉയര്ത്തി.
2024-ലെ ലോക്സഭാ തിരഞ്ഞെടുപ്പില് ഇടപെടാന് ശ്രമിച്ച ഒരു ഇസ്രായേലി എഐ കമ്പനിയുമായി ബന്ധപ്പെട്ട സംഭവത്തില്, ഓപ്പണ് എഐ ‘ഓപ്പറേഷന് സീറോ’ എന്ന സംരംഭത്തിലൂടെ ഇടപെടലുകള് തടഞ്ഞതായി ടൈംസ് ഓഫ് ഇന്ത്യ റിപ്പോര്ട്ട് ചെയ്തു. ഇത് സ്വതന്ത്രമായ തിരഞ്ഞെടുപ്പ് പ്രക്രിയയ്ക്ക് എഐ ദുരുപയോഗം ചെയ്താല് ഉണ്ടാകുന്ന ഭീഷണിയെ വെളിവാക്കുന്നു.
എഐയുടെ സൈനിക പ്രയോഗങ്ങളിലും വന്രാഷ്ട്രങ്ങള് ഏറെ ശ്രദ്ധ കേന്ദ്രീകരിക്കുന്നു. സ്വയംഭരണ ആയുധങ്ങളുടെ (അണട) വികസനം അടുത്തകാലത്ത് വേഗം പ്രാപിക്കുകയും യുഎസ്, ചൈന തുടങ്ങിയ രാജ്യങ്ങള് മുന്തൂക്കം പുലര്ത്തുകയും ചെയ്യുന്നു. ഈ സാങ്കേതികവിദ്യയുടെ ധാര്മ്മിക പ്രശ്നങ്ങള് പരസ്യമായ ചര്ച്ചകള്ക്കും നിയന്ത്രണത്തിനും വിധേയമാകണം.
ഭാഷയുടെ ചരക്കുവത്കരണം: ഒരു ആഗോള രാഷ്ട്രീയ കുത്തകയോ?
ജനറേറ്റീവ് എഐയുടെ വളര്ച്ച, ഡാറ്റ സയന്സ്, എഐ എന്നിവ തൊഴില് അവസരങ്ങള് വര്ദ്ധിപ്പിക്കുന്നു. ഈ മേഖലകളില് മത്സരത്തിന്റെ അന്തരം വ്യാപകമായ സാമൂഹിക വ്യതിയാനങ്ങള് സൃഷ്ടിച്ചേക്കാം. അതേസമയം, ചാറ്റ്ജിപിടി, ജെമിനി ബാര്ഡ് തുടങ്ങിയ എഐ സിസ്റ്റങ്ങള് കോര്പ്പറേറ്റുകളുടെയും സ്വകാര്യ കമ്പനികളുടെയും നിയന്ത്രണത്തിലാണ്, ഇത് വലിയ സാമ്പത്തിക-രാഷ്ട്രീയ അസന്തുലിതാവസ്ഥ സൃഷ്ടിക്കാന് സാധ്യതയുള്ളതാണ്. ഈ കേന്ദ്രീകൃത നിയന്ത്രണങ്ങള് പരിമിത താല്പ്പര്യങ്ങള്ക്കായി സാങ്കേതികവിദ്യയുടെ ദുരുപയോഗം ഒഴിവാക്കാന് ശക്തമായ മേല്നോട്ടവും പാരിസ്ഥിതികമായ നിലപാടുകളും ആവശ്യമാണ്.
(കേരള കേന്ദ്രസര്വ്വകലാശാല ലിംഗ്വിസ്റ്റിക്സ് വിഭാഗത്തില് ഗവേഷകയാണ് ലേഖിക)
References
1.Chang, A. (2018, May 2). The Facebook and Cambridge Analytica scandal, explained with a simple diagram.Vox. https://www.vox.com/policy-and-politics/2018/3/23/17151916/facebook-cambridge-analytica-trump-diagram
2.Cole, S. (2024, February 28). Tumblr and WordPress to sell users’ data to train AI tools. 404Media.https://www.404media.co/tumblr-and-wordpress-to-sell-users-data-to-train-ai-tools/
3.datos.gob.es. (2024, May 28). Linguistic corpora: the knowledge engine for AI. datos.gob.es. https://datos.gob.es/en/blog/linguistic-corpora-knowledge-engine-ai
4.Desk, T. T. (2024, June 2). Operation Zero: How ChatGPT maker OpenAI says it stopped an Israeli company from disrupting Lok Sabha elections. The Times of India. https://timeosfindia.indiatimes.com/technology/tech-news/operation-zero-how-chatgpt-maker-openai-says-it-stopped-an-israeli-company-from-disrupting-lok-sabha-elections/articleshow/110635129.cms
5.I.B.M.Developer.(n.d.).https://developer.ibm.com/articles/cc-cognitive-natural-language-processing/
6.Metz, C., Kang, C., Frenkel, S., A Thomposn, S., & Grant, N. (2024, April 6). How Tech Giants Cut Corners to Harvest Data for A.I. The New York Times. Retrieved November 5,2024,from,https://w ww.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html
7.Morris, C. (2024, October 18). Twitter/X will now allow third parties to train AI models with people’s data-and any disputes must be heard in a Trump-friendly court. Fortune. https://fortune.com/2024/10/18/twitter-x-privacy-policy-update-ai-user-data-trump-court/
8.Privacy in an AI era: How do we protect our perosnal information? (2024, March 18). StanfordHAI.https://hai.stanford.edu/news/privacy-ai-era-how-do-we-protect-our-perosnal-information
9.purpleSlate. (2024, May 9). Evolution of NLP: From past limitations to modern capabilities.Medium.https://medium.com/@oscial_65128/ evolution of nlp-from past-limi10s, by%20the%20 integration% 20of%20machine
10.Tripathi, P. (2024, May 6). When AI crosses the line: The impending threat of Autonomous Weapons Systems. Observer Research Foundation. Retrieved November5,2024,from,https://www. orfonline.org/expert-speak/when-ai-crosses-the-line-the-impending-threat-of-autonomous-weapons-systems
11.Updates to our Terms of Service and Privacy Policy . (n.d.). https://privacy.x.com/en/blog/2024/updates-tos-privacy-policy