Galaxy AI قبلاً به میلیونها کاربر در سراسر جهان کمک کرده است تا با هم ارتباط برقرار کنند. ویژگیهای هوش مصنوعی روی دستگاه مبتنی بر مدلهای زبان بزرگ (LLM) – مانند Live Translate، Interpreter، Note Assist و Browsing Assist – از ۱۶ زبان پشتیبانی میکند که چهار زبان دیگر تا پایان سال ارائه میشوند.
فرآیند ساخت ویژگی های زبان برای Galaxy AI مستلزم زمان و تلاش زیادی است زیرا هر زبان ساختار و فرهنگ منحصر به فردی را ارائه می دهد. محققان سامسونگ از سراسر جهان – در برزیل، چین، هند، اندونزی، ژاپن، اردن، لهستان و ویتنام- چالشها و پیروزیهای پشت توسعه Galaxy AI را به اشتراک گذاشتند. اتاق خبر سامسونگ خلاصه ای از داستان های خود را در زیر گردآوری کرده است.
توسعه یک مدل ترجمه
ویژگیهای Galaxy AI مانند Live Translate سه فرآیند اصلی را انجام میدهند: تشخیص خودکار گفتار (ASR)، ترجمه ماشین عصبی (NMT) و تبدیل متن به گفتار (TTS).
مؤسسه تحقیق و توسعه سامسونگ ویتنام (SRV) در مدلهای تشخیص خودکار گفتار (ASR) با موانعی روبرو شد زیرا ویتنامی زبانی با شش لحن متمایز است. تشخیص زبانهای اهنگی به دلیل پیچیدگیهایی که به تفاوتهای زبانی اضافه میکنند، برای هوش مصنوعی دشوار است. SRV به این چالش با مدلی پاسخ داد که بین فریمهای صوتی کوتاهتر حدود 20 میلیثانیه تفاوت قائل میشود.
موسسه تحقیق و توسعه سامسونگ لهستان (SRPOL) مانع بزرگی در آموزش مدلهای ترجمه ماشینی عصبی (NMT) برای قارهای به تنوع اروپا بود. SRPOL با بهره گیری از مجموعه غنی تجربه خود در پروژه هایی که بیش از 30 زبان در چهار منطقه زمانی را در بر می گیرد، توانست ترجمه ناپذیری عبارات خاصی را بررسی کند و عبارات اصطلاحی را که ممکن است معادل مستقیم در سایر زبان ها نداشته باشند، مدیریت کند.
موسسه تحقیق و توسعه سامسونگ اردن (SRJO) عربی – زبانی که در بیش از 20 کشور به حدود 30 گویش صحبت می شود – برای Galaxy AI اقتباس کرد. ایجاد یک مدل متن به گفتار (TTS) تلاش کوچکی نبود، زیرا کلمات و راهنماهای تلفظ به طور گسترده توسط عربی زبانان بومی درک می شوند اما در نوشتار وجود ندارند. SRJO بر اساس یک مدل پیشبینی پیچیده برای دیاکریتیکهای گمشده، توانست یک مدل زبانی منتشر کند که گویشها را میفهمد و میتواند به عربی استاندارد پاسخ دهد.
اهمیت داده ها
در طول فرآیند آموزش Galaxy AI در هر زبان، موضوع اصلی اهمیت همکاری آزاد با موسسات محلی بود. کیفیت داده های مورد استفاده مستقیماً بر دقت ASR، NMT و TTS تأثیر می گذارد. بنابراین سامسونگ با شرکای مختلف برای به دست آوردن و بررسی داده هایی که منعکس کننده اصطلاحات، گویش ها و سایر تغییرات هر منطقه بود، کار کرد.
مؤسسه تحقیق و توسعه سامسونگ هند-بنگالور (SRI-B) با مؤسسه فناوری Vellore برای ایمن سازی تقریباً یک میلیون خط داده های صوتی تقسیم بندی شده و سرپرستی شده در گفتار، کلمات و دستورات مکالمه همکاری کرد. دانش آموزان تجربه عملی در یک پروژه واقعی و همچنین راهنمایی از کارشناسان سامسونگ را دریافت کردند. ذخیره غنی داده ها به SRI-B کمک کرد Galaxy AI را به زبان هندی آموزش دهد و بیش از 20 گویش منطقه ای و عطف های لحنی مربوطه، علائم نگارشی و عبارات محاوره ای را پوشش دهد.
بینش زبانشناختی محلی برای مدل اسپانیایی آمریکای لاتین ضروری بود زیرا تنوع در زبان با تنوع پایگاه کاربر آن منعکس میشود. به عنوان مثال، کلمه استخر می تواند باشد آلبرکا (مکزیک) پیسینا (کلمبیا، بولیوی، ونزوئلا) یا پیلتا (آرژانتین، پاراگوئه، اروگوئه) بر اساس اینکه اهل کدام منطقه هستید. موسسه تحقیق و توسعه سامسونگ برزیل (SRBR) با موسسات علم و فناوری SiDi و Sidia برای جمعآوری و مدیریت حجم عظیمی از دادهها و همچنین پالایش و بهبود منابع صوتی و متنی مدل اسپانیایی Galaxy AI در آمریکای لاتین همکاری کرد.
موسسه تحقیق و توسعه سامسونگ چین-پکن (SRC-B) و موسسه تحقیق و توسعه سامسونگ چین-گوانگژو (SRC-G) با شرکت های چینی Baidu و Meitu همکاری کردند تا از تخصص خود در توسعه مدل های زبان بزرگ (LLM) مانند ERNIE Bot و MiracleVision استفاده کنند. . در نتیجه، Galaxy AI از هر دو حالت اصلی چینی ماندارین و کانتونی پشتیبانی می کند.
علاوه بر همکاریهای خارجی، بررسی دقیق و منابع داخلی نیز ضروری بود.
باهاسا اندونزی زبانی است که به دلیل استفاده گسترده از معانی متنی و ضمنی که بر نشانه های اجتماعی و موقعیتی متکی است، بدنام است. محققان موسسه تحقیق و توسعه سامسونگ اندونزی (SRIN) برای ضبط مکالمات در کافیشاپها و محیطهای کاری وارد میدان شدند تا صداهای واقعی محیط را ضبط کنند که میتواند ورودی را مخدوش کند. این به مدل کمک کرد تا اطلاعات لازم را از ورودی کلامی تشخیص دهد و در نهایت دقت تشخیص گفتار را بهبود بخشد.
در زبان ژاپنی همنام های زیادی وجود دارد زیرا تعداد صداها در زبان محدود است. بنابراین بسیاری از کلمات باید بر اساس زمینه تعیین شوند. موسسه تحقیق و توسعه سامسونگ ژاپن (SRJ) از Samsung Gauss، LLM داخلی این شرکت، جملات متنی را با کلمات یا عبارات مرتبط با هر سناریو ساختار می دهد تا به مدل هوش مصنوعی کمک کند تا بین همنام ها تمایز قائل شود.
شبکه تحقیقات جهانی سامسونگ
متخصصان موسسات مختلف تحقیق و توسعه سامسونگ از شبکه تحقیقاتی جهانی سامسونگ استفاده کامل کردند.
قبل از پرداختن به هندی، SRI-B با تیمهایی در سراسر جهان برای توسعه مدلهای زبان هوش مصنوعی برای انگلیسی بریتانیایی، هندی و استرالیایی و همچنین تایلندی، ویتنامی و اندونزیایی همکاری کرد. مهندسان دیگر مراکز تحقیقاتی سامسونگ از بنگلور هند بازدید کردند تا ویتنامی، تایلندی و اندونزیایی را به Galaxy AI بیاورند.
SRPOL تجربه گسترده ای در توسعه مدل های ASR، NMT و TTS برای بسیاری از زبان ها داشت. نقش کلیدی در گسترش زبان Galaxy AI، SRPOL در سراسر قاره ها برای پشتیبانی از SRJO با گویش های عربی و SRBR با پرتغالی برزیل و اسپانیایی آمریکای لاتین همکاری کرد.
توسعه دهندگان سامسونگ در هر یک از این مکان ها یاد گرفتند که در سراسر مرزها و مناطق زمانی همکاری کنند. توسعه دهندگان SRIN حتی هنگام ملاقات با همکاران SRI-B خود، آداب و رسوم روزه محلی در هند را رعایت کردند. بسیاری با غرور و قدردانی در مورد کار خود تأمل کردند – با درک پیامدهای ماندگار این پروژه بر زبان، فرهنگ، میراث و هویت.
تلاش های مداوم در حالی که سفر ادامه دارد
سامسونگ اخیراً Galaxy AI را به جدیدترین محصولات تاشو و پوشیدنی خود معرفی کرده است. از زمان انتشار در اوایل سال جاری، Galaxy AI تاکنون در بیش از 100 میلیون دستگاه استفاده شده است. Won-joon Choi، EVP و رئیس دفتر تحقیق و توسعه موبایل، Mobile eXperience Business در Samsung Electronics در یک بحث اخیر گفت: «ما انتظار داریم تا پایان سال 2024 به 200 میلیون دستگاه برسیم.
در میان این مأموریت دموکراتیک کردن هوش مصنوعی، مهم است که به گذشته نگاه کنیم و دستاوردها و پیشرفت هایی را که منجر به ارائه این فناوری ایمن و فراگیر شده است که به نفع بشریت و بهبود زندگی است، جشن بگیریم. سامسونگ با ایجاد اکوسیستم هوش مصنوعی Galaxy با ویژگیها، زبانها و تنوعهای منطقهای بیشتر، تبادلات بین فرهنگی را به روشهای بیسابقهای برای تحقق چشمانداز هوش مصنوعی برای همه تسهیل میکند.