چرا توانایی جدید ChatGPT برای صحبت می تواند همه چیز را تغییر دهد
چرا توانایی جدید ChatGPT برای صحبت می تواند همه چیز را تغییر دهد
راه های بیشتر برای برقراری ارتباط
OpenAI نسخه اصلاح شده چت بات خود را راه اندازی کرد که می تواند با کاربران مکالمه کند.
ChatGPT اکنون می تواند کلمات گفتاری را درک کند، با صدای مصنوعی پاسخ دهد و تصاویر را ارزیابی کند.
توانایی های جدید چت بات می تواند فناوری را فراگیرتر کند.
برنامه نویسی که از یک ربات چت هوش مصنوعی برای تولید کد نرم افزار استفاده می کند.
صحبت کردن با ربات چت شما اکنون یک چیز است و می تواند نحوه تعامل ما با هوش مصنوعی (AI) را متحول کند.
OpenAI نسخه جدیدی از چت بات خود را منتشر کرده است که می تواند با مردم صحبت کند. ChatGPT اکنون توانایی “دیدن، شنیدن و صحبت کردن” را دارد. ربات می تواند زبان گفتاری را بفهمد، با استفاده از صدای مصنوعی پاسخ دهد و تصاویر را تجزیه و تحلیل کند.
رافی کریسک، مدیر هوش مصنوعی شرکت پروتو، از طریق ایمیل به Lifewire گفت: «تعامل با رباتهای چت هوش مصنوعی با استفاده از کلمات گفتاری، حس ارتباط طبیعی را تقویت میکند و به ترجیح ذاتی انسان برای تبادل کلامی پاسخ میدهد. “این حالت تعامل نه تنها اغلب سریعتر از تایپ کردن است، بلکه راحتی را نیز افزایش می دهد، به خصوص در دستگاه ها یا تنظیماتی که تایپ در آنها امکان پذیر نیست.”
چت با ربات شما
بهروزرسانی جدید ربات چت، بزرگترین آپدیت OpenAI از زمان GPT-4، به کاربران امکان میدهد در برنامه تلفن همراه ChatGPT چت صوتی داشته باشند. کاربران می توانند از میان پنج صدای مختلف ربات برای استفاده از چت ربات انتخاب کنند. آنها همچنین می توانند تصاویر را به ChatGPT نشان دهند، یک ویژگی به نام GPT-4-Vision، و به مناطق خاصی برای بررسی یا بحث اشاره کنند.
این شرکت در وب سایت خود نوشت: «از یک مکان دیدنی در حین سفر عکس بگیرید و در مورد چیزهای جالب آن گفتگوی زنده داشته باشید. “وقتی در خانه هستید، از یخچال و انباری خود عکس بگیرید تا متوجه شوید چه چیزی برای شام است (و سوالات بعدی را برای دستور پخت گام به گام بپرسید). عکس، دور مجموعه مشکل و اشتراک گذاری آن با هر دوی شما نکاتی را نشان می دهد.”
با توانایی پردازش صدا، ChatGPT می تواند صداها را تقلید کند و پس از شنیدن تنها یک قطعه کوتاه از صحبت کردن یک نفر، گفتار تولید کند. عملکرد صوتی به روز شده ChatGPT می تواند داستان های قبل از خواب را بگوید، به حل بحث های میز شام کمک کند و متن تایپ شده کاربران را به صورت شفاهی بخواند.
OpenAI خطر استفاده از این ویژگی را برای جعل هویت یا فعالیت های تقلبی تایید کرده است. علیرغم این نگرانیها، این شرکت گفت که ChatGPT فقط از صداهای موجود در سیستم استفاده میکند و تایید قبلی را از شرکت دریافت کرده است.
کریس کالیسون-برچ، استاد علوم کامپیوتر و اطلاعات در دانشگاه پنسیلوانیا، گفت: چت ربات های جدیدتر مانند ChatGPT OpenAI در انجام مکالمات و درک دستورالعمل های کاربران بسیار بهتر از نسل قدیمی الکسا، سیری و دستیار گوگل هستند. در یک ایمیل “من انتظار جهش سریع رو به جلو در دستیاران هوشمند را دارم زیرا آنها از فناوری هوش مصنوعی مولد استفاده می کنند.”
من انتظار یک جهش سریع رو به جلو در دستیاران هوشمند را دارم زیرا آنها از فناوری هوش مصنوعی مولد استفاده می کنند.
نسخه ارتقا یافته ChatGPT در دو هفته آینده برای کاربران Plus و Enterprise در پلتفرم های تلفن همراه عرضه خواهد شد و به زودی برای توسعه دهندگان و سایر کاربران دسترسی خواهد داشت.
Callison-Burch پیشنهاد کرد که ویژگی صوتی ChatGPT می تواند برای کودکان مفید باشد. او گفت فرزندانش از آمازون الکسا برای جستجو در اینترنت استفاده کردند.
بچههای من سوالات علمی الکسا میپرسیدند، مثل اینکه حلزونها چند دندان دارند؟ یا “آیا لاک پشت ها می توانند از طریق باسن خود نفس بکشند؟” و آن را در مورد پوکمون سؤال کرد.” آنها از آن برای آموزش حقایق ریاضی جالب استفاده کردند (یکی از بچه های من به دلیل الکسا می تواند از 1000 تا نومتریجینتیلیون بشمارد).
Callison-Burch گفت که دسترسی اولیه به GPT-4-Vision داشته است و آن را “فوق العاده چشمگیر” می داند.
او افزود: «من از آن برای توصیف عکسها، چهرهها در مقالات علمی و حتی نقاشیهای هنری زیبا استفاده کردهام. “توضیحات آن فوق العاده خوب است، و می توانید با آن در مورد تصاویر گفتگو کنید، سوالاتی بپرسید و به آنها پاسخ دهید.”
OpenAI Dall-E 3
OpenAI Dall-E 3، نسخه بعدی ابزار هوش مصنوعی متن به تصویر خود را راه اندازی کرده است. کاربران می توانند درخواستی برای یک تصویر وارد کنند و با تعامل با ChatGPT، درخواست را تنظیم کنند. این یکی از تعداد فزاینده برنامه های مبتنی بر هوش مصنوعی برای ساخت هنر است.
بن جیمز، مدیر عامل Atlas، یک پلتفرم هنری سه بعدی هوش مصنوعی، در مصاحبه ای با Lifewire به Lifewire گفت: «هوش مصنوعی شهود خلاق کاربران را تقویت می کند. یک هنرمند معمولاً به دلیل محدودیتهای زمانی و بودجه پروژه بر روی مجموعهای منحصر به فرد یا محدود از آزمایشهای طراحی تمرکز میکند. هوش مصنوعی زمان تولید هنرمندان، طراحان و توسعهدهندگان را کاهش میدهد و این کار را بهگونهای انجام میدهد که خلاقیت را در خط مقدم نگه میدارد. مجموعهای متنوعتر از توسعه هنری در همه سبکها – از هایپررئالیستی تا انتزاعی را ممکن میسازد.
راحت تر و ایمن تر
ادعای DALL-E برای شهرت این است که پیام های متنی را به تصویر تبدیل می کند. با این حال، DALL-E 2 محدودیتهای خود را داشت که غالباً از جمله بندی دقیق غافل میشد. به گفته محققان OpenAI، جدیدترین نسخه در درک زمینه بسیار بهتر است.
یکی دیگر از ویژگی های جدید DALL-E 3 این است که با ChatGPT کار می کند. کاربران مجبور نیستند درخواستهای دقیق خود را برای DALL-E 3 بنویسند. آنها فقط میتوانند از ChatGPT بخواهند این کار را انجام دهد و chatbot یک پاراگراف برای DALL-E 3 ایجاد میکند.
برای ایمنی، OpenAI گفت که DALL-E 3 مانند DALL-E 2 دارای فیلترهایی برای جلوگیری از ایجاد محتوای خشونت آمیز، جنسی یا نفرت انگیز است. OpenAI همچنین گفت که با کارشناسان همکاری کرده است تا خطرات احتمالی مانند سوگیری های مضر یا ایجاد تبلیغات و اطلاعات نادرست را پیدا کرده و کاهش دهد.
این شرکت در وبسایت خود نوشت: «ما همچنین در حال تحقیق در مورد بهترین راهها برای کمک به افراد برای شناسایی زمان ایجاد تصویر با هوش مصنوعی هستیم. ما در حال آزمایش یک طبقهبندیکننده منشأ هستیم – یک ابزار داخلی جدید که میتواند به ما کمک کند تشخیص دهیم آیا یک تصویر توسط DALL-E 3 ایجاد شده است یا نه – و امیدواریم از این ابزار برای درک بهتر روشهای استفاده از تصاویر تولید شده استفاده کنیم.
انقلاب هنر هوش مصنوعی
هوش مصنوعی به طور فزاینده ای نشان خود را در دنیای هنر می گذارد و قطعاتی را ایجاد می کند که می توانند با خلاقیت های ساخته شده توسط انسان رقابت کنند. هنر تولید شده توسط هوش مصنوعی از الگوریتمها و یادگیری ماشینی برای تولید آثار هنری بصری، موسیقی، شعر و موارد دیگر استفاده میکند و اغلب نتایجی را ایجاد میکند که از آثار خلق شده توسط هنرمندان انسانی قابل تشخیص نیستند. یکی از نمونه های قابل توجه استفاده از شبکه های متخاصم مولد (GANs) برای ایجاد تصاویر واقعی، از جمله پرتره، منظره، و هنر انتزاعی است.
مردم در درک نحوه نوشتن اعلان های بهتر برای دستیابی به نتایجی که می خواهند مهارت بیشتری پیدا می کنند.
هنر تولید شده توسط هوش مصنوعی سوالات اخلاقی و قانونی را نیز مطرح می کند. هیئت بررسی دفتر کپی رایت ایالات متحده اخیراً تصمیم گرفت که یک تصویر تولید شده توسط هوش مصنوعی به نام “Théâtre d’Opéra Spatial” که مقام اول را در مسابقه هنر منصفانه ایالت کلرادو در سال 2022 کسب کرد، نمی تواند دارای حق چاپ باشد. داوران گفتند که آثاری که توسط افراد غیرانسانی ساخته شدهاند نمیتوانند از حق چاپ برخوردار باشند.
سرگئی بلوسوف، مهندس ارشد تحقیقات AI/ML در AI ARTA در ایمیلی گفت که صنعت مولد هوش مصنوعی به سرعت در حال توسعه است.
وی افزود: “اعلامها اکنون بهتر و دقیقتر شناسایی، درک و پردازش میشوند. علاوه بر این، اکنون چندین ابزار تولید سریع وجود دارد که کار تبدیل متن به تصویر را تسهیل میکند و به کاربران کمک میکند تا درخواستهای متنی را به درخواستهای قابل دسترسی با هوش مصنوعی تبدیل کنند.” . بسیاری از تولیدکنندگان تصویر هوش مصنوعی خدمات داخلی ارائه میکنند که به کاربران کمک میکنند تا درخواستهایشان را وارد کنند، پیشنویسهای آماده یا عبارات لازم را برای تعیین سبکهای خاص پیشنهاد کنند.»
جیمز گفت که بهترین ابزارهای هنری هوش مصنوعی آنهایی هستند که با تمرکز زیبایی شناختی واضح ایجاد می شوند، مانند مدل های هوش مصنوعی تنظیم شده بر اساس کار خود یک هنرمند.
وی افزود: در فضای هنر دوبعدی، مدلهای منبع باز مانند Stable Diffusion بهترین ابزار هستند و فناوری اطلس این امکان را به صورت سه بعدی فراهم میکند.
Namanh Hoang کارشناس بازاریابی فناوری در ایمیلی اشاره کرد که تولید هنر هوش مصنوعی به شدت به قدرت محاسباتی وابسته است. هنگامی که برای اولین بار محبوبیت خود را شروع کرد، حتی با برخی از قدرتمندترین سرورهای محاسباتی، خدمات تولید هنر هوش مصنوعی که بر روی چارچوب Stable Diffusion ساخته شده بودند، تنها می توانستند تصاویری با وضوح نسبتاً پایین 512×512 پیکسل تولید کنند.
او افزود: «هنوز، با بهبود قدرت محاسباتی، اکنون تصاویری را میبینیم که دو تا سه برابر بزرگتر از قبل و با نصف سرعت ارائه شدهاند». “علاوه بر این، مردم در درک نحوه نوشتن اعلان های بهتر برای دستیابی به نتایجی که می خواهند مهارت بیشتری پیدا می کنند.”
آینده هوش مصنوعی؟
قابلیتهای چندوجهی پیشرفته ChatGPT پس از انتشار DALL-E 3، جدیدترین و پیچیدهترین سیستم تولید تصویر OpenAI، از نزدیک دنبال میشوند.
OpenAI بیان میکند که DALL-E 3 پردازش زبان طبیعی را نیز در بر میگیرد، و کاربران را قادر میسازد تا با مدل ارتباط برقرار کنند تا نتایج را اصلاح کنند و با ChatGPT هماهنگ کنند تا به تولید درخواستهای تصویر کمک کند.
کریسک گفت: در آینده نه چندان دور، چت رباتهای هوش مصنوعی فعال با صدا قادر خواهند بود لهجهها و زبانهای مختلف را درک کنند و فناوری را فراگیرتر و جهانیتر کنند.
او افزود: «این تکامل با توانایی درک احساسات از نشانههای ظریف صدای ما همراه خواهد بود و دستیارهای دیجیتالی همدلتر را ایجاد میکند.» “این پیشرفتها آماده نفوذ در تمام جنبههای زندگی ما هستند – از ابزارهای پوشیدنی گرفته تا وسایل نقلیه، که زیربنای آن بیومتریک صوتی قوی است که نهایت امنیت را تضمین میکند. و همانطور که این سیستمها بالغ میشوند، ما با
شاهد ترکیبی از بازخورد صوتی، بصری و لمسی باشید که عصر جدیدی از تعاملات دیجیتالی همهجانبه و چند بعدی را آغاز می کند.”