Kas yra DALL·E 2? Paaiškinimas pradedantiesiems su pavyzdžiais

Cto Takoe Dall E 2 Ob Asnenie Dla Nacinausih S Primerami



Kas yra DALL·E 2?

DALL·E 2 yra dirbtinio intelekto programa, kurianti vaizdus iš tekstinių aprašymų, ketvirtadienį atskleidė tyrimų bendrovė OpenAI.





Jis naudoja 12 milijardų parametrų mokomąją GPT-3 transformatoriaus modelio versiją, kad interpretuotų natūralios kalbos įvestis ir generuotų atitinkamus vaizdus. Pavyzdžiui, kai pateikiamas sakinys „juodai balta mažo šuns nuotrauka“, jis teisingai atvaizduoja nespalvotą Čihuahua vaizdą.





Sistema nėra tobula – kartais ji sukuria vaizdus, ​​kuriuos sunku interpretuoti arba jie visiškai neatitinka ženklų. Pavyzdžiui, paprašius sukurti „žmogaus, važiuojančio vienaračiu ant virvės virš ugnikalnio“ vaizdą, buvo sukurtas (mano nuomone, gražus), bet visiškai nesusijęs saulėlydžio virš vandens vaizdas su maža figūra priekiniame plane. .





Vis dėlto rezultatai yra įspūdingi, o OpenAI teigia, kad DALL·E 2 „yra pirmasis AI modelis, generuojantis vaizdus iš tekstinių aprašymų, kurie gali konkuruoti su profesionalių menininkų kokybe“.



Sistema buvo apmokyta naudojant teksto ir vaizdų porų duomenų rinkinį, kurį sudaro apie 1,3 milijono vaizdų ir antraščių iš interneto, kuriuos iškrapštė ir kuravo OpenAI. Tada treniruočių duomenys buvo naudojami tiksliai sureguliuoti GPT-3 modelį, kad jis galėtų generuoti vaizdus iš tekstinių aprašymų.

OpenAI teigia, kad sistema gali generuoti „aukštos kokybės“ vaizdus iš daugybės tekstinių aprašymų, įskaitant tuos, kurie yra abstrakčių, konkrečių ar net poetinių.

Be Čihuahua pavyzdžio, kiti DALL·E 2 vaizdų pavyzdžiai apima teisingai atvaizduotą Adolfo Hitlerio portretą, drakono atvaizdą iš daržovių ir Monos Lizos atvaizdą iš skrebučio.



Sistema taip pat gali generuoti neegzistuojančių dalykų, pvz., „floof“ (išgalvotas gyvūnas) arba „tulpa“ (minčių forma), vaizdus.

Apskritai rezultatai yra įspūdingi, o „OpenAI“ teigia, kad sistema „atveria naujas galimybes kurti vaizdus iš tekstinių aprašymų“.

IŠ E 2 Tai CLIP sistema paverčia tekstinę informaciją vaizdine informacija. Tai kodavimo-dekoderio paradigma, o tai reiškia, kad kai pateikiamas įvesties tekstas, jis pirmiausia konvertuojamas į mašinos įvestį, tada apdorojamas sistemos ir galiausiai perduodamas dekoderiui, kuris paverčia užkoduotus duomenis į vaizdą.

Kas yra DALL E2

Kas yra DALL·E 2?

Tai naujausios kartos DALL·E – generatyvus kalbos modelis, kuriame naudojamos frazės visiškai naujiems vaizdo efektams sukurti. DALL E 2 yra didžiulis 3,5 V modelis, nors ir ne toks masyvus kaip GPT-3. Įdomu tai, kad jis taip pat yra lengvesnis nei jo pirmtakas (12B). Kalbant apie aprašo išlygiavimą ir fotorealizmą, DALL·E 2 yra 70 % geresnis nei DALL·E 2, nepaisant didesnio dydžio.

DALL.E 2- paaiškinimas pradedantiesiems su pavyzdžiais

Tiksliau, DALL·E 2 yra hierarchinis sąlyginis teksto vaizdo sintezės modelis, kuris sujungia gilųjį natūralios kalbos apdorojimo mokymąsi su kompiuterine vizija vaizdų generavimui. Jo tikslas – treniruoti du modelius, o treniruočių rinkinį sudaro suporuoti paveikslėliai ir aprašymai. Pirmasis yra a priori, kuris, turint rašytinį pavadinimą, gali būti išmokytas generuoti CLIP vaizdo įterpimą. Tada turime dekoderį, kuris, įterpdamas CLIP vaizdą (ir antraštę, jei yra), gali generuoti išmokytą vaizdą.

DALLE 2 yra apmokytas naudojant šimtus milijonų nuotraukų su antraštėmis iš interneto, o kai kurie iš tų vaizdų pašalinami ir keičiami, kad būtų pakeista tai, ką modelis išmoksta. Jis nuskaito kelias vaizdo parinktis CLIP priedai ir tada naudokite dekoderis pereiti per kiekvieną iš jų. Tada sukuriamas įdomus visos tos informacijos derinys, atsižvelgiant į vartotojo įvestį.

DALL pavyzdys yra 2

Pažaiskime nedidelį žaidimą, kad suprastume DALL·E. Padalinkime jį į kitus tris veiksmus.

  1. Įsivaizduokite vaivorykštes, debesis ir vienaragius, skraidančius mėlyname danguje. Įsivaizduokite, koks vaizdas galėtų būti jūsų vaizduotėje. Žmonės yra arčiausiai tobulo vaizdo įterpimo analogo, o paveikslėlis, kuris ką tik šovė į galvą, yra puikus to pavyzdys. Galite tik spėlioti apie galutinį produktą, bet turite gerą idėją, kas turėtų būti įtraukta. A priori modelis perkelia skaitytoją nuo frazės žodžių į sceną jo vaizduotėje.
  2. Dabar galite pradėti piešti. Tai, ką daro unCLIP, yra paverčia jūsų psichinį vaizdą tikru eskizu. Dabar galite tiksliai atkurti kitą personažą iš to paties aprašymo su ta pačia bazine statistika, bet su visiškai nauju vizualiniu stiliumi. DALL·E 2 taip pat gali generuoti unikalius vaizdus iš esamo vaizdo, įterpto tokiu būdu.
  3. Atkreipkite dėmesį į padarytą eskizą. Taip nutinka, kai nubrėžiate apibūdinimą „vienaragis debesų viduryje, o vaivorykštė pakyla prieš dangų“. Dabar išnagrinėkite vaizdą ir tekstą, kad nustatytumėte, kas geriausiai iliustruoja kitą (saulė, namas, medis ir t. t.) ir kas geriausiai iliustruoja temą, stilių, spalvas ir t. t. CLIP užkoduoja charakteristikas. tekstas ir vaizdai.

Dabar, kai žinome, kas yra DALL-E, pereikime prie kito skyriaus ir suprasime jo ypatybes.

Patarimas: Kaip sukurti tikroviškus vaizdus naudojant DALL-E-2 AI paslaugą

Savybės DALL E2

Žemiau pateikiamos DALL·E 2 specifikacijos.

  1. Variacijos
  2. Dažymas
  3. Teksto skirtumai

Pakalbėkime apie juos išsamiai.

SSD vs hibridas

1] Variacijos

DALL·E 2 neapsiriboja tiesiog sakinio pavertimu vaizdu. „OpenAI“ gali eksperimentuoti su generavimo procesu, duodamas skirtingus tam tikro parašo rezultatus dėl tvirtų CLIP įterpimų. Tai, ką CLIP „mato“ savo „galvoje“, yra tai, ką jis laiko svarbiu iš įvesties (visiems vaizdams išlieka toks pats) ir ką galima pakeisti (kas keičiasi esant skirtingiems vaizdams). Kai tik įmanoma, DALL·E 2 išsaugos ir „prasmingą informaciją... ir estetinius aspektus“.

2] Dažymas

DALL·E 2 gali modifikuoti esamas nuotraukas su automatiniu užpildymu. Toliau pateiktame pavyzdyje kairysis vaizdas yra originalus vaizdas, o vidurinėje ir dešinėje nuotraukose elementas nupieštas skirtingose ​​vietose. DALL·E 2 priderina papildomą paveikslėlio stiliaus elementą. Ji taip pat atnaujina tekstūras ir atspindžius, kad atspindėtų naują elementą.

Skaityti : Ką galite padaryti naudodami „ChatGPT“.

3] Teksto skirtumai

DALL·E 2 konvertuoja vaizdus naudodamas teksto skirtumus. DALL·E 2 taip pat turi pažangias interpoliacijos galimybes, kurios leidžia keisti objektus. Vienas „Twitter“ vartotojas sugebėjo „išnaikinti“ savo „iPhone“. twitter.com kad tai patikrintų.

Jei jums patinka šios funkcijos, tereikia pereiti prie openai.com ir tada užsiregistruoti. Norėdami prisiregistruoti, galite sukurti naują paskyrą arba naudoti esamas „Microsoft“ ar „Google“ paskyras. Kai tai padarysite, gausite nemokamų kreditų, jei norite daugiau, turėsite už tai sumokėti.

Tai yra keletas DALL·E 2 savybių, jis turi daug puikių naudojimo atvejų, tačiau visada rekomenduojama nepasikliauti AI įrankiais. Juk tai ne kas kita, o įrankiai, naudojami darbui atlikti, jie niekada negali pakeisti žmogaus emocinio intelekto.

Taip pat skaitykite: Geriausios „Deepfake“ programos, programinė įranga ir svetainės.

Kas yra DALL E2
Populiarios Temos