티칭팁 게시판읽기 ( [ CTL Teaching Tips # 21 ] 챗GPT 외에 다양한 생성AI에 대해 알아보기 )

[CTL Teaching Tips #21] 챗GPT 외에 다양한 생성AI에 대해 알아보기

교육개발센터
조회수1046
2023-06-23

교육개발센터-2023623

<출처 표기방법> 이상은, 김예진, 구민영(2023). 챗GPT 외에 다양한 생성AI에 대해 알아보기(CTL Teaching Tips #21). 서울: 성균관대학교 교육개발센터.

교육개발센터에서는 챗GPT와 관련한 많은 티칭팁을 통해 텍스트 생성 AI의 원리와 수업에서의 활용에 대해 소개해드렸습니다. 최근 챗GPT 외에도 많은 생성 AI가 서비스되고 있어, 이를 잘 활용한다면 수업과 교육에 도움을 줄 것입니다. 교수님들께서 생성 AI를 이해하시고, 수업에 활용하시거나 수업 자료 생성에 도움을 받으실 수 있도록 이미지 생성, 음성 생성, 비디오 생성 등의 기능을 가진 AI 도구를 소개해드리겠습니다.

1.이미지 생성AI 도구(tool)

1)파이어플라이 (Firefly) - 어도비(Adobe)

어도비 파이어플라이(Adobe Firefly)는 그래픽 디자인, 영상 편집, 웹 개발 응용 프로그램들을 제공하고 있는 어도비 크리에이티브 클라우드(Adobe Creative Cloud, Adobe CC)가 공개한 생성형 AI 모델입니다. 현재 베타버전이기에 상업적인 활용은 불가능하지만 Adobe ID만 있으면 누구나 사용할 수 있습니다. 파이어플라이는 텍스트를 기반으로 이미지를 생성하는 기능을 제공하고 있습니다. 사용자가 자신이 원하는 분위기를 묘사하면, 고유한 스타일을 반영한 여러 가지 버전의 작업물을 만들어낼 수 있습니다. 파이어플라이는 어도비의 스톡 사진 서비스인 어도비 스톡(Adobe Stock)에서 제공하는 수억 개의 전문가급 라이선스 이미지, 개방형 라이선스 콘텐츠와 저작권이 만료된 퍼블릭 도메인 콘텐츠를 바탕으로 학습했다고 합니다. 또한, 강력한 스타일 엔진으로 모델을 강화했습니다. 아래는 파이어플라이에 “warm, balloon, flower, pink”를 입력하여 얻은 결과물 예시입니다. 원하는 단어를 나열하기만 해도 이미지로 빠르게 변환해주는 것을 확인할 수 있습니다.

2) Stable Diffusion-Stability AI

Stable Diffusion은 텍스트를 입력하면 이미지로 생성해주는 인공지능으로, Stability AI라는 스타트업 기업에서 제작 및 배포하고 있습니다. 기존 이미지 생성 AI는 노이즈를 제거하고 인코더의 순차적인 응용 프로그램으로 합성을 하는 확산 모델(DM)이었습니다. 확산모델은 픽셀 공간에서 사진의 노이즈로부터 데이터를 생성하는 최첨단 합성이 가능하지만, GPU의 소모가 크다는 단점이 있었습니다. Stable Diffusion은 이러한 단점을 극복하고자 제작된 잠재확산모델(LDM)입니다. 웹사이트(https://stablediffusionweb.com/)에서 무료로 이용할 수 있고, 오픈코드 소스를 이용해 이미지를 생성하기 때문에 로컬 PC에 다운로드 받거나 사용자 자신의 서버에 설치해 사용하는 것도 가능하며, 구글 코랩(Colab)에서도 사용할 수 있습니다. 이때 로컬PC에서 코드 소스를 다운 받아 사용할 경우, 컴퓨터의 그래픽카드 메모리가 최소 4GB 이상이어야 합니다.

텍스트를 이미지로 변환하기 위해서는 구체적인 프롬프트 작성이 중요합니다. 이미지에 포함되었으면 하는 대상들을 간단한 단어들로 제시하고(여성, 바다, 산의 정상 등), 이미지의 스타일(사실적인, 수채화, 레트로 등)과 화풍(모네, 고흐 등)을 지정해주면 원하는 이미지를 얻을 수 있을 것입니다. 위의 이미지는 실제 Stable Diffusion의 웹 사이트에서 이미지를 생성한 것으로, ‘A woman in a black dress looking at the sea with her back against the sunset, a retro illustration’ 이라는 텍스트 프롬프트를 입력한 결과입니다.

3) 캔바(Canva) - canva

캔바(Canva)는 온라인 디자인 플랫폼으로서 PC 브라우저와 모바일 앱에서 사용이 가능합니다. 직관적인 사용자 인터페이스를 갖추고 있기 때문에 포스터, 프레젠테이션, 스토리 보드 등을 제작할 때 사용하실 수 있습니다. 캔바(Canva)에는 텍스트로 이미지를 생성하는 Text-to-Image 기능이 포함되어 있습니다. ‘디자인 만들기’를 누른 뒤, ‘앱’ 아이콘을 선택하면 사용자가 디자인할 때 유용한 기능들이 나타납니다. 텍스트로 프롬프트를 입력할 수 있는 영역과 애니메이션, 필름 등 이미지의 분위기를 선택할 수 있는 영역이 있습니다. Stable Diffusion과 마찬가지로 Canva의 Text to Image도 정확하고 구체적인 프롬프트 작성이 중요합니다. 인물, 배경, 소재 등 이미지에 포함되는 요소들을 정확하고 구체적으로 제시할수록 원하는 이미지를 생성할 수 있습니다.

아래의 사진들은 Canva에서 텍스트로 이미지를 생성하는 과정을 순차적으로 제시한 것입니다. 입력한 프롬프트는 ‘노을 진 모래사장 위, 검은 원피스를 입은 여성의 뒷모습' 이었고, 스타일은 ‘레트로 스타일', 가로세로 비율로는 ‘가로'를 선택한 결과가 아래 오른쪽 이미지입니다.

2. 음성 생성AI 도구(tool)

1) 오버덥(Overdub) - 데스크립트(descript)

데스크립트 오버덥(Overdub)은 음성을 복제하는 데 사용되는 오디오 및 비디오 편집 소프트웨어입니다. 사용자는 먼저 약 30~180분가량의 음성 녹음으로 AI를 훈련시킵니다. 훈련이 끝나면 사용자는 음성의 텍스트를 편집해서 복제한 자신의 음성으로 읽도록 만들 수 있습니다. 그러나, 이러한 음성 복제는 가짜 오디오를 생성하여 다른 누군가에게 피해를 끼치거나 사기 범죄가 일어날 수 있다는 위험이 있습니다. 따라서, 데스크립트는 사용자의 허가 없이 다른 사람의 목소리를 복제하지 못하게 하여 사칭 사기를 방지하도록 설계되었습니다.

3. 비디오 생성AI 도구(tool)

1) Make A Video - 메타(Meta)

Make-A-Video는 메타(Meta)가 제공하는 텍스트를 비디오로 생성하는 서비스입니다. 타임스퀘어에서 춤추는 로봇이나 초상화를 그리는 테디베어 같이 사용자가 상상하는 모습도 비디오로 구현할 수 있습니다.

Make a Video에는 텍스트 – 비디오 쌍의 데이터 세트가 필요하지 않습니다. Make a Video는 텍스트 설명에서 단일 프레임 이미지를 생성하는 기존 텍스트-이미지 쌍 모델을 기반으로 추가적인 신경망 계층을 사용하여 시공간을 확장하는 과정을 거치므로 AI로 생성된 영상이 꽤나 사실적입니다. 메타(Meta)는 이러한 현실성 있는 비디오를 즉시 제작하는 것이 사회적으로 위험할 수 있음을 인정하고, Make-A-Video로 제작된 모든 자료에는 워터마크를 표시하여 촬영된 영상이 아니라 AI로 생성된 영상임을 표시하였습니다. 또한, 유해한 컨텐츠가 생성되지 않도록 필터를 통해 검열하고 적용하는 과정을 반복했다고 합니다.

2) GEN-2 - 런웨이(Runway)

Runway에서 출시한 GEN-2는 기본 소스 영상이 요구되었던 GEN-1과 달리, 실제 이미지나 비디오 없이 텍스트 프롬프트만으로 영상을 생성하는 것이 가능합니다. 이미지와 텍스트 조합을 통해 새로운 영상을 만들 수 있으며, 사진만으로 움직이는 영상을 만들 수도 있습니다. 또, 영상에 사진을 합성하여 모션그래픽처럼 영상을 변형시키거나 영상 위에 캐릭터를 덧씌우는 것도 가능합니다. GEN-2는 프로그램 설치 없이 웹에서 유료로 이용이 가능합니다. 영상 편집 시 Runway 회사의 GPU를 원격으로 사용하여, 사용자의 컴퓨터 사양에 구애받지 않고 영상을 제작할 수 있다는 장점이 있습니다. 비디오가 생성될 때 품질을 높이기 위해서는 이미지, 비디오, 텍스트 등 제공 정보가 많아야 하며, 텍스트만을 이용해 영상을 만들 경우 영상 길이가 짧고 프레임 속도가 낮다는 단점이 있습니다.

이미지 출처: https://research.runwayml.com/gen2

지금까지 이미지, 음성, 비디오를 생성하는 다양한 AI 툴을 소개해 드렸습니다. 어도비의 Firefly, Stability AI의 Stable Diffusion, Canva의 Text to Image는 사용자가 작성한 텍스트 프롬프트를 기반으로 새로운 이미지를 생성할 수 있습니다. 메타에서 출시한 Make A Video, Runway의 GEN 2는 새로운 비디오를 만들어낼 수 있으며, 데스크립트의 Overdub는 음성 복제가 가능합니다. 이미지 생성 AI는 상상 속 이미지를 현실로 구현해 내는 것에 도움을 주고, 영상 생성 AI는 비디오 편집이 서툰 사용자도 이미지와 텍스트 정보로 원하는 영상을 만들어내는 것을 가능하게 할 것입니다. 다양한 생성 AI가 편의를 제공하는 도구가 될 수 있지만, 그 결과물이 윤리에 반하거나, 사회적 편견을 강화하거나, 악용의 여지가 있지 않은지 주의를 기울이는 것도 필요할 것입니다.

<참고문헌>

- https://www.digitaltoday.co.kr/news/articleView.html?idxno=477258

- https://blog.adobe.com/ko/publish/2023/04/13/bringing-gen-ai-to-creative-cloud-adobe-firefly

- https://www.itworld.co.kr/news/287695

- https://github.com/CompVis/stable-diffusion

- https://www.ciokorea.com/news/278989

- https://www.descript.com/

- https://makeavideo.studio/

- https://www.infoq.com/news/2022/10/meta-make-a-video/

- https://dataconomy.com/2022/09/30/make-a-video-meta-ai-sign-up-examples-use/

- https://www.itworld.co.kr/news/283135

※티칭팁에 대한 의견이나 질문, 티칭팁에서 다루었으면 하는 소재가 있다면 알려주세요! https://docs.google.com/spreadsheets/d/1geSdqeTetJENCvzx5HwVHbEUfVQcjFgdfmCQXDbb-2M/edit?usp=sharing