이미지 합성 예제

생성적 적대적 네트워크의 주요 아이디어는 이미지를 생성하려고 시도하는 생성기 네트워크 G와 `실제`와 `가짜`로 생성된 이미지를 구별하는 판별자 네트워크 D를 배우는 것입니다. 하나는 생성기가 동시에 차별이 가짜 어떤 예를 감지하고자하는 동안 동시에 판기를 속일 추구 최소 최대 게임에서 서로에 대해 이러한 네트워크를 훈련 할 수 있습니다 : 이 섹션에서, 우리는 결과를 설명합니다, 즉, 테스트 데이터를 사용하여 생성된 이미지입니다. GAN-CLS를 통해 생성된 텍스트 설명 및 해당 출력의 몇 가지 예는 그림 8에서 볼 수 있습니다. 우리가 볼 수 있듯이, 생성 되는 꽃 이미지 (각 그림에 16 이미지) 정확 하 게 텍스트 설명에 해당. 가장 간단하고 명확한 관찰 중 하나는 GAN-CLS가 꽃뿐만 아니라 잎, 항문 및 줄기의 색상을 항상 정확하게 한다는 것입니다. 또한 모델은 텍스트 설명에 언급된 꽃잎의 방향에 따라 이미지를 생성합니다. 예를 들어 그림 8에서 세 번째 이미지 설명에서는 `꽃잎이 위쪽으로 구부러져 있다`고 언급되어 있습니다. 이미지 합성은 이미지 설명의 일부 형태에서 새로운 이미지를 만드는 과정입니다. 일반적으로 합성되는 이미지의 종류는 다음과 같습니다: 이 프로젝트는 텍스트 설명에서 이미지를 자동으로 합성하는 목표를 달성하기 위해 기술과 아키텍처를 탐색하려는 시도였습니다. 우리는 GAN-CLS와 같은 간단한 아키텍처를 구현하고 결과에 대한 우리 자신의 결론을 가지고 조금 그것으로 놀았습니다.

여기서 언급한 것은 주어진 문제 설명에 대해 얻은 결과는 리소스의 매우 기본적인 구성에 있었다는 것입니다. GPU 또는 TPO와 같은 더 높은 구성의 리소스를 사용하면 더 나은 결과를 기대할 수 있습니다. AI가 꽤 많은 도메인을 따라잡고 있지만, 이미지 합성에 텍스트는 여전히 생산을 얻을 수 있도록 광범위한 작업의 몇 년 더 필요. 컴퓨터 비전 의 세계에서 가장 어려운 문제 중 하나는 텍스트 설명에서 높은 품질의 이미지를 합성하는 것입니다. 의심의 여지없이, 이것은 흥미롭고 유용하지만 현재의 AI 시스템은이 목표와는 거리가 멀다. 최근 몇 년 동안, 간 (생성 적 네트워크)와 같은 강력한 신경망 아키텍처는 좋은 결과를 생성하는 것으로 나타났습니다. [1] 기존 텍스트-이미지 접근 방식에 의해 생성된 샘플은 주어진 설명의 의미를 대략반영할 수 있지만 필요한 세부 정보와 생생한 개체 부분을 포함하지 는 않습니다. [2] 이 프로젝트를 통해 주어진 텍스트 설명에서 이미지를 생성하는 작업을 수행하는 데 도움이 되는 아키텍처를 살펴보고자 했습니다.