구현은 YOLOv8, GPT-4 API, ElevenLabs API, Python, Next.js를 이용했습니다. 먼저, YOLOv8을 이용하여 이미지 클래시피케이션을 진행했는데요. 온라인에서 찾은 데이터셋으로 신발 종류를 구별하고, 직접 1500장 규모의 데이터를 수집하여 신발의 고정 종류, 이를테면 벨크로, 끈 등응 구별할 수 있도록 제 컴퓨터에서 학습시켰습니다. 이후, GPT-4 API에 이 데이터를 이미지와 함께 전달하여 신발에 대한 설명을 얻습니다. 직접 테스트를 해 본 결과, OpenAI의 GPT-4 모델이 멀티모달 모델 중 가장 한국어를 잘 생성하였고, 여기에 YOLO로 인식한 이미지에 대한 기본 정보를 제공할 때 생성되는 설명이 더 정확하게 대상을 서술하기 때문에 이를 함께 전달합니다. 여기서 생성된 텍스트를 ElevenLabs API 에 넣어 TTS 기능을 구현하였고, 이를 모두 처리하는 백엔드는 FastAPI, 프런트엔드는 Nextjs를 이용하여 크롬 확장 프로그램 형식으로 개발했습니다.