플랫폼 가이드 📖

AI 기반 뉴스 썸네일 자동 추출 시스템 설계

A
AI Engineer
·2024-02-19

자동 추출의 난제

뉴스 사이트마다 각기 다른 메타데이터 구조를 가지고 있어 일반적인 파싱으로는 정확한 썸네일을 가져오기 어렵습니다. RIVA는 3단계 폴백(Fallback) 시스템을 구축했습니다.

추출 알고리즘 순서

  1. OpenGraph(og:image) 태그 확인
  2. Twitter Card 메타데이터 확인
  3. 본문 내 주요 이미지 크기 및 비중 분석 (Heuristic Analysis)

AI의 역할

단순히 추출하는 것에 그치지 않고, 추출된 이미지가 기사의 주제와 부합하는지 비전 모델을 통해 검증합니다. 부적절한 이미지(광고, 아이콘 등)는 자동으로 필터링되어 사용자에게 최상의 시각적 정보를 제공합니다.