Page tree
Skip to end of metadata
Go to start of metadata


현재 콘텐츠는 누구든지 저렴한 비용으로 만들 수 있으며 수없이 재 생산되어 유통됩니다.  

‘방송’ 이 반영된 여러 플랫폼 ( 커머스 , OTT, SNS 등)은 기존 미디어와 동등한 영향력을 보이고 있습니다. 

기존 미디어 자산관리 시스템 (Media Asset Management)과 CMS (Content Management System)는  콘텐츠 ‘유통’ 에 대한 기능을 필요로 합니다, 

카테노이드의 비디오 유통플랫폼-VCAST는 콘텐츠 비즈니스와 미디어 워크플로우의 효율 극대화를 위한 최적의 솔루션을 제공합니다. 

On-Premise, SaaS, Cloud Type을 포함한 상세한 적용과 방법론에 대해서는 support@catennoid.net 로 문의 주시기 바랍니다. 


디지털 미디어 서비스와 AI와 ML (Machine Learning)도 활발하게 연계되고 있습니다. 보통 영상 내 인물 인식-주로 감시 분야 (Surveillance)에 주로 언급되었지만  
최근에는 커머스, 비디오 유통, 미디어 자산 관리에서도 유용한 확장성을 보여주고 있습니다. VCAST는 클라우드  사업자의 AL/ML을 활용한 다양한 미디어 확장기능을 
구현하고 있습니다. 

일반적인 자막 (Caption) 편집 

보통 자막은 비디오 파일 업로드 뒤 별도 워크플로우를 통해 업로드 됩니다. 자막 (caption)은 메타데이터 관리항목의 하나이며 미디어 자산 (Media Asset)
관리 시 수정편집작업이 필요할 수 있습니다.  자막 편집기는 보통 Closed Caption을 활용합니다. 최대한 영상과 연관된 내용을 담고 있지만, 여러 단계로
콘텐츠가 진행될 수록 후반 작업의 중요도가 높아질 수 있습니다. 

Subtitles and Captions Terminology

  • 캡션파일은 텍스트와 정보를 함께 전달하는 매개체이며 caption은 subtitle의 유사어로써 대부분 스크린 하단에 표시됨
    • SRT, DXFP, VTT는 텍스트 파일 포맷(text file format)이며 캡션을 포함하고 있음. 각 자막은 시간정보를 가지고 있고 영상 재생 시 노출됨. 
  • Closed Caption, Open Caption의 차이.
    • 대부분의 인터넷 자막 파일은 Closed Caption이며 CC라고도 함. 영상과 자막파일이 별도로 관리되며 시청자가 자막을 노출하거나 비 노출할 수도 있음. 
    • 반대로 Open Caption은 영상자체에 자막을 입힌형태로 자막 표시 여부를 시청자가 선택할 수 없음. (영상 내 PD의 의도대로 작성된 자막을 강제 노출함) 
  • Transcription은 타임 스탬프(time stamps)없는 텍스트만을 포함하고 있음. 

자막 편집은 해당 영상을 재생하면서 원하는 구간지정과 이미 연결된 자막을 1/1000초 단위 동기화 (SYNC)로 편집하도록 지원합니다. 
마우스 클릭 시 편집창이 활성화 되며 자막 구간 내용과 내용변경, 삭제, 추가가 가능합니다. 또한 자막 전체의 동기화를 '플러스(plus)', "마이너스 (minus)" 키 및 숫자로 조정할 수 있습니다. 

STT (Speech To Text)를 활용한 다국어 자막 생성

실제 영상과 자막파일 (주로 Close Caption)은 입수 경로가 다릅니다. 방송의 경우 프롬프터 (Prompter)나 대본을 그대로 업로드 할 수도 있으나
반드시 영상 내 음성과 일치하지 않을 수 있고, 웹 접근성 (Web Accessibility) 준수를 위해서는 검수 작업도 필요할 수 있습니다.
AI와 ML의 정확도는 나날이 높아지고 있으며,  콘텐츠의 음성 분석과 다국어 자막이 필요한 경우에 AI와 ML을 시도해볼 수 있습니다. 

상용화된 클라우드 AI/ML와 연동된 확장 기능을 통해 업로드 된 비디오 파일에서 오디오 파일을 추출하면서 동시에 음성에 대한 자막 파일을 생성합니다. 
이 오디오 파일이 일반 파일과 다른 점은 발화자 (주로 배우, 등장인물) 을 구분하여 각각의 음성 파일을 생성한다는 점입니다. 
이를 위해서는 영상과 오디오 파형, 그리고 생성되는 자막을 동기화 (synchronization) 하는 것이 매우 중요합니다.   

  • 가장 기본이 되는 것은 원본 비디오의 언어 자막입니다. 한국어라면 정확한 한국어 자막을 먼저 생성하는 것이 필요합니다. 

  • VCAST의 자막 편집 화면을 영상을 보면서 번역 및 검수 작업 용으로 바로 활용할 수도 있습니다.  클라우드 확장 기능으로 원본 영상에 대한 
    발화자 별 자막이 생성되었더라도, 다국어 전환을 위해서는 뉘앙스나 적절한 단어 및 용어로의 검수작업을 필요로 할 수 있습니다. 

  • 영상파일에서 음성파일 추출한 뒤 STT (Speech To Text)를 활용하여 원본 자막을 생성하며, 외부 클라우드의  AL/ML 과 연계, 다국어 변환까지의
    워크플로우를 생성합니다.  이후 기존 파일과 통합하거나 새 버전으로 생성
    하는 옵션까지 연계될 수 있습니다. (외부 AI는 AWS가 대표적으로 사용되고 있습니다.) 
  • 물론 생성된 자막은 기존 자막 수정 인터페이스에서 발화자 별로 수정편집이 가능합니다. 

  • 이러한 과정은 AI와의 연동이외 메타데이터 수정 편집 워크플로우가 상당히 정교하게 연결될 수 있어야 합니다. 

  • VTT, HWP 포맷으로 내보내거나 Premier / Final Cut / Davinci 등의 외부 NLE (Non-Linear Editing)을 위한 XML 타입으로도 다운로드도 지원합니다. 

상용화된 클라우드 기능을 이용한 확장 기능은 비디오 유통 워크플로우를 더 효율성을 높이기도 하지만 데이터 수집까지 연계할 경우 서비스 플랫폼의 가치를
보다 더 높일 수 있습니다.  STT (Speech To Text)를 활용  쇼호스트의 멘트와 영상장면을 데이터로 전환하고, 시청데이터와 구매 이력 데이터를 가공하여 
고객 행동기반 데이터 체계를 만들 수 도 있어 보입니다. 


미디어 인덱서 연동


이외, 미디어 인덱서와 같은 외부 기능과 확장할 경우 보다 다양한 미디어 라이브러리를 구성할 수도 있습니다. 이러한 기능을 활용할 경우 
메타데이터를 보다 풍부하게 풍부하게 사용할 수 있으며 콘텐츠의 활용도를 보다 더 높일 수 있습니다. 

비디오 인덱서는 AI / ML 을 응용한 기술 중 하나로 인코딩 과정에서 영상, 이미지, 음성을 분석하여 다양한 지표를 추출하는 기능입니다. 상세한 미디어 인덱서의
활용은 해당 클라우드 플랫폼과의 연동 작업 요청이 있을 경우 지원합니다. 




  • No labels