본문 바로가기
GCP

[Google Cloud AI] Devfest Cloud 2024 (5) Beyond Text: Exploring Multimodal LLM with Gemini

by bestchoco 2024. 11. 23.

주제: Natively Multimodal한 Gemini의 기능을 데모를 통해 살펴보기.

1. Gemini 1.5 Pro: 멀티모달 생성형AI의 새로운 지평
2. 멀티모달 방식의 이해
3. 멀티모달 방식의 활용
4. 결론

예측형 AI => 생성형 AI => 멀티 모달

>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
멀티모달 방식의 필요성
>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
- Gemini 1.5 Pro
- Gemini 1.5 Flash

** context window

>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
2. 멀티모달 방식의 이해
- 여러 모드 / 형식의 데이터를 처리
- 다양한 형태의 정보를 동시에 이해하고 처리
  >> 비디오-오디오 인터리빙 기술 
  
>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
3-1. Vertex AI (비디오 분석을 통한 자동 번역 / 타임라인+자막) -> Gemini 1.5 Pro 활용
>>
>>
>>
>>
>>

** 
contents의 입력 값이 다름.

>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
3-2. 멀티모달 RAG (멀티모달 Q&A 시스템 구축)

결론: