1.1 Image Understanding Pipeline

Implement image captioning using a vision-language model. Recommended models: - LLaVA 1.6 (open source, strong performance). - InternVL2 (open source, strong on benchmarks). - GPT-4o / Claude via API (highest quality, closed source). - Implement visual question answering (VQA): given an image and a