blip-2-vision-language

•

6.5k5042 months ago

Vision-language pre-training framework bridging frozen image encoders and LLMs. Use when you need image captioning, visual question answering, image-text retrieval, or multimodal chat with state-of-the-art zero-shot performance.

Quick Install

npxskills add zechenzhangagi/ai-research-skills--skill blip-2-vision-language

Instructions

BLIP-2: Vision-Language Pre-training

Comprehensive guide to using Salesforce's BLIP-2 for vision-language tasks with frozen image encoders and large language models.

When to use BLIP-2

Use BLIP-2 when:

Need high-quality image captioning with natural descriptions
Building visual question answering (VQA) systems
Require zero-shot image-text understanding without task-specific training
Want to leverage LLM reasoning for visual tasks
Building multimodal conversational AI
Need image-text retrieval or matching

Key features:

Q-Former architecture: Lightweight query transformer bridges vision and language
Frozen backbone efficiency: No need to fine-tune large vision/language models
Multiple LLM backends: OPT (2.7B, 6.7B) and FlanT5 (XL, XXL)
Zero-shot capabilities: Strong performance without task-specific training
Efficient training: Only trains Q-Former (~188M parameters)
State-of-the-art results: Beats larger models on VQA benchmarks

Use alternatives instead:

LLaVA: For instruction-following multimodal chat
InstructBLIP: For improved instruction-following (BLIP-2 successor)
GPT-4V/Claude 3: For production multimodal chat (proprietary)
CLIP: For simple image-text similarity without generation
Flamingo: For few-shot visual learning

Quick start

Loading…

Related Skills

skill-creator

Create or update AgentSkills. Use when designing, structuring, or packaging skills with scripts, references, and assets.

367,360

skill-creator

Create or update AgentSkills. Use when designing, structuring, or packaging skills with scripts, references, and assets.

367,309

1password

Set up and use 1Password CLI (op). Use when installing the CLI, enabling desktop app integration, signing in (single or multi-account), or reading/injecting/running secrets via op.

365,915

himalaya

CLI to manage emails via IMAP/SMTP. Use `himalaya` to list, read, write, reply, forward, search, and organize emails from the terminal. Supports multiple accounts and message composition with MML (MIME Meta Language).

365,885

Tags & Topics

aiai-researchclaudeclaude-codeclaude-skillscodex

BLIP-2: Vision-Language Pre-training

Comprehensive guide to using Salesforce's BLIP-2 for vision-language tasks with frozen image encoders and large language models.

When to use BLIP-2

Use BLIP-2 when:

Need high-quality image captioning with natural descriptions
Building visual question answering (VQA) systems
Require zero-shot image-text understanding without task-specific training
Want to leverage LLM reasoning for visual tasks
Building multimodal conversational AI
Need image-text retrieval or matching

Key features:

Q-Former architecture: Lightweight query transformer bridges vision and language
Frozen backbone efficiency: No need to fine-tune large vision/language models
Multiple LLM backends: OPT (2.7B, 6.7B) and FlanT5 (XL, XXL)
Zero-shot capabilities: Strong performance without task-specific training
Efficient training: Only trains Q-Former (~188M parameters)
State-of-the-art results: Beats larger models on VQA benchmarks

Use alternatives instead:

LLaVA: For instruction-following multimodal chat
InstructBLIP: For improved instruction-following (BLIP-2 successor)
GPT-4V/Claude 3: For production multimodal chat (proprietary)
CLIP: For simple image-text similarity without generation
Flamingo: For few-shot visual learning

Quick start

BLIP-2 Architecture: ┌─────────────────────────────────────────────────────────────┐ │ Q-Former │ │ ┌─────────────────────────────────────────────────────┐ │ │ │ Learned Queries (32 queries × 768 dim) │ │ │ └────────────────────────┬────────────────────────────┘ │ │ │ │ │ ┌────────────────────────▼────────────────────────────┐ │ │ │ Cross-Attention with Image Features │ │ │ └────────────────────────┬────────────────────────────┘ │ │ │ │ │ ┌────────────────────────▼────────────────────────────┐ │ │ │ Self-Attention Layers (Transformer) │ │ │ └────────────────────────┬────────────────────────────┘ │ └───────────────────────────┼─────────────────────────────────┘ │ ┌───────────────────────────▼─────────────────────────────────┐ │ Frozen Vision Encoder │ Frozen LLM │ │ (ViT-G/14 from EVA-CLIP) │ (OPT or FlanT5) │ └─────────────────────────────────────────────────────────────┘

import torch from PIL import Image from transformers import Blip2Processor, Blip2ForConditionalGeneration from pathlib import Path class ImageCaptioner: def __init__(self, model_name="Salesforce/blip2-opt-2.7b"): self.processor = Blip2Processor.from_pretrained(model_name) self.model = Blip2ForConditionalGeneration.from_pretrained( model_name, torch_dtype=torch.float16, device_map="auto" ) def caption(self, image_path: str, prompt: str = None) -> str: image = Image.open(image_path).convert("RGB") if prompt: inputs = self.processor(images=image, text=prompt, return_tensors="pt") else: inputs = self.processor(images=image, return_tensors="pt") inputs = inputs.to("cuda", torch.float16) generated_ids = self.model.generate( **inputs, max_new_tokens=50, num_beams=5 ) return self.processor.decode(generated_ids[0], skip_special_tokens=True) def caption_batch(self, image_paths: list, prompt: str = None) -> list: images = [Image.open(p).convert("RGB") for p in image_paths] if prompt: inputs = self.processor( images=images, text=[prompt] * len(images), return_tensors="pt", padding=True ) else: inputs = self.processor(images=images, return_tensors="pt", padding=True) inputs = inputs.to("cuda", torch.float16) generated_ids = self.model.generate(**inputs, max_new_tokens=50) return self.processor.batch_decode(generated_ids, skip_special_tokens=True) # Usage captioner = ImageCaptioner() # Single image caption = captioner.caption("photo.jpg") print(f"Caption: {caption}") # With prompt for style caption = captioner.caption("photo.jpg", "a detailed description of") print(f"Detailed: {caption}") # Batch processing captions = captioner.caption_batch(["img1.jpg", "img2.jpg", "img3.jpg"]) for i, cap in enumerate(captions): print(f"Image {i+1}: {cap}")

import torch import numpy as np from PIL import Image from lavis.models import load_model_and_preprocess class ImageSearchEngine: def __init__(self): self.device = torch.device("cuda" if torch.cuda.is_available() else "cpu") self.model, self.vis_processors, self.txt_processors = load_model_and_preprocess( name="blip2_feature_extractor", model_type="pretrain", is_eval=True, device=self.device ) self.image_features = [] self.image_paths = [] def index_images(self, image_paths: list): """Build index from images.""" self.image_paths = image_paths for path in image_paths: image = Image.open(path).convert("RGB") image = self.vis_processors["eval"](image).unsqueeze(0).to(self.device) with torch.no_grad(): features = self.model.extract_features({"image": image}, mode="image") # Use projected features for matching self.image_features.append( features.image_embeds_proj.mean(dim=1).cpu().numpy() ) self.image_features = np.vstack(self.image_features) def search(self, query: str, top_k: int = 5) -> list: """Search images by text query.""" # Get text features text = self.txt_processors["eval"](query) text_input = {"text_input": [text]} with torch.no_grad(): text_features = self.model.extract_features(text_input, mode="text") text_embeds = text_features.text_embeds_proj[:, 0].cpu().numpy() # Compute similarities similarities = np.dot(self.image_features, text_embeds.T).squeeze() top_indices = np.argsort(similarities)[::-1][:top_k] return [(self.image_paths[i], similarities[i]) for i in top_indices] # Usage engine = ImageSearchEngine() engine.index_images(["img1.jpg", "img2.jpg", "img3.jpg", ...]) # Search results = engine.search("a sunset over the ocean", top_k=5) for path, score in results: print(f"{path}: {score:.3f}")

Model	LLM Backend	Size	Use Case
`blip2-opt-2.7b`	OPT-2.7B	~4GB	General captioning, VQA
`blip2-opt-6.7b`	OPT-6.7B	~8GB	Better reasoning
`blip2-flan-t5-xl`	FlanT5-XL	~5GB	Instruction following
`blip2-flan-t5-xxl`	FlanT5-XXL	~13GB	Best quality

Component	Description	Parameters
Learned queries	Fixed set of learnable embeddings	32 × 768
Image transformer	Cross-attention to vision features	~108M
Text transformer	Self-attention for text	~108M
Linear projection	Maps to LLM dimension	Varies

Model	FP16 VRAM	INT8 VRAM	INT4 VRAM
blip2-opt-2.7b	~8GB	~5GB	~3GB
blip2-opt-6.7b	~16GB	~9GB	~5GB
blip2-flan-t5-xl	~10GB	~6GB	~4GB
blip2-flan-t5-xxl	~26GB	~14GB	~8GB

Issue	Solution
CUDA OOM	Use INT8/INT4 quantization, smaller model
Slow generation	Use greedy decoding, reduce max_new_tokens
Poor captions	Try FlanT5 variant, use prompts
Hallucinations	Lower temperature, use beam search
Wrong answers	Rephrase question, provide context

blip-2-vision-language

BLIP-2: Vision-Language Pre-training

When to use BLIP-2

Quick start

Related Skills

skill-creator

skill-creator

1password

himalaya

BLIP-2: Vision-Language Pre-training

When to use BLIP-2

Quick start

Installation

Basic image captioning

Visual question answering

Using LAVIS library

Core concepts

Architecture overview

Model variants

Q-Former components

Advanced usage

Batch processing

Controlling generation

Memory optimization

Image-text matching

Feature extraction

Common workflows

Workflow 1: Image captioning pipeline

Workflow 2: Visual Q&A system

Workflow 3: Image search/retrieval

Output format

Generation output

Feature extraction output

Performance optimization

GPU memory requirements

Speed optimization

Common issues

References

Resources

Related Skills

skill-creator

skill-creator

1password

himalaya

Related Skills

skill-creator

skill-creator

1password

himalaya