Transformer trong Computer Vision

Mục Lục

Tranformal trong computer vision là gì

Transformer trong Computer Vision Trong lĩnh vực thị giác máy tính (computer vision), “transformer” là một kiến trúc mạng thần kinh (neural network) ban đầu được phát triển cho xử lý ngôn ngữ tự nhiên (NLP) nhưng sau đó đã được áp dụng thành công trong các tác vụ liên quan đến hình ảnh.

transformer-trong-computer-vision-phan-1

Transformers trong thị giác máy tính chủ yếu được sử dụng trong các mô hình như Vision Transformer (ViT). Cơ bản, một transformer trong bối cảnh này sử dụng cơ chế tự chú ý (self-attention mechanism) để xử lý và học các mối quan hệ không gian giữa các phần khác nhau của một bức ảnh.

Cách hoạt động cơ bản:

Chia hình ảnh thành các patch (mảnh nhỏ): Hình ảnh đầu vào được chia thành các mảnh nhỏ với kích thước cố định (ví dụ: 16×16 pixel).
Tạo embedding: Mỗi patch sau đó được ánh xạ thành một vector nhờ vào một lớp embedding.
Thêm vị trí: Các vector embedding được thêm vào thông tin về vị trí của các patch trong hình ảnh để giữ lại thông tin không gian.
Transformer encoder: Các vector này được đưa vào một mô hình transformer để thực hiện cơ chế tự chú ý, cho phép mô hình học các mối quan hệ phức tạp giữa các phần khác nhau của hình ảnh.
Kết quả: Cuối cùng, mô hình xuất ra một vector đặc trưng, có thể được sử dụng cho các tác vụ như phân loại, nhận diện đối tượng, hoặc tạo hình ảnh.

Ưu điểm của Transformer trong Computer Vision:

Tính toàn cầu của tự chú ý: Transformers có khả năng nắm bắt các mối quan hệ dài hạn giữa các phần khác nhau của hình ảnh, không bị giới hạn bởi khuôn khổ lân cận như trong các mạng tích chập (CNN).
Khả năng học sâu hơn: Với các mô hình như ViT, transformers đã đạt được hiệu suất cao trong nhiều tác vụ thị giác máy tính, đôi khi vượt qua cả các mạng CNN truyền thống.

Ứng dụng:

Phân loại hình ảnh (Image classification)
Nhận diện đối tượng (Object detection)
Tạo hình ảnh (Image generation)
Siêu phân giải hình ảnh (Image super-resolution)

Tóm lại, transformers đang trở thành một công cụ mạnh mẽ trong thị giác máy tính, mở ra nhiều khả năng mới trong việc xử lý và phân tích hình ảnh.

Cho tôi code mẫu đơn giản để tôi có thể hình dung

Dưới đây là một ví dụ đơn giản về cách sử dụng Vision Transformer (ViT) để phân loại hình ảnh trên bộ dữ liệu CIFAR-10 bằng Python với thư viện PyTorch. Mục đích của đoạn mã này là giúp bạn hình dung cách hoạt động của Vision Transformer trong thị giác máy tính.

import torch
import torch.nn as nn
import torch.optim as optim
import torchvision
import torchvision.transforms as transforms
from vit_pytorch import ViT

# Khởi tạo thiết bị (CPU hoặc GPU)
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

# Tải và tiền xử lý dữ liệu CIFAR-10
transform = transforms.Compose([
    transforms.Resize((224, 224)),  # Thay đổi kích thước ảnh để phù hợp với ViT
    transforms.ToTensor(),
    transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5)),
])

trainset = torchvision.datasets.CIFAR10(root='./data', train=True, download=True, transform=transform)
trainloader = torch.utils.data.DataLoader(trainset, batch_size=32, shuffle=True)

testset = torchvision.datasets.CIFAR10(root='./data', train=False, download=True, transform=transform)
testloader = torch.utils.data.DataLoader(testset, batch_size=32, shuffle=False)

# Khởi tạo mô hình Vision Transformer (ViT)
model = ViT(
    image_size = 224,
    patch_size = 32,
    num_classes = 10,
    dim = 512,
    depth = 6,
    heads = 8,
    mlp_dim = 1024,
    dropout = 0.1,
    emb_dropout = 0.1
).to(device)

# Định nghĩa hàm mất mát và tối ưu hóa
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters(), lr=0.001)

# Vòng lặp huấn luyện
for epoch in range(10):  # Huấn luyện trong 10 epochs
    running_loss = 0.0
    for i, data in enumerate(trainloader, 0):
        inputs, labels = data
        inputs, labels = inputs.to(device), labels.to(device)

        # Đặt lại gradient về 0
        optimizer.zero_grad()

        # Tiến hành dự đoán và tính toán mất mát
        outputs = model(inputs)
        loss = criterion(outputs, labels)
        
        # Lan truyền ngược và cập nhật trọng số
        loss.backward()
        optimizer.step()

        # In ra thông tin
        running_loss += loss.item()
        if i % 100 == 99:  # In mỗi 100 batch
            print(f'Epoch {epoch + 1}, Batch {i + 1}: Loss {running_loss / 100:.3f}')
            running_loss = 0.0

print('Huấn luyện hoàn tất')

# Kiểm tra trên tập dữ liệu test
correct = 0
total = 0
with torch.no_grad():
    for data in testloader:
        images, labels = data
        images, labels = images.to(device), labels.to(device)
        outputs = model(images)
        _, predicted = torch.max(outputs.data, 1)
        total += labels.size(0)
        correct += (predicted == labels).sum().item()

print(f'Accuracy trên tập test: {100 * correct / total:.2f}%')

Giải thích mã:

Tải và tiền xử lý dữ liệu: Sử dụng CIFAR-10, một bộ dữ liệu phổ biến với các ảnh 32×32. Trong trường hợp này, chúng ta thay đổi kích thước hình ảnh lên 224×224 để phù hợp với yêu cầu của Vision Transformer.
ViT Model: Tạo một mô hình ViT với kích thước patch là 32, số lớp (depth) là 6, và số đầu tự chú ý (heads) là 8.
Huấn luyện: Tiến hành huấn luyện mô hình trên tập dữ liệu huấn luyện.
Kiểm tra: Đo độ chính xác trên tập dữ liệu test.

Bạn cần cài đặt thư viện vit-pytorch và torchvision nếu chưa có. Bạn có thể cài bằng pip:

pip install vit-pytorch torchvision

Đây là một ví dụ cơ bản, giúp bạn hiểu cách sử dụng Vision Transformer cho bài toán phân loại hình ảnh.