Trang chủ
Sản Phẩm
- MiraWEB
  Nền tảng tạo website bằng AI
- MiraBOT
  Chatbot AI tuỳ chỉnh theo dữ liệu, nghiệp vụ riêng của doanh nghiệp
- AI Easy Content
  Trợ lý AI tạo nội dung hàng loạt unique, chuẩn SEO
- MiraEMO
  AI Agent phân tích giọng nói trong 10s
Blog AI
Case study
Tài liệu hướng dẫn
- MiraBOT
- MiraWEB

TentenAI
ChatGPT

GPT-4 Turbo của OpenAI đã tích hợp thêm Vision API

15/04/2024

Table Of Contents

Giới thiệu về GPT-4 Turbo
Tính năng
Mô hình cải tiến
Giá cả
Hướng dẫn gọi API Vision qua GPT-4 Turbo

GPT-4 Turbo của OpenAI nay đã được tích hợp Vision API, cho phép mô hình hiểu và phân tích hình ảnh mạnh mẽ hơn, mở rộng khả năng ứng dụng trong nhiều lĩnh vực như nhận diện thị giác, phân tích dữ liệu hình ảnh và hỗ trợ đa phương thức. Hãy cùng tìm hiểu rõ hơn trong bài viết dưới đây cùng TentenAI.

Giới thiệu về GPT-4 Turbo

OpenAI đã chính thức cung cấp rộng rãi mô hình GPT-4 Turbo mạnh mẽ với khả năng xử lý hình ảnh thông qua API của công ty, mở ra nhiều cơ hội mới cho các doanh nghiệp và nhà phát triển tích hợp các tính năng ngôn ngữ và thị giác tiên tiến vào các ứng dụng của họ.

Việc ra mắt GPT-4 Turbo với Vision trên API diễn ra sau bản phát hành ban đầu của các tính năng tải lên hình ảnh và âm thanh của GPT-4 vào tháng 9 năm ngoái và việc ra mắt mô hình GPT-4 Turbo được tăng tốc tại hội nghị dành cho nhà phát triển của OpenAI vào tháng 11.

Bài viết liên quan: Tìm hiểu về Sora AI – Công nghệ “text-to-video” mới của OpenAI

Tính năng

GPT-4 Turbo hứa hẹn cải thiện tốc độ đáng kể, cửa sổ ngữ cảnh đầu vào lớn hơn lên đến 128.000 token (tương đương khoảng 300 trang) và khả năng chi trả tăng cho các nhà phát triển.

Mô hình cải tiến

Một cải tiến quan trọng là khả năng các yêu cầu API sử dụng các chức năng nhận dạng và phân tích hình ảnh của mô hình thông qua JSON định dạng văn bản và gọi hàm. Điều này cho phép các nhà phát triển tạo các đoạn mã JSON có thể tự động hóa các hành động trong các ứng dụng được kết nối, chẳng hạn như gửi email, mua hàng hoặc đăng bài trực tuyến. Tuy nhiên, OpenAI khuyến cáo mạnh mẽ việc xây dựng luồng xác nhận của người dùng trước khi thực hiện các hành động tác động đến thế giới thực.

Một số công ty khởi nghiệp đã tận dụng GPT-4 Turbo với Vision, bao gồm Cognition, nơi mà Devin, một trợ lý viết mã AI, dựa vào mô hình này để tự động tạo toàn bộ mã.

Mặc dù phải đối mặt với sự cạnh tranh gay gắt từ các mô hình mới hơn như Claude 3 Opus của Anthropic và Gemini Advanced của Google, việc ra mắt API sẽ giúp củng cố vị thế của OpenAI trong thị trường doanh nghiệp khi các nhà phát triển đang chờ đợi mô hình ngôn ngữ lớn tiếp theo của công ty.

Giá cả

Trang thông tin về giá API đã được đơn giản hóa. Giá hiện được hiển thị theo đơn vị 1 triệu token thay vì 1 ngàn token.

Điều này giúp việc sử dụng API của các nhà phát triển trở nên dễ dàng hơn và làm cho giá cả rõ ràng hơn – không cần tính toán phức tạp nữa!

Hướng dẫn gọi API Vision qua GPT-4 Turbo

Tại ví dụ này, mình sẽ sử dụng cấu trúc chat.completions của OpenAI.

Thêm key của bạn vào, sau đó dựa theo đoạn code dưới để gọi:

client = OpenAI(
)

response = client.chat.completions.create(
  model="gpt-4-turbo",
  messages=[
    {
      "role": "user",
      "content": [
        {"type": "text", "text": "Liệt kê các loại quả dưới (ghi rõ số lượng cụ thể)"},
        {
          "type": "image_url",
          "image_url": {
            "url": "https://khothietke.net/wp-content/uploads/2021/04/Khothietke.net-PNG-02488.png",
          },
        },
      ],
    }
  ],
  max_tokens=300,
)
print(response.choices[0])

Kết quả:

Chúc các bạn thành công!

Trên đây là toàn bộ thông tin về GPT-4 Turbo của OpenAI đã tích hợp thêm Vision API. Việc tích hợp này cho phép mô hình hiểu và phân tích hình ảnh mạnh mẽ hơn, mở rộng khả năng ứng dụng trong nhiều lĩnh vực như nhận diện thị giác, phân tích dữ liệu hình ảnh và hỗ trợ đa phương thức.

Chia sẻ lên