GPT-4 Turbo của OpenAI đã tích hợp thêm Vision API

15/04/2024

GPT-4 Turbo của OpenAI nay đã được tích hợp Vision API, cho phép mô hình hiểu và phân tích hình ảnh mạnh mẽ hơn, mở rộng khả năng ứng dụng trong nhiều lĩnh vực như nhận diện thị giác, phân tích dữ liệu hình ảnh và hỗ trợ đa phương thức. Hãy cùng tìm hiểu rõ hơn trong bài viết dưới đây cùng TentenAI.

Giới thiệu về GPT-4 Turbo

OpenAI đã chính thức cung cấp rộng rãi mô hình GPT-4 Turbo mạnh mẽ với khả năng xử lý hình ảnh thông qua API của công ty, mở ra nhiều cơ hội mới cho các doanh nghiệp và nhà phát triển tích hợp các tính năng ngôn ngữ và thị giác tiên tiến vào các ứng dụng của họ.

Việc ra mắt GPT-4 Turbo với Vision trên API diễn ra sau bản phát hành ban đầu của các tính năng tải lên hình ảnh và âm thanh của GPT-4 vào tháng 9 năm ngoái và việc ra mắt mô hình GPT-4 Turbo được tăng tốc tại hội nghị dành cho nhà phát triển của OpenAI vào tháng 11.

Tính năng

GPT-4 Turbo hứa hẹn cải thiện tốc độ đáng kể, cửa sổ ngữ cảnh đầu vào lớn hơn lên đến 128.000 token (tương đương khoảng 300 trang) và khả năng chi trả tăng cho các nhà phát triển.

Mô hình cải tiến

Một cải tiến quan trọng là khả năng các yêu cầu API sử dụng các chức năng nhận dạng và phân tích hình ảnh của mô hình thông qua JSON định dạng văn bản và gọi hàm. Điều này cho phép các nhà phát triển tạo các đoạn mã JSON có thể tự động hóa các hành động trong các ứng dụng được kết nối, chẳng hạn như gửi email, mua hàng hoặc đăng bài trực tuyến. Tuy nhiên, OpenAI khuyến cáo mạnh mẽ việc xây dựng luồng xác nhận của người dùng trước khi thực hiện các hành động tác động đến thế giới thực.

Một số công ty khởi nghiệp đã tận dụng GPT-4 Turbo với Vision, bao gồm Cognition, nơi mà Devin, một trợ lý viết mã AI, dựa vào mô hình này để tự động tạo toàn bộ mã.

Mặc dù phải đối mặt với sự cạnh tranh gay gắt từ các mô hình mới hơn như Claude 3 Opus của Anthropic và Gemini Advanced của Google, việc ra mắt API sẽ giúp củng cố vị thế của OpenAI trong thị trường doanh nghiệp khi các nhà phát triển đang chờ đợi mô hình ngôn ngữ lớn tiếp theo của công ty.

Giá cả

Trang thông tin về giá API đã được đơn giản hóa. Giá hiện được hiển thị theo đơn vị 1 triệu token thay vì 1 ngàn token.

Điều này giúp việc sử dụng API của các nhà phát triển trở nên dễ dàng hơn và làm cho giá cả rõ ràng hơn – không cần tính toán phức tạp nữa!

Hướng dẫn gọi API Vision qua GPT-4 Turbo

Tại ví dụ này, mình sẽ sử dụng cấu trúc chat.completions của OpenAI.

Thêm key của bạn vào, sau đó dựa theo đoạn code dưới để gọi:

client = OpenAI(
)

response = client.chat.completions.create(
  model="gpt-4-turbo",
  messages=[
    {
      "role": "user",
      "content": [
        {"type": "text", "text": "Liệt kê các loại quả dưới (ghi rõ số lượng cụ thể)"},
        {
          "type": "image_url",
          "image_url": {
            "url": "https://khothietke.net/wp-content/uploads/2021/04/Khothietke.net-PNG-02488.png",
          },
        },
      ],
    }
  ],
  max_tokens=300,
)
print(response.choices[0])

Kết quả:

Chúc các bạn thành công!

Trên đây là toàn bộ thông tin về GPT-4 Turbo của OpenAI đã tích hợp thêm Vision API. Việc tích hợp này cho phép mô hình hiểu và phân tích hình ảnh mạnh mẽ hơn, mở rộng khả năng ứng dụng trong nhiều lĩnh vực như nhận diện thị giác, phân tích dữ liệu hình ảnh và hỗ trợ đa phương thức.

Chia sẻ lên

Hãy để TENTEN AI
đồng hành cùng bạn trong hành trình
chuyển đổi số.

Đăng ký để nhận tư vấn

Bộ phận kinh doanh: (8h00 - 17h30)
Customer Care Department:Bộ phận CSKH: (8h00 - 17h30)
Technical Support(24/7):Hỗ trợ kĩ thuật (24/7): (8h00 - 17h30)
Hỗ trợ hoá đơn: (8h00 - 17h30)
Hỗ trợ gia hạn (8h00 - 17h30)