写在前面
语言大模型是通往AGI的必经之路,并且初步具备了AGI的特征,所以我们从这里开始。 --梁文锋
调用云端的qwen3vl实现物体检测
本次代码需要的包
1 | openai |
为了实现物体检测,需要实现几个步骤,首先就是得有通义百炼 OpenAI 兼容接口(注册通义百炼账号),这样才能通过使用 OpenAI SDK 调用百炼的 Qwen-VL 模型,OK啊,那我们就来注册一个账户通义百炼网址,为什么要用通义百炼呢,因为他会送“免费百万token”(真香!),注册完后进入模型管理–>密钥生成,生成一个自己的密钥APIkey,到这一步已经完成一半了。
有了自己的KPIkey后就可以用OpenAI SDK(软件开发工具包,代码和OpenAI等强大模型之间的“桥梁”)调用百炼的 Qwen-VL 模型
1 | # === 配置你的通义百炼 OpenAI 兼容接口 === |
随后就是一些参数和初始化 OpenAI 客户端以及调用
1 | target_obj = ["垃圾桶"] # ← 你想检测的目标类别, 比如 "car", "person", "dog" 等等 |
接下来就是主函数模块,这部分主要是把各个模块组合在一起,对了,忘记介绍了一个物体检测框框标记的模块plot_bounding_boxes_qwen3该模块示例代码都是参考Qwen3-VL使用说明来实现的,主函数及调用代码如下:
1 | def main(image_path, output_path="output_with_bbox.jpg"): |
对了注意代码参数的输入形式是sys.argv,需要通过终端来输入参数(图片的路径)
ollama本地部署检测
Ollama是一个专为在本地计算机上运行大型语言模型(LLM)而设计的开源工具。它极大地简化了下载、运行和管理各种AI模型的过程,让你无需依赖云端服务,就能在自己的设备上体验AI能力。(BUT,本地部署需要一定算力和存储资源才能实现)
虽然说ollama是一个很方便的工具,但是也不能一上来就开始用,需要配置环境,需要CUDA,CUDA toolkit,cuDNN,这部分我就直接post个CSDN的教程在这里教程
有了环境准备,那就可以开始下载ollama了,Ollama官方网址
下载完就可以开始使用了,因为我们不再用云端了,所以BAIAN_API_BASE,BAIAN_API_KEY,MODEL_NAME都要改一下
1 | # === 配置本地 Ollama 服务 === |
写在最后
本次工作稍微地玩一下大模型调用,云端和本地调用,但是对比最后的效果来说,云端还是方便又牛逼啊!
(如有错误和不好的地方,请多担待,另外对程序有问题请提出噢!)