KAIKAI

Het open multimodale AI-model Qwen3-VL van Alibaba blijkt verbluffend goed in het analyseren van video’s. Uit nieuwe technische documentatieblijkt dat de AI moeiteloos uren aan beeldmateriaal doorploegt en cruciale frames tot op de seconde nauwkeurig terugvindt.

De kracht van het systeem ligt in zijn geheugen. Het vlaggenschipmodel, met maar liefst 235 miljard parameters, werkt met een contextvenster van 256.000 tokens. Dat is voldoende voor twee uur video of honderden pagina’s tekst. In zogeheten ‘needle-in-a-haystack’-tests, waarbij het model een semantisch belangrijk frame uit een lange video moet opsporen, behaalde Qwen3-VL een indrukwekkende 100 procent nauwkeurigheid bij video’s van een half uur. Zelfs bij video’s van twee uur bleef de score hangen op 99,5 procent.

Qwen3-VL verslaat in meerdere benchmarks zelfs commerciële zwaargewichten als GPT-5 van OpenAI en Gemini 2.5 Pro van Google. Vooral bij visuele wiskundetaken domineert het model, met scores tot 85,8 procent in de test MathVista en 74,6 procent op benchmark MathVision. Ook documentanalyse en OCR behoren tot de specialiteiten: OCR is de mogelijkheid om karakters op foto's of in video's te herkennen.

Het is nog open-source ook

Alibaba heeft het model in vier fasen getraind op een biljoen tokens – afkomstig uit onder meer 3 miljoen PDF’s en ruim 60 miljoen STEM-opgaven. De nieuwe architectuur maakt gebruik van drie slimme innovaties: een verbeterde vorm van positionele codering, het ‘DeepStack’-mechanisme om visuele informatie op meerdere niveaus te benutten, en een vereenvoudigd tijdnotatiesysteem voor video’s. In plaats van complexe tijdcoördinaten worden er nu simpelweg tekstmarkeringen zoals “<3.8 seconden>” gebruikt.

Hoewel Qwen3-VL op sommige benchmarks nog terrein moet winnen – zoals algemene redeneringstaken en video-QA – is de boodschap helder: dit model is uitzonderlijk goed in visuele en documentgebaseerde analyse, en kan zelfstandig navigeren door grafische interfaces of Android-apps.

Het beste nieuws: de modellen zijn volledig open-source beschikbaar op Hugging Face, met licentie onder Apache 2.0. Daarmee zet Alibaba stevig in op open innovatie in een domein dat tot nu toe werd gedomineerd door gesloten systemen.

Meer AI-nieuws en mis niets met onze Bright-app.

Dit AI-model kan video’s bekijken en elk detail terugvinden

Het is nog open-source ook