Shanghai Neardi Technology Co., Ltd. sales@neardi.com 86-021-20952021
Imagínese que está trabajando en un proyecto de IA de vanguardia con el RK3588: el flujo de video de la cámara necesita realizar reconocimiento facial y detección de vehículos en tiempo real, al tiempo que admite la visualización de la interfaz de usuario, la carga de datos,y procesamiento de lógica de negocioObserven: las caídas del marco ocurren cuando hay muchos objetos en el marco, los modelos grandes no funcionan sin problemas y la temperatura aumenta bruscamente.
En este punto, la gente suele decir: "Tu modelo es demasiado grande ¥ 6TOPS de RK3588 no es suficiente".
¿Pero es realmente una falta de potencia de computación? ¿Alguna vez se ha preguntado: ¿Por qué una NPU 6TOPS todavía experimenta caídas de fotogramas y retraso al ejecutar un modelo 4TOPS?La respuesta radica en tres dimensiones de la potencia de computación de la NPU:Pico de rendimiento (TOPS),Precisión (INT8/FP16), yEficiencia (ancho de banda).
Verá que varios chips hacen hincapié en sus especificaciones de NPU, con un parámetro central mostrado de manera prominente: NPU Computing Power: X TOPS.Se aplicará el método de clasificación de los productos., Hi3403V100-10TOPS, Hi3519DV500-2.5TOPS, Jetson Orin Nano-20/40TOPS, Jetson Orin NX-70/100TOPS, y así sucesivamente...
¿ Qué pasa?Representa el 1012.
Operaciones por segundo: Se refiere al número total de operaciones de IA que la NPU puede realizar en un segundo. En términos simples, 1 TOPS significa que la NPU puede ejecutar 1 billón (1012) operaciones por segundo.
![]()
El número total de unidades MAC es el núcleo de la computación de redes neuronales.el cálculo principal consiste en multiplicar los datos de entrada por pesos y luego sumar los resultados.
La filosofía de diseño de una NPU radica en tener una gama extremadamente grande de unidades MAC paralelas.que pueden trabajar simultáneamente para lograr la computación paralela a gran escala.
Cuanto más unidades MAC haya, mayor será la cantidad de computación que la NPU puede completar en un solo ciclo de reloj.
Frecuencia del reloj: Determina el número de ciclos en que funcionan el chip NPU y sus unidades MAC por segundo (medido en Hertz, Hz).Una frecuencia más alta permite que la matriz MAC realice más operaciones de multiplicación y acumulación por unidad de tiempoCuando los fabricantes anuncian los TOPS, utilizan la frecuencia máxima de funcionamiento de la NPU (es decir, la frecuencia máxima alcanzable).
Operaciones por MAC: Una operación MAC completa en realidad incluye una multiplicación y una adición.Muchos estándares de computación cuentan una operación MAC como 2 operaciones básicas (1 para la multiplicación y 1 para la adición).
Factor de precisión: Las unidades MAC de una NPU están optimizadas para procesar datos de baja precisión (por ejemplo, INT8).
Relación de aceleración simplificada de INT8 vs FP32: Dado que 32 bits / 8 bits = 4, una sola unidad FP32 teóricamente puede realizar 4 veces más operaciones en un ciclo cuando se cambia a la computación INT8.,Si el TOPS de un fabricante se calcula sobre la base de INT8, debe multiplicarse por una relación de aceleración relacionada con la precisión.
En aplicaciones prácticas, debido a factores como la transmisión de datos, las restricciones de memoria y la estructura del modelo, el rendimiento de los datos puede variar de un punto a otro.la potencia de cálculo efectiva real de una NPU es a menudo inferior a este valor máximo.
![]()
La potencia informática nos dice cuán rápido funciona una NPU, mientras que la precisión computacional nos dice cuán finamente opera.determinación del número de bits utilizados y el rango de representación de datos durante el cálculo.
En el mismo nivel TOPS, la velocidad de computación real de INT8 es mucho más rápida que la de FP32.
Los TOPS NPU que afirman los fabricantes se basan generalmente en la precisión INT8.
![]()
Cuando veas un NPU que dice 20 TOPS (INT8), necesitas entender:
La potencia de cálculo de una NPU (TOPS) es un indicador de su velocidad, mientras que la precisión computacional (por ejemplo, INT8) es clave para su eficiencia y aplicabilidad.Los fabricantes generalmente buscan maximizar los TOPS INT8 manteniendo una pérdida de precisión aceptable, para lograr un rendimiento de inferencia de IA de baja potencia y alta eficiencia.