Shanghai Neardi Technology Co., Ltd. Perfil de la empresa

Noticias

En casa. > Noticias >

Noticias de la compañía Una interpretación en profundidad del cuello de botella 6TOPS de RK3588 y la verdad sobre el poder de computación de NPU

Una interpretación en profundidad del cuello de botella 6TOPS de RK3588 y la verdad sobre el poder de computación de NPU

2025-12-15

Imagínese que está trabajando en un proyecto de IA de vanguardia con el RK3588: el flujo de video de la cámara necesita realizar reconocimiento facial y detección de vehículos en tiempo real, al tiempo que admite la visualización de la interfaz de usuario, la carga de datos,y procesamiento de lógica de negocioObserven: las caídas del marco ocurren cuando hay muchos objetos en el marco, los modelos grandes no funcionan sin problemas y la temperatura aumenta bruscamente.

En este punto, la gente suele decir: "Tu modelo es demasiado grande ¥ 6TOPS de RK3588 no es suficiente".

¿Pero es realmente una falta de potencia de computación? ¿Alguna vez se ha preguntado: ¿Por qué una NPU 6TOPS todavía experimenta caídas de fotogramas y retraso al ejecutar un modelo 4TOPS?La respuesta radica en tres dimensiones de la potencia de computación de la NPU:Pico de rendimiento (TOPS),Precisión (INT8/FP16), yEficiencia (ancho de banda).

Verá que varios chips hacen hincapié en sus especificaciones de NPU, con un parámetro central mostrado de manera prominente: NPU Computing Power: X TOPS.Se aplicará el método de clasificación de los productos., Hi3403V100-10TOPS, Hi3519DV500-2.5TOPS, Jetson Orin Nano-20/40TOPS, Jetson Orin NX-70/100TOPS, y así sucesivamente...

¿Qué es TOPS? ¿Por qué todo el mundo está hablando de ello?

¿ Qué pasa?Representa el 1012.

Operaciones por segundo: Se refiere al número total de operaciones de IA que la NPU puede realizar en un segundo. En términos simples, 1 TOPS significa que la NPU puede ejecutar 1 billón (1012) operaciones por segundo.

¿Cómo se calcula el TOPS?

últimas noticias de la compañía sobre Una interpretación en profundidad del cuello de botella 6TOPS de RK3588 y la verdad sobre el poder de computación de NPU 0

El número total de unidades MAC es el núcleo de la computación de redes neuronales.el cálculo principal consiste en multiplicar los datos de entrada por pesos y luego sumar los resultados.

La filosofía de diseño de una NPU radica en tener una gama extremadamente grande de unidades MAC paralelas.que pueden trabajar simultáneamente para lograr la computación paralela a gran escala.

Cuanto más unidades MAC haya, mayor será la cantidad de computación que la NPU puede completar en un solo ciclo de reloj.

Frecuencia del reloj: Determina el número de ciclos en que funcionan el chip NPU y sus unidades MAC por segundo (medido en Hertz, Hz).Una frecuencia más alta permite que la matriz MAC realice más operaciones de multiplicación y acumulación por unidad de tiempoCuando los fabricantes anuncian los TOPS, utilizan la frecuencia máxima de funcionamiento de la NPU (es decir, la frecuencia máxima alcanzable).

Operaciones por MAC: Una operación MAC completa en realidad incluye una multiplicación y una adición.Muchos estándares de computación cuentan una operación MAC como 2 operaciones básicas (1 para la multiplicación y 1 para la adición).

Factor de precisión: Las unidades MAC de una NPU están optimizadas para procesar datos de baja precisión (por ejemplo, INT8).

Relación de aceleración simplificada de INT8 vs FP32: Dado que 32 bits / 8 bits = 4, una sola unidad FP32 teóricamente puede realizar 4 veces más operaciones en un ciclo cuando se cambia a la computación INT8.,Si el TOPS de un fabricante se calcula sobre la base de INT8, debe multiplicarse por una relación de aceleración relacionada con la precisión.

En aplicaciones prácticas, debido a factores como la transmisión de datos, las restricciones de memoria y la estructura del modelo, el rendimiento de los datos puede variar de un punto a otro.la potencia de cálculo efectiva real de una NPU es a menudo inferior a este valor máximo.

El poder de cómputo se trata de la velocidad; la precisión se trata de la "finitud".

últimas noticias de la compañía sobre Una interpretación en profundidad del cuello de botella 6TOPS de RK3588 y la verdad sobre el poder de computación de NPU 1

La potencia informática nos dice cuán rápido funciona una NPU, mientras que la precisión computacional nos dice cuán finamente opera.determinación del número de bits utilizados y el rango de representación de datos durante el cálculo.

En el mismo nivel TOPS, la velocidad de computación real de INT8 es mucho más rápida que la de FP32.

Los TOPS NPU que afirman los fabricantes se basan generalmente en la precisión INT8.

últimas noticias de la compañía sobre Una interpretación en profundidad del cuello de botella 6TOPS de RK3588 y la verdad sobre el poder de computación de NPU 2

Alto grado de precisión (generalmente utilizado para el entrenamiento)

FP32 (punto flotante de precisión única, de 32 bits): Ofrece el mayor rango numérico y precisión. Comúnmente utilizado en la computación GPU y PC tradicional. Los modelos suelen adoptar FP32 durante la fase de entrenamiento para garantizar la precisión.
FP16/BF16 (punto flotante de media precisión, de 16 bits): Reduce el volumen de datos a la mitad, manteniendo un cierto nivel de precisión, lo que permite un cálculo más rápido y un ahorro de memoria.

Baja precisión (generalmente utilizada para la inferencia)

INT8 (número entero de 8 bits): Actualmente el estándar de la industria para evaluar el rendimiento de inferencia de las NPU de borde.FP32) a los enteros de 8 bits se llama Cuantización.
INT4 (ancho de bits inferior): presenta una compresión adicional, adecuada para escenarios con requisitos extremadamente altos de consumo de energía y latencia, pero impone mayores demandas para controlar la pérdida de precisión del modelo.

¿Cómo entender el rendimiento real de una NPU?

Cuando veas un NPU que dice 20 TOPS (INT8), necesitas entender:

La potencia de cómputo máxima es de 20 billones de operaciones por segundo.
Esta potencia de cómputo se mide bajo una precisión de 8 bits (INT8). Esto significa que se utiliza principalmente para inferencias de IA (como reconocimiento de imágenes, procesamiento de voz, etc.), no para entrenamiento.
El rendimiento final depende de la aplicación: la experiencia real del usuario (como la velocidad de desbloqueo de la cara, la latencia de traducción en tiempo real) depende no solo de los TOPS de la NPU, sino también de:
- Calidad de cuantización del modelo: Si el modelo INT8 cuantizado mantiene una precisión suficiente.
- Ancho de banda de memoria: La velocidad de entrada y salida de datos.
- Piedra de software y controladores: el nivel de optimización de la cadena de herramientas y los controladores proporcionados por el fabricante del chip para la implementación del modelo.

La potencia de cálculo de una NPU (TOPS) es un indicador de su velocidad, mientras que la precisión computacional (por ejemplo, INT8) es clave para su eficiencia y aplicabilidad.Los fabricantes generalmente buscan maximizar los TOPS INT8 manteniendo una pérdida de precisión aceptable, para lograr un rendimiento de inferencia de IA de baja potencia y alta eficiencia.

Los eventos

Noticias

Casos de trabajo

Contactos

Contactos: Mr. Cola

Teléfono: 86-021-20952021

Contacta ahora

Envíanos un correo.

Sistema en el módulo SoM

solo ordenador de tablero

Ordenador integrado

PC integrado en el vehículo

Rockchip SBC y sus componentes

Nvidia Jetson SBC

Módulo de WiFi

PC industrial de la caja

Módulo Linux SoM

Sistema Android en el módulo

tablero integrado androide

Sistema en el módulo SoM

solo ordenador de tablero

Ordenador integrado

PC integrado en el vehículo

Rockchip SBC y sus componentes

Nvidia Jetson SBC

Módulo de WiFi

PC industrial de la caja

Módulo Linux SoM

Sistema Android en el módulo

tablero integrado androide

Una interpretación en profundidad del cuello de botella 6TOPS de RK3588 y la verdad sobre el poder de computación de NPU

Noticias

Casos de trabajo

Sistema en el módulo SoM

solo ordenador de tablero

Ordenador integrado

PC integrado en el vehículo

Rockchip SBC y sus componentes

Nvidia Jetson SBC