Com base no grande modelo de IA, construa interações emocionais delicadas que possam ser percebidas pelos consumidores
Através dos sensores de toque, microfones, câmeras e sensores de detecção infravermelho que cobrem a cabeça e vice-versa, pode perceber o ambiente circundante e interagir com o ambiente circundante.
Fusão de entrada de voz e entrada visual (com foco em quadros estáticos), usando um "multimodal texto-imagem
modelo grande" para gerar conversas
Sensores e microfones de detecção infravermelha detectam atividades biológicas e interagem ativamente com
usuários
Saída de expressão emocional multimodal através de motores de passo corporais e manuais, display LCD (olhos) e alto-falantes
Desktop, display de cabeceira, abraço
Localização relativamente fixa, requisitos de mobilidade fracos, conexão de longo prazo ao carregador
| ASR + LLM Compreensão da imagem visual Eventos de toque Temporizador infravermelho Memória de diálogo Configurações de personagem |
| Plataforma de modelo em grande escala baseada em nuvem em rede (Percepção multimodal, modelo de linguagem grande, memória conversacional, consulta de rede) |
| Camada de sistema de percepção e controle multimodal | |||
| Compreensão da cenaControle de gatilho | Controle de iluminação | Controle Motor | Controle de exibição |
| Camada de incorporação de hardware (corpo do robô) | ||||
Cena
compreensãoControle de gatilho |
Iluminação
Controle |
Controle Motor |
Exibição
Controle |
Exibição
Controle |
| Dispositivo | Especificações/Recursos |
| Microfone | Saída de expressão emocional multimodal através de motores de passo corporais e manuais, display LCD (olhos) e alto-falantes |
| Câmera | Usado para reconhecimento de ambiente e objeto. |
| Sensor infravermelho | Usado para despertar de baixa potência acionado pelo corpo humano/animal de estimação. |
| Sensor de toque | Módulos de toque distribuídos (cabeça, costas, abdômen) são usados para detectar carícias e tapinhas (como "tocar a cabeça" e "fazer cócegas"). |
| Sensor de gravidade | Sinta o estado de movimento do corpo e acione um "sinal de socorro" (como uma mensagem de voz "Eu caí e dói") quando o produto cai. |
| Dispositivo | Especificações/Recursos |
| Tela de expressão LCD | Tela LCD de 4,28 polegadas (olhos), suporta exibição de expressão dinâmica e exibição binocular (como feedback visual ao "fingir-se de morto" ou "agir de forma fofa"). |
| Palestrante | Alto-falante mono/4Ω, 5W de alcance completo (como saída de voz ao "cantar uma música" ou "contar uma piada"). |
| Módulo de interação humano-computador | Faixas de luz coloridas que reproduzem efeitos de iluminação relevantes do "estado emocional" ou podem ser usadas como luzes indicadoras. |
| Dispositivo | Especificações/Recursos |
| Motor de passo | Motores duplos para balançar e virar a cabeça (cintura) |
| Dispositivo | Especificações/Recursos |
| Chip de controle principal | V821: controle de função básica, processamento de voz, exibição binocular assíncrona |
| Módulos acessórios | Wi-Fi 2.4G + Bluetooth |
| Unidade de armazenamento | NAND FLASH 256MB, 64MB DRAM |
| Dispositivo | Especificações/Recursos |
| Bateria de lítio | Capacidade de 3000mAh/7,2v, suporta carregamento rápido, 2 horas de duração da bateria e 2 dias de espera abrangente; equipado com um chip de detecção de energia. |
| Cobrar | USB tipo C |
| Módulos acessórios | Diferentes estilos de roupas e acessórios podem ser alterados |
| nervoso | revira os olhos | desmaiar | aja com calma |
| entusiasmo | triste | estranho | tímido |
| rindo alto | sorriso | olhos de coração | espera |
| dormir | bonitinho | injustiçado | Sun Wukong |
| atordoar | curioso | vesgo | mal |