La voz y vídeo sobre la red LTE se conoce por VoLTE/ViLTE y es la base para soportar comunicaciones de voz y vídeo sobre 5G, pasando por distintas fases, hasta llegar a VoNR [1].
En la actualidad, hay una buena cobertura global de 4G y un importante catálogo de dispositivos que soportan VoLTE, lo cual ha propiciado un aceleramiento en el crecimiento del servicio. Según datos de la GSA [2], alrededor de 262 operadoras de 120 países están invirtiendo en VoLTE; y según estimaciones de Ericsson [3], se alcanzaran 6,4 billones de usuarios de VoLTE a finales de 2025, frente a los 2,1 billones de finales de 2019. La necesidad de desplegar servicios de voz sobre 5G, acelerará aún más estos despliegues.
La descripción de los servicios de voz y vídeo sobre 5G están abordados por el GSMA NG.114 "MS Profile for Voice, Video and SMS over 5G" para la interfaz usuario-red y la GSMA NG.113 "5GS Roaming. Guidelines" para "roaming", y a partir de las especificaciones del 3GPP R15.
El códec de voz nativo en 4G es AMR-WB (Adaptive Multi-Rate Wide Band), aunque también es soportado AMR-NB (Adaptive Multi-Rate Narrow Band), por compatibilidad en 3G. En menor medida, por su impacto en costes en la red, se ha empezado a soportar EVS (Enhanced Voice Services), que es típicamente conocido como "HD Voice Plus" and "Ultra HD Voice". Por otro lado, 5G utilizará inicialmente EVS, pasando en el futuro a IVAS (Immersive Voice and Audio Services). En cuanto a codecs de vídeo, de los H.264 y H.265 utilizados en 4G, se comenzará con H.265 en 5G, para pasar a H.266 en fases más avanzadas. En comparación con los codecs AMR-WB y H.264, utilizados principalmente en VoLTE, los codecs EVS y H.265 ofrecen mayor compresión y una mayor capacidad de corrección de errores bajo las mismas condiciones de transmisión, además de otros beneficios que al final redundan en una sensible mejora en la experiencia de usuario. IVAS y H.266 traerán nuevas mejoras en la calidad, pero también innovadoras capacidades, como por ejemplo, audio inmersivo y realidad virtual.
Existen distintas opciones para ofrecer voz sobre 5G, dependiendo de la opción utilizada para el despliegue de 5G, pudiendo distinguir entre: VoLTE, VoeLTE EPS FB, VoeLTE RAT FB y VoNR.
4G fue la primera generación de telefonía móvil donde no existía el dominio de circuitos conmutados para manejar las llamadas de voz, tal y como ocurría en las tradicionales redes 2G/3G. VoLTE (Voice Over LTE) especifica un servicio basado en IMS (IP Multimedia Subsystem) [4], que trata de ofrecer sobre una red convergente IP, las mismas funcionalidades ofrecidas en el dominio de conmutación de circuitos 2G/3G, con sensibles mejoras.
El servicio fue descrito funcionalmente en la GSMA IR.92 "IMS Profile for Voice and SMS" para la interfaz usuario-red y la GSMA IR.88 "LTE and EPC Roaming Guidelines" y IR.65 "IMS Roaming and Interworking Guideline" para "roaming", y a partir de las especificaciones del 3GPP R8. VoLTE proporciona una mejor calidad, debido, entre otras razones, a la utilización de codecs de voz de banda ancha y un menor tiempo de establecimiento de la llamada [5]. El servicio de vídeo sobre LTE es conocido por ViLTE (Video over LTE), que es una extensión de VoLTE que mejora el servicio de voz con un canal de vídeo de alta calidad. La solución de SMS (Short Message Service) es ofrecida a través de SMS sobre IMS, y los USSD (Unstructured Supplementary Service Data) a través de USSD sobre IMS. Finalmente, IMS permite además integrar RCSe (Rich Content Suite enhaced), para realizar video-llamadas, mensajería instantánea, transferencia de ficheros, etc.
En sus etapas iniciales los operadores utilizaron CSFB (Circuit Switched Fallback) [6], una solución estándar del 3GPP para ofrecer voz sobre LTE, cuando no existe suficiente cobertura o el operador no ha desplegado IMS. Aunque para las comunicaciones de datos se utilizaba LTE, a través de CSFB el terminal era redirigido a la red 2G/3G al iniciar o recibir una llamada de voz y la llamada permanecía en el dominio de circuitos hasta que era completada. Actualmente sigue siendo utilizado por los operadores que no han lanzado VoLTE y la gran mayoría de operadores lo utiliza para abonados de 4G que están en "roaming".
El 3GPP definió SRVCC (Single Radio Voice Call Continuity) [6], como el mecanismo estándar para mover llamadas activas de LTE a 2G/3G. SRVCC emplea una única tecnología radio al mismo tiempo, con el fin de preservar la batería del dispositivo. SRVCC ha sido muy importante para el éxito de VoLTE, debido a la imposibilidad de conseguir una cobertura total de LTE en sus primeras fases de despliegue.
5G puede ser desplegada utilizando diferentes opciones [7], distinguiendo entre las opciones SA (Standalone) donde sólo existe una generación de acceso radio y las opciones NSA (Non Standalone) que consisten en dos generaciones de acceso radio (4G LTE y 5G). De este modo, en las opciones NSA se utiliza conectividad dual o DC (Dual Connectivity), es decir, se utilizan simultáneamente NR y LTE para proporcionar acceso radio.
La mayoría de los operadores pioneros en 5G, han utilizado una arquitectura NSA, y más en concreto la opción 3. Básicamente lo que hacen es desplegar radio 5G o NR, pero reutilizando el núcleo de 4G o EPC. Es un despliegue más barato y sencillo que la SA y que permite ofrecer mayores anchos de banda con mayor eficiencia espectral que utilizando sólo radio LTE. Es decir, las celdas NR se utilizan principalmente para aumentar el tráfico de datos, sobre todo en áreas más congestionadas.
Los despliegues siguiendo la arquitectura SA, que comenzarán en la mayoría de los operadores a partir de 2021, introducirán el núcleo de 5G o 5GC [8]. Aunque es una alternativa más lenta y costosa, esta es la arquitectura objetivo y que permitirá aprovechar todas las innovaciones que ofrece 5G, para aplicaciones que requieran de uRLLC (Ultra-Reliable Low Latency), "network slicing", MEC (Mobile Edge Computing), etc.
Como se explicaba anteriormente, la mayoría de las operadoras han comenzado sus despliegues de 5G ofreciendo voz de acuerdo a la opción 3 (NSA) de 3GPP [9]. El operador ya tiene una red de 4G LTE y empieza a desplegar radio 5G, solapando en cobertura y reutilizando el mismo núcleo de red de 4G. Los eNode B y los gNode B se conectan una misma red EPC (Evolved Packet Core).
En este caso, toda la señalización de voz entre la radio y el núcleo de red es transportada sobre LTE. En cambio, el tráfico de datos se transporta sobre NR. El terminal se registra en la misma red IMS que se utiliza para ofrecer VoLTE sobre EPC. Del mismo modo, cuando el terminal empieza o recibe una llamada de voz, se utilizan los procedimientos típicos de VoLTE, permitiendo así reutilizar todo el núcleo de red, incluido el IMS.
El operador también puede elegir la opción 2 (SA) del 3GPP para desplegar una red 5G de forma autónoma, o bien alguna de las opciones SA combinadas. Para ofrecer voz [10], los terminales tienen que soportar tanto NR como los protocolos de 5GC.
En las etapas iniciales, los operadores no contemplan que la red NR proporcione servicios de voz y vídeo. Sin embargo, a diferencia de lo explicado en la opción 3 (NSA), el terminal se registra en 5GC e IMS utilizando NR. En este caso, son necesarios cambios sobre la red LTE, para que la radio LTE pueda conectarse al 5GC, dando lugar a eLTE (enhanced LTE), por lo que el servicio de voz sobre esta red es en ocasiones denominado VoeLTE. En la fase de establecimiento de una llamada de voz o vídeo sobre la NR, se desencadena un "handover" de NR a eLTE, ofreciendo VoLTE con mínimos impactos sobre la red IMS actual. Esto es conseguido mediante dos técnicas, ya sea "EPS Fallback" o bien "RAT Fallback".
Con ambas técnicas, es necesario un solapamiento entre la cobertura de las red NR y eLTE. La experiencia de usuario es muy similar, habiendo alrededor de 1-2 segundos de retardo superiores a VoNR. A pesar de este retardo, en ambos casos hay una mejora de la experiencia de usuario respecto a VoNR, ya que en las etapas iniciales la cobertura de 5G es limitada, pudiéndose perder cobertura durante el transcurso de la llamada, suponiendo el retardo del "handover" propiciar la interrupción de la llamada. Es decir, es preferible que el "handover" ocurra durante el establecimiento de la llamada, en vez de cuando está en progreso. La diferencia fundamental entre "EPS Fallback" y "RAT Fallback" es que con la segunda sólo se retrocede a la red de radio eLTE, pero la llamada sigue anclada en el 5GC.
En la arquitectura eLTE, el ng eNode B, soporta mediante actualización software conectividad directa a 5GC, que sería necesaria para soportar "RAT Fallback" o en las opciones de despliegue de 5G del 3GPP combinadas 4 (NSA) y 7 (NSA) y en la opción 5 (SA). Para soportar "EPS Fallback", es importante que el MME de EPC sea actualizado para soportar la interfaz N26, para gestionar el "handover" con el AMF de 5GC. Mediante N26 es también posible soportar SRVCC de NR a LTE sin impactar a IMS.
En la fase final, cuando el operador disponga de una buena cobertura de 5G, se utilizará VoNR (Voice New Radio). VoNR implica cambios en la red IMS acordes a la 3GPP TR 23.794 "Study on Enhanced IMS to 5GC Integration" (R16). Las actuales funciones de red IMS (P-CSCF, I-CSCF, S-CSCF, AS, etc.), ejecutándose en hardware propietario o virtualizadas, deberán ser actualizadas para desplegarse sobre contenedores, utilizando arquitectura basada en servicio o SBA (Service Based Architecture) [8]. Cada función de red se registrará y descubrirá otras funciones de red mediante el NRF (NF Repository Function) y se comunicarán con otras funciones de red mediante REST API. Además de SIP/SDP (Session Initiation Protocol/Session Description Protocol), se utilizará HTTP2 sustituyendo a Diameter como parte de los protocolos de señalización dentro de IMS; por ejemplo, la interfaz Rx del P-CSCF al PCRF, será sustituida por la Npcf del P-CSCF al PCF. Aunque inicialmente sólo fue considerado SRVCC de radio 5G a 4G, en el estudio 3GPP TR 23.756 "Study for single radio voice continuity from 5GS to 3G" (R16), se analizó cómo implementarlo y será abordado en las siguientes versiones de los estándares 3GPP.