Los datos, los verdaderos ‘sentidos’ de la Inteligencia Artificial
TPB308, ene21. La siguiente generación de la digitalización de las comunicaciones con los clientes está en marcha. Hace referencia a la plena automatización de todos los procesos relevantes para los documentos. La base de todo ello son los datos estructurados, consistentes y disponibles de forma centralizada.
EL VOLUMEN global de los datos continúa creciendo fuertemente. Fundamentalmente, los datos no estructurados en forma de fotos, archivos de audio y vídeos, así como presentaciones y documentos crecerán de manera desproporcionada, con una media anual del 62%, según indica el Instituto de Investigación de Mercado de IDC. Y para 2022 se espera que estos datos representen el 93% del volumen total.
Por su parte Gartner, según lo define, los datos no estructurados incluyen “todo el contenido que no corresponde a un modelo de datos específico y predefinido. Por lo general, es contenido generado por humanos que no encaja bien en las bases de datos”, si bien contienen información valiosa sobre el cliente y el comportamiento cuya evaluación puede ser fundamental para la toma de decisiones.
Además, el análisis profundo de los datos no estructurados puede formar la base de mejores servicios y más ampliados para conducir a modelos comerciales completamente nuevos. IDC espera que las compañías analicen todos los datos en 2020 para lograr una productividad de 430 millones de dólares superando a los competidores que no utilizan la analítica de datos.
En la actualidad, las empresas se encuentran en plena búsqueda de soluciones eficaces que conviertan los datos no estructurados en estructurados. Sin embargo, se enfrentan a una serie de retos como son la ubicación geográfica, el tipo de almacenamiento de datos, el gobierno de los mismos o la seguridad y el análisis de esta información en entornos on-premise o en la nube.
Por eso no sorprende que el MIT Sloan Group califique al 80% de todos los datos como inaccesibles, inseguros y no analizables. Por su parte, la consultora IDC ya avanza que en 2020 “el universo digital” contendrá hasta un 37% de información valiosa si se analiza convenientemente.
Digitalización significa automatización
Si algo es cierto es que los datos estructurados y analizables son el requisito básico para el siguiente avance en la digitalización de los documentos con los clientes. Ello hace referencia a la amplia automatización y estandarización de los procesos documentales, por lo que la “intervención humana” es cada vez menos necesaria (“dark processing”). De hecho, tareas rutinarias como la facturación de servicios, los cambios de direcciones de clientes o agendar las citas, ya son asumidas por aplicaciones de software, asistentes y chatbots basados en algoritmos de Inteligencia Artificial (sistemas de autoaprendizaje).
Sin embargo, otros procesos, como la cancelación de una póliza de seguros o el envío de una factura por importe de más de 50.000 euros, seguirá partiendo de un empleado debido en parte a los requerimientos normativos. Sin embargo, es cuestión de tiempo que estas actividades igualmente sean automatizadas. A medida que los sistemas se vuelven más confiables, mayor será el umbral para el procesamiento automatizado, si bien esto requerirá de un manejo correcto de los datos.
Los procesos digitales necesitan acceso al contenido de los documentos, y la Inteligencia Artificial necesita también ojos y oídos. Por tanto, cada vez es más importante desde el principio obtener los datos necesarios para la automatización, proporcionarle una estructura y almacenarla correctamente.
Los documentos, los datos legibles por los humanos
De la misma forma esto concierne a la gestión de salida de los documentos (‘output management’) como interfaz de documentos electrónicos y la comunicación clásica (en formato papel). Habitualmente los datos digitales se convierten en datos analógicos en el punto de salida. Si bien, el reto ahora consiste en transformar la información y los datos generados en todas las áreas de una compañía de forma estructurada y almacenada en el lugar correcto a fin de que esté disponible para todo el procesamiento de los documentos y su gestión de salida.
No importa si el documento es enviado o visualizado de forma digital o analógica, lo importante es el dato, porque en definitiva un documento es su respectiva representación en forma legible para los humanos, para lo cual es necesario distinguir entre documentos no codificados y codificados. En este contexto, las dos tendencias más importantes que han reemplazado a otros desarrollos son XLM y JSON.
Analizar los datos, estructurarlos y almacenarlos
Para asegurar que los datos estructurados están disponibles para el procesamiento automático, es esencial que sean almacenados correctamente. Una de las aplicaciones más conocidas para esta actividad es Wikidata, donde se almacenan millones de datos. El objetivo es obtener conocimiento a partir de datos estructurados sobre algoritmos (“ontologías”). Es aquí donde entra en juego la Inteligencia Artificial que puede ser utilizada para realizar preguntas complejas a posteriori.
El tema más importante en este ámbito es que los datos almacenados y estructurados deben ser analizados, algo que a menudo no se hace. XLM es un método probado para garantizar la exactitud e integridad de los archivos XLM. No hay que olvidar que los errores causados por datos no verificados pueden ser muy graves.
En vez de destruir contenido
Cualquiera que quiera aumentar el grado de automatización de los procesos en las comunicaciones con los clientes y su digitalización, debe garantizar datos estructurados, consistentes y disponibles de forma centralizada. Para los documentos, y su gestión de salida, esto significa preservar el contenido de los documentos lo más completamente posible desde el principio en vez de destruirlo, como se observa regularmente en las empresas dentro de la bandeja de entrada electrónica.
En muchas compañías, los correos electrónicos entrantes se convierten a formato imagen para que posteriormente partes del contenido del documento se puedan volver a interpretar con tecnología OCR (Reconocimiento Óptico de Caracteres). Eso es una forma de malgastar recursos innecesariamente al considerar que los archivos adjuntos de correo electrónico pueden ser documentos bastante complejos con decenas de páginas.
Lo que se hace es que para ser leídos y procesados por los sistemas TI, se conviertan antes en archivos .tiff, .png o .jpg, para que “nubes de píxeles” surjan del contenido. Es decir, el contenido real primero se codifica, y luego se vuelve legible, usando OCR. En este proceso se pierde información estructural semántica que es necesaria para su posterior reutilización. ¿No sería mucho mejor convertir esos archivos adjuntos en archivos PDF estructurados inmediatamente después de recibirlos? Esto sería lo ideal para que puedan ser almacenados de forma correcta y con duración en el tiempo, ya que incluso podría convertirse en PDF/A de forma fácil.
Almacenar correctamente para su reutilización
Las variantes interactivas son especialmente útiles, si no todos los documentos deben ser almacenados. Los actuales sistemas de gestión de entrada son capaces de reconocer automáticamente todos los formatos comunes de archivos adjuntos de correos electrónicos y convertirlos en un formato estándar predefinido (como puede ser PDF/A o PDF/UA). De esta forma se extraen los datos necesarios de los documentos al tiempo que los almacena centralizadamente.
En estas situaciones, la solución Compart DocBridge Conversion Hub, cuyo eje central es una instancia de conversión centralizada, se convierte en un “dispensador” que analiza todos los mensajes de entrada (email, fax, SMS, servicios de mensajería, cartas y papeles) y los convierte automáticamente en el formato óptimo para cada documento. Además, incluye función OCR para extraer contenido y metadatos para un procesamiento completamente automatizado.
Christof Mayer,
Chief Technology Officer de Compart AG
«A medida que los sistemas se vuelven más confiables, mayor será el umbral para el procesamiento automatizado, si bien esto requerirá de un manejo correcto de los datos»