Entrevista a Stephen Brobst. CTO de Teradata

Stephen Brobst

“Las estrategias dependen de los proyectos y enfoques concretos de cada compañía”

“Para las grandes corporaciones con muchos datos sobre los que trabajar, ‘cloud’ es poco rentable desde el punto de vista económico”


Durante el desarrollo del evento Teradata Universe, pudimos compartir una animada conversación con Stephen Brobst, CTO de Teradata, junto con otros medios de la prensa internacional. En esta charla salieron a relucir algunos de los temas de actualidad alrededor de BigData y el mundo de la analítica de datos. Es un mundo cambiante y las compañías tienen que estar preparadas para reaccionar. También fue posible conocer la posición de la compañía en el contexto de la competencia y en el de las tendencias tecnológicas del momento.

SCASC.- Teradata basa su negocio en ‘appliances’ alrededor de sus soluciones Active Data Warehouse. Pero hay tecnologías como Hadoop o ‘cloud computing’ que también están ganando aceptación. ¿Cómo se trabaja en Teradata para seguir siendo los mejores en su campo de aquí a cinco años?

S.B.- En Estados Unidos ya ofrecemos servicios ‘cloud’ y es una de nuestras áreas de investigación. Vemos las tecnologías en la nube, sin embargo, como soluciones para compañías pequeñas y medianas. Para las grandes corporaciones con muchos datos sobre los que trabajar, ‘cloud’ es poco rentable desde el punto de vista económico. Compañías como Netflix son una excepción y, por decirlo de algún modo, es nuestro más grande cliente PYME en la nube. En cualquier caso, no estamos ignorando esta estrategia. Cuando nos aproximamos a las soluciones ‘cloud’, sean públicas o privadas, usamos una estrategia ‘baremetal’ en vez de genérica, donde un servidor un día se usa para soluciones Teradata y otro día se convierte en un servidor de impresión. Los ‘appliances’ siguen teniendo gran interés y son más efectivos a nivel de costes. En la práctica no hay nada que impida que se usen otras aproximaciones en la implementación de soluciones de Teradata y, por ejemplo, es posible desplegar soluciones de Teradata sobre Amazon EC2 (Elastic Computing 2). Eso sí, los costes de la capa de virtualización pueden ser poco interesantes comparados con los sistemas de tipo ‘appliance’.

 

SCASC.- Para un CIO en el momento actual, ¿qué estrategias se deberían adoptar ante fenómenos como el ‘Internet Of Things’?

S.B.- Es una respuesta muy dependiente de la industria. Todo es ‘cloud’ y todo es ‘Internet of Things’ hoy en día. Así que las estrategias dependen de los proyectos y enfoques concretos de cada compañía. Desde la perspectiva de los CIO, la pregunta que hay que hacerse es: ¿qué voy a hacer específicamente para obtener valor a partir del Internet de las Cosas aplicado a mi negocio? Por ejemplo, para una empresa aseguradora de vehículos, IoT puede ser interesante de cara a detectar determinados hábitos de conducción que beneficien a los clientes y paguen menos por su seguro si conducen de un modo predecible y responsable, o al contrario. En Gran Bretaña se han desplegado sistemas de captación de datos de conducción usando ‘smartphones’, pero independientemente del resultado de cara a la compañía de seguros, los conductores tienden a mejorar sus hábitos de conducción cuando saben que están siendo monitorizados. Otro sector que se puede beneficiar del IoT es el del ‘Oil and Gas’ para analizar datos procedentes de prospecciones y así decidir si es interesante o no explotar un yacimiento. Pero son ejemplos concretos en un área de infinidad de aplicaciones. Y los avances se van introduciendo a medida que se necesita. Sin ir más lejos, en Teradata15 se ha integrado la compatibilidad con JSON, que permite trabajar específicamente con escenarios IoT, a partir de datos rápidamente cambiantes y no necesariamente homogéneos.

 

SCASC.- Teradata tiene una comunidad de grandes clientes: banca, telcos, etcétera. ¿Hadoop para pequeñas compañías usando ‘commodity hardware’, tiene sentido.

S.B.- Una pequeña compañía no tiene los recursos para implementar una solución ‘commodity’. Trabajar con Open Source no es ni mucho menos gratis. Es como un cachorro que te regalan: el coste no es el cachorro, sino alimentarlo, vacunarlo, dedicarle tiempo, etcétera. El punto a partir del cual una empresa puede permitirse trabajar con Teradata se reduce cuando entra en juego la nube. Pero implementar una nube de servicios de Teradata para cada país no es interesante. Otro tema es desplegar un sistema ‘cloud’ a nivel europeo que sí sea viable. El Reino Unido o Alemania son países en los cuales sí tendría sentido pensar en desarrollar una nube para ellos, pero no todos los países son como UK y Alemania.

 

SCASC.- Poniendo en perspectiva las soluciones de Teradata, con un elevado coste, pero funcionando y probadas, así como otras de carácter abierto como Hadoop, pero complicadas y no totalmente contrastadas, ¿cómo valora la validez de estos argumentos de cara a unos años?

S.B.- No se trata de caro o barato, sino del valor, del TCV (Total Contract Value). Hay casos en los que Hadoop es mejor que la tecnología de Teradata (voz, texto, etcétera, no son amigables con SQL o sistemas relacionales). De todos modos, Hadoop ya es parte de la solución unificada de Teradata. Para datos relacionales, es posible configurar sistemas Teradata con una dimensión económica similar a la de Hadoop. Nuestra Arquitectura Unificada de Datos (UDA), consiste en elegir la tecnología adecuada para el problema que se quiere resolver, pero no asumir que una única tecnología lo soluciona todo. Esto incluye soluciones comerciales de Teradata, Hadoop (Open Source) y otras tecnologías que ni siquiera poseemos. El ecosistema desde un punto de vista genérico es el DataBase Computing, y en él hay cabida para diferentes tecnologías.

SAP BO (BusinessObjects) y SAP HANA no son óptimos para la analítica Big Data. Para aplicaciones ODS (Operational Data Stores) sí, para SAP BW sí, pero es irracional usar Big Data Analytics en un sistema donde todo está en memoria. En última instancia, SAP con HANA va hacia el OLTP (online transaction processing). Lo que llama la atención es que SAP está implementado en muchos casos sobre Oracle, y Oracle quiere eliminar a SAP. Además, IBM compite con Oracle en el campo de las BBDD, y SAP compite con Oracle en el ámbito de las aplicaciones. Larry Ellison (Oracle) es muy claro acerca de sus intenciones: quiere eliminar a SAP. No hay ambigüedad en esa afirmación. Así que Hasso Plattner está (por decirlo de algún modo) en la cama con el individuo que tiene un cuchillo en la mano esperando a que cierre los ojos para matarlo.

IBM tiene una buena tecnología relacional y está compitiendo con Oracle en el campo de las bases de datos, y SAP está compitiendo en el campo de las aplicaciones. De modo que no sería mala estrategia implementar soluciones SAP sobre IBM DB2. Si yo estuviera al cargo de SAP, es lo que haría yo.

Existen rumores acerca de que una conversación en esa dirección ya tuvo lugar, no se llegó a concretar una estrategia y, en última instancia, el hecho es que no hay acuerdo. SAP adquirió tecnología de Sybase, la tecnología de una ‘startup’ surcoreana (Transact in Memory Inc), aprovechó la investigación de una universidad alemana financiada con fondos de Hasso, y todo ello se convirtió en HANA. Al final, lo que tiene que hacer es sacar a Oracle de su cama. Es un asunto de vida o muerte para la compañía. Larry Ellison (Oracle) es muy claro acerca de sus intenciones, y Larry puede gustarte o no, pero es muy bueno en lo que hace.

 

SCASC.- Oracle está presente en grandes compañías. ¿HANA es una alternativa para las soluciones de Oracle?

S.B.- SAP con HANA está mejorando en sus propuestas, evolucionando y solucionando problemas. Pero es un proceso que lleva años completar. SAP ha sido tradicionalmente muy clara acerca de sus promesas, no usando argumentos de marketing. Pero últimamente está traicionando sus fundamentos como compañía centrada en la ingeniería tratando de ganar tiempo.

 

SCASC.- Todo el mundo habla de Big Data y también de ‘In Memory’. Teradata es conservadora acerca de este punto.

S.B.- Teradata es una compañía de ingeniería. Y precisamente nos diferenciamos por nuestra buena ingeniería. Y en analítica no es buena estrategia poner todos los datos en memoria. Es irracional desde el punto de vista económico. Para aplicaciones OLTP las bases de datos son relativamente pequeñas, y poner todos los datos en memoria tiene sentido. Pero para el entorno de la analítica de datos, los datos crecen más rápido de lo que se abarata la memoria. Las cifras hablan de que más del 90% de las operaciones de entrada/salida dependen únicamente del 20% de los datos, no del 100%. El reto es que ese 20% de los datos está cambiando constantemente y es ahí donde entra la inteligencia del software para discernir qué datos son los que hay que llevar a la RAM .Porque esos datos sí pueden y deben estar en memoria o en almacenamiento de estado sólido. Pero el resto no se necesita. Lo óptimo es poner en memoria sólo los datos adecuados. Poner todo en memoria es ingeniería fácil. En Teradata usamos tecnologías de memoria inteligente, que es lo que se necesita para Enterprise Data Warehouse de verdad.

 

SCASC.- Acaban de anunciar QueryGrid. ¿Cómo encaja dentro del portfolio de Teradata? ¿Qué clientes usan las bases de datos Teradata y Aster y cómo espera que evolucione la adopción de estas estrategias tecnológicas heterogénea?

S.B.- La idea tras QueryGrid es que no existe una tecnología que resuelva todos los problemas. Queremos hacer que se puedan correr búsquedas en diferentes partes del entorno de un modo transparente en un ecosistema UDA. Hay clientes que ya están usando Aster, Hadoop y Teradata en una fase beta. Es un área de negocio que crece a un ritmo notable desde 2013. Antes de 2013 se trataba de empresas muy relevantes de Silicon Valley y algunas ‘.com’, pero ahora también está llegando a negocios convencionales.

Tradicionalmente las tecnologías disruptivas se adoptan primero en Silicon Valley y luego saltan a la Costa Este, después a Gran Bretaña (UK) y luego al continente europeo. Pero con Big Data hemos observado que la adopción es más agresiva en Alemania que en UK, por ejemplo. No tengo una explicación fiable acerca de este patrón.

 

SCASC.- Volviendo a Hadoop…

S.B.- Hadoop es un sistema de archivos construido para un propósito específico. Para usos como la conversión de voz a texto, Hadoop es muy eficiente. Las bases de datos relacionales son mejores que otras. El escenario al que se tiende es de la coexistencia. “And is better than or”.

 

SCASC.- ¿Qué hay acerca de paralelismo y GP GPU?

S.B.- Hay aproximaciones para construir hardware a medida para resolver ciertos problemas, pero no es una buena idea trabajar sobre soluciones propietarias comparadas con las soluciones estándar. Para el momento en el que una tecnología propietaria empieza a funcionar, las tecnologías estándar ya han alcanzado un grado de madurez mayor. Construir súper ordenadores como Cray o Fujitsu basados en tecnologías propietarias no creo que sea la mejor solución comparada con trabajar con granjas de servidores estándar, como sucede con Hadoop. Con el tiempo estas tecnologías ‘a medida’ se convertirán en estándar y tendrán un impacto significativo, pero de momento nuestros sistemas se basan en arquitecturas ‘clásicas’ como x86.

 

Data Screen

 

SCASC.- Se empieza a hablar de Software Defined Architectures (SDA) al tiempo que se siguen usando ‘appliances’ clásicos. ¿Se podrá llegar en algún momento a la convergencia?

S.B.- Hay un gran valor en la integración de hardware y software en un ‘appliance’ para entregarlo en óptimas condiciones de uso a nuestros clientes. La visión de construir un sistema a partir de componentes de diferentes fuentes y luego instalar el software es posible, pero no tiene mucho sentido. Hay variables como el ‘firmware’ o las BIOS que pueden suponer un obstáculo a la hora de desplegar el software de Teradata sobre equipos que no provengan de la propia Teradata. Hemos apostado por los ‘appliances’ desde el principio. Y parece que es el camino adecuado. Puede que el hardware sea más barato, pero el Total Cost of Value no es mejor. No hay un valor añadido en ello.

Dell, un gran cliente de Teradata, puso un equipo en producción en el área del MPP (Massive Parallel Processing) con Teradata Aster, pero es el único fabricante hasta la fecha que lo ha hecho con solvencia. Y al cabo de una generación llegó a la conclusión de que adquirir el ‘appliance’ completo a Teradata era una solución más sensata. Los clientes de siempre no se plantean ni siquiera esta cuestión. Son los clientes nuevos los que tratan de aproximarse a esta solución basada en un hardware más económico para instalar sobre él la solución de software. Pero al final siempre se llega a la misma conclusión.

 

SCASC.- A partir de las cifras económicas, parece que la inversión en I+D de Teradata ha sido menor que en el año anterior. ¿Es correcto?

S.B.- Lo que ha sido menor es la cantidad de recursos que se han usado para adquirir tecnología.

 

SCASC.-¿A qué retos tecnológicos se enfrenta Teradata?

S.B.- Hemos hecho grandes inversiones en el área del Multi Temperature Data Management para ofrecer rendimientos elevados sin elevar los costes. Hay que distinguir entre diferentes tipos de datos (calientes o fríos) y hacer que el coste por Terabyte se adecúe al valor de esos datos y se use la infraestructura correcta. Los datos crecen exponencialmente, pero un escalado exponencial en los costes no es admisible. Hemos trabajado en campos como la compresión, así como en Hadoop de modo que podamos adaptarnos a la economía de nuevos tipos de datos como vídeo o voz, no tradicionales. Y es en el campo de los datos no tradicionales donde se detecta un crecimiento mayor. Hay clientes en el campo de la moda que usan las redes sociales como YouTube para detectar tendencias en el momento en el que aparecen. Se pueden almacenar estos datos en una base de datos de Teradata, pero no tiene sentido. Hay que distinguir entre High Value Density Data y Low Value Density Data. Las tendencias surgen en YouTube antes que en las tiendas.

 

SCASC.- ¿Qué hay de las habilidades que se necesitan para sacar todo el partido a Teradata 15, con nuevas funcionalidades en campos como IoT?

S.B.- Uno de los propósitos de Teradata es proveer tecnología que facilite a los profesionales de los datos el trabajo con los sistemas IT propiamente dichos, de modo que puedan centrarse en sus habilidades como científicos de datos sin necesitar al mismo tiempo ser expertos en ordenadores. Con Hadoop se necesitan conocimientos técnicos avanzados. Teradata trata de reducir el nivel de conocimientos técnicos necesarios para trabajar con datos, para que sea menos complicado encontrar buenos profesionales en este campo, que ahora tienen que ser también buenos profesionales en el área de los ordenadores, lo cual limita mucho las posibilidades de selección de personal.

 

SCASC.-¿Cuáles son los retos en el campo de Industria 4.0 o M2M?

S.B.- El reto será procesar los datos de manera más eficiente. No sólo se trata de potencia bruta de procesamiento, sino también de procesar los datos con un elevado grado de sofisticación. M2M precisa tomar decisiones prácticamente en tiempo real. Como los coches autónomos, donde se necesitan predecir situaciones en el mismo momento en el que pueden suceder. M2M es acerca de usar los datos en un modo sofisticado. Se trata de predecir y tomar decisiones en el contexto de grandes volúmenes de datos procesados con Active Data WareHouses. Lo mismo en el entorno de la manufactura industrial. No se puede paralizar una cadena de ensamblaje así como así, de modo que las incidencias deben ser previstas o resueltas en tiempo real.

Utilizamos cookies propias y de terceros para posibilitar y mejorar su experiencia de navegación por nuestra web. Si continua navegando, consideramos que acepta su uso.