Han quedado lejos los años de su fundación, cuando a finales de los 90 eBay no disponía de un data waehouse y se apoyaba en Microsoft Access para sus informes financieros. En la actualidad, eBay genera 50 TB de información al día que requieren de un procesamiento de 100 PB de datos. Con estas magnitudes, ¿no merece la pena echar un vistazo a cómo el gigante del ecommerce está haciendo frente al reto Big Data?
El objetivo de la compañía es conseguir la cercanía y el conocimiento que cualquiera de nosotros puede encontrar en la tienda de barrio… pero, claro, eso llevado a 149 millones de usuarios activos repartidos por todo el mundo (2 de ellos en España) con un catálogo de más de 700 millones de productos. ¿Cómo aprovechar analíticamente lo que hace muy poco tiempo David Stephenson, responsable de Análisis de Negocio Global de eBay, bautizaba como “los datos de la ruta del cliente”?
Stephenson explicaba durante el último Gartner CRM Summit celebrado en Londres que el estadio ideal es conseguir una panorámica global del mismo modo que tendríamos si cada cliente de un supermercado llevara adosada una videocámara en su cabeza y fuéramos viendo todos y cada uno de sus movimientos. En cierto modo, eso mismo es lo que ha conseguido hacer eBay y grabar todos esos datos le lleva a generar unos 100 millones de horas de interacciones de cada caliente al mes, es decir, una cantidad de datos inmanejable. Imaginen: sólo averiguar cuáles fueron los productos más buscados el día anterior implica analizar 5.000 millones de páginas vistas.
Imaginen: sólo averiguar cuáles fueron los productos más buscados el día anterior implica analizar 5.000 millones de páginas vistas.
Para hacer frente a este escenario, eBay cuenta con tres áreas bien diferenciadas. Por un lado, el tradicional data warehouse para cuyo desarrollo confió en un experto en la materia: Teradata. Las necesidades a las que había de dar respuesta no eran algo trivial: 50 TB de información diarios a los que acceden 7.000 usuarios con hasta 700 usuarios concurrentes.
Cuando aquel proyecto de data warehouse se inició en 2002 contaba con una capacidad de 13 TB de datos, que a día de hoy ya ha escalado hasta los 14 PB con cientos de miles de nodos. Este repositorio resulta muy efectivo a la hora de afrontar consultas estructuradas estándar pero adolece de cierta flexibilidad, con el incoveniente añadido del desorbitado precio de su escalabilidad.
Este es el motivo por el que durante mucho tiempo, eBay únicamente podía grabar un 1% de la información relativa a esa ‘ruta del cliente’, lo que limitaba extraordinariamente sus capacidades analíticas. Fue entonces, hace siete años ya, cuando eBay decidió atajar este problema con un nuevo proyecto que terminó desembocando en Singularity.
Se trata de un segundo data warehouse para datos estructurados y semi-estructurados de más de 42 PB hecho a medida por Teradata, que implementó centenares de funciones definidas basándose en los usuarios, desarrolladas con un software propietario sobre un hardware commodity. Un sistema accesible por todos los analistas pero gestionado únicamente por cinco personas, capaz de ejecutar consultas en 32 segundos que, de realizarse con Hadoop, llevarían 30 minutos. Y todo ello a pesar de que puede llegar a contener tablas de datos de más de 1,2 PB con casi 2.000 millones de filas.
¿Significa esto que eBay ha descartado el uso de Hadoop? En absoluto. De hecho, el portal de comercio electrónico utiliza esta plataforma con 20.000 nodos Hadoop y hasta 80 PB de capacidad, enfocado fundamentalmente para los datos no estructurados.
Con este ecosistema Big Data, eBay no sólo puede recabar y analizar información valiosísima sino que, además, pues probar ideas y proyectos tales como verificar si los usuarios prefieren ver fotografías grandes a la hora de realizar sus búsquedas. De hecho, esto es un caso real para el que la compañía movió 2 PB de imágenes de sus servidores a Hadoop, las analizó y obtuvo información estructurada como el precio al que fueron vendidos los productos y por cuántas personas fueron vistos, determinando que cuanto mejor es la calidad de la imagen, mejor es el precio por el que se vende.
No sólo eso, el sistema muestra información de búsquedas basadas en asuntos sobre los que ya han preguntado los usuarios, de manera que un vendedor puede saber si es preferible fijar un precio de subasta muy bajo o incluir en el precio los costes de envío, por ejemplo.
Autoservicio de la información
Tan importante como el procesamiento de toda esta información es su visualización y para ello eBay ha apostado por el software de Tableau (aunque se combina con el BI de MicroStrategy o SAS). Gracias a sus soluciones, los empleados de eBay puede ver de un modo claro e intuitivo la información necesaria en cuanto a relevancia, calidad o revisar los comentarios de los clientes.
En cierto modo, Tableau ha democratizado el análisis (y con ello el Business Intelligence) a lo largo de toda la organización, puesto que todos los usuarios pueden acceder a su escritorio Tableau y visualizar los datos que precisen. Además, para hacer el sistema todavía más accesible, eBay se ha apoyado en Joomla para desarrollar su Data Hub, una web en la que es posible tanto visualizar conjuntos de datos como crear tus propios data marts virtuales en tan sólo 5 minutos. Es lo que internamente eBay ha bautizado como ‘analytics as a services 2.0’.
Data Hub constituye una apuesta de tres años y una fuerte inversión por parte de la multinacional en su afán por extender el análisis por toda la organización. Se complementa, además, con una segunda plataforma llamada QuickStrike, en la que es posible encontrar una amplia gama de cuadros de mando para garantizar que los usuarios podrán ver indicadores clave de rendimiento (PKI) y conjuntos de métricas consistentes.
Antes de QuickStrike, las áreas de negocio utilizaban hasta siete versiones distintas de lo que debería haber sido una misma métrica para todo el mundo.
Sin duda, otro gran avance porque antes de su puesta en marcha las áreas de negocio utilizaban hasta siete versiones distintas de lo que debería haber sido una misma métrica para todo el mundo. Dicho de otro modo, gracias a QuickStrike se han homogeneizado criterios y métricas en todas las filiales globales porque, hasta entonces, podía darse el caso de que dos unidades de diferentes países estuvieran discutiendo un mismo asunto manejando métricas que nada tenía que ver unas con otras. El desarrollo de QuickStrike llevó un año entero y precisó de la estrecha colaboración de un equipo de tecnología y otro de analistas de negocio. Finalmente, entra en juego una tercera herramienta: Metrics Explorer, con la que los usuarios pueden profundizar en los problemas de negocio y hallar soluciones potenciales gracias al análisis exhaustivo de los datos.