| Card Sorting: A cuántos usuarios se necesita evaluar
POR JAKOB NIELSEN - http://www.useit.com
TRADUCCION - Carlos Martínez Pérez - zombie@moron.cav.cyt.cu
En la Card Sorting (Categorización por Tarjetas) se ha disminuido la cantidad de usuarios a evaluar, pero aún se deben usar tres veces más participantes que en las pruebas tradicionales de usabilidad.
Uno de los más grandes desafíos en los diseños de Sitios Web e Intranet es crear la arquitectura de información: ¿Qué debe ir y dónde? Un error clásico es estructurar el espacio de la información de acuerdo a cómo usted ve el contenido – los cuales a menudo terminan en diferentes sub-sitios para cada departamento de la compañía o proveedor de la información.
En vez de reflejar su diagrama organizacional, puedes mejorar la usabilidad creando una arquitectura de la información que refleje cómo los usuarios ven el contenido. En cada uno de nuestros estudios de Intranet (en inglés) hemos encontrado que algunos de los mayores logros de la productividad ocurren cuando las empresas reestructuran su Intranet para reflejar el flujo de trabajo de sus empleados. En el comercio electrónico (en inglés), las ventas aumentan cuando los productos aparecen en categorías donde los usuarios esperan encontrarlas.

La Imagen fue tomada de: Card Sorting. Part 2 - Facilitation (en inglés)
Esto está muy bien, ¿pero cómo saber la visión de los usuarios sobre un espacio de la información y dónde ellos piensan que debe ir cada cosa? Para investigar este tipo de modelo mental, el método principal es el Card Sorting (Categorización por Tarjetas):
1 - Escribe el nombre (quizás una pequeña descripción) de cada uno de los principales ítems en una tarjeta de índice. Son buenas las tarjetas viejas de papel.
2 - Revuelve las tarjetas y entrégaselas a un usuario. (Aplique las recomendaciones estándar para reclutar participantes para la prueba (en inglés): ellos deben ser usuarios representativos, etc.)
3 - Pídale a cada usuario que organice las tarjetas en pilas, colocando los ítems que pertenezcan juntos en la misma pila. Los usuarios pueden hacer tantas pilas como ellos quieran, algunas pilas pueden ser grandes y otras pequeñas.
4 - Un paso opcional extra incluye pedirle a los usuarios que acomoden las pilas resultantes en grupos más grandes y que nombren los diferentes grupos y pilas. El último paso puede darle ideas para palabras y sinónimos a usar en las etiquetas de navegación, enlaces, titulares y en la optimización del mecanismo de búsqueda.
Debido a que en la Card Sorting no se usa tecnología, las tarjetas de esta foto tomada en 1995 (en inglés) tienen la misma apariencia que las actuales.
Estudio de la investigación
Fidelity Investment tiene uno de los mejores equipos de usabilidad del mundo, liderado por el Dr. Thomas S. Tullis, VP mayor de diseño de interfaces humanas. Tullis y el co-autor Larry Wood recientemente reportaron los resultados de un estudio que mide la curva de compensación para evaluar varios números de usuarios en un ejercicio de Card Sorting.
Primero, probaron 168 usuarios, generando resultados muy sólidos. Entonces simularon el resultado de hacer estudios de Card Sorting con grupos de usuario más pequeños, para analizar subconjuntos aleatorios del conjunto de datos total. Por ejemplo, para ver lo que generaría una prueba con 20 usuarios, ellos seleccionaron 20 usuarios aleatoriamente del total de 168 y analizaron solamente ese subgrupo de datos de categorización. Seleccionando muchos más ejemplos, era posible estimar el promedio de evaluar diferentes números de usuarios.
El principal dato cuantitativo del estudio es un conjunto de puntos de semejanza que mide la semejanza de la categorización de los usuarios para varios pares de ítems. Si todos los usuarios clasificaran dos tarjetas en la misma pila, entonces los dos ítems representados en las tarjetas tendrían un 100% de semejanza. Si la mitad de los usuarios colocara dos tarjetas juntas y la otra mitad las colocara en pilas separadas, esos dos artículos tendrían una semejanza del 50%.
Podemos estimar el resultado de un estudio de categorización más pequeño preguntando cuan buenos son los puntos de semejanza correlacionados con los resultados derivados de una prueba a un grupo de usuarios más grande. (Un recordatorio: Para correlaciones desde -1 a +1. Una correlación de 1 muestra que los dos conjuntos de datos están perfectamente alineados; 0 indica que no hay relación; y correlaciones negativas indican conjuntos de datos que son contrarios.)
¿Cuántos usuarios?
Para la mayoría de los estudios de usabilidad, recomiendo evaluar a cinco usuarios (en inglés), dado que esa información te enseña mucho más de lo que usted aprenderá en una prueba. Para la Card Sorting, sin embargo, hay solamente un 0.75 de correlación entre los resultados a partir de cinco usuarios y de los resultados finales. Eso no es bastante bueno.

Usando la técnica de Card Sorting. |
Usted debe probar a 15 usuarios para alcanzar una correlación de 0.90, que es un buen lugar para detenerse. Después de 15 usuarios, el rendimiento decrece y las correlaciones aumentan muy poco: la prueba con 30 personas da una correlación de 0.95 – sin dudas es mejor, pero realmente no es digno de dar dos veces el dinero. Existen escasas mejoras para ir más allá de 30 usuarios: usted debe probar a 60 personas para alcanzar 0.98, y hacer esto es definitivamente derrochador.
Tullis y Wood recomiendan probar de 20 a 30 usuarios para la técnica de Card Sorting. De acuerdo con sus datos. Mi recomendación es 15.
¿Por qué recomiendo probar menos usuarios? Pienso que las correlaciones de 0.90 (para 15 usuarios) o quizás 0.93 (para 20) son suficientemente buenas para la mayoría de los propósitos prácticos. Puedo perfectamente entender una prueba a 30 personas y alcanzar 0.95 si usted tiene un proyecto grande, bien financiado, con mucho dinero en juego (hablo de una Intranet de 100.000 empleados o un sitio de comercio electrónico con medio millón de dólares de ingresos). Pero la mayoría de los proyectos tienen recursos muy limitados para la investigación del usuario; los 15 usuarios restantes están mejor utilizados en tres pruebas cuantitativas de usabilidad de diferentes diseños de interacción.
Además, no recomiendo diseñar una arquitectura de información basada puramente en los valores numéricos de los puntos de semejanza de la Card Sorting. Al decidir los detalles específicos de qué debe ir y dónde, usted debe confiar mucho en el conocimiento cuantitativo que usted gana en las sesiones de prueba. Muchos de los valores de la Card Sorting viene de escuchar los comentarios de los usuarios mientras organizan las tarjetas: conociendo por qué las personas colocan ciertas tarjetas juntas da una visión más profunda de sus modelos mentales que el simple hecho de clasificar tarjetas en la misma pila.
¿Por qué más usuarios para la técnica Card Sorting?
Sabemos que 5 usuarios son suficientes para la mayoría de los estudios de usabilidad, entonces, ¿por qué necesitamos tres veces más participantes para alcanzar el mismo grado de entendimiento con la Card Sorting? Porque los métodos difieren en dos direcciones importantes:
- La prueba del usuario es un método de la evaluación: ya tenemos un diseño, y estamos averiguando si es o no un buen partido con la naturaleza humana y las necesidades de los usuarios. Aunque las personas difieren substancialmente en sus capacidades (campo de conocimiento, inteligencia y habilidades con las computadoras), si cierto elemento de diseño causa dificultades, lo veremos después de evaluar pocos usuarios. Un usuario inexperto puede experimentar dificultades más severas que un usuario avanzado, pero la magnitud de las dificultades no está en discusión a menos que estés corriendo un estudio a la medida (el cual requiere más usuarios). Todo lo que usted necesita saber es que el elemento de diseño no funciona para las personas y debe ser cambiado.
- La Card Sorting es un método generativo: aún no tenemos un diseño, y nuestra meta es descubrir cómo las personas piensan sobre ciertos asuntos. Existe mucha variedad en los diferentes modelos mentales de las personas y en el vocabulario que usan para describir el mismo concepto. Debemos recoger datos de un número fijo de usuarios antes de poder alcanzar un cuadro estable de la estructura preferida de los usuarios y determinar cómo acomodar las diferencias entre usuarios.
Si usted tiene un sitio Web o Intranet existente, evaluar a pocos usuarios le dirá si las personas tienen problemas con la arquitectura de la información. Para generar una nueva estructura desde el principio, usted debe probar más usuarios.
Afortunadamente, usted puede combinar los dos métodos: Primero, estudios generativos para establecer la dirección de su diseño. En segundo lugar, realice un diseño preliminar, preferiblemente usando el prototipado en papel (en inglés), y corra estudios de evaluación para refinar el diseño. Debido a que las evaluaciones de usabilidad son más rápidas y baratas, usted puede permitirse múltiples corridas; éstos también proporcionan la garantía de calidad para sus resultados generativos iniciales. Esta es la razón por la cual usted no debe perder los recursos que exprimen los 0,02 puntos de correlación de la categorización de tarjetas. Usted cogerá cualquier error pequeño en la siguiente prueba, la cual será mucho más barata que duplicar o triplicar el tamaño de los estudios de Card Sorting.
Debilidades Del Estudio
El estudio de Fidelity tiene dos debilidades obvias:
- Es solamente un estudio. Es siempre mejor tener datos de diferentes empresas.
- El análisis fue puramente cuantitativo, centrándose en un análisis estadístico de los puntos de semejanza e ignorando los comentarios de los usuarios y otros datos cualitativos.
Estas dos debilidades no son fatales. Veo esto como un estudio de vanguardia y una gran contribución a nuestro conocimiento de usabilidad en la Web. Pero, debido a las debilidades del estudio, sería útil si alguien lo duplicara con diferentes espacios de información, y también analizara los datos cuantitativos junto con los puntos numéricos. Suena como un buen proyecto de tesis de un estudiante, quien está investigando algo con impacto en el mundo real.
Aunque más información estaría reconfortando, tengo confianza en las conclusiones del estudio de Fidelity, porque corresponden con mis observaciones de numerosos estudios de Card Sorting en muchos años. He dicho siempre que es necesario probar más usuarios para la Card Sorting que para estudios tradicionales de usabilidad. Realmente he recomendado alrededor de 15 usuarios, aunque también hemos tenido buenos resultados con solo 12 usuarios cuando los presupuestos eran apretados o los usuarios eran particularmente difíciles de reclutar.
Existen formas innumerables en las cuales los estudios cuantitativos pueden ir mal (en inglés) y engañarlo. Así, si usted ve un estudio cuantitativo que contradiga todo lo que se sabe de los estudios cualitativos, es prudente desatender el nuevo estudio y asumir que probablemente esté mal. Pero cuando un estudio cuantitativo confirma lo que ya se sabe, debe ser correcto, y puede usar los nuevos números como estimaciones decentes, incluso si están basados en menos datos de los que inicialmente estimó.
De esta manera, la recomendación en estos momentos es hacer pruebas con 15 usuarios para la Card Sorting en la mayoría de los proyectos, y con 30 usuarios en proyectos más grandes con financiamiento abundante. |