A medida que los gobiernos, el sector privado, las ONG y otros se movilizan para luchar contra la pandemia de COVID-19, observamos exhortaciones a utilizar la información de localización -típicamente extraída de los datos del GPS y de las torres celulares- para alimentar las actividades de salud pública. Entre los usos propuestos de los datos de localización, uno de los más discutidos es el análisis de datos agregados sobre los lugares que la gente está visitando, si están viajando menos, y otras mediciones colectivas del movimiento de los individuos. Este análisis podría utilizarse para fundamentar los juicios sobre la eficacia de las órdenes de refugio en el lugar y otras medidas de distanciamiento social. Los proyectos que utilizan datos de localización agregados han calificado a los residentes de cada estado en cuanto a su distanciamiento social y han visualizado los patrones de viaje de las personas al regresar de las vacaciones de primavera. Más recientemente Google anunció que publicaría los "Informes de Movilidad de la Comunidad COVID-19" en curso, que se basan en la reserva de datos de localización de la empresa para informar sobre los cambios a nivel de la comunidad en los viajes de las personas a diversos lugares como tiendas de comestibles, parques y estaciones de tránsito masivo.
En comparación con el empleo de datos de localización individualizados para el rastreo de contactos -como ya están haciendo muchos gobiernos de todo el mundo-, la obtención de conocimientos de salud pública a partir de datos de localización agregados plantea muchos menos riesgos para la privacidad y otras libertades civiles, como las restricciones a la libertad de expresión y asociación. Sin embargo, incluso los datos de localización " agregados" tienen sus posibles inconvenientes. En este artículo se examinan esos escollos y se describen algunas prácticas óptimas de alto nivel para quienes tratan de utilizar datos de localización agregados en la lucha contra COVID-19.
¿Qué significa "agregado"?
En el nivel más básico, hay una diferencia entre los datos de localización " agregados" y los datos de localización "anonimizados" o "desidentificados". En la práctica, no hay forma de desidentificar los datos de localización individuales. La información sobre el lugar en que se encuentra y ha estado una persona suele ser suficiente para volver a identificarla. Alguien que viaja frecuentemente entre un edificio de oficinas determinado y un hogar unifamiliar es probablemente único en esos hábitos y, por lo tanto, identificable a partir de otras fuentes fácilmente reconocibles. En un estudio ampliamente citado de 2013 se llegó incluso a la conclusión de que los investigadores podían caracterizar de manera única al 50% de las personas utilizando sólo dos puntos de datos de tiempo y lugar elegidos al azar
Por otra parte, la agregación destinada a preservar la privacidad individual puede ser potencialmente útil. La agregación de los datos de localización implica la producción de recuentos de comportamientos en lugar de líneas de tiempo detalladas de la historia de la localización individual. Por ejemplo, se puede sumar la cantidad de teléfonos de personas que informaron su ubicación en una ciudad determinada en el último mes. O también puede indicar, para un área determinada de una ciudad, cuántas personas viajaron a esa área durante cada hora del último mes. Si un esquema dado para agregar datos de localización funciona para mejorar la privacidad depende profundamente de los detalles: ¿En qué escala de tiempo se agregan los datos? ¿Qué extensión tiene el área que cubre cada recuento? ¿Cuándo se considera que un recuento es demasiado bajo y se elimina del conjunto de datos?
Por ejemplo, Facebook utiliza técnicas de privacidad diferenciadas, como la inyección de ruido estadístico en el conjunto de datos, como parte de la metodología de su proyecto "Data for Good". Este proyecto agrega los datos de localización de los usuarios de Facebook y los comparte con varias ONG, académicos y gobiernos que se dedican a responder a los desastres naturales y a luchar contra la propagación de enfermedades, entre ellos COVID-19.
No existe una fórmula mágica única para agregar los datos de localización individuales de manera que ofrezca una visión que pueda ser útil para algunas decisiones y que, sin embargo, no se pueda volver a identificar. En cambio, es una cuestión de compensaciones. Como cuestión de política pública, es fundamental que no se sacrifique la privacidad del usuario cuando se creen conjuntos de datos de localización agregados para informar las decisiones sobre COVID-19 o cualquier otra cosa.
¿Cómo evaluamos el uso de los datos de localización agregados para luchar contra COVID-19?
Debido a que la agregación reduce el riesgo de revelar información íntima sobre las vidas de los individuos, nos preocupa menos este uso de los datos de localización para luchar contra COVID-19 que el seguimiento individualizado. Por supuesto, la elección de los parámetros de agregación generalmente debe ser hecha por expertos en el tema. Como en los ejemplos de Facebook y Google mencionados anteriormente, estos expertos a menudo trabajarán dentro de empresas privadas con acceso propietario a los datos. Incluso si toman todas las decisiones correctas, el público necesita poder revisar estas decisiones porque las compañías están compartiendo los datos del público. Para los expertos que se encargan de la agregación, a menudo existe la presión de reducir las características de la privacidad a fin de generar un conjunto de datos agregados que, según una persona encargada de tomar decisiones, ha de ser más granular para que sea significativo para ellos. Lo ideal sería que las empresas consultaran también a expertos externos antes de seguir adelante con los planes de agregación y de intercambio de datos de localización. Obtener la opinión del público sobre si un determinado plan de intercambio de datos preserva suficientemente la privacidad puede ayudar a reducir el sesgo que crea esa presión.
En consecuencia, compañías como Google que producen informes basados en datos de localización agregados de los usuarios han de publicar su metodología completa, además de información sobre con quiénes se comparten estos informes y con qué propósito. En la medida en que sólo compartan ciertos datos con "socios" seleccionados, estos grupos deberían acordar no utilizar los datos para otros fines o intentar volver a identificar a las personas cuyos datos se incluyen en la agregación. Y, como ya lo ha hecho Google, las empresas deberían comprometerse a poner fin al uso de estos datos cuando disminuya la necesidad de luchar contra COVID-19.
Para cualquier plan de intercambio de datos, el consentimiento es fundamental: ¿Cada persona consintió en el método de recolección de datos, y consintió en el uso? El consentimiento debe ser específico, informado, voluntario y con opción a participar. Normalmente, los usuarios deben tener la opción de optar o no por cada nuevo uso de sus datos, pero reconocemos que obtener el consentimiento para agregar datos de localización previamente adquiridos para luchar contra COVID-19 puede ser difícil con la suficiente rapidez para atender a la necesidad de salud pública. Por ello es especialmente importante que los usuarios puedan revisar y eliminar sus datos en cualquier momento. Lo mismo debería ser cierto para cualquiera que realmente consienta en la recopilación de esta información. Muchas entidades que poseen información de localización, como los agentes de datos que recopilan la localización a partir de anuncios y el seguimiento oculto en aplicaciones, no pueden cumplir con estas normas de consentimiento. Sin embargo, muchos de los usos de los datos de localización agregados que hemos visto en respuesta a COVID-19 proceden de estas fuentes contaminadas. Como mínimo, los agentes de datos no deberían beneficiarse de los conocimientos de salud pública derivados de sus almacenes de datos de localización, incluso a través de la publicidad gratuita. Tampoco se les debería permitir que "COVID lavara" sus prácticas comerciales: la existencia de estos almacenes de datos no es ética, y debería abordarse con nuevas leyes de privacidad de los datos de los consumidores.
Por último, debemos recordar que los datos de localización recogidos de los teléfonos inteligentes tienen sus limitaciones y sesgos. La propiedad de los teléfonos inteligentes sigue siendo un indicador de la riqueza relativa, incluso en regiones como los Estados Unidos, donde el 80% de los adultos tienen un teléfono inteligente. Las personas que no tienen teléfonos inteligentes ya suelen estar marginadas, por lo que la elaboración de políticas públicas basadas en datos de localización agregados puede acabar desatendiendo las necesidades de aquellos que simplemente no aparecen en los datos, y que pueden necesitar más los servicios. Incluso entre las personas con teléfonos inteligentes, la aparente autoridad y amplitud de los datos en gran escala puede hacer que los dirigentes lleguen a conclusiones erróneas que pasen por alto las necesidades de las personas con menos recursos. Por ejemplo, los datos que muestran que las personas de una región viajan más que las de otra región podrían no significar, como parece en primer lugar, que estas personas no se toman en serio el distanciamiento social. Podría significar, en cambio, que viven en una zona insuficientemente atendida y que, por lo tanto, deben recorrer distancias más largas para obtener servicios esenciales como comestibles y farmacias.
En general, nuestro consejo a las organizaciones que consideran la posibilidad de compartir datos de localización agregados Obtener el consentimiento de los usuarios que suministran los datos. Sean cautelosos con los detalles. Agregue al más alto nivel de generalidad que sea útil. Comparta sus planes con el público antes de publicar los datos. Y evite compartir datos de localización "desidentificados" o "anonimizados" que no sean agregados: no funciona.