Datashare, una herramienta clave en los Pandora Papers

0
290

Para identificar posibles temas en 11.9 millones de registros filtrados, el Consorcio Internacional de Periodistas de Investigación (ICIJ) cotejó la información con otros conjuntos de datos: listas de sanciones, filtraciones anteriores, registros públicos de empresas, listas de multimillonarios de los medios de comunicación y listas públicas de líderes políticos.

El socio del ICIJ en Suecia, SVT, generó hojas de cálculo con datos extraídos de los pasaportes encontrados en los Pandora Papers. Luego, compartió los registros con los medios de comunicación asociados.

Para colectivizar esos datos (2.94 terabytes) la organización utilizó Datashare, una herramienta segura de investigación y análisis desarrollada por su mismo equipo técnico. Una función de búsqueda por lotes de Datashare ayudó a relacionar algunas figuras públicas con los datos.

La mayoría de los datos estaban en diferentes formatos: millones estaban en textos y otros tantos en PDF de más de diez mil páginas. Más imágenes, correos electrónicos, diversos formatos de hojas de cálculo, etcétera. Y había información tan variada como artículos de noticias, entradas de Wikipedia, información del proveedor de datos financieros. Con Datashare y otras herramientas los archivos que no servían pudieron irse excluyendo, explicó el equipo que coordinó los Pandora Papers. El mismo software lo usaron para otras investigaciones anteriores.

 

¿Qué es Datashare?

Datashare es un software gratuito y de código abierto creado por el Consorcio Internacional de Periodistas de Investigación que ayuda a los usuarios a analizar mejor la información, en todas sus formas.

Permite indexar, buscar, marcar, filtrar y analizar el contenido clave de tus propios documentos, sea cual sea su formato (texto, hojas de cálculo, pdf, diapositivas, correos electrónicos, etc.). Datashare destacará y extraerá automáticamente los nombres de las personas, lugares y organizaciones de sus documentos, así como las direcciones de correo electrónico.

El software está diseñado para ayudar a periodistas de investigación para sacar el máximo provecho de las pistas contenidas en sus archivos y de una manera muy eficiente. Aunque no se limita al periodismo.

De acuerdo con el ICIJ, Datashare es seguro, se guarda directo en la computadora e incluso se puede utilizar sin conexión. “No hay datos que salgan de ahí, ni siquiera para el ICIJ”, se lee en el sitio web del Consorcio.

No es un servicio online de extracción de textos y el riesgo de interceptación es considerablemente limitado, algo importante cuando se trabaja con documentos sensibles.

Una cosa más es que es gratuito y puede procesar documentos en varios idiomas, aunque  la interfaz del programa (botones y elementos del menú) está disponibles solo en inglés, español y francés.

El software está diseñado para dos tipos de usuarios:

  1. Periodistas que trabajan en solitario y necesitan seguridad en sus propios documentos, en su propio ordenador (modo local).
  2. Periodistas que trabajan en equipo sobre los mismos documentos, a distancia (modo servidor).

¿Para qué sirve al periodismo de investigación?

Los periodistas necesitan explorar sus documentos, hacer preguntas y encontrar historias, pero estos documentos pueden ser PDFs, escaneos, imágenes, documentos de Word, hojas de cálculo, correos electrónicos, etc. Sus formatos varían y esto dificulta su búsqueda.

Datashare lo soluciona extrayendo el texto y los datos de los documentos. Para el texto contenido en una imagen ejecutará específicamente un proceso llamado Reconocimiento Óptico de Caracteres (OCR) que reconocerá las letras, los números o cualquier carácter de sus imágenes y lo convertirá en datos susceptibles de búsqueda.

Una vez indexada esta información, el software se convierte en motor de búsqueda usando una barra de búsqueda para realizar consultas.

Datashare ha sido desarrollado por el equipo técnico del ICIJ bajo una licencia de código abierto. Cualquiera puede leer el código, utilizarlo y sugerir contribuciones.

Si te interesa descargarlo, sigue las instrucciones específicas para Mac, Windows y Linux en el sitio web de ICIJ.

 

______________

Información del ICIJ (en inglés): https://bit.ly/3DkDLMd.