Trabajar con Inteligencia de Código Abierto (Parte 3): Optimiza tu investigación conectando los puntos

Este artículo explica cómo obtener información a partir de un nombre, una empresa, un sitio web o los detalles de un producto. El texto forma parte de una serie realizada por Reporteros Sin Fronteras (RSF) sobre la Inteligencia de Código Abierto (OSINT, por sus siglas en inglés), un conjunto de técnicas que ayudan a recopilar información de recursos disponibles públicamente.

Las técnicas de Inteligencia de Código Abierto (Open Source Intelligence u OSINT) se usan para recopilar, analizar y utilizar información disponible públicamente con el fin de respaldar la búsqueda de datos y la investigación, sin tener que depender de datos internos o clasificados. La investigación suele comenzar con una pista: un nombre, un número de teléfono, una dirección de correo electrónico, un sitio web o un recibo. En este artículo, Reporteros Sin Fronteras (RSF) describe las herramientas y técnicas de investigación esenciales que los periodistas pueden utilizar para avanzar siguiendo una pista tras otra.

Empezar con solo un nombre

Una búsqueda directa del nombre de una persona o de una empresa en un motor de búsqueda o en las redes sociales es siempre el mejor punto de partida, ya que los gigantes tecnológicos recopilan una gran cantidad de datos personales. El tipo de información disponible depende de la jurisdicción. Algunas bases de datos, como Fast People Search en Estados Unidos, pueden proporcionar direcciones, historial laboral, registros de propiedad y mucho más datos sobre personas físicas.

Cuando se busca información sobre una empresa, las bases de datos más fiables son los registros mercantiles. Sin embargo, los registros mercantiles públicos suelen tener restricciones: exigen un documento de identidad o credenciales autorizadas para buscar en sus bases de datos. Estas limitaciones suponen un inconveniente para los investigadores que no disponen del documento de identidad requerido o no quieren utilizarlo para proteger su anonimato.

Los registros mercantiles privados, como Open Corporates, o las bases de datos de colaboración colectiva, como LittleSis, suelen tener menos cortapisas. Como alternativa, las bases de datos que contienen específicamente datos filtrados que han sido publicados, como ICIJ Offshore Leaks database y Distributed Denial of Secrets, cuentan con potentes motores de búsqueda que permiten a los investigadores seguir el rastro de nombres, entidades y relaciones comerciales, revelados por importantes filtraciones como los Papeles de Panamá, los Papeles de Pandora y los hackeos realizados a la Comisión de Inversiones de Myanmar.

Empezar con un número de teléfono o un correo electrónico

Una vez más, el primer paso y el más sencillo para investigar a las personas que hay detrás de un número de teléfono o una dirección de correo electrónico es utilizar un motor de búsqueda. Los registros mercantiles de algunos países son transparentes en cuanto a los números de teléfono o las direcciones de correo electrónico de los propietarios de empresas, y esta información aparece en los resultados de los motores de búsqueda.

Las aplicaciones de identificación de llamadas como Get Contact o True Caller están diseñadas para bloquear las llamadas no deseadas, pero, sin que muchos usuarios lo sepan, éstos también conceden a la aplicación acceso a los contactos de su teléfono, lo que significa que las bases de datos de estas aplicaciones contienen los nombres y números de teléfono de un gran número de personas. Los investigadores pueden descargarse las aplicaciones (asegurándose de no conceder a la app acceso a sus propios contactos) y buscar en la base de datos el número de teléfono que están tratando de identificar. Algunos agregadores privados de registros públicos y bases de datos en línea, como Spokeo, también permiten buscar personas utilizando su correo electrónico o número de teléfono.

Bases de datos como Have I Been Pwned archivan la información revelada en vulneraciones a la protección de datos personales y permiten a los usuarios buscar en su base de datos para comprobar si sus credenciales han sido comprometidas. El cotejo de números de teléfono o direcciones de email conocidos puede revelar los nombres que hay detrás de ellos si los datos se han expuesto anteriormente. Además, si un número de teléfono o una dirección de correo electrónico se ven comprometidos en un pirateo de datos, por ejemplo, en Flickr, significa que el objetivo tenía cuentas en la plataforma. Los investigadores podrían reducir su búsqueda e intentar encontrar las cuentas conectadas en esa plataforma.

Empezar solo con el nombre de un sitio web

Revisar todas las páginas de un sitio web lleva mucho tiempo y a menudo es improductivo. El uso de funciones de búsqueda avanzada de buscadores, como la búsqueda específica de archivos PDF o de texto en un sitio web determinado, podría revelar memorandos internos, manuales de recursos humanos o incluso listas de contraseñas en texto plano subidas accidentalmente a un servidor público. Probar diferentes combinaciones de términos de búsqueda, como nombres conocidos, direcciones de correo electrónico, números de teléfono, etc., podría ayudar a reducir la búsqueda.

Los registros históricos de un sitio web proporcionan información valiosa sobre cómo se ha modificado, eliminado u ocultado el contenido. Los motores de búsqueda como Bing y Google suelen conservar copias archivadas más antiguas de los sitios web, conocidas como “cachés”. Los cachés pueden permitir a los investigadores recuperar declaraciones, comunicados y otra información eliminada. Buscar cache:example.com en un motor de búsqueda o comprobar las versiones archivadas de un sitio web utilizando Wayback Machine es una buena opción.

Cuando se crea un sitio web, se documenta la información de su creador. Todos los sitios web tienen una identificación única, conocida como registro del Sistema de Nombres de Dominio (DNS). WHOIS Lookup es una herramienta que se utiliza para ver la información del DNS, como la fecha de registro del dominio, el registro de su propiedad y, posiblemente, la información de contacto del registrante. Los registradores de dominios de terceros, como GoDaddy, anonimizan los datos del registrante y son muy utilizados hoy en día. Sin embargo, los registros DNS anteriores, que se pueden consultar a través de Complete DNS, pueden revelar los datos reales del registrante de una versión anterior del sitio web.

Empezar por los registros comerciales o los productos

Los periodistas de investigación a menudo rastrean el flujo de productos poco éticos o ilegales y denuncian vulneraciones en este ámbito. En una cadena de suministro global compleja y con múltiples niveles, es difícil establecer una conexión directa entre los productores de los bienes y sus compradores. Los agregadores de registros de envíos privados, como ImportYeti o Panjiva, recopilan cientos de millones de conocimientos de embarque, (o Bill of Lading, la carta de porte marítimo de la naviera) que incluyen los nombres del remitente, el destinatario, el país de origen, el país de destino, el volumen de las mercancías y, en ocasiones, los números de identificación de los productos (código HS).

El código HS, un número de identificación de seis dígitos, es un sistema de clasificación internacionalmente aceptado para los productos comercializados que se utiliza con fines aduaneros. Los códigos HS que figuran en los registros de envío revelan el tipo de mercancías que contiene el envío. A veces, los transportistas pueden incluir un código de identificación adicional del producto. Las empresas pueden copiar y pegar el código de identificación del producto en sitios web para consumidores, lo que permite a los periodistas identificar el producto exacto que pertenece a un lote de envío concreto.

← Leer Parte 1: Trabajar con Inteligencia de Código Abierto (Parte 1): Extraer información de imágenes en línea
← Leer Parte 2: Trabajar con Inteligencia de Codigo Abierto (Parte 2): Extraer información de vídeos en línea

Empezar con solo un nombre

Empezar con un número de teléfono o un correo electrónico

Empezar solo con el nombre de un sitio web

Empezar por los registros comerciales o los productos

Series