¿como hicimos El Especial

Fragmentos de la Desaparición?

Durante poco más de una década, el gobierno mexicano ha llevado un registro de datos de personas desaparecidas —calificadas de distinta forma como no localizadas, extraviadas o desaparecidas— de todo el país.

Este registro tuvo una versión en formato de datos abiertos públicos (una archivo para abrir en Excel o similares) de 2014 a 2018 con información únicamente de las personas que seguían sin ser encontradas, bajo el nombre de Registro Nacional de Datos de Personas Extraviadas o Desaparecidas (RNPED). En ese último año, en 2018, la Comisión Nacional de Búsqueda de Personas (CNB) publicó la base de datos completa, que originalmente se llamaba Base Nacional de Personas No Localizadas y era administrada por el Centro Nacional de Planeación, Análisis e Información para el Combate a la Delincuencia (Cenapi) de la entonces Procuraduría General de la República (PGR). Esa base —que ya no está disponible en línea— incluía información sobre las personas localizadas con vida y fallecidas. 

Inicialmente, empezamos analizando la base del Cenapi-PGR que cuenta con datos de 1968 hasta junio de 2018, porque el registro que lo sustituyó —el Registro Nacional de Personas Desaparecidas y No Localizadas (RNPDNO), a cargo de la CNB—, no cuenta con una base de datos pública, sino que tiene una plataforma de consulta que sólo permite obtener datos limitados sobre las personas desaparecidas y las localizadas. No podíamos hacer análisis complejos a partir de las consultas individuales que permite esa plataforma. Por ejemplo, para analizar las desapariciones por día en un año, tendríamos que hacer 365 consultas por cada uno de los 32 estados.

A finales de marzo de 2022 logramos obtener —gracias a método de consultas automatizadas por computadora diseñado por la iniciativa Morlán— una base de datos del nuevo RNPDNO

El RNPDNO cuenta con 476 variables, tiene registros desde 1964 hasta la fecha e incluye datos de las personas desaparecidas y de las localizadas. Para este proyecto y por cuestiones de capacidad técnica, elegimos únicamente la información de las personas que seguían desaparecidas en el periodo del 1 de enero de 2000 al 24 de marzo de 2022 y sólo la información sobre la fecha (día, mes y año), estado, municipio, género y la circunstancia de desaparición. Esta última es una columna que no es pública en la plataforma de consulta del RNPDNO, pero que sí es posible descargar mediante el sistema diseñado por la iniciativa Morlán.

El RNPDNO se actualiza diariamente y las consultas automatizadas duraron cerca de 10 días, por ello, es posible que los datos varíen ligeramente.

Por otro lado, las visualizaciones que se realizaron con la herramienta Observable se basaron, en su mayoría, en los datos de la base de Cenapi-PGR que incluye mucha información como la fecha del evento, la fecha de reporte, el estado y municipio, el género y la edad de las víctimas, el municipio de localización, si es el caso, y la fecha de localización, entre otras. Esta base tenía varios errores por lo que realizamos un proceso de limpieza que se describe a continuación: 

  • Analizamos y limpiamos los nombres de municipios y estados y las claves INEGI (identificadores únicos que establece para cada municipio y estado el Instituto Nacional de Estadística y Geografía, INEGI).
  • Analizamos las fechas correctas y las incorrectas.
  • Asignamos coordenadas geográficas aleatorias en el municipio de desaparición para crear mapas de puntos.
  • Calculamos diferencias entre fechas clave, por ejemplo, la diferencia entre la fecha del evento y la fecha del reporte.

El código, aunque no está totalmente documentado, está disponible en Github.

También unimos bases de datos adicionales usando los identificadores únicos:

  • CONAPO datos del censo
  • INEGI proyecciones de población
  • INEGI datos geoespaciales

 

Todos los datos fueron cargados en una base de datos PostgreSQL, y accesados usando la API GraphQL de Hasura. Las transformaciones geoespaciales, como la reproyección de los datos geoespaciales del INEGI para usar la proyección Web Mercator, fueron realizadas con la extensión PostGIS para PostgreSQL.

La auditoría de datos con información de la variación de los valores inválidos o ambiguos está disponible en este cuaderno de Observable. Por ejemplo, ningún caso tiene un valor inválido o nulo del género, mientras que el 1.3% de los registros usan como fecha de evento el 1 de enero de 1900, una fecha que claramente es un error.

Las bases de datos, tanto del RNPDNO como del Cenapi-PRG, en su versión “limpia”, pueden ser descargadas en este cuaderno.