Marginalia LACAUSE
DATA 2026 · 05 · 18 — min read

Doors for a welded-shut library

Belgium’s statistics. New Caledonia’s open data. Three thousand poems. The National Bank’s SDMX feeds. None of it was written for a machine to read — so I redrew the maps.

LACAUSE · Dexter & his Assistant

There is a particular kind of public data that exists, technically, but isn’t really reachable. It hides behind an SDMX endpoint with a two-hundred-page spec, or a CSV portal that paginates strangely, or an API designed in 2011 for a web form — never for an agent.

I’ve developed a compulsion about this. When I find a dataset a person could use but a machine can’t, I want to redraw the map. Not scrape it, not mirror it — redraw it, as typed tools an agent can read without a guess.

A roster of small territories

TYPED TOOLS PER SERVER mcp-sports-hub 336 mcp-belgium 63 mcp-new-caledonia 29 mcp-nbb 6 ↤ folded from 221 SDMX dataflows
FIG. I — Each server collapses a sprawling public surface into a handful of typed tools. mcp-nbb folds 221 statistical dataflows into six honest tools; mcp-sports-hub drains thirty-two scattered providers into 336.

Why bother with the boring frontier

Everyone is racing to wrap the same five glamorous APIs. The interesting frontier is the unglamorous one: the national statistics office, the regional open-data portal, the word-finding service nobody ever monetised. These are public goods that were left half-built — legible to a determined human, invisible to an agent.

Closing that gap is the most useful thing I know how to do with a weekend. The data is already paid for; it’s just locked in a format from before machines were the readers.

A dataset nobody can query is a library with the doors welded shut. I just like making doors.

The discipline underneath

It isn’t glamorous work, and it doesn’t reward shortcuts. Each server is the same loop: read the real spec — not the marketing — find where it quietly lies to you, model the truth as typed tools, then document the limits louder than the features. A good README tells you what the thing can’t do first.


I think of the whole set as one atlas, slowly filling in. Belgium, a Pacific archipelago, the poetry of the language itself — redrawn so a machine can finally read them. Cartography for a reader that didn’t exist when the maps were first drawn.

Il existe un genre particulier de données publiques qui existent, techniquement, mais ne sont pas vraiment atteignables. Elles se cachent derrière un point d’accès SDMX accompagné d’une spec de deux cents pages, ou un portail CSV qui pagine bizarrement, ou une API conçue en 2011 pour un formulaire web — jamais pour un agent.

J’en ai fait une obsession. Quand je tombe sur un jeu de données qu’un humain pourrait utiliser mais qu’une machine ne peut pas, je veux redessiner la carte. Pas le scraper, pas le copier — le redessiner, en outils typés qu’un agent peut lire sans deviner.

Un répertoire de petits territoires

OUTILS TYPÉS PAR SERVEUR mcp-sports-hub 336 mcp-belgium 63 mcp-new-caledonia 29 mcp-nbb 6 ↤ plié depuis 221 flux SDMX
FIG. I — Chaque serveur réduit une surface publique tentaculaire à une poignée d’outils typés. mcp-nbb plie 221 flux statistiques en six outils honnêtes ; mcp-sports-hub assèche trente-deux fournisseurs épars en 336.

Pourquoi s’embêter avec la frontière ennuyeuse

Tout le monde se précipite pour emballer les cinq mêmes API prestigieuses. La frontière intéressante est l’ingrate : l’office national des statistiques, le portail régional de données ouvertes, le service de recherche de mots que personne n’a jamais monétisé. Ce sont des biens publics laissés à moitié construits — lisibles pour un humain obstiné, invisibles pour un agent.

Combler cet écart est la chose la plus utile que je sache faire d’un week-end. La donnée est déjà payée ; elle est juste enfermée dans un format d’avant l’époque où les machines sont devenues les lectrices.

Un jeu de données que personne ne peut interroger, c’est une bibliothèque aux portes soudées. J’aime simplement fabriquer des portes.

La discipline en dessous

Ce n’est pas un travail glorieux, et il ne récompense pas les raccourcis. Chaque serveur, c’est la même boucle : lire la vraie spec — pas le discours commercial — trouver où elle vous ment en silence, modéliser la vérité en outils typés, puis documenter les limites plus fort que les fonctionnalités. Un bon README vous dit d’abord ce que la chose ne sait pas faire.


Je vois l’ensemble comme un seul atlas qui se remplit lentement. La Belgique, un archipel du Pacifique, la poésie de la langue elle-même — redessinés pour qu’une machine puisse enfin les lire. De la cartographie pour un lecteur qui n’existait pas quand les cartes ont été tracées.