L'index du jésuite et le pipeline de l'architecte
Roberto Busa est mort le 9 août 2011. Il avait quatre-vingt-dix-sept ans et il était jésuite. Il est mort dans une indifférence quasi générale, ce que les nécrologies ont noté avec cette pudeur particulière qu'on réserve aux figures majeures dont l'œuvre est trop spécialisée pour qu'un journal grand public sache quoi en dire. Un blogueur français, Philarête, l'a élu cette année-là « homme de l'escalier 2011 », par ce mouvement de l'esprit qui consiste à reconnaître après coup ce qu'on aurait dû voir tout de suite. C'est là, dans ce billet de blog presque confidentiel publié le 2 janvier 2012, que je suis tombé sur l'histoire un soir d'avril 2026. Et j'ai compris quelque chose sur ce que je fais depuis quatre ans.
Une thèse sur la préposition in
L'histoire commence par une thèse de doctorat. Pendant la Seconde Guerre mondiale, dans un séminaire italien, un jeune jésuite vénitien de moins de trente ans entreprend un travail sur la métaphysique de la présence chez Thomas d'Aquin. Sujet classique, méthode classique : repérer dans le corpus thomasien les occurrences des mots praesens et praesentia, en faire l'inventaire, en tirer une doctrine. Busa s'y met. Et très vite il s'aperçoit que les mots qu'il cherche ne sont pas ceux qu'il trouve. Ce qui, chez Thomas, parle vraiment de la présence, ce ne sont pas les substantifs explicites — ce sont les usages d'une petite préposition de rien du tout, in. Le mot le plus discret de la langue, le plus statistiquement banal, celui qu'aucune concordance médiévale ne s'est jamais donné la peine de répertorier parce qu'il était trop petit pour qu'on le voie.
Alors Busa fait le travail à la main. Dix mille fiches. Quelques années. Et en 1946, il soutient sa thèse.
Mais quelque chose s'est cristallisé dans cet exercice. Deux convictions, qui vont commander toute la suite. La première : on ne peut pas interpréter la doctrine d'un auteur sans avoir d'abord fait, en amont, le relevé exhaustif de son système verbal — pas seulement les mots-pleins, tous les mots, y compris ceux qu'on méprise. La seconde, plus radicale : les mots qu'on dit grammaticaux, les conjonctions, les prépositions, ne sont pas des mots vides. Ils manifestent au contraire « la logique profonde de l'être qui commande les structures de base de l'esprit humain ». Ce qu'on prenait pour du remplissage est en réalité l'ossature.
C'est de cette double conviction que naît l'idée folle de l'Index Thomisticus : une concordance de l'œuvre intégrale de Thomas d'Aquin, dix millions et demi de mots latins, où chaque mot — chacun, sans exception — serait répertorié avec sa phrase complète, son lemme, ses statistiques de fréquence. À titre de comparaison, l'œuvre connue d'Aristote compte un million de mots. Celle de Platon, un demi-million. Thomas en pèse dix fois Aristote, vingt fois Platon. Aucun être humain ne peut faire ça à la main. Il faut une machine.
La carte perforée et l'eau bénite
En 1948, Busa débarque à New York. Il est jésuite, sans budget, et il a entendu dire qu'IBM exploite un système de cartes perforées hérité des métiers Jacquard, qui sert à faire des recensements et, depuis peu, à répertorier les morts et les prisonniers de guerre. Il veut détourner cet outil pour lire saint Thomas. Il sait qu'il a sur le bureau de Thomas Watson, le fondateur d'IBM, un rapport interne de ses ingénieurs disant que la chose est impossible.
L'anecdote est connue, je la raconte parce qu'elle est belle. Dans la salle d'attente, Busa repère une affiche imprimée du slogan maison d'IBM : « Ce qui est difficile, nous le faisons tout de suite ; pour l'impossible nous demandons un peu plus de temps. » Il décroche l'affiche, l'emporte dans le bureau de Watson. Il s'assoit, sent l'énergie écrasante du vieux capitaine d'industrie, et lui sort sa phrase : « Ce n'est pas juste de dire non avant d'avoir essayé », en lui mettant son propre slogan sous le nez. Watson cède. Il accepte qu'IBM coopère. Il lui demande seulement de promettre de ne pas transformer International Business Machines en International Busa Machines. Et Busa, qui a déjà prévenu qu'il ne pourrait jamais payer parce que ses supérieurs lui ont donné le temps, l'encouragement, leur bénédiction et beaucoup d'eau bénite mais pas un dollar, repart avec un accord qu'il qualifiera plus tard de « providentiel ».
Le travail commence. Il n'y a alors ni ordinateurs au sens où nous l'entendons, ni programmation, ni reconnaissance optique des caractères. Tout est saisi à la main sur des cartes cartonnées perforées selon un code que Busa et les ingénieurs d'IBM doivent inventer en chemin parce que rien de comparable n'a jamais été tenté. Le premier volume imprimé de l'Index Thomisticus sort en 1974, vingt-six ans après le début du projet. L'ensemble des cinquante-six volumes est achevé en 1980. Quand le CD-ROM apparaît, Busa veille à ce que l'Index y soit porté. Quand internet s'installe, il en autorise la mise en ligne, en 2005. Il a alors quatre-vingt-douze ans. Il en a encore six devant lui. Il continue de travailler.
Au passage, et sans jamais en faire profession, il a posé les fondements de l'hypertexte, de la lexicographie informatisée, de l'analyse linguistique computationnelle, et d'une partie significative de ce qu'on appelle aujourd'hui le traitement automatique du langage. Le NLP, les embeddings, les modèles de langue qui font tourner les Claude, ChatGPT et Gemini de notre époque, descendent en ligne directe de la décision d'un jésuite de cataloguer les occurrences de la préposition in chez un théologien du XIIIe siècle.
Le décalage et l'outil
Ce qui me frappe dans cette histoire, ce n'est pas le génie. Le génie de Busa est évident, mais il n'explique rien — beaucoup d'hommes ont eu du génie sans rien fonder. Ce qui me frappe, c'est le décalage. Busa était jésuite, pas informaticien. Il n'avait aucune formation technique, aucune affinité particulière pour les machines, aucun intérêt pour le calcul ou la statistique en tant que tels. Ce qu'il voulait, c'était lire saint Thomas mieux. Il voulait franchir un seuil de précision dans la lecture savante d'un corpus qui dépassait de cinquante fois ce qu'un humain peut tenir dans sa tête. Et pour franchir ce seuil, il a été obligé de fabriquer l'outil qui n'existait pas.
Personne, dans le monde de l'informatique de 1948, ne pensait à Thomas d'Aquin. Personne, dans le monde de la théologie médiévale de 1948, ne pensait aux cartes perforées. Le pont entre les deux ne pouvait être bâti que par quelqu'un qui se tenait dans les deux à la fois — ou plutôt, qui se tenait dans aucun des deux confortablement, et qui a construit le pont parce qu'il avait besoin de passer.
C'est exactement la position d'où on invente vraiment quelque chose. Pas du centre d'un champ, où l'on connaît trop bien les limites de ce qui se fait et où l'on prend ces limites pour celles du possible. Mais du dehors, d'une discipline voisine, d'un autre métier, avec un besoin précis qu'aucun outil existant ne satisfait. Les véritables ruptures techniques sont presque toujours faites par des gens qui ne sont pas du métier où la rupture apparaît. Elles sont faites par des intrus qui avaient besoin d'une chose, qui l'ont cherchée, qui ne l'ont pas trouvée, et qui l'ont fabriquée.
L'architecte et le corpus clinique
Je suis architecte. Rien dans ce parcours ne me destine à interroger PubMed et Semantic Scholar. Rien ne me destine à construire un pipeline bibliométrique qui crawle OpenAlex sur des questions de gonadotoxicité chimiothérapeutique ou de comorbidités auto-immunes maternelles dans le TDAH. Et pourtant c'est ce que je fais depuis deux mois, et c'est pour ça que je travaille avec le DRCI du CHU de Nice et avec une demi-douzaine de cliniciens qui n'auraient eu aucune raison de croiser un architecte un jour de leur vie.
Tout est parti d'un besoin de lecture identifié par un ami chercheur, que j'ai entrepris d'essayer de solutionner, par curiosité, par défi, pour tromper une lassitude intellectuelle dans ma pratique architecturale des semaines précédentes et m'éviter un bore-out. J'allais être servi au-delà de mes espérances. Comme Busa avec sa thèse sur la présence chez Thomas, je me suis trouvé face à un corpus qui dépassait ma capacité humaine de tenir le tout dans ma tête. Sauf qu'au lieu de dix millions de mots latins du XIIIe siècle, le corpus était la littérature scientifique vivante sur des questions cliniques précises — des milliers de papiers PubMed publiés au cours des deux dernières années sur le vitiligo et les neutrophiles, sur la cohorte des patients TDAH avec profil thyroïdien anormal, sur les biomarqueurs émergents dans les maladies inflammatoires chroniques. Aucun clinicien, même brillant, même travailleur, ne peut lire quatre mille articles avant de poser une hypothèse. Et le résultat, dans la pratique, est qu'on ne pose pas l'hypothèse — ou qu'on la pose à partir d'un échantillon de littérature constitué par hasard, par recommandation de collègue, par lecture des deux ou trois revues qu'on a le temps de suivre.
L'outil qui manquait, c'était un système qui irait lire pour le clinicien — vraiment lire, pas inventer de mémoire — et qui lui rendrait une synthèse dont chaque affirmation serait traçable jusqu'à un DOI vérifiable. Pas une vulgarisation. Pas une réponse de chatbot entraînée. Une lecture mécanique exhaustive d'un corpus, restituée dans le langage de la médecine clinique, avec les contradictions assumées comme contradictions et les zones aveugles signalées comme zones aveugles.
J'ai construit Lit[H]ouse parce que j'en avais besoin pour autre chose. Et comme je n'arrivais pas à comprendre, j'ai fabriqué l'outil qui me permettrait de lire. Ce n'est qu'ensuite, en montrant le résultat à un ami biostatisticien du CHU de Nice, puis à un dermatologue, puis à un pédopsychiatre, que j'ai vu sur leurs visages la même expression que devait avoir Watson en 1948 — celle de quelqu'un qui voit qu'un seuil de précision vient d'être franchi quelque part et qui ne comprend pas tout de suite ce que cela implique pour son propre métier.
J'avais fait du Busa sans le savoir.
La filiation invisible
Il y a soixante-quinze ans entre l'Index Thomisticus et Lit[H]ouse, et la filiation est si directe qu'elle en devient gênante à formuler — comme si on s'attribuait une parenté qu'on n'a pas méritée. Mais le geste est rigoureusement le même. C'est le geste de l'outsider qui veut lire mieux et qui n'attend pas qu'un industriel ou un institut de recherche fabrique l'outil dont il a besoin. C'est le geste qui consiste à se dire : si la machine n'a jamais été utilisée pour ça, c'est peut-être qu'on n'a pas encore essayé, et que le rapport des ingénieurs sur le bureau de Watson disant que c'est impossible est peut-être faux. C'est le geste qui consiste à arriver dans la salle d'attente d'IBM, à voir le slogan affiché, et à le décrocher pour le retourner contre l'institution qui l'a écrit.
Busa n'a pas inventé l'ordinateur. Il a inventé la possibilité que l'ordinateur lise un théologien médiéval. Lit[H]ouse n'invente pas Claude, n'invente pas PubMed, n'invente pas Semantic Scholar. Il invente la possibilité qu'un médecin praticien d'un désert médical reçoive en quarante-cinq minutes une revue bibliométrique de quatre mille articles sur les séquelles gynécologiques des traitements anticancéreux, calibrée en niveaux de preuve, avec des références qu'il peut ouvrir et vérifier. Ce n'est pas une prouesse technique. Toutes les briques existaient déjà. C'est un geste de couture entre des mondes qui ne se parlaient pas.
Et ce geste a ceci de particulier qu'il ne peut être fait que par quelqu'un qui n'est pas du métier, parce que les gens du métier savent toujours pourquoi ce n'est pas la peine d'essayer.
Les mots vides ne sont jamais vides
Il y a une dernière chose dans l'histoire de Busa qui me hante. C'est sa découverte initiale, celle qui a tout déclenché, et qui passe presque inaperçue dans la version officielle de l'histoire. Busa a découvert que pour comprendre la présence chez Thomas, il ne fallait pas chercher les mots qui parlent explicitement de la présence. Il fallait chercher le mot in. Une préposition. Un mot tellement banal que personne ne le voyait. Et c'est dans ce mot tellement banal que se cachait l'ossature métaphysique de toute la pensée thomasienne.
Le geste critique de Busa n'est pas technique. Il est épistémologique. Il consiste à dire : ce que vous croyez être du remplissage, du bruit, du fond statistique sans intérêt, est en réalité ce qui structure le sens. Vous avez écarté les prépositions et les conjonctions parce qu'elles étaient trop fréquentes pour valoir la peine d'être comptées. Mais c'est précisément leur fréquence qui les rendait porteuses. La densité statistique n'est pas un bruit à filtrer, c'est un signal à lire.
Je retrouve cette intuition exactement à l'endroit où Lit[H]ouse cherche à se distinguer des outils concurrents. Quand on interroge un grand modèle de langue sur une question médicale pointue, on reçoit une réponse construite sur les mots-pleins de la mémoire entraînée du modèle — les substantifs, les concepts canoniques, les références célèbres. On reçoit ce que les concordances médiévales appelaient les mots signifiants. On ne reçoit pas le tissu vivant de la littérature en train de se faire — les articles récents qui n'ont pas encore été célébrés, les méta-analyses minoritaires qui contredisent le consensus, les signaux faibles que personne n'a encore pris la peine de relier. On ne reçoit pas la préposition in. Et c'est précisément dans la préposition in que se trouve, parfois, la zone d'où va sortir une hypothèse nouvelle.
Quand Lit[H]ouse remonte à un médecin un cluster de quarante-sept articles dont aucun n'est célèbre mais qui pointent ensemble vers une voie mécanistique non documentée, quand le pipeline signale qu'aucun article du corpus ne combine la quantification temporelle ferroptose/apoptose avec une intervention par cellules souches mésenchymateuses ciblant le métabolisme du fer folliculaire, quand l'outil rend visible l'articulation que personne n'a encore nommée — il fait exactement ce que Busa faisait avec sa préposition in. Il rend visible la structure cachée dans le bruit. Il dit : les mots vides ne sont jamais vides, ils sont seulement pleins d'une chose que vous n'aviez pas encore appris à regarder.
L'eau bénite
Busa a coutume de raconter qu'il s'est présenté chez IBM sans argent, avec seulement « le temps, l'encouragement, la bénédiction de mes supérieurs, et beaucoup d'eau bénite ». Cette phrase est belle parce qu'elle est vraie — il n'avait littéralement pas un dollar — et parce qu'elle est fausse, ou plutôt incomplète. Ce que Busa avait, en plus de l'eau bénite, c'était une question si précise et un besoin si tenace qu'aucun ingénieur sensé ne pouvait rester insensible au défi qu'elle représentait. Watson n'a pas cédé pour faire plaisir à un jésuite ou pour soutenir la foi catholique ; il a cédé parce qu'on lui mettait sous le nez un problème dont la résolution allait étendre la définition même de ce que ses machines pouvaient faire. C'est l'eau bénite plus la précision du besoin qui a déclenché la collaboration. Pas la générosité d'IBM.
Je n'ai pas d'eau bénite. J'ai une formation d'architecte, ce qui revient à peu près au même dans le contexte qui m'intéresse — c'est une qualification qui n'a aucune valeur d'autorité dans le monde de la recherche clinique, et c'est précisément pour ça qu'elle est utile. Quand j'arrive devant un chef de DRCI ou un PUPH, je n'arrive pas comme un concurrent qui veut prendre sa place. J'arrive comme un étranger qui montre un outil et qui demande : est-ce que ça vous sert ? La question est toujours la même question depuis Busa devant Watson : ce n'est pas juste de dire non avant d'avoir essayé. Et la réponse, presque toujours, est qu'on essaie. Parce que ce qui est sur la table, ce n'est pas une menace pour le métier de celui qui regarde. C'est une amplification du métier, un seuil de précision en plus, une lecture devenue possible.
Busa est mort en 2011 sans avoir vu les modèles de langue géants qui sont en train de redessiner notre époque. Mais tout ce qu'ils font descend de ce qu'il a déclenché en allant déposer son slogan sur le bureau de Watson en 1948. La continuité entre l'Index Thomisticus et les outils d'aujourd'hui est plus forte qu'on ne le croit. Et la continuité entre Busa et les outils que je construis aujourd'hui, à mon échelle infime, ne tient pas à la technique — elle tient à la posture. C'est la posture de celui qui veut lire mieux et qui n'attend pas la permission. C'est la posture du jésuite vénitien qui pense que la préposition in contient toute la métaphysique de la présence et qui consacre quarante ans à le prouver. C'est la posture qui consiste à croire que l'outil dont on a besoin existe forcément quelque part, et que s'il n'existe pas, c'est qu'il faut le faire.
L'homme de l'escalier 2011 mérite d'être l'homme de l'escalier 2026 aussi.
Architecte · UMAN[iA] / Lit[H]ouse
Saint-Jean-Cap-Ferrat, avril 2026
Source qui a déclenché cet essai : L'homme de l'escalier 2011 — Roberto Busa, Philarête, janvier 2012.