RICHESSE SEMANTIQUE
Le monde de l'informatique et des lettres a encore de beaux jours devant lui tant leurperméabilité laisse l'imagination vagabonder et créatrice.Nous présentons ici un sujet un peu inédit, quels sont les écrivains les plus riches en contenu (et à l'inverse les plus "pauvres").
De toute l'histoire de littérature, sans embrasser bien sûr les dizaines de milliers d'auteurs français ou étrangers traduits, le principe à la fois de l'échantillon reste vrai, et celui de référencer les grands noms également.
Nous avons calculé le nombre de mots différents pour chaque écrivain, abstraction faite des mots usuels tels que je, tu, il, ..., on, mais, car, on, le, les, du, des, un, une, ...
Sur une large base, quelques chiffres (K=milliers ; M : millions)
Un livre en moyenne contient selon notre échantillon de 4000 auteurs (bien plus en livres) environ 10 000 mots différents.
Précision utile : en français, la totalité des noms communs, formes verbales... est de 378 000 (donc 378K).
Tous auteurs confondus, le nombre de mots uniques est de 98K chez Ciceron, ensuite Victor Hugo 85K, puis Jules Verne avec 81K, puis Chateaubriand, Balzac, Zola, Nabokov avec pour ce dernier 60K. Il s’agit ici d’un chiffre sur les œuvres complètes.
• Agatha Christie et Rousseau, chacun environ 50K.
• La Bible (TOB, traduction oecuménique) : 1,4 M de mots dont 55K différents.
• Dante, entre 14K et 19 selon les traductions...
• Virgile : 13K
• Homère : 9K à 11K selon les traductions, décidément....
• Montaigne : 33 KE
Nous avons testé ces mesures chez les grands philosophes (Kant, Hegel, Leibniz Spinoza, Wittgenstein, Alain, Ricoeur, Foucault, ... 200 livres parfois des œuvres complètes) et cela donne en résumé : Nombre de mots différents : 12K Ratio de mots différents sur le corpus : 10%
Le vocabulaire le plus complet est celui de Kant, 33K mots différents, suivi de Pascal, Schopenhauer et Descartes. En bas de classement, Hegel, Nietzsche, Alain, Max Weber...
Revenons sur la partie du champ littéraire, si l'on considère désormais la densité de mots uniques sur la totalité du corpus du livre (ou oeuvres complètes), nous avons un livre moyen de 120K mots et 9K différents, ceux-ci représentant alors 7.5% des livres. Sur ce ratio représentant la densité de mots différents dans un livre, Boualem Sansal affiche 14% environ, Amélie Nothomb est assez constante avec 16% à l’égale de Marguerite Yourcenar ou Nathalie Sarraute ; Virginia Woolf très inégale, allant de 4% à 23%. Sylvie Germain est assez constante avec en moyenne 16%
Borges un peu au-dessus à 20%, tout comme Claude Simon ou Jean Grosjean (auteurs moins grand public), ou Sylvain Tesson (19%). Pascal Quignard est à 15% à l’instar de Queneau ou Calvino.
Eric-Emmanuel Schmitt se débrouille pas mal, avec un ratio de 17% ainsi qu’Erri de Luca dans un autre genre narratif.
Le prix Nobel de littérature José Saramago, livres généralement denses et sans dialogue : 6% et Le Clezio, autre Nobel : 10%. Annie Ernaux ressort pour ce 3e Nobel à 16%. Virgile, pour comparaison est à 9%
En haut du classement, Paul Celan avec 33%.
Tout en bas, à moins de 5%, il y en a beaucoup : Romain Gary, Stevenson, Musset, Musil, Nabokov, Joseph Conrad....
Et Umberto Eco ? Avec un vocabulaire moyen de 17K mots différents, le ratio moyen est de 10%. Son érudition était sur les idées pas tant sur le vocabulaire, même en étant sémiologue.
Mais néanmoins relativisons : la quantité de mots ne peut évoluer proportionnellement à la quantité totale par livre. Donc ce ratio désavantage les auteurs très prolifiques.
On peut très bien exprimer des idées, des histoires, des narrations avec un vocabulaire réduit, et faire l'inverse également.
Pour conclure et être objectif, nous avons testé 4 livres à l'eau de rose comme on dit, des Harlequin, de 4 auteurs différents.
40K mots en moyenne dont 6K différents, soit un ratio de 15% environ. Ce qui pourrait vouloir dire qu'un livre de base, sans ambition autre que narrer la vie "romantique", suffirait avec 6K mots. Nous avons même fait le test avec notre propre production, "nouvelles désastreuses du monde contemporain" qui décrivent des situations du quotidien avec un fin à chaque fois entre catastrophe et morale. Pour la même taille qu'un Harlequin, idem, 6K à 7K suffisent.
Cela voudrait dire que la littérature nécessite 3K à 4K mots en plus pour passer du roman à l'eau de rose au statut de livres édités chez les grands éditeurs ? Nous avions mentionnés que le nombre de mots différents de notre large échantillon était de 10K mots...