Question:
Pourquoi les sites de publication ne mettent-ils pas systématiquement à disposition la source des articles LaTeX?
Franck Dernoncourt
2016-01-04 00:24:54 UTC
view on stackexchange narkive permalink

Je me demande pourquoi la plupart des sites de publication ne mettent pas systématiquement à disposition la source LaTeX pour les articles publiés? (ce qui implique de demander systématiquement aux auteurs la source LaTex)

Les sources LaTex sont plus lisibles par machine que les PDF, et permettent aux humains d'en réutiliser plus facilement une partie (par exemple, équation mathématique ou chiffres), entre autres avantages. Je ne vois aucun inconvénient.

(Je suis conscient que certains auteurs écrivent leurs publications en utilisant d'autres outils tels que Microsoft Word: ignorons cela.)

J'ai travaillé avec des gens qui m'ont envoyé du code LaTeX pour des brouillons qui ne se compilaient même pas correctement, même si le pdf avait l'air correct ... Les fichiers BibTeX étaient parfois encore pires ...
Les éditeurs commerciaux tels qu'Elsevier et Springer ne font pas partie du monde universitaire et ne partagent pas leur culture d'ouverture. Très loin de là. Ils considèrent le code TeX final et leur mélange de classes et de packages comme un secret commercial.
De nombreux chiffres sont soumis sous forme de fichiers séparés et l'accès au LaTeX n'aidera pas du tout car il ne contient qu'un lien.
@Pharap Etre capable de taper une phrase dans google et de voir les papiers qu'il propose est extrêmement utile, pour commencer ... (Oui, c'est possible avec les PDF aussi, mais c'est un exemple de "machine lisant un papier".)
@Pharap Je réponds à votre question * Pourquoi voudrait-on qu'une machine lise un article? * Et je mentionne déjà dans mon commentaire que les PDF peuvent être recherchés. La conclusion que vous essayez d'atteindre n'est pas tout à fait claire, et comme vous avez déjà commencé à déplacer les objectifs, je ne pense pas que je veuille participer.
Reclarifier une vieille question: pourquoi LaTeX serait-il * plus * lisible par machine qu'un PDF serait un avantage? (En plus de pouvoir en extraire des équations, ce qui, je pense, est également possible avec PDF).
Ce qui compte, c'est le contenu d'un article. Le pdf est donc une sorte de boîte noire qui cache ce qui conduit à la décision binaire de pixel ou pas de pixel. Certaines personnes utilisent un code qui devrait mieux être caché dans un placard que rendu public, comme @Dirk l'a mentionné. De plus, les grands éditeurs utilisent LaTeX d'une manière à laquelle vous ne vous attendez pas.
@FedericoPoloni ce n'est pas un "secret commercial", si quoi que ce soit ils possèdent légalement le texte et les chiffres. En outre, les éditeurs professionnels utilisent généralement des logiciels commerciaux pour la composition et retapent souvent entièrement les articles. Il n'y a pas de source Latex à partager. C'est beaucoup plus efficace que de traiter le mélange d'emballage de latex pour animaux de compagnie de tout le monde.
@Pharap Par exemple l'extraction d'informations d'une table est généralement beaucoup plus facile lorsque la table est en LaTeX que lorsqu'elle est en PDF. De plus, mon expérience avec la conversion PDF-> LaTeX pour les équations n'est pas très bonne, et c'est un outil de plus à utiliser.
La recherche de texte n'est pas plus facile avec LaTex ou autre. Même dans StackExchange, les formules sont déconseillées dans les titres car elles confondent le moteur de recherche.
Lisibilité de la machine @Greg! = Possibilité de recherche.
pdf est un format binaire. C'est comme demander un outil qui donne la base de code de Microsoft Word. Une fois que vous avez préparé le ragoût, il est extrêmement difficile de connaître tous les ingrédients détaillés.
Que Dieu bénisse celui qui ouvre mon fichier LaTeX ... Je viens de patcher des choses ici et là pour obtenir un certain effet et c'est comme une plate-forme de lancement de navette spatiale soutenue par du carton recyclé, des bandes adhésives et des bâtons de popsicle.
@Penguin_Knight Vous semblez être la personne la plus à même de participer au chat TeX.SX de temps en temps :-)
@Penguin_Knight: Je viens de rejoindre cette communauté pour attribuer +1 à votre commentaire. `:)`
@Johannes: ne dit pas qu'il y a aussi des canards dans les universités. `:)`
Si on me demandait de fournir le fichier LaTeX, je serais très préoccupé par le nettoyage du code et la suppression de tout le texte commenté qui a été réécrit ou simplement des notes pour moi-même. Je suis heureux que les sites auxquels je soumets ne le demandent pas. Peut-être que les organisateurs pensent la même chose?
@MohamedKhamis Vous pouvez facilement supprimer tous les commentaires avec un script (les sites de publication pourraient s'en charger).
Cinq réponses:
Dan Romik
2016-01-04 04:51:51 UTC
view on stackexchange narkive permalink

Je soupçonne que c'est une solution à la recherche d'un problème. Il est fort probable que les revues ne mettent pas à disposition des versions LaTeX des articles parce qu'elles ne voient pas de demande pour un tel service du côté des lecteurs; cela demanderait des efforts de mise en œuvre et de maintenance; et certains auteurs s'opposeraient à l'idée de permettre à d'autres de réutiliser plus facilement (lire: plagier) leurs articles. En d'autres termes, les éditeurs ont simplement (ou du moins pensent qu'ils ont) de meilleures choses à faire avec leur temps et leur argent.

Il convient de noter qu'arXiv fait du code source LaTeX disponible, et n'acceptera en fait que les soumissions dans le code source original plutôt que sous forme de PDF (pour les articles qui ont été écrits en LaTeX), donc dans les domaines des mathématiques et de la physique où le téléchargement de versions préimprimées de son article sur arXiv est la norme, cela "problème" (tel qu'il est) est déjà résolu.

+1 Je pense que c'est le point majeur. Les PDF sont suffisamment lisibles par machine pour les moteurs de recherche, et à moins que les gens ne réclament la source LaTeX, ils concentreront leurs ressources sur les choses que les gens * réclament *, comme de meilleures mesures par papier.
Je suppose que c'est un peu comme les binaires et le code source: les binaires suffisent pour la plupart des situations, mais si un jour on a besoin du code source alors que seuls les binaires sont disponibles, des problèmes surviennent (-> PDFBox).
Brian Borchers
2016-01-04 00:54:36 UTC
view on stackexchange narkive permalink

Je pense que votre question porte en fait sur la raison pour laquelle les éditeurs ne mettent pas la source d'articles LaTeX à la disposition des lecteurs plutôt que sur la raison pour laquelle les éditeurs n'acceptent pas les soumissions sous forme LaTeX. Vous voudrez peut-être clarifier votre question.

Certains éditeurs préfèrent accepter les versions PDF du papier pour révision, mais demandent ensuite le code source LaTeX après que l'article a été accepté. Faire le processus de révision par les pairs avec une version PDF de l'article évite à l'éditeur la peine d'exécuter l'article via LaTeX et de résoudre les problèmes que les auteurs pourraient avoir introduits par inadvertance dans le manuscrit (comme l'utilisation de packages non standard de macros.)

Au stade de la publication finale, les auteurs soumettent généralement la source LaTeX aux revues. La revue applique ensuite son propre style à l'article, ajoute des avis de droits d'auteur et des numéros de page, et produit une version finale de l'article en utilisant LaTeX. Cependant, les revues publient généralement uniquement des versions PDF des articles plutôt que la source LaTeX.

De nombreuses revues mettent leurs fichiers de style à la disposition des auteurs et leur demandent de préparer le manuscrit en utilisant le style de la revue. Cela permet d'éviter des problèmes lorsque la version finale de l'article est préparée par l'éditeur.

Le fait d'avoir la source LaTeX d'un article permet aux plagiaires de couper et coller un peu plus facilement des formules mathématiques et du texte à partir du papier ou de produire de manière malveillante des versions alternatives du papier. Les éditeurs commerciaux sont également généralement opposés à toute utilisation d'un papier qui va au-delà de la simple lecture de la source LaTeX de fabrication de papier qui a tendance à faciliter cette réutilisation.

+1 Excellent point sur la façon dont le fait de fournir "la source LaTeX d'un article facilite légèrement la tâche des plagiaires".
En fait, je ne suis pas sûr que les éditeurs de revues «produisent une version finale de l'article en utilisant LaTeX». Je crois comprendre que les grands éditeurs utilisent leurs propres systèmes internes pour la publication finale et que, bien que LaTeX soit clairement une contribution à cela, le travail final n'est pas effectué en utilisant LaTeX mais avec un autre logiciel propriétaire.
Je peux plus ou moins confirmer ce qu'a dit @DavidRicherby dans au moins un cas: lors de la soumission aux revues de l'American Physical Society, on me dit dans le cadre du processus de publication que l'article soumis sera converti dans leur format XML propriétaire.
De toute évidence, ma réponse ne s'applique qu'aux éditeurs qui produisent des versions finales d'articles en utilisant LaTeX. D'après mon expérience, cela inclut Elsevier, SIAM et INFORMS. Cela va cependant un peu au-delà de la question initiale ...
@DavidRicherby suggérez-vous qu'il existe un logiciel propriétaire qui duplique les fonctionnalités de TeX et LaTeX sans utiliser les moteurs TeX / LaTeX d'origine à un moment donné pendant la compilation? Si c'est ce que vous dites, je suis prêt à parier que c'est incorrect. (Et si ce n'est pas ce que vous dites, alors je ne suis pas sûr de ce que vous entendez par "Je ne suis pas sûr que les éditeurs de revues" produisent une version finale ... en utilisant LaTeX "".)
@DanRomik Comme je l'ai dit, "LaTeX est clairement une entrée". Cependant, je crois comprendre que la production d'un numéro d'un journal ou d'un volume d'actes de conférence n'implique pas nécessairement la production d'un gros fichier .tex, l'exécution de pdflatex dessus et l'envoi du fichier .pdf résultant à l'imprimerie. Je ne sais pas quelles sont les autres étapes, si elles impliquent de masser le .tex, le .pdf ou autre chose, mais je suis presque sûr qu'elles existent (je suis presque sûr que je me souviens avoir lu les instructions de l'auteur qui disent que même en utilisant le fichier de style LaTeX fourni ne produit qu'une approximation de la sortie finale.
@DanRomik Ce [post sur TeX.se] (http://tex.stackexchange.com/q/99123/46235) parle des logiciels utilisés par certaines sociétés de composition, bien que certains des commentaires sur la réponse contestent ses affirmations.
@DavidZ, American Institute of Physics de la même manière (en fait, je * pense * que c'est le même logiciel)
@DavidRicherby LaTeX étant une entrée ne dit rien sur l'utilisation ou non des moteurs TeX / LaTeX. Je prétends que (dans le cadre de la publication académique d'articles en CS / mathématiques / physique) tous les éditeurs utiliseront en fait ces moteurs (ou utiliseront éventuellement des PDF directement générés par les auteurs). Ils peuvent avoir un flux de travail compliqué impliquant des couches de logiciels propriétaires, mais à un moment donné, du code écrit par Knuth / Lamport / etc. sera exécuté. Donc votre déclaration "Je ne suis pas sûr ... d'utiliser LaTeX" me semble avoir été formulée de manière trompeuse, étant donné qu'apparemment, vous vouliez dire quelque chose de subtilement différent.
@DanRomik Je suis désolé que vous ayez senti que j'étais trompeur mais je pense que ce que j'ai écrit est un résumé précis de mes croyances, certes vagues, sur ce sujet. Le nombre relativement élevé de votes positifs que mon commentaire a reçus et les commentaires de confirmation de Chris H suggèrent que d'autres personnes croient que ce que j'ai dit est une sorte d'approximation de la vérité.
@DavidRicherby d'accord, je vais m'incliner devant la sagesse de la foule et admettre que j'étais stupide. Cela arrive de temps en temps.
@DanRomik L'utilisation de XML comme étape intermédiaire par APS est très clairement documentée; en effet, c'est la toute première ligne du [guide APS de REVTeX 4.1] (https://d22izw7byeupn1.cloudfront.net/files/revtex/apsguide4-1.pdf). Leur système utilise évidemment une certaine forme de la pile (La) TeX à un moment donné du processus (ils demandent explicitement des fichiers source REVTeX), mais un flux de travail tex-> xml-> pdf n'est pas standard en termes de ce qu'un auteur pourrait faire. Le §II du guide dit explicitement que la sortie REVTeX n'est qu'une approximation du pdf final produit via le XML, qui produit également la sortie HTML.
@E.P. c'est intéressant. Je comprends et j'accepte qu'il existe des flux de travail non standard basés sur LaTeX. Cependant, étant donné la discussion ci-dessus et les votes sur le commentaire de Davis Richerby, il semble que votre "évidemment" ne soit pas si évident pour tout le monde. Merci d'avoir aidé à clarifier la situation.
Des initiés de l'IEEE m'ont dit qu'ils n'utilisaient pas réellement LaTeX pour composer des papiers. Au lieu de cela, "un logiciel propriétaire" prend la source LaTeX comme entrée, la traduit en un format XML intermédiaire et produit la sortie finale à partir de cela. seulement * utilisez LaTeX pour le faire. Par conséquent, la sortie finale peut ne pas être reproductible exactement par des tiers (tels que les auteurs eux-mêmes) en utilisant * uniquement * des logiciels disponibles gratuitement tels que LaTeX.
[Question connexe sur TeX.SE] (http://tex.stackexchange.com/a/120496), avec une autre affirmation selon laquelle les revues APS utilisent Advanced Print Publisher.
DCTLib
2016-01-04 00:41:38 UTC
view on stackexchange narkive permalink

Les sites de publication qui utilisent le code le demandent généralement (par exemple, EPTCS). Mais si un site de publication n'a pas besoin de la source, pourquoi devrait-il le demander?

Alors qu'en principe, le code source LaTeX peut sembler plus lisible que les PDF, il existe de nombreuses limitations au code source LaTeX. Ceux qui ont déjà essayé d'utiliser un convertisseur LaTeX2HTML savent ce que je veux dire. A titre d'exemple, il existe des documents qui se compileront avec XeLaTeX, mais pas avec LuaLaTex ... et vice versa! De plus, il existe des documents qui ne fonctionneront qu'avec la dernière version de TikZ. Ensuite, il y a des documents qui ne se compilent plus avec les distributions LaTeX modernes. La réutilisation du code LaTeX plus tard peut donc nécessiter un travail manuel pour que le code fonctionne avec les distributions TeX modernes.

Mais aussi les applications qui utilisent des extraits de code TeX sont difficiles à faire en se basant sur le code TeX fourni par l'auteur. La copie d'une figure est difficile car les macros nécessaires peuvent être dispersées dans le document complet. En outre, le code de la figure peut dépendre de packages qui peuvent entrer en conflit avec d'autres packages, ce qui rend également difficile leur collage ailleurs. En outre, la recherche dans le code TeX est difficile (ce qui serait une autre application pour laquelle le code source pourrait être utilisé), car une utilisation intensive des macros peut conduire à ce que le terme de recherche ne soit pas affiché dans le code réel. Ces deux problèmes n'existent pas avec le dernier PDF.

"Si un lieu de publication n'a pas besoin de la source, pourquoi devraient-ils demander cela?" -> pour permettre un accès lisible par machine et permettre aux humains de réutiliser plus facilement une partie des articles (par exemple, équation mathématique ou chiffres). Dans ces deux cas d'utilisation, la plupart du temps, il n'est pas nécessaire de compiler le document LaTeX.
@FranckDernoncourt J'ai ajouté un paragraphe traitant de cela.
Andrew
2016-01-04 19:21:15 UTC
view on stackexchange narkive permalink

Un nombre substantiel d'éditeurs entièrement en libre accès proposent des versions de documents lisibles par machine - ils le font simplement en XML plutôt qu'en LaTeX. Voir, par exemple, les liens XML sur ces articles dans diverses revues:

Comme le XML est probablement plus lisible par machine que la source LaTeX, pourquoi faire l'effort supplémentaire de fournir un format intermédiaire - en particulier un avec tous les problèmes de réutilisation / interprétation auxquels d'autres DCT & font référence?

De nombreuses revues convertissent LaTeX en XML, donc le XML est le format intermédiaire.
@ChrisH sûrement le XML est (l'un des deux) formats finaux, plutôt qu'un format intermédiaire, dans ces cas?
Roy T.
2016-01-04 21:29:42 UTC
view on stackexchange narkive permalink

Les fichiers LaTeX sont moins consultables que les fichiers PDF et sont presque toujours inutiles en eux-mêmes.

En plus du problème de paquets déjà mentionné ici, les fichiers LaTeX utilisent souvent beaucoup d'autres fichiers comme entrée, ce qui rend la redistribution un problème. Cela rend également le fichier moins lisible par machine. Un moteur de recherche tel que Google ne comprendra pas où une image donnée ou un autre fichier d'entrée apparaîtra dans le texte et ne liera donc pas les deux, ce qui nuira au contexte et aux résultats de recherche dans lesquels le fichier est placé. Ce n'est pas le cas avec Fichiers PDF où tout est regroupé (ou du moins compris où il doit être placé, voir la vue HTML que Google fait des fichiers PDF).

Maintenant, on pourrait dire que vous devriez publier tous les fichiers nécessaires pour construire le Fichier LaTeX. Mais même dans mon expérience académique extrêmement limitée, j'ai trouvé des cas où cela est impossible. Certaines tables de ma thèse ont été générées par LaTeX en utilisant 500 Mo de données brutes. Ce serait fou de devoir les distribuer (ou pour une machine d'avoir besoin de les analyser).

Vous vous posez assez rapidement la question des données ouvertes si le LaTeX interprète vos fichiers pour construire les tableaux (bien que cela soit probablement plutôt rare dans les articles s'ils sont compilés dans le journal).
Le cas contraire est argumenté assez éloquemment dans l'article d'arXiv [Why Submit the TeX / LaTeX Source?] (Https://arxiv.org/help/faq/whytex).
@E.P. cet article ne résout aucun des problèmes de contexte avec le contenu lié dont je parle ou des problèmes avec les gros fichiers d'entrée :).


Ce Q&R a été automatiquement traduit de la langue anglaise.Le contenu original est disponible sur stackexchange, que nous remercions pour la licence cc by-sa 3.0 sous laquelle il est distribué.
Loading...