De nos jours, les communications, les reportages d’information et même les documents banals passent de plus en plus de l’imprimé au numérique : un travail supplémentaire pour la Bibliothèque du Congrès, qui préserve la majorité de ces actes sous ses voûtes.

Abigail Grotke, chef de l’équipe d’archivage Web de la Bibliothèque, documente le contenu Internet depuis 2000 avec l’aide de ses collègues. Ils ne se contentent pas d’enregistrer les propos importants tenus en ligne : ils constituent aussi des collections* qui permettront aux chercheurs des temps futurs d’avoir une meilleure idée de la vie au début du XXIe siècle.

Les « responsables des recommandations » à la bibliothèque, en collaboration avec des experts des domaines concernés, choisissent les tweets, les billets de blog et les autres contenus en ligne à préserver. Les archives ainsi constituées sont mises à la disposition du public dans le monde entier.

L’une des collections a pour thème les élections américaines. « À l’époque de la presse écrite, on recevait des tracts, des brochures et d’autres matériels de campagne », explique Mme Grotke. Mais quand les élections sont terminées, « beaucoup de sites [Web] créés pour les campagnes disparaissent », ajoute-t-elle.

Douze ans de Twitter

En 2010, la Bibliothèque du Congrès a conclu un accord avec Twitter pour acquérir tous les tweets publics depuis 2006. Une décision prise pour la même raison que la Bibliothèque collectionne tous les autres documents, à savoir préserver « un recueil du savoir et de créativité ».

Le président Trump est arrivé à Davos, en Suisse, ce matin – la veille du jour il s’adressera au Forum économique mondial annuel et deviendra ainsi le deuxième chef de l’exécutif américain à ce faire.

Mais suite à la croissance exponentielle des médias sociaux, la Bibliothèque du Congrès a modifié sa stratégie sur les collections en décembre 2017. Elle choisit maintenant de préserver les tweets en les groupant par thème ou par événement particulier, telles les élections, ou par différents sujets ponctuels d’intérêt national, comme les politiques d’intérêt public.

Cela correspond à la façon dont la Bibliothèque archive d’autres plateformes de médias sociaux, comme Facebook.

La Bibliothèque ajoute à ses archives quelque 30 téraoctets de données du web par mois, indique Mme Grotke. (Un téraoctet correspond à la capacité de stockage de la plupart des nouveaux ordinateurs de bureau.) Depuis 2000, la bibliothèque a collecté environ 1,3 pétaoctet de données, soit 1 300 téraoctets.

« Rien que le fait de traiter une telle quantité de données est un grand défi, ajoute l’archiviste, mais nous en sommes à la hauteur. C’est passionnant. »

*en anglais
 

Dessin d’un grand edifice orné (@ Shutterstock)
(@ Shutterstock)

Quelques sites des Archives web à la Bibliothèque du Congrès

United States Elections Web Archive (Élections aux États-Unis)

Giphy Database of GIFs (Base de données GIF)

Winter Olympic Games 2002 Web Archive (Jeux olympiques d’hiver 2002)

Small Press Expo Comic and Comic Art Web Archive (Salon des petites maisons d’édition de BD et de l’art BD sur le web)