BBC News Brasil Os
fragmentos remanescentes de papiros, mosaicos e tábuas de cera da Antiguidade
nos ensinam o que os moradores de Pompeia comiam no café da manhã, 2.000 anos
atrás.
Aprendendo um pouco de latim
medieval, é possível saber quantos animais eram criados no século 11, nas
fazendas de Northumberland, no norte da Inglaterra, graças ao Domesday Book —o
documento mais antigo dos Arquivos Nacionais do Reino Unido.
Cartas e romances remanescentes mostram como era a vida social na era vitoriana —e quais eram as pessoas mais adoradas ou odiadas da época, no Reino Unido.
Mas os historiadores do futuro
podem enfrentar dificuldades para entender totalmente como vivemos hoje, no
início do século 21.
O motivo: a combinação da
nossa forma de vida digital com a falta de esforços oficiais para arquivar as
informações que o mundo produz hoje em dia pode apagar a nossa história.
Mas um grupo informal de
organizações vem combatendo as forças da entropia digital. Muitas delas são
operadas por voluntários, com pouco apoio institucional.
O maior símbolo da luta para
salvar a web é o Internet
Archive, uma organização sem fins lucrativos sediada em São Francisco, na
Califórnia (EUA).
Criada em 1996 como um projeto
apaixonado do pioneiro da internet Brewster
Kahle, a organização criou o que pode ser o mais ambicioso projeto de arquivo
digital já realizado.
São 866 bilhões de páginas
web, 44 milhões de livros, 10,6 milhões de vídeos com filmes e programas de
televisão - e muito mais.
Abrigadas em diversos centros
de dados espalhados pelo mundo, as coleções do Internet Archive e outros grupos
similares são tudo o que temos para evitar a amnésia digital.
"Os riscos são muitos.
Não é só a tecnologia que pode falhar, embora isso certamente aconteça",
afirma Mark Graham, diretor da Wayback Machine — uma ferramenta do Internet
Archive que coleta e armazena cópias de websites para a posteridade.
"O mais importante é que
as instituições falham, as empresas fecham. As organizações jornalísticas são
devoradas por outras organizações jornalísticas ou saem do ar, como é cada vez
mais frequente", exemplifica ele.
Graham destaca que existem
inúmeros incentivos para colocar conteúdo online, mas são poucas as razões que
fazem as companhias manterem este conteúdo por longo prazo.
Mesmo com todos os feitos já
realizados, o Internet Archive e organizações similares enfrentam ameaças
financeiras, dificuldades técnicas, ciberataques e batalhas jurídicas geradas
por empresas que não gostam da ideia de ver cópias da sua propriedade intelectual
disponíveis gratuitamente.
E, como mostram as recentes
derrotas na Justiça, o projeto de salvar a internet pode ser tão volátil quanto
o próprio conteúdo que ele tenta proteger.
"Cada vez mais, nossos
esforços intelectuais, nosso entretenimento, nossas notícias e nossas conversas
existem apenas no ambiente digital", explica Graham. "Este ambiente é
inerentemente frágil."
Salvar nossa história
Um quarto de todas as páginas
web que já existiram em algum momento entre 2013 e 2023... não existem mais
Esta é a conclusão de um estudo recente do think tank (centro de pesquisa e
debates) Pew Research Center, com sede na capital americana, Washington DC.
Suas conclusões fizeram soar o alarme: nossa história digital está
desaparecendo.
Os pesquisadores concluíram
que o problema se agrava, quanto mais antiga for uma página web. A organização
tentou acessar páginas existentes em 2013 —e 38% delas não funcionam mais.
Mas este também é um problema
das publicações mais recentes. Cerca de 8% das páginas web publicadas em algum
momento de 2023 desapareceram em outubro do mesmo ano.
Esta não é apenas uma preocupação dos admiradores da história e dos obcecados pela internet. O estudo indicou, por exemplo, que um em cada cinco websites governamentais contém pelo menos um link quebrado.
O Pew Research Center também
descobriu que mais da metade dos artigos da Wikipédia tem um link quebrado na
sua seção de referências. Ou seja, as evidências que sustentam as informações
da enciclopédia online estão lentamente se desintegrando.
Com a inexistência de um
trabalho público formal de documentação da web, o Internet Archive passou a ser
uma parte fundamental da nossa infraestrutura digital
Mas, graças ao trabalho do
Internet Archive, nem todos esses links quebrados ficaram inacessíveis. O
projeto Wayback Machine vem destacando exércitos de robôs para rastrear os
tortuosos labirintos da internet há décadas.
O sistema baixa cópias
funcionais de websites à medida que eles mudam ao longo do tempo. Muitas vezes,
eles capturam as mesmas páginas diversas vezes em um único dia e as oferecem ao
público sem custo.
"Quando observamos
quantos daquelas URLs foram oferecidas pelo Wayback Machine, verificamos que
dois terços eram disponíveis de alguma forma", ele conta. Isso indica que
o Internet Archive está cumprindo sua função, guardando registros da sociedade
online para a posteridade.
Outras organizações, grandes e
pequenas, trabalham com projetos similares.
A Biblioteca do Congresso dos
Estados Unidos, por exemplo, preserva websites governamentais, os sites dos congressistas e uma coleção de sites jornalísticos norte-americanos. A Biblioteca do
Congresso também preservou uma cópia de cada tweet enviado desde a fundação do
Twitter (hoje, conhecido como X), até o encerramento do projeto, em 2017.
Outros governos conduzem suas
próprias iniciativas. O UK Web Archive, da Biblioteca Britânica, rastreia
anualmente os websites com nomes de domínio .uk, preservando uma cópia da
internet britânica pelo menos uma vez por ano.
Em 2022, um grupo de
voluntários se propôs a salvar a internet ucraniana, quando ela foi atingida por
ciberataques russos.
Mas o escopo destes projetos é
pequeno e o Internet Archive procura ter uma cobertura mais abrangente.
Com os recursos disponíveis,
seria impossível chegar perto de preservar toda a internet, mas seus sistemas
definiram uma ampla rede.
E, dependendo do que você
esteja procurando, a coleção do Internet Archive é tão vasta que, às vezes,
parece um registro funcional e completo da World Wide Web.
O sucesso traz complacência
Os documentos do Archive
disponíveis ao público ajudam a manter o registro das nossas vidas na era
atual.
A Wikipédia adotou, como
prática padrão, mencionar as cópias de websites do Wayback Machine e não os
próprios websites originais. E a organização também preserva uma vasta coleção
de gravações anteriores à era digital.
A adorada série de TV
americana Fernwood 2 Night (1977), por exemplo, não está disponível em nenhum
serviço de streaming, mas você pode assistir de graça no Internet Archive.
Livros, revistas e websites
mencionam as cópias digitais de livros do Internet Archive, indisponíveis nas
bibliotecas físicas.
O projeto age até como
ferramenta de preservação para o público. Qualquer pessoa pode carregar vídeos,
websites e praticamente qualquer coisa para os servidores da organização.
Entre as principais coleções
preservadas pela Wayback Machine, encontram-se vastos registros de websites
criados no GeoCities - um antigo serviço de hospedagem de sites, agora extinto.
Muito antes das redes sociais,
o GeoCities foi uma das primeiras plataformas que possibilitavam a qualquer
pessoa criar o seu próprio website.
Os historiadores da internet
consideram o GeoCities um dos capítulos mais importantes dos primórdios da
World Wide Web - e, sem o trabalho do Internet Archive, a maior parte dos seus
sites teria sido perdida.
Mais recentemente, uma
comissão do Congresso dos Estados Unidos adotou o Internet Archive para
preservar artigos e documentos relativos ao ataque ao Capitólio, em 6 de
janeiro de 2021.
"De tempos em tempos,
surge uma nova plataforma e as forças econômicas rapidamente meio que a
destroem", afirma Andrew Jackson, arquiteto técnico de registros de
preservação da Coalizão para a Preservação Digital, um grupo ativista e
organização filantrópica britânica que orienta como preservar os arquivos
digitais online. "É uma grande fonte de rotatividade."
O website jornalístico
especializado em tecnologia CNET sofreu pressões em 2023, após informações de
que a empresa excluiu dezenas de milhares de artigos, causando a perda de
décadas de história.
Entre as respostas do site,
veio a indicação de que todos os seus artigos excluídos foram preservados na
Wayback Machine.
Muitos críticos acusaram a
empresa de ter transferido para o Internet Archive sua responsabilidade de
manutenção dos arquivos.
"O Google e outros
mecanismos de busca incentivam ativamente a manutenção de URLs estáveis, mas,
tecnicamente, é algo bastante difícil", explica Jackson. "Sempre que
uma nova empresa reforma seu website, ela precisa calcular quantos das suas
novas URLs ela irá tentar manter ao longo do tempo."
Mas vale a pena lembrar que o
Internet Archive é uma organização sem fins lucrativos, financiada por doações
de fundações beneficentes. É um projeto sem fim, com custos que crescem
exponencialmente.
O Internet Archive assumiu
voluntariamente a missão de ser a principal biblioteca da nossa vida digital em
todo o mundo. E, com a web se aproximando da sua quarta década, este projeto
totalmente não oficial se tornou um pilar fundamental da internet.
Mas, da mesma forma que
aumenta a nossa confiança no Internet Archive, também crescem as ameaças que
pairam sobre o seu trabalho.
'Ponto crítico de falha'
Em setembro, o Internet
Archive anunciou uma importante parceria com o Google. O mecanismo de busca da
gigante da tecnologia irá agora incluir links para o Wayback Machine nos seus
resultados de busca. Nenhuma das partes publicou os detalhes financeiros do
acordo.
Mas outras notícias recentes
demonstram que o projeto ainda enfrenta fragilidades.
Sua vulnerabilidade foi
exposta abertamente em uma ação judicial contra o Internet Archive, promovida
por quatro grandes editoras de livros.
Elas alegam que a prática de digitalizar livros físicos e emprestar cópias digitais infringe a legislação americana de direitos autorais.
Antes da pandemia de Covid-19,
o Internet Archive emprestava apenas uma cópia digital por vez, para cada livro
físico na sua coleção.
Mas, durante os lockdowns, a
organização eliminou a restrição, emprestando aos seus apoiadores quantidades
ilimitadas de cópias digitais de livros, para tentar compensar o fechamento das
bibliotecas físicas.
Em 2023, um tribunal americano
julgou a prática ilegal e, no início de setembro, o recurso do Internet Archive
contra a decisão foi rejeitado.
A organização havia informado
que concordava em pagar ao grupo de editoras um valor não revelado em relação
ao caso.
Passada aquela ação, o
Internet Archive já enfrenta outro processo movido pelas gravadoras, referente
à digitalização de discos.
Em caso de derrota, este novo
processo poderá custar US$ 400 milhões (R$ 2,3 bilhões). O valor pode pôr em
risco a sobrevivência da organização.
Formada ao longo de três
décadas, a coleção do Internet Archive inclui centenas de bilhões de páginas
web
O diretor dos serviços de
biblioteca do Internet Archive, Chris Freeland, afirmou, em declaração sobre a
decisão judicial, que a organização está analisando o parecer dos tribunais.
As batalhas jurídicas
existenciais não são os únicos riscos que pairam sobre o mundo da preservação
digital.
O UK Web Archive teve uma
amostra das ameaças técnicas mal intencionadas em outubro de 2023, quando um
ciberataque derrubou seus sistemas digitais. Um ano depois, o portal ainda
enfrenta problemas causados pela queda —e o acesso online a grande parte da sua
coleção ainda está indisponível.
Em maio de 2024, o Internet
Archive divulgou que estava enfrentando um grande ataque distribuído de negação
de serviço (DDoS, na sigla em inglês). Nele, vândalos ou outros delinquentes
criam sistemas automatizados para bombardear websites com visitas, tentando
derrubá-los sobrecarregando seus servidores.
No pico do ataque, dezenas de
milhares de visitas simultâneas surgiam a cada segundo. Os serviços foram
derrubados, incluindo a Wayback Machine.
Com isso, o rastreamento
regular da web para arquivo foi interrompido por algum tempo, o que pode ter
causado lacunas permanentes no seu registro histórico.
O Internet Archive "foi
criado por um indivíduo e se tornou uma espécie de pivô", segundo Jackson.
"Ele também parece ser um
ponto crítico de falha em potencial. Embora seja muito mais sofisticado do que
simplesmente os voluntários, ele é uma instituição, em uma região, sujeito a um
arcabouço legal."
A organização reconhece estas
preocupações. Se o trabalho do Internet Archive fosse suspenso e "esta
lacuna não fosse preenchida imediatamente, grande parte do que é
disponibilizado atualmente na web pública ficaria em risco", explica
Graham.
Ele deixa claro que o Internet
Archive não irá abandonar suas responsabilidades no futuro próximo, mas seria
útil obter ajuda externa para o projeto.
"Existem oportunidades
para muitas pessoas contribuírem, de diversas formas", destaca ele.
Responsabilidades partilhadas,
prioridades diferentes
Sem um trabalho formal de
organização do trabalho de preservação da internet, o projeto fica a cargo de
amadores e voluntários, ao lado de alguns grupos de organismos não oficiais
que, geralmente, operam de forma independente.
"Faz sentido que o
trabalho de arquivo seja descentralizado", segundo a historiadora de
tecnologia Mar Hicks, da Universidade da Virgínia, nos Estados Unidos.
"Mas um dos problemas é a variação das prioridades."
Hicks destaca que um dos
primeiros pontos que qualquer arquivista irá considerar ao construir um arquivo
é o que ele deve priorizar.
"E, com muita
descentralização, as prioridades serão muito diferentes", explica ela.
"Haverá pessoas nos grupos cuja prioridade será tentar reunir de tudo - o
máximo que puderem, eles podem querer completar tudo."
E haverá outros que irão se
concentrar em determinadas áreas, como o arquivo britânico, por exemplo.
A preocupação com essa
abordagem pontual e descentralizada é a possibilidade de repetição, que faz com
que preciosos recursos de arquivo sejam desperdiçados com cópias duplicadas ou
triplicadas dos websites mais populares.
Enquanto isso, algumas áreas
que podem ter importância histórica são desprezadas por se enquadrarem entre as
responsabilidades de grupos diferentes.
"Os arquivistas irão
dizer que estas questões existem há muito tempo", afirma Hicks. Mas elas
são exacerbadas pela quantidade de material produzida no nosso mundo digital.
Todos os dias, são enviados
cerca de um bilhão de e-mails. O YouTube afirma que mais de 500 horas de vídeo
são postadas na plataforma a cada minuto.
Para Hicks, a internet é
"essencialmente uma mangueira de incêndio, lançando material e
informações. Não faz sentido tentar registrar tudo o que sai da mangueira. Não
faria sentido do ponto de vista de recursos."
De certa forma, esta é uma
preocupação antiga.
"Como historiadores,
temos o mesmo problema", explica Hicks. "Temos uma enorme quantidade
de documentos do passado. Mas temos apenas certos documentos e as vozes de
certas pessoas - e muitas das vozes que estão faltando foram incrivelmente
importantes, mas foram apagadas."
Para Hicks, é preciso ter
certas prioridades sobre o que está sendo preservado das pegadas digitais da
nossa geração. Caso contrário, corremos o risco de extrapolar rapidamente os
custos com esforços secundários de registro da história da web. Isso sem falar
nos oceanos de arquivos digitais que vivem offline.
"Se precisarmos preservar
tudo, fica muito caro", segundo Andrew Jackson. "Existe muito
conteúdo mais antigo ou menos atraente que fica perdido pelo caminho."
"Não estamos capturando
bem o mundo não ocidental", reconhece Jackson. "Existem lacunas que
não foram preenchidas em diferentes domínios culturais."
Muitas dessas organizações que
procuram combater suas próprias tendências e preconceitos acabam assumindo o
peso da tarefa, enquanto os governos e as empresas responsáveis pelas
plataformas simplesmente assistem.
"Grupos independentes de
pessoas, simplesmente preocupadas e dispostas a dedicar seu tempo livre a esta
questão, têm mais recursos e conhecimento do que as instituições formalmente
responsáveis", afirma Jackson.
Hicks alerta que existe um
vácuo que poucas pessoas estão atendendo, exceto por um punhado de arquivistas
obsessivos.
"Não está claro de quem é
a responsabilidade de arquivar [a internet], nem a serviço de quem",
afirma a historiadora. Mas um ponto é claro: segundo ela, todos nós deveríamos
pagar para apoiar a luta pela preservação.
"De um ponto de vista
muito pragmático, se você não pagar essas pessoas e garantir que estes arquivos
recebam financiamento, eles não irão existir no futuro", explica ela.
"Eles irão desaparecer e todo o trabalho de coleta irá voar pela janela."
"Porque o grande
propósito do arquivo não é simplesmente coletá-lo, mas fazer com que ele seja
mantido indefinidamente no futuro."
O Iluminismo do século 18 viu
o nascimento de um movimento internacional de bibliotecas, com os governos e
filantropos percebendo a necessidade de preservar e distribuir livros para o
público. Mas este senso de responsabilidade cívica do passado não se estendeu
para a internet.
Isso pode se dever aos
complexos interesses comerciais do mundo digital ou simplesmente às imensas
dificuldades técnicas. Ou, talvez, porque os observadores casuais podem não
achar necessário preservar a web.
Um livro é um recurso
claramente finito — ele pode ser perdido ou danificado. Mas a web parece muito
acessível. Qualquer pessoa com conexão à internet pode abrir um navegador e
digitar uma URL.
Está tudo ali, disponível. Até
que não esteja mais.
Fonte: folha.uol.com.br