Kaldhæðni þess að skrifa á netinu um stafræna varðveislu

Í síðasta mánuði, Atlantshafið birt langa grein um upplýsingar sem glatast á vefnum. Sú saga sjálf er í hættu.

Maison Bonfils / Library of Congress / Zak Bickel / The Atlantic

Nýlega skrifaði Adrienne LaFrance inn Atlantshafið um stafrænan dauða og endurfæðingu sögu sem kom til úrslita um Pulitzer-verðlaunin árið 2008. Vegna þess að The Crossing, 34 þáttaröð sem upphaflega var gefin út af Rocky Mountain fréttir , fæddist stafrænt, það var ekki eins auðvelt að geyma það í geymslu og prentaðar sögur og ferð hennar frá myrkrinu til upprisu var á hreyfingu.



Ég elskaði sögu LaFrance. Hún var meistaralega skrifuð og snerti flest þau mál sem stafrænar varðveislufræðingar glíma við á hverjum degi. Fyrir tilviljun kom sagan út í sömu viku og a sérstakt hefti af Blaðarannsóknarblað sem kallast Capturing and Preservating the ‘First Draft of History’ in the Digital Environment, sem er safn fræðigreina (þar á meðal mín eigin) um varðveislu stafrænna frétta.

Sem fékk mig til að velta fyrir mér: Mun einhver eftir 20 ár geta lesið sögu LaFrance?

Það er engin trygging fyrir því að við getum lesið fréttir dagsins á tölvum morgundagsins. Ég hef verið að kynna mér varðveislu frétta undanfarin tvö ár og ég get fullyrt að flest fjölmiðlafyrirtæki nota varðveislustefnu sem líkist svissneskum osti.

Mitt framlag til NRJ sérstakt tölublað fjallar um fréttaforrit, eins og gagnvirku gagnagrunnarnir ProPublica 's Skorkort skurðlæknis sem gera lesendum kleift að lesa sögu, leita að sjálfum sér eða samfélagi sínu í gögnunum og komast svo að því nákvæmlega hvernig sagan hefur áhrif á þeirra eigið líf. Þegar gagnablaðamaður kallar eitthvað fréttaapp þýðir það ekki það sem þú halar niður frá App Store. ProPublica Það er Scott Klein útskýrir : Inni á fréttastofum eru þessir gagnvirku gagnagrunnar stundum kallaðir „fréttaforrit“ - en ekki rugla saman. Þetta eru gagnvirkir gagnagrunnar sem birtir eru á vefnum, ekki eitthvað sem þú kaupir á snjallsímanum þínum. Hugsaðu um dollara fyrir skjöl, ekki flipboard eða Zite.

Lestur sem mælt er með

  • Raiders of the Lost Web

    Adrienne LaFrance
  • Er [REDACTED] jólamynd?

    Kaitlyn Tiffany
  • K-popp aðdáendur eiga nýjan nikk

    Emma Marris

Fréttaforrit eru ekki varðveitt vegna þess að þau eru hugbúnaður og varðveislu hugbúnaðar er sérhæft, sérviskustarf sem krefst meiri fjármuna og sérhæfðara vinnuafls en er í boði hjá fjölmiðlasamtökum í dag. En þú gætir haldið því fram, það ætti að vera auðvelt að varðveita sögur sem eru ekki hugbúnaður, ekki satt? Saga eins og LaFrance, sem er samsett úr texta og myndum og nokkrum tenglum á utanaðkomandi heimildir, ætti að vera einfaldara að vista?

Þú myndir halda það. En ekki endilega.

Til að skilja hvers vegna þurfum við að skoða bakhliðartækni fréttastofunnar. Þegar talað er um þróunaraðila er framhliðin fallegi hluti tækninnar sem er opinn viðskiptavinum og heiminum; afturendinn er verksmiðjan þar sem pylsan er framleidd.

Þú veist líklega grunnatriði bakendans: Þegar þú smellir á tengil eða slærð inn vefslóð í vafrann þinn, a vefþjónn skilar síðu í vafrann þinn. Hjá fjölmiðlastofnun setur vefþjónninn saman síðu fyrir þig sem samanstendur af mismunandi stafrænum eignum: texta, myndum, skjátextum, fyrirsögnum, kóða, myndböndum eða auglýsingum. Þessar eignir eru í a vefumsjónarkerfi (CMS) sem skipuleggur þúsundir eða milljónir efnis sem fjölmiðlafyrirtækið býr til.

Það er þó sjaldan bara eitt CMS. Fréttastofur treysta á blöndu af nýjum og eldri kerfum. Í fréttastofu sem framleiðir prentútgáfu er alltaf til viðbótar hugbúnaðarkerfi—eins og K4 eða CCI eða Hermes—sem stjórnar síðuuppsetningu og sendir þær síður til stafrænna prentara. Við skulum kalla þetta prentað CMS. Þetta er öðruvísi en CMS á vefnum, sem gæti verið kerfi eins og Wordpress. BBC notar að minnsta kosti tvö vefkerfisstjórnunarkerfi. (Hér er skýringarmynd af þeim nýjasta, Á lífi .)

Ósýnileg ferli senda texta, myndir, fyrirsagnir og annað efni óaðfinnanlega frá einu kerfi til annars. Flestar fréttastofur eru ekki með bókaverði lengur, þannig að geymslu er að mestu leyti sjálfkrafa. Stórar stofnanir eins og LexisNexis eða EBSCO ( Atlantshafið skjalavörður) mun hlaða upp stafrænu straumi frá fréttastofunni, geyma upplýsingarnar í gagnagrunni og leyfa síðan pakka af slíkum gagnagrunnum til bókasöfnum. Stafræna straumurinn gæti innihaldið texta hverrar sögu, nafn höfundar, titil sögunnar, allar tengdar myndir og nokkrar metaupplýsingar sem lýsa staðsetningu sögunnar eða leyfisréttindum hennar. Í sumum tilfellum inniheldur straumurinn einnig PDF myndir af hverri síðu dagblaðsins eða tímaritsins.

Til að reyna að komast að því hvort saga LaFrance væri innifalin í geymslustraumnum, leitaði ég 16. október 2015 að öllum greinum frá Atlantshafið í EBSCO gagnagrunninum (með háskólabókasafnsáskriftinni minni) frá 1. janúar 2014 til 31. desember 2015. Niðurstöðurnar voru 488.

Ég gerði sömu leitina á Google á sama degi að sögum sem sýna útgáfudag á TheAtlantic.com frá 1. janúar 2014 til 31. desember 2015. Það voru 20.200 niðurstöður.

Voru í raun og veru 19.712 fleiri sögur birtar á TheAtlantic.com en í Atlantshafið tímarit? Ég er ekki viss. Sum Google hits gætu verið afrit, sem færir heildarfjölda birtra greina niður fyrir 20.200. Eða það gæti verið eitthvað sem ég veit ekki um hversu margar greinar eru í áskrift bókasafns míns að safni verka EBSCO í Atlantshafið . Það gætu líka verið fleiri tæknileg vandamál og leyfisvandamál sem mér er ekki kunnugt um - geymslu er gríðarlega flókið starf. 20.200 númerið inniheldur ekki Atlantshaf færslur rithöfunda á Facebook, Twitter, Instagram, Pinterest, Reddit eða á öðrum samfélagsmiðlum þar sem blaðamenn kunna að hafa haft samskipti við lesendur eða sett inn athugasemdir sem tengjast sögum þeirra. Ef við viljum telja félagslegar færslur sem blaðamannaefni þurfum við að endurskoða mat okkar verulega upp á við. (Félagslegar færslur eru líka furðu erfitt til að varðveita á þýðingarmikinn hátt á bókasöfnum, við the vegur.)

Áskoranirnar við að viðhalda stafrænum skjalasöfnum eru jafn mikið félagslegar og stofnanalegar og tæknilegar.

Í allri bókasafnsleitinni minni gat ég ekki fundið grein LaFrance um The Crossing. Reyndar fann ég aðeins níu greinar eftir Adrienne LaFrance, þegar ég leitaði í meira en 400 gagnagrunnum og útgefendum í gegnum EBSCO, og 700 milljón heimildum sem þar eru að finna. Sem er skrítið, því að skoða höfundasíðu LaFrance á The Atlantic.com sýnir síður á síðum leitarniðurstöður.

Til að skilja hvað er að gerast þurfum við að fara aftur í bakhliðina og hugsa um kerfin sem sögutexti er í. Saga LaFrance birtist á TheAtlantic.com, sem keyrir á vef CMS sem heitir Ollie. Ollie, sem kom í stað þriggja eldri CMS, var sérsmíðuð með því að nota vinsælan opinn hugbúnaðarramma sem kallast Django . Prentútgáfa af Atlantshafið er stjórnað í gegnum verkflæðiskerfi sem kallast K4 , sem (ólíkt Django) virkar vel með Adobe hugbúnaðarforritunum sem eru notuð til að búa til útlit. Frá fjölmiðlatæknilegu sjónarhorni er þetta hátækniverkfræði. Ég veit ekki hvernig eða hvar EBSCO straumurinn tengist þessari uppsetningu. Það sem gerist er líklega eitthvað á þessa leið:

Meredith Broussard

Mér er minnisstætt þegar ég notaði vask í nýju sundlaugarhúsi vinar hans, sem hann byggði sjálfur. Ekki láta of mikið vatn renna þegar þú ert að þvo hluti, sagði vinur minn við mig. Það lítur út eins og alvöru vaskur, en ég tengdi hann ekki við fráveitukerfið, svo vatnið rennur bara út á jörðina. Ég var brjáluð. Hvernig gat það verið? Var honum jafnvel leyft að gera það? Á því augnabliki áttaði ég mig á því að pípulagnir, eins og hugbúnaður, eru flókið kerfi byggt af mönnum. Menn gera mistök og taka sérviskulegar ákvarðanir um hönnun. Það kemur því á óvart, en ekki ólíklegt, að átta sig á því að flóknu fjölvíða hugbúnaðarkerfin sem þjóna okkur efni á vefnum eru kannski ekki að senda efni til bókasöfnum á þann hátt sem við búumst við.

Þegar ég hóf rannsókn mína á varðveislu frétta hélt ég að það væri auðveld tæknilausn. Það er ekki til. Öll fjölmiðlafyrirtæki í heiminum glíma við stafræna skjalavörslu. Stór arfleifð samtök, eins og Atlantshafið eða New York Times eða BBC, gera betur en smærri fyrirtæki, en enginn hefur lausn. Frá sjónarhóli hugbúnaðar er þetta löglega erfitt vandamál: óleyst, en líklega ekki óleysanlegt. Áskoranirnar við að viðhalda stafrænum skjalasöfnum yfir langan tíma eru jafn miklar félagslegar og stofnanalegar og tæknilegar, segir í 2003 NSF og Library of Congress skýrslu . Jafnvel ákjósanlegustu tæknilausnir munu krefjast stjórnun og stuðnings frá stofnunum sem með tímanum ganga í gegnum breytingar á stefnu, tilgangi, stjórnun og fjármögnun.

Fréttastofur þurfa að stjórna verkflæði og efni fyrir prentun, hljóð, myndefni, myndefni og kóða. Mestur hugbúnaður er smíðaður fyrir fyrirtæki sem gera aðeins einn af þessum hlutum í einu; fréttastofur gera þær allar samtímis. Í hvert sinn sem ný tækni er kynnt þarf fréttastofa nýtt efnisstjórnunar- eða vinnuflæðiskerfi til að sinna því. Að tryggja samvirkni milli þessara kerfa og skjalakerfa krefst verkfræði, hugvits og reglulegrar athygli.

Umfangið er líka öðruvísi fyrir fréttastofur. Facebook þarf aðeins að hafa umsjón með 11 ára gögnum, sem öll eru stafræn og öll eru byggð upp nákvæmlega eins og þau þurfa að vera uppbyggð. Eldra fjölmiðlafyrirtæki gæti þurft að takast á við meira en hundrað ára gögn, aðeins sum þeirra eru stafræn, sem öll eru hugsanlega mikilvægt fyrir fræðimenn , sem öll hafa mismunandi leyfistakmarkanir og varðveisluþarfir og eru óljóst uppbyggt . Manstu þegar Macromedia Flash var hið nýja heita hlutur í blaðamennsku? Flest af þessum flóknu Flash verkefnum hafa hvarf núna. Þeir eru líklega geymdir í geymslu ég keyri í geymslu einhvers staðar, við hliðina á kössum af litskyggnum og haugum af disklingum og öðrum úreltum miðlum. Sagnfræðingar framtíðarinnar munu líklega harma þetta tap.

Netskjalasafnið gerir þér kleift að finna nál í heystakki, en aðeins ef þú veist nú þegar um það bil hvar nálin er.

Vefurinn sýnir aðeins nýlega sögu. Ekki eitt rit hefur fullkomið skjalasafn yfir vefsíðu sína, skrifa samstarfsmenn mínir Kathleen Hansen og Nora Paul í NRJ grein, Dagblaðasöfn sýna helstu eyður á stafrænni öld. Flestir geta ekki farið aftur fyrr en 2008 … Í öllum tilfellum ræddu uppljóstrarar um glundroðann við að skipta um CMS eða netþjóna, að skipta um skipulagsheimili fyrir vefsíðuna, um starfsmannabreytingar og marga aðra þætti sem hafa haft áhrif á heilleika vefsíðunnar. með tímanum.

Magn og fjölbreytni upplýsinga sem við framleiðum núna hefur farið fram úr getu okkar til að varðveita þær til framtíðar. Bókaverðir eru þeir einu sem sjá til þess að sameiginlegt minni okkar sé varðveitt. Og þeir, ásamt litlu teymi stafrænna sagnfræðinga annars staðar, eru enn að reyna að skilja umfang óteljandi áskorana sem felast í nútíma varðveislu. Ef stafrænar fréttir dagsins í dag eru ekki sjálfkrafa settar í geymslur bókasafna er ólíklegt að þessar sögur lifi af á aðgengilegan hátt.

Svo: Greinarnar sem við sjáum í dag á TheAtlantic.com eru geymdar í CMS sem er óljóst tengt við geymslustraum bókasafnsins míns. Fyrir fræðilegar rannsóknir (sem eru gerðar í gegnum gagnagrunna bókasafna, ekki í gegnum Google), virðist sem einhver undirmengi greina frá TheAtlantic.com sé ekki varðveittur. Sem þýðir að eftir 20 ár geta fjölmiðlafræðingar kannski ekki lesið grein Adrienne LaFrance um sögu sem hvarf og reis upp, vegna þess að grein LaFrance gæti hafa horfið.

Sumir glöggir lesendur gætu velt því fyrir sér: Hvað með netskjalasafnið ? Varðveitir Wayback Machine ekki vefsíður og verður saga LaFrance ekki varðveitt þannig? Einfalda svarið er já. Grein LaFrance var skríðuð af Wayback Machine Internet Archive og þú getur farið og skoðað hana þar. Fólkið á Internet Archive er hugsi stafrænt varðveislufólk og ég er þakklátur á hverjum degi fyrir vinnu þeirra við að varðveita sameiginlegt stafrænt minni okkar.

Ef ég veit nákvæmlega hvaða vefsíðu ég er að leita að er Internet Archive mjög gagnlegt. Ég veit að saga LaFrance birtist á forsíðu TheAtlantic.com þann 14. október 2015 og því get ég farið í Wayback Machine og skoðað skyndimyndina sem tekin var næst þeim degi, sem er 15. október, og ég get séð LaFrance. sagan Raiders of the Lost Web og ég get smellt á hana.

En ef ég veit ekki nákvæmlega hvaða vefsíðu ég vil og nákvæmlega daginn sem upplýsingarnar birtust, mun ég ekki geta fundið upplýsingarnar í Internet Archive. Gagnagrunnar bókasafna eru skráðir þannig að þeir séu leitanlegir, sem þýðir að gagnagrunnarnir innihalda mikið af upplýsingum um þær upplýsingar sem þeir innihalda. The Wayback Machine er tæknilega mjög háþróuð — það varðveitir myndir og kóða líka, til dæmis — en það er það ekki strax verðtryggð þannig að auðvelt sé að leita að þeim. Netskjalasafnið gerir þér kleift að finna nál í heystakki, en aðeins ef þú veist nú þegar um það bil hvar nálin er.

Ég er nokkuð viss um að eftir fimm ár, þegar ég vil endurlesa grein LaFrance, mun ég ekki nákvæmlega dagsetninguna þegar hún var birt. Ég er líka nokkuð viss um að eftir fimm ár mun bókamerki vafrans míns við söguna vera bilað vegna linkrot: Atlantshafið mun hafa endurhannað vefsíðu sína og slóð sögunnar verður önnur. Vefleitarsjálfið mitt árið 2020 mun líklega líta á Atlantshafið vefsíðu og tekst ekki að finna greinina vegna þess að CMS mun hafa breyst og leitarbreytur verða settar upp á annan hátt og ég mun ekki geta fundið svo mikið sem titil fyrir greinina í gagnagrunnum bókasafnsins. Sem þýðir að ég mun gefast upp í gremju og tuða við alla sem vilja hlusta á hversu óskipulagður netheimurinn er og hvernig við erum að tapa stafrænni sögu næstum um leið og við komumst að. Þetta er til skammar. Vegna þess að þetta er mjög góð grein og hún á skilið að þola hana.

Það er auðvitað lausn. Ég gæti bara prentað greinina og geymt hana í skjalaskápnum mínum. En það væri skref afturábak, ekki fram á við.