Data: mietintöjä
28.7.2021
Olen pohtinut. Jos kuva on tuhannen sanan veroinen, ja jos sanotaan että sana on keskimäärin noin 6 kirjainta, ja että kirjain olisi yhden tavun, niin jotta kuva olisi tehokkaampi informaation välitys- ja säilytysmekanismi kuin teksti niin sen olisi mahduttava alle 6 kilotavun tiedostoon. Jos mietimmekin vain sen kuvailemista, mitä kuvassa on kuvattuna, niin tekstimuotoinen kuvaus kyseisistä asioista on hyvin usein pienempi kuin kuvatiedosto. En siis mieti itse kuvatiedoston kuvailemista, niin kuin pakkausalgoritmi (tai Kolmogorov-kompleksisuus) käsittäisi "datan kuvailemisen", vaan sitä, mitä ihminen ymmärtää kuvaa katsoessaan.
Toki pitää myös kysyä, mitä tietoa haluamme säilyttää: onko sommitelma ja valaistus taiteellinen, onko esineessä joitain kuvioita, joiden tarkka kuvailu on pitkäjänteistä ja hankalaa, onko kuvan tarkoitus olla tieteellinen mittaus, liittyykö kuvaan tunteita? Mars-luotain voisi kuvakilotavujen sijaan lähettää hitaalla kaistallaan takaisin Maahan "täällä on hiekkaista ja kylmää, ja täällä on nyrkin kokoisia rosoisia kiviä, ja taivas on himmeän pinkki, ja tuolla näkyy Maapallo kirkkaana tähtenä, ja kivet ovat punertavia ja mustia", mutta siitä ei tule samanlainen fiilis, että Mars on oikea paikka. Kuva Tiananmenin aukion tankkimiehestä voisi olla vain "mies kantaa muovikasseja ja seisoo panssarivaunujen edessä", mutta kyseinen kuvaus voisi myös kuvailla tilannetta, jossa perheenisä kantaa matkamuistoja panssarivaunumuseossa. (Poks, blogini hävisi Manner-Kiinasta.) Voisin kuvailla ottamaani kuvaa öisestä taivaasta sanoilla "puiden siluetit tunkeutuvat tummansiniselle kesäyön taivaalle, jossa on valaisevia yöpilviä, jotka näyttävät samalta kuin muissakin kuvissa valaisevista yöpilvistä", mutta kuvan oikea raison d'être on kertoa, että uijjuku siistii näin valaisevia yöpilviä!
Nyt on 23. elokuuta, noin kuukausi siitä, kun kirjoitin tämän postauksen. En ollut selkeästi ilmaissut ajatuksiani, enkä oikein edelleenkään osaa. Muutamia uusia ranskalaisia viivoja:
- Dataa on hyvin helppo tuottaa. Hyvälaatuista dataa on vaikea tuottaa. Esimerkki omasta elämästäni: otan varsin paljon valokuvia, en ehkä päivittäin mutta lähes, mielenkiintoisista näkemistäni asioista. Monet näistä valokuvista ovat jälkikäteen lähes arvottomia. Hyvällä valokuvalla on monta kriteeriä, mutta päällimmäisinä tulee mieleen optinen laatu sekä sommitelmallinen harmonia: sen on oltava teknisesti onnistunut sekä silmää miellyttävä. Moni valokuvani on optisesti epätarkka, koska kännykkäkamerani sekä sitä ohjaava äppylä ovat huonoja, tai toimivat aktiivisesti minua vastaan jonkun jenkki-insinöörin suunnitteleman algoritmin takia. Toisissa kuvissa ei ole teknisesti mitään vikaa, mutta ne ovat vaan tylsiä. "Onpas hieno kiiltävä ötökkä." Otan siitä kuvan. Kuvani on kiiltävästä ötökästä, mutta megapikseleistä huolimatta en pysty zoomaamaan kovin lähelle ja näkemään silmälle näkymättömiä yksityiskohtia. "Onpas upea auringonlasku." Upeista auringonlaskuista on miljoonia kuvia. Ja kuvan näyttämä auringonlasku ei ole edes sama kuin silmin nähty: auringonlaskun punaiset ja siniset ja violetit ja keltaiset ovat sRGB-väriavaruuden ulkopuolella, ja kamerani yksinkertaisesti ei pysty tallentamaan niitä. Etenkin keltaisista ja oransseista on pulaa.
- Data on sekä kallista että halpaa. Per megatavu datan säilytys on nykyään älyttömän halpaa, ja nämä teknojätit käyttävätkin tätä hyödykseen kun vakoilevat meitä ja tallentavat kaiken. Omassakin käytössä data on halpaa: tällä hetkellä voin ostaa Verkkiksestä yhden teratavun ulkoisen kovalevyn kuudellakympillä, neljän teran 120 eurolla, josta saadaan megatavun hinnaksi noin 0,003 senttiä. Mutta: pitkällä aikaskaalalla tämä ei ole kestävää. Veikkaan että 50 tai 100 vuoden päähän jäljellä on vain se, jonka olen paperille saattanut. Jonkun ihmisen on käytettävä aikaa ja päätettävä, mikä on säästämisen arvoista. Tämä on emotionaalista työtä.
- Kuka päättää, mikä data on säästämisen arvoista? Miten voin itse päättää sen omasta datastani?
- Jos joutuisin pakolaiseksi, kuinka monta kovalevyä jaksan kantaa mukanani ties kuinka kauan? Todennäköisesti en yhtään. Ehkä yhden usbitikun verran, parikyt gigaa, kuvia rakkaista, muutama tärkeä dokumentti-PDF. Terojen verran ladattuja videoita ja striimejä, pelejä ja musiikkia tulee häviämään. Osaa siitä ei enää ole julkisesti netissä, mutta eipä kukaan sitä ole oikein kaivannutkaan. Osaa en itsekkään enää käytä.
- Data hoarding. Kaiken säilytys, mitä on ikinä tuottanut, koska "se voisi joskus olla hyödyksi". Todennäköisyydet, että jotain puolisumeaa kuvaa jostain arkisesta tapahtumasta ei tulla kaipaamaan. Kaikki valokuvani Kuusta ovat surkeita. Kuuta ei oikein pysty kuvaamaan ilman teleskooppia tai ainakin hyvin isoa linssiä, se on loppujen lopuksi liian pieni, päivällä liian himmeä ja yöllä liian kirkas.
- Data hoarding, also offline. Vähän zettelkasten-tyyliin, säilyttää jokainen paperinpala, johon olen jotain kirjoittanut. Oma kiintymykseni niihin on vain, että olen kirjoittanut niihin, mutta itse kirjoituksella ei ole paljoa väliä. Skannattuna näihin menee pari megatavua per sivu (hyvällä laadulla), ja taas: onko tämän säilytyksellä loppujen lopuksi arvoa?
- Onko säilytyksellä arvoa? Tämä on se avainkysymys. Mulla on paha taipumus yrittää säästää kaikkea, mutta omilla resursseillani en vain pysty siihen kaikkeen. Elämäni, toisin kuin jonkun Buckminster Fullerin, tuskin on niin mielenkiintoinen, että sen tietojälkeä tarvitsee niin tarkasti syynätä.
- Äsken otettu sumea valokuva on helppo poistaa. Viisi vuotta sitten otettu sellainen on vaikea poistaa, jopa silloinkin, kun sen jälkeen on samasta aiheesta oleva hyvälaatuinen kuva.
- Mikä pätee kuviin pätee satakertaisesti videoihin, kun ne vievät niin äkkiä niin paljon tilaa.
- Kun projekti on loppu, tarvitseeko sen tiedostoja säilyttää enää?
Luulen... että summa summarum, ajatukseni datasta ovat: sitä on helppo tuottaa, ja tämä on kirous, sillä se muuttuu vastuuksi, ja mitä enemmän sitä on, sitä suurempi taakka sen kanssa on.
Paperinen päiväkirja on kiva. Mulla on niitä jo viisi tai kuusi, ne täyttyy. Ne ovat eri tavalla vastuu; vastuu täyttää niitä, vastuu pitää ne kuivana ja suojassa. Pelko, että niille käy jotain, koska niitä ei voi varmuuskopioida kuten digitaalista dataa. Mutta tiedän sen, että ne itsessään ovat arvokkaita: ei tarvitse erikseen valikoida, minkä päivän merkinnät ovat säästämisen arvoisia, koska jo se, että se on fyysisenä jälkenä kirjaan sidotussa sivussa tekee siitä arvokkaan ja tavallaan helpomman säilöä. Jos pitäisi parissa päivässä evakuoida, niin ne on helppo päättää ottaa mukaan.
Joskus toivon, että kävisi jonkinasteinen digitaalinen katastrofi, jotta voin aloittaa oman datan säilömiseni alusta, ilman jo olemassaolevien tiedostojen taakkaa. Yritän tavallaan rakentaa tätä blogiani, tätä sivustoa, sellaiseksi että kaikki täällä oleva, jokainen kuvatiedosto mukaan lukien, on ipso facto arvokasta. (Sen takia yritän myös pitää tiedostot pienenä: pieneksi skaalattu resoluutio, korkea pakkausaste, pitäen oleellisen vielä näkyvissä mutta antaen tarpeettoman kohinan hävitä pakkausvirheisiin.)