Örvitinn

Morgunblaðið ekki að standa sig

Í viðskiptablaði morgunblaðsins í gær er viðtal við Sigurgeir Pétursson bróður Lindu fegurðardrottningar.

Sigurgeir hefur starfað sem sjómaður og skipstjóri í Nýja Sjálandi og Ástralíu undanfarin misseri. Eitthvað virðist hann hafa efnast á því maðurinn og er nú farinn að fjárfesta í hugbúnaðargeiranum. Það eru jákvæðar fréttir að mínu mati. Alltaf gott þegar menn fara til útlanda og efnast dálítið.

En svo kemur að því að fjalla um þetta hugbúnaðarfyrirtæki hans í Nýja Sjálandi og þá fyllist ég efasemdum.

Í fyrsta lagi er fyrirtækið aldrei nefnt á nafn. Í öðru lagi eru fullyrðingar Sigurgeirs um þá tækni sem þeir hafa þróað hrein og klára lygi.

Jamm, lygi.

Hann segir:


"Það sem við erum að setja á markað er í raun bylting í gagnaflutningi og geymslu gagna. Þetta er samþjöppunarkerfi, byggt á allt öðrum grunni en önnur slík kerfi til þessa. Við höfum haldið þessu leyndu fram til þessa á meðan við erum að tryggja okkur að þessi uppfinning verði einkaleyfisvarin. Það er okkur mjög mikilvægt að hafa enga lausa enda, því ljóst er að þetta mun skaða markaðsstöðu margra stórra aðila í tölvu- og fjarskiptaheiminum.
Það sem við getum nú gert, er að þjappa öllum gögnum saman um 93%, alveg sama í hvaða formi þau eru. ... Við getum þjappað öllu, þar með talið skýrslum, sem hefur veirð þjappað með öðrum hætti. Því getum við tekið þær samanþjappaðar og þjappað aftur saman um 93% (feitletranir eru mínar M.Á.)

Ég veit ekki hvort Sigurgeir lýgur viljandi, eða hvort tölvukarlinn sem hann hitti í Nýja Sjálandi er að hafa hann að fífli en fullyrðingarnar sem koma fram hér að ofan eru klárlega ósannar.

Þegar talað er um þjöppun gagna er yfirleitt verið að tala um tvennskonar þjöppun. Annars vegar þjöppun sem viðheldur gögnum í sinni upprunalegu mynd og svo þjöppun sem breytir gögnunum. Dæmi um hið fyrra er zip þjöppun sem er mjög algeng. Dæmi um síðara eru .jpg myndir og .mp3 hljóð. Þar eru hluta af upplýsingunum hent með ákveðinni aðferð sem reynir að halda eftir einungis mikilvægustu upplýsingunum.

Það er nokkuð ljóst að fullyrðingar Sigurgeirs snúa að þjöppun sem viðheldur gögnum. Það er að segja, þegar þjöppuðu skránni er afþjappað fær maður nákvæmlega sömu gögnin í hendurnar og þjappað var upprunalega.

Til að þjappa gögnum án þess að glata upplýsingum eru til ýmsar aðferðir. Yfirleitt eiga þær það sameiginlegt að leita að mynstri í gögnunum og geyma svo upplýsingar um það mynstur.

Tökum dæmi, ég ætla að geyma þennan streng: "Ég sá bláan mann og bláan bíl." Þarna sjáum við strax að orðið "bláan" kemur tvisvar fyrir. Til að spara pláss get ég því sagt x1="bláan" og skrifað setninguna svona Ég sá x1 mann og x1 bíl" Þarna hef ég sparað einhver bæti en takið þó eftir, ég þarf að geyma upplýsingarnar x1="bláan" líka, svo ég geti snúið gögnunum aftur. Það eru að sjálfsögðu til ýmsar flóknar aðferðir til að gera þetta, en þetta er grunnurinn að þeim öllum.

Það er stærðfræðilega hægt að sýna fram á að ekki er hægt að minnka öll gögn. Tökum einfalt dæmi. Ég fullyrði að ég hafi aðferð til að þjappa hvaða þriggja stafa talnastreng niður 2 stafa talnastreng og geti svo afþjappað því aftur.

í mengi þriggja stafa talnastrengja eru 1000 stök ef við teljum 0 með, í mengi tveggja stafa talnastrengja eru 100 stök. Það segir sig sjálft að við getum ekki haft einkvæma vísun úr staki í minni strengnum yfir í stærri strenginn. Það er bara ekki pláss fyrir upplýsingarnar. Lítið mál er að "þjappa" stökum frá 0-99 með þessari aðferð, þar sem það er hægt að færa gögnin beint á milli án þess að tapa upplýsingum. 001->01 & 01->001 virkar alveg, en hvað gerist ef ég ætla að þjappa 101? 101->01 & 01->001. Ég hef glatað upplýsingum!

How file compression works
Dr. Dobbs

enn í vinnslu

fjölmiðlar forritun tækni
Athugasemdir

Eggert - 27/09/02 13:00 #

Þeir hljóta, skv. þessu að geta recursively þjappað öllu í 1 bita!

Einar - 27/09/02 15:39 #

Þetta eflaust bara hálfur sannleikurinn og er bara verið að blekkja okkur með þessum prósentutölum. Það er alveg rétt sem Matti er að segja og ef frekari þjöppun á að eiga sér stað þá þurfa að vera synchronizeraðar upplýsingar á báðum endum. Samkvæmt ákveðnum stærðfræði aðferðum er hægt að minnka upplýsinga-ratið til muna með því að senda hluta upplýsinganna. Það hefur oft þær afleiðingar í för með sér að gæðin versna þar sem verið er að henda upplýsingum en það er þó samt ekki alltaf merkjanlegt. Eins og t.d. með farsíma, þar er kóðningsformið þannig að talið sjálft er ekki samplað og sent heldur bara ákveðnir stuðlar eða tölur sem lýsa talsignalinu. Það er frekar auðvelt þar sem talið er ekki það fjölbreytilegt en það versnar heldur til muna þegar á að senda myndir sem innihalda margfalt fleiri upplýsingar. Þetta er eitthvað publicity stunt hjá þeim.

Matti Á. - 27/09/02 17:20 #

Það er erfitt að túlka þetta eitthvað, ég hef orðrétt eftir manninum

"Það sem við getum nú gert, er að þjappa öllum gögnum saman um 93%, alveg sama í hvaða formi þau eru"

Það er enginn hálfur sannleikur í þessari setningu. Hún er beinlínis röng, sett fram til þess að blekkja fólk. Við skulum sjá hvort hann leitar eftir einhverjum fjárfestum á Íslandi.

Ég er eiginlega hræddastur um að hann "leifi" einhverjum vinum og kunningjum að setja pening í þetta með sér. Það fólk mun þó alltaf hafa þann valmöguleika að fara í mál við Morgunblaðið, því moggin er að sína vítaverða vanrækslu með þessari grein, en n.b. þetta er stór opnugrein í viðskiptablaði moggans.

Eggert - 28/09/02 01:40 #

Sko, ég var ekki að grínast með þetta recursiveness. Ef fólk er að halda því fram að það sé ALVEG sama hvaða gögn þetta eru, þá hlýtur þetta að eiga við um það sem er þjappað með þessum algóriþma líka.

Matti Á. - 28/09/02 12:08 #

Einmitt, ef við eigum að trúa því sem hann segir getum við hlakkað til að senda öll gögn sem 1 bita. Þá verður nú gaman að vera til :-P