Tillaga að CSV skjalasniði

Það er ágætis gangur í vinnunni hjá okkur og við erum að einbeita okkur að leyfisskilmálum og sniði gagna þessa dagana.

Gagnapakkarnir sem við erum að vinna með eru annarsvegar tekjur og gjöld eftir hagrænni skiptingu og svo hinsvegar ársfjórðungsyfirlit fjársýslunnar.

Okkur þótti við hæfi að birta fyrstu tillögu að uppsetningu CSV skráarsniðs hér á vefnum og opna fyrir umræðu um hvort hér sé eitthvað sem megi bæta.

Við leggjum til að upplýsingar um tekjur og gjöld eftir hagrænni skiptingu verði birt mánaðarlega á eftirfarandi sniði:

Hér er svo upprunalega Excel skjalið til samanburðar.

Okkur þætti vænt um að fá athugasemdir við þessa uppsetningu frá þeim sem hefðu hug á að vinna áfram með þessi gögn í framtíðinni.

8 hugrenningar um “Tillaga að CSV skjalasniði

  1. TF

    Ég legg til að notuð verði minna algeng tákn fyrir field separatorinn, t.d. | sem gjarnan er notað í svona skjölum. Ef komma er notuð sem field separator væri mögulegt að lenda í veseni ef komma er í tölunni sjálfri t.d. 25,3.

    Einnig klúðrast íslenskir stafir í yfirfærslu á þessu CSV skjali yfir í excel hjá mér. Má vera að það sé eitthvað stillingaratriði mín megin en ef mögulegt er væri betra að CSV skjalið væri þannig að engar stillingar þyrfti til að fá íslenska stafi í excelútgáfu.

    Svara
  2. Finnur Palmi Magnusson

    Takk fyrir þessar athugasemdir.
    Kommurnar eru einmitt vesen og því væri best að sleppa alveg kommum og punktum þegar CSV skráin er útbúin og oft eru settar gæsalappir utan um strengi til að koma í veg fyrir að þetta brotni.
    Það er UTF-8 Snið á þessu en ég þarf að skoða aðeins betur hversvegna íslensku stafirnir eru ekki að skila sér.

    Svara
  3. Bergur

    1) Líst vel á að setja þetta í CSV lista, það þýðir þá að hægt er að vinna með þetta eins og hverjum sýnist best á fljótlegan hátt. Þeir sem vilja skoða þetta beint í Excel geta opnað þetta og formað eins og þeir vilja. Þeir sem vinna með gögnin í kringum önnur kerfi, t.d. í einhvers konar import geta gert það strax.

    2) Sammála að skoða encoding, seperator og text qualifier.

    3) Af hverju er bara einn mánuður í hverju skjali? Það þýðir að nú þarf að ná í 12 skjöl til að skoða árið í stað eins.

    Mætti ekki vera Gjold-2012 og Tekjur-2012 og setja mánuðina í röð á eftir flokkunum.
    „Rekstrar- og neyslutilfærslur“;“Lífeyristryggingar“;4572;4779;4690;4689; ….og svo framvegis.

    Svara
  4. Pawel Bartoszek

    Þetta með UFT-8 stafi er þekkt Excel Vandamál. Myndi virka ef þetta væri vistað sem ANSI. Ég mæli hins vegar EKKI með að það verði gert. Því ansi myndi virka verr fyrir fjölmargt annað, til dæmis hvers hins forrit sem fólk kann að vera að flytja inn.

    Það sem menn geta gert er að breyta endingunni úr csv í txt og opnað svo í excel, þá fer excel með okkur í gegnum stutt import ferli. Hinn valkosturinn er að opna í einhverju eins og Notapad++ og converta yfir í Ansi áður en menn importa þetta í Excel.

    Mér sýnist þessi uppsetning almennt góð, Það væri líklega gott að hafa möguleika á því að fá gögn margra mánaða í sama skjali. Annað hvort með dálkum eða longformi einhvern veginn svona.

    Yfirflokkur,Undirflokkur,Mánuður,Tekjur ISK
    Skattar á tekjur og hagnað,“Tekjuskattur, einstaklingar“,“2012-01″,10062874206

    Svara
    1. Hjalmar Gislason

      Hvað um að sameina tillögur Pawels og Bergs og hafa allar færslur í einu longform skjali, sem vex svo mánaðarlega. Það þyrfti ekki að útiloka að stakir mánuðir væru líka birtir í stökum skjölum, en einfaldar vélrænan lestur á efninu til muna: Sama skrá, á sama stað með sama sniði og þar með engin þörf á að „traversa“ einhvern möppustrúktúr eða læra að lesa nafnahefðir á mánaðarlegum skjölum.

      Svara
  5. Hjalmar Gislason

    Ég sakna þess verulega að hafa einkvæm auðkenni (unique ids) á hverjum lið. Þetta er fínt svona fyrir einn mánuð, en það er alveg öruggt að menn vilja fylgjast með þessu yfir tíma og ef þeir eiga að treysta á textann í dálkunum „Yfirflokkur“ og „Undirflokkur“, þá má ekki einu sinni laga ásláttarvillur í titlunum þar án þess að það brjóti í það minnsta vélrænan lestur á þessu. Með tímanum mun þessi strúktúr líka örugglega taka breytingum (t.d. bætast við nýir undirflokkar) og þá munu einkvæmu auðkennin koma sér vel.

    Hitt sem ég sakna eru svo skilgreiningar og annað „meta-data“, þ.e. uppruni gagna, hvenær útkeyrslan er gerð, o.s.frv.

    Þessar tillögur og fleiri má annars sjá í þessum glærum sem ég hef farið með nokkrum sinnum um „Best Practices for Publishing Data“. Það gæti verl verið fleira þar sem vert er að skoða: http://blog.datamarket.com/2012/10/02/best-practices-for-publishing-data/

    Svara

Athugasemdir