$Id: duomenų-analizė.txt 6443 2019-11-25 11:52:02Z saulius $

Duomenų tyrimas Unix įrankiais
==============================

Šią užduotį reikia atlikti programa, kurią parašėte 3-jai
užduočiai. Jei tokios programos neparašėte, arba ji neveikia tinkamai,
tuomet kreipkitės į dėstytoją, ir Jums bus parūpinta kita programa
ir/arba kita užduotis; tačiau tokiu atveju Jūsų 4-os užduoties balai
bus dauginami iš koeficiento 0.75 (t.y. bus užskaityti tik 3/4 Jūsų
surinktų taškų).

Atlikite duomenų tyrimą su didesne (300–1000 failų) duomenų imtimi iš
Jums skirtos duomenų bazės. Nukelkite failus; nukėlimą dokumentuokite
(set -x; ..) metodu, shell skriptu („scenarijumi“) arba
Makefile'u. Pradinius *nemodifikuotus* duomenis sudėkite į direktoriją
inputs/; šių duomenų *nekeiskite*!

Jei pradiniai duomenys didesni, negu 100MB, jų kelti į repozitoriją
nereikia, bet tokiu atveju *būtina* įkelti identifikatorių
sąrašą. Kaip identifikatorius galima naudoti *stabilius* URI arba
duomenų bazės identifikatorius (PDB ID, COD ID, Uniprot ID, DOI,
etc.).

Parašykite Makefile'ą, kuris iš pradinių duomenų inputs/ direktorijoje
sugeneruotų tarpinius ir galutinius rezultatų failus direktorijoje
outputs/. Parašykite taisyklę tikslui 'validate', kuris patikrintų
Jūsų programos sukurtų failų validumą pagal formato aprašymą (regexp
arba schemą). Ar reikia tikslą 'validate' paskelbti kaip .PHONY,
.PRECIOUS ar .INTERMEDIATE?

Įgyvendinkite savo Makefile tikslus 'clean' ir 'distclean'. Tikslas
'clean' turi ištrinti tarpinius rezultatus (ypač tuos, kurie paskelbti
.INTERMEDIATE); tikslas 'distclean' turi atlikti tas pačias komandas,
kaip ir 'clean', ir, be to, ištrinti galutinius suskaičiuotus
rezultatus.

Visi tarpiniai rezultatų failai turi turėti laiko žymes, t.y. juose
turi būti eilutė (tai gali būti pirmoji eilutė), automatiškai
įterpiama 'make' pagalba, su skaičiavimo momento data ir laiku; pvz.:

	saulius@varanas PDB/ $ head outputs/downloads/pdb/1h/1h2x.biblst
	# 2018-02-16 04:53:24 EET
	10.1074/JBC.M208043200  10.1074/JBC.M007003200
	...

Make taisyklės pavyzdys:

	%.biblst: %.cif.gz
		@mkdir -p $(dir $@)
		date +"# %F %T %Z" > $@
		pdbx-bibliography $< >> $@
                 
Galutinių rezultatų faile Unix komandų pagalba suskaičiuokite lentelę
(Keyword-space-value (KSV) formatu) su Jums paskirto parametro
reikšmėmis kiekvienam tyrinėtam failui ir DB identifikatoriui; jei
reikia, taip pat lenteles su Jums paskirtu parametru ir kitais
parametrais, nuo kurių priklausomybę turite ištirti (tokiu pat KSV
formatu). Pvz.:

	# 2018-12-17 18:57:39 EET
	#FILE: pdb-sequence-length-resolution.tab
	#PDBID chain seqlen resolution
	1KNV A 290 2.17
	1XYZ A 320 1.40

Naudodami R, Gnuplot ar kitą Jums žinomą grafinę programą, valdomą
komandomis, sugeneruokite tyrinėjamo savo parametro reikšmių
histogramą ir priklausomybės nuo kitų parametrų grafiką
(scatterplot). Suskaičiuokite savo nagrinėjamo parametro vidutinę
reikšmę ir vidutinį kvadratinį nuokrypį. Komandos, generuojančios
paveiksliukus ir skaičiuoja parametrus, turi būti skriptuose, kurie
kviečiami Make sistemos.

Parašykite 1-2 A4 formato psl. ataskaitą (9-11 pt šriftu; naudokite
HTML, TXT, ODT arba LaTeX formatus); joje pateikite savo parametro
histogramą ir priklausomybės grafiką; aptarkite, kokias išvadas galite
padaryti iš šių grafikų – ar stebite koreliacijas tarp parametrų;
kokia gali būti koreliacijų (ne)buvimo priežastis; pabandykite
neformaliai įvertinti, ar koreliacijos ir Jūsų nustatyti parametrai
yra statistiškai reikšmingi; ar jie atsikartos, jei pakartosite savo
tyrimą dar kartą su kita duomenų imtimi. Ataskaitą paverskite PDF
formato failu; įkelkite šiuos rezultatus į repozitoriją. Vertinimui
pateikite Moodle sistemoje savo sutvarkytos Subversijos darbinės
kopijos .zip arba .tgz archyvą.

Jūsų parašyta ataskaita bus Jūsų pranešimo kurso pabaigoje pagrindas.