Організація даних – ефективна робота з даними передбачає структуризацію файлів, документування процесу дослідження та метаданих.
Структуризація файлів потребує створення теки проєкту та окремих підпапок з джерелами публікації, статистичними (експериментальними) даними, результатами досліджень (програмний код, таблиці аналізу даних, текст роботи) та README-файлом.
Документування метаданих, методології аналізу і трансформації даних забезпечує розуміння даних та процесу дослідження усіма зацікавленими сторонами.
Метадані – інформація про оригінальні дані, що описують та допомагають класифікувати, упорядковувати та характеризувати дані. Ключовими елементами метаданих є визначення та позначення показників, одиниць їх виміру, короткий опис методології оцінювання та джерел даних.
Назви файлів мають бути унікальні, змістовні, не дуже довгі. Бажано використовувати стандартизовану форму для різних версій документів.
Рекомендовані елементи для назви файлів:
➠ назва проєкту або ім'я дослідник
➠ вид роботи або дата створення файлу (YYYYMMDD)
➠ версія документа (напр., V1, V1_2, V2)
➠ використання символів з наборів A-Z, a-z, 0-9, дефіс, підкреслення і крапка
Приклади: MultivariteAnalysis_Part2_20190221.docx, Protsiuk_Thesis_V1.pdf, UkrStat _2000-2019.xlsx
Для забезпечення машинного читання файлів використовують такі формати даних:
➠ Табличні дані – CSV замість XLSX
➠ Текстові дані – TXT або PDF замість DOC
➠ Бази даних – XML або SQLITE замість MDB, DBF, SQL
➠ Візуальні – PDF, TIFF, JPEG2000, MPEG-4, WAVE, AIFF
Збереження даних
Для збереження даних та їх відтворення на випадок пошкодження використовують резервне копіювання інформації.
Правила резервного копіювання 3-2-1:
➠ 3 копії (1 оригінал READ ONLY, 2 копії)
➠ 2 різні типи сховищ (жорсткий диск, USB, хмара)
➠ 1 копія на фізичному носії, 1 копія на е-диску
Спеціальні програми для управління проєктами та версіями файлів: GIT: GitHub, GitLab, BitBucket, Trello.
Платформи для зберігання та обміну файлами: Open Science Framework, Google Drive, Dropbox, Box.