Что является хранилище информации

Что является хранилище информации

Понятие «хранилища данных» (ХД) (data warehouse) появилось сравнительно недавно. Потребность в этом термине возникает, в основном, тогда, когда требуется интеграция тематической, текстовой информации и данных, необходимых для принятия решений. Изначально такие совокупности получили название «хранилища информации» (information warehouse), что представляется более верным, поскольку текстовые документы (книги, статьи, диссертации, документы вторичной информации — реферативная, обзорная, экспресс-информация и т.п.) нельзя считать данными, и в органах, занимающихся регистрацией, хранением и обработкой информации, приняты термины «информационные массивы», а места хранения так и называют — «хранилища». Однако позднее, в 1990-е гг. Б. Инмоном [1] в ряде опубликованных им работ был использован термин «хранилища данных». Нередко этот термин используют для всех видов информации.

Обычные БД предназначены для того, чтобы помочь пользователям выполнять повседневную работу, в то время как ХД предназначены для принятия решений. В отличие от базы данных хранилище является основой для извлечения значимой информации из оперативной базы данных.

В основе концепции ХД лежат следующие положения [30]:

  • 1) интеграция и согласование данных из различных источников — обычные системы оперативной обработки базы данных, учетные системы, офисные документы, электронные архивы, внутренние и внешние документы;
  • 2) разделение наборов данных на данные, используемые для обработки транзакций [2] , т.е. для обработки повседневной, текущей информации, поступающей из цехов, складов, банков, от поставщиков и т.д., обеспечиваемой системами OLTP, и данных для систем поддержки принятия решений (СПИР), т.е. для анализа динамики продаж за несколько лет, позволяющего планирование работ с поставщиками и т.п.

Принципы организации хранилища определяются в разных источниках по-разному. По всей видимости, это связано с тем, что они определялись на основе опыта создания хранилищ для информационных систем разного вида и назначения.

По определению, сформулированному автором термина Б. Ипмоном, хранилище данных — это предметно-ориентированное, привязанное ко времени и неизменяемое собрание данных для поддержки процесса принятия управляющих решений. С учетом этого, отличительными особенностями ХД по сравнению с обычными БД считаются:

  • проблемно-предметная ориентация — данные объединяются в категории и хранятся в соответствии с областями, которые они описывают, а не с приложениями, которые они используют;
  • интегрированность — данные объединены так, чтобы они удовлетворяли всем требованиям предприятия в целом, а не единственной функции бизнеса;
  • некорректируемость — данные в ХД не создаются, т.е. поступают из внешних источников, не корректируются и не удаляются;
  • зависимость от времени — данные в хранилище точны и корректны только в том случае, когда они привязаны к некоторому промежутку или моменту времени.

Для обновления данных предусмотрено два варианта:

  • 1) полное обновление данных в хранилище. Сначала старые данные удаляются, потом происходит загрузка новых данных. Процесс происходит с определенной периодичностью;
  • 2) инкрементальное обновление — обновляются только те данные, которые изменились в OLTP-системе.

Хранилище относительно стабильно: данные в нем обычно обновляются согласно расписанию (например, еженедельно, ежедневно или ежечасно в зависимости от потребностей). В идеале процесс пополнения представляет собой просто добавление новых данных за определенный период времени без изменения прежней информации, уже находящейся в хранилище.

Обычные БД являются источником данных, попадающих в хранилище. Кроме того, хранилище может пополняться за счет внешних источников, например статистических отчетов.

Основными требованиями к хранилищам данных являются:

  • • поддержка высокой скорости получения данных из хранилища;
  • • поддержка внутренней непротиворечивости данных;
  • • возможность получения и сравнения так называемых срезов данных;
  • • наличие удобных утилит просмотра данных в хранилище;
  • • полнота и достоверность хранимых данных;
  • • поддержка качественного процесса пополнения данных.

Удовлетворять всем перечисленным требованиям в рамках одного

и того же программного (или программно-аппаратного) продукта удается не всегда, поэтому для реализации хранилищ данных обычно применяются несколько программных продуктов, одни их которых представляют собой собственно средства хранения данных, другие — средства их извлечения и просмотра, третьи — средства их пополнения и т.д.

Логическая структура хранилища данных существенно отличается от структуры источников данных. Основным отличительным элементом хранилища является семантический слой, позволяющий оперировать данными посредством бизнес-терминов предметной области. Технология должна обеспечить интеграцию и согласование данных, поступающих из различных источников, разделение наборов данных с учетом целей их использования для обеспечения транзакций в OLTP и задач, решаемых в СППР.

Системы поддержки принятия решений обладают средствами предоставления пользователю агрегатных данных для различных выборок из исходного набора в удобном для восприятия и анализа виде. С точки зрения пользователя в процессе извлечения знаний из хранилища должны решаться следующие преобразования: данные —» информация —» знания —» —» полученные решения.

Помимо извлечения данных из хранилищ, для принятия решений используется процесс извлечения знаний в соответствии с информационными потребностями пользователя, осуществляемый с использованием технологий Business Intelligence, OLAP, ETL, Data Mining, являющимися составной частью СППР.

Первоначально в СППР использовался термин «business intelligence» («бизнес-аналитика» (BI)), который впервые появился в 1958 г. в статье X. П. Луна, который определил этот термин, как «возможность понимания связей между представленными фактами» [3] .

Технология BI — это методы и инструменты для перевода больших объемов неструктурированных данных информации в осмысленную, удобную форму, чтобы найти оперативные решения или стратегические возможности для бизнеса.

В 1989 г. Г. Дреснер определил «business intelligence» как общий термин, описывающий «концепции и методы для улучшения принятия бизнес- решений с использованием систем на основе бизнес-данных». В последуюгцсм возникает концепция Business Analytics [4] , одной из основных технологий которой является OLAP.

Технология комплексного многомерного анализа данных OLAP (On-Line Analytical Processing — аналитическая обработка в реальном времени) определяет способ организации хранилищ данных. Концепция OLAP была предложена в 1993 г. Э. Коддом [5] , а в 1995 г. на основе изложенных им требований был сформулирован так называемый тест FASMI (fast analysis of shared multidimensional information — быстрый анализ разделяемой многомерной информации), основными требованиями которого являются:

  • • предоставление пользователю результатов анализа за приемлемое время (обычно не более 5 с), пусть даже ценой менее детального анализа;
  • • возможность осуществления логического и статистического анализа, характерного для данного приложения, и его сохранения в доступном для пользователя виде;
  • • многомерное представление данных (концептуальное требование OLAP);
  • • возможность обращаться к любой необходимой информации независимо от ее объема и места хранения.

Будучи средством поддержки принятия решений, OLAP работает не с оперативными базами данных, а с ретроспективными архивами, хранящими данные за значительный период времени. Это позволяет вычислить промежуточные данные, которые ускоряют анализ гигантских объемов хранящейся информации. Используется многомерная модель данных в виде гиперкуба (см. параграф 3.3). Оси гиперкуба содержат параметры, а ячейки включают зависящие от них агрегатные данные. Вдоль каждой оси данные могут быть организованы в виде иерархии, представляющей различные уровни их детализации. Благодаря такой модели данных пользователи могут формулировать сложные запросы, генерировать отчеты, получать подмножества данных.

Существуют три типа моделей OLAP:

Развитием технологии извлечения знаний явилась технология ETL — один из основных процессов в управлении хранилищами данных, который включает в себя:

  • • извлечение данных из внешних источников;
  • • их трансформацию и очистку, чтобы они соответствовали нуждам бизнес-модели;
  • • загрузку их в хранилище данных.

С точки зрения процесса ETL, архитектуру хранилища данных можно представить в виде трех компонентов:

  • • источник данных — содержит структурированные данные в виде таблиц, совокупности таблиц или просто файла (данные в котором разделены символами-разделителями);
  • • промежуточная область — содержит вспомогательные таблицы, создаваемые временно и исключительно для организации процесса выгрузки;
  • • получатель данных — хранилище данных или база данных, в которую должны быть помещены извлеченные данные.

Перемещение данных от источника к получателю называют потоком данных. Требования к организации потока данных описываются аналитиком. Технологию ETL следует рассматривать не только как процесс переноса данных из одного приложения в другое, но и как инструмент подготовки данных к анализу.

Читайте также:  Как пользоваться nfc sony

Начальным этапом процесса ETL является процедура извлечения записи из источников данных и подготовка их к процессу преобразования. При разработке процедуры извлечения данных в первую очередь необходимо определить частоту выгрузки данных из OLTP-систем или отдельных источников. Выгрузка данных занимает определенное время, которое называется окном выгрузки. После извлечения данные помещаются в так называемую «промежуточную область», где для каждого источника данных создается своя таблица, или отдельный файл, или и то, и другое.

Цель этого этапа — подготовка данных к размещению в хранилище данных и приведение их к виду, более удобному для последующего анализа. При этом должны учитываться некоторые выдвигаемые аналитиком требования, в частности к уровню качества данных. Поэтому в процессе преобразования может быть задействован самый разнообразный инструментарий, начиная с простейших средств ручного редактирования данных и заканчивая системами, реализующими сложные методы обработки и очистки данных. В процессе преобразования данных в рамках ETL чаще всего выполняются следующие операции: преобразование структуры данных; агрегирование данных; перевод значений; создание новых данных; очистка данных.

С развитием технических средств и технологий визуализации возник новый вид ИТ — витрина данных — срез хранилища данных, представляющий собой массив тематической узконаправленной информации, ориентированный, например, на пользователей одной рабочей группы или департамента.

Концепция витрин данных была предложена компанией Forrester Research еще в 1991 г. По замыслу авторов, витрины данных — множество тематических БД, содержащих информацию, относящуюся к отдельным аспектам деятельности организации.

В 1994 г. М. Демарест предложил объединить две концепции — хранилищ данных и витрин данных — и использовать хранилище данных в качестве единого интегрированного источника данных для витрин данных.

Для извлечения значимой информации из баз знаний используются специальные методы (Data Mining или Knowledge Discovery), основанные на применении либо многомерных статистических таблиц, либо индуктивных методов построения деревьев решений, либо нейронных сетей. Формулирование запроса осуществляется в результате применения интеллектуального интерфейса, позволяющего в диалоге гибко определять значимые признаки анализа. Разработкой и распространением информационных хранилищ в настоящее время занимаются такие компьютерные фирмы, как IBM (Intelligent Miner), Silicon Graphics (MineSet), Intersolv (DataDirect, SmartData), Oracle (Express), SAS Institute (SAS/Assist), система Crystal Info компании Seagate Software и др.

С развитием интернет-технологий возникли новые технологии хранения данных — виртуальные хранилища и облачные платформы.

Виртуальное хранилище данных — это система, представляющая интерфейсы и методы доступа к регистрирующей системе, которые позволяют работать с данными в этой системе как с хранилищем данных. Виртуальное хранилище данных можно организовать на основе технологии баз данных, либо применив специальные средства доступа, например продукты класса Desktop OLAP, к которым относятся BusinessObjects, Brio Enterprise и др. [6]

Облачные технологии — информационно-технологическая концепция, подразумевающая обеспечение удобного сетевого доступа по требованию к общим вычислительным ресурсам, в составе которых могут быть не только собственно данные и устройства хранения данных, но и, например, сети передачи данных, серверы, программные приложения, которые могут быть оперативно предоставлены и освобождены с минимальными эксплуатационными затратами или обращениями к провайдеру [1]. Поэтому в последнее время используют термины «облачные платформы» и «облачные вычисления» (англ, cloud computing). Термин «cloud computing» произошел от условного изображения Интернета в виде облака, которое является образом сложной инфраструктуры, скрывающим технические детали ее реализации.

Платформа как услуга (PaaS, Platform-as-a-Service) — модель, когда потребителю предоставляется возможность использования облачной инфраструктуры для размещения базового ПО для последующего размещения на нем новых или существующих приложений (собственных, разработанных на заказ или приобретенных). В состав таких платформ входят инструментальные средства создания, тестирования и выполнения прикладного ПО — СУБД, связующее ПО, языки программирования.

Контроль и управление основной физической и виртуальной инфраструктурой облака, в том числе сети, серверов, ОС, хранения, осуществляется облачным провайдером, за исключением разработанных или установленных приложений, а также, по возможности, параметров конфигурации среды (платформы). Облачные технологии получили широкое распространение примерно с 2006 г. Однако ранние концепции использования вычислительных ресурсов по принципу системы «коммунального хозяйства» относят к 1960-м гг. [7]

Следующими шагами к концептуализации облачных вычислений считаются появление CRM-системы (customer relationship management — управления взаимоотношениями с клиентами), которую стали предоставлять по подписке в виде веб-сайта (1999), и начало предоставления услуг по доступу к вычислительным ресурсам через Интернет книжным магазином Amazon.com (2002).

Развитие сервисов Amazon, фактически превратившейся благодаря этим услугам в технологическую компанию, привело к формулировке идеи и запуску в августе 2006 г. проекта под названием «Elastic Computing Cloud» (Amazon EC2). Практически одновременно с запуском ЕСС термины «cloud» и «cloud computing» прозвучали в одном из выступлений главы Google Э. Шмидта [8] . Начиная с этого времени, встречаются многочисленные упоминания облачных вычислений в СМИ, в публикациях специалистов по информационным технологиям.

Запуск в 2009 г. приложений Google Apps отмечается как следующий важный шаг к популяризации и осмыслению облачных вычислений. В 2009—2011 гг. было сформулировано несколько важных обобщенных представлений об облачных вычислениях: например, выдвинута модель частных облачных вычислений, актуальная для применения внутри организаций, выделены различные модели обслуживания (SaaS, PaaS, IaaS). В 2011 г. Национальный институт стандартов и технологий сформировал определение, которое структурировало и зафиксировало все возникшие к этому времени трактовки и вариации относительно облачных вычислений в едином понятии [9] .

Главный принцип облачных вычислений заключается в том, что для пользователя не имеет значения, где и каким образом осуществляются обработка и предоставление необходимых ему ресурсов. В основе организации облачных технологий лежат принципы сервис-ориентированной архитектуры. Идея облачных вычислений состоит в том, что вес необходимые ИТ-ресурсы предоставляются пользователям как интернет-сервис.

В настоящее время концепция облачных технологий глубоко проникает в различные информационно-технологические сферы и занимает все более весомую роль в практике.

Национальным институтом стандартов и технологий США зафиксированы следующие обязательные характеристики облачных вычислений [10] :

  • самообслуживание по требованию(self service on demand) — потребитель самостоятельно определяет и изменяет вычислительные потребности: серверное время, скорости доступа и обработки данных, объем хранимых данных — без взаимодействия с представителем поставщика услуг;
  • универсальный доступ по сети — услуги доступны потребителям по сети передачи данных вне зависимости от используемого терминального устройства;
  • объединение ресурсов(resource pooling) — поставщик услуг объединяет ресурсы для обслуживания большого числа потребителей в единый пул для динамического перераспределения мощностей между потребителями в условиях постоянного изменения спроса на мощности; при этом потребители контролируют только основные параметры услуги (например, объем данных, скорость доступа), но фактическое распределение ресурсов, предоставляемых потребителю, осуществляет поставщик (в некоторых случаях потребители все-таки могут управлять некоторыми физическими параметрами перераспределения);
  • эластичность — услуги могут быть предоставлены, расширены, сужены в любой момент времени, без дополнительных издержек на взаимодействие с поставщиком, как правило, в автоматическом режиме;
  • учет потребления — поставщик услуг автоматически исчисляет используемые ресурсы на определенном уровне абстракции (например, объем хранимых данных, пропускная способность, количество пользователей, количество транзакций) и на основе этих данных оценивает объем предоставленных потребителям услуг.

С точки зрения поставщика, благодаря объединению ресурсов и непостоянному характеру потребления со стороны потребителей облачные вычисления позволяют экономить, использовать меньшие аппаратные ресурсы, чем требовались бы при выделенных аппаратных мощностях для каждого потребителя, а за счет автоматизации процедур модификации выделения ресурсов существенно снижаются затраты на абонентское обслуживание. С точки зрения потребителя эти характеристики позволяют получить услуги с высоким уровнем доступности и низкими рисками неработоспособности, обеспечить быстрое масштабирование вычислительной системы благодаря эластичности без необходимости создания, обслуживания и модернизации собственной аппаратной инфраструктуры.

Удобство и универсальность доступа обеспечивается широкой доступностью услуг и поддержкой различного класса терминальных устройств — персональных компьютеров, мобильных телефонов, планшетов.

Читайте также:  Какая видеокамера хорошая и недорогая

Существуют различные модели облачных технологий:

  • частное облако (private cloud) — инфраструктура, предназначенная для использования одной организацией;
  • публичное облако — инфраструктура, предназначенная для свободного использования широкой публикой. Публичное облако может находиться в собственности, управлении и эксплуатации коммерческих, научных и правительственных организаций (или какой-либо их комбинации). Публичное облако физически существует в юрисдикции владельца — поставщика услуг;
  • общественное облако (community cloud) — вид инфраструктуры, предназначенный для использования конкретным сообществом потребителей из организаций, имеющих общие задачи (например, миссии, требований безопасности, политики и соответствия различным требованиям). Общественное облако может находиться в кооперативной (совместной) собственности, управлении и эксплуатации одной или более организаций сообщества или третьей стороны (либо их комбинации) и может физически существовать как внутри, так и вне юрисдикции владельца;
  • гибридное облако (hybrid cloud) — комбинация из двух или более различных облачных инфраструктур (частных, публичных или общественных), остающихся уникальными объектами, но связанных между собой стандартизованными или частными технологиями передачи данных и приложений (например, кратковременное использование ресурсов публичных облаков для балансировки нагрузки между облаками).

Для сглаживания неравномерности нагрузки на услуги применяется размещение слоя серверной виртуализации между слоем программных услуг и аппаратным обеспечением. В условиях виртуализации балансировка нагрузки может осуществляться посредством программного распределения виртуальных серверов по реальным.

Назначение информационного хранилища

Информационное хранилище (Data Warehousing) — это место хранения данных предприятия, предназначенное для упрощения принятия управленческих решений. Информационное хранилище включает в себя не только данные, но также инструменты, процедуры, обучение, персонал и другие ресурсы, облегчающие доступ к данным и делающие его более осмысленным для лиц, принимающих решения. Назначение информационного хранилища состоит в увеличении ценности информационных активов предприятия [15].Роль информационного хранилища заключается в том, чтобы хранить выдержки из рабочих данных и выдавать их пользователям в удобном формате. Это могут быть как выдержки из базы данных и файлов, так и отсканированные образы документов, записи, фотографии и другие данные. Информационные хранилища служат для хранения, комбинирования, агрегирования, преобразования и доставки данных пользователям с помощью средств анализа и принятия решений, таких как OLAP [10].Информационное хранилище считается новым этапом представления данных в рамках современных бизнес-процессов. Концепция информационных хранилищ предложена в 1990 году Уильямом Инмоном. По-иному информационное хранилище — есть предметно-ориентированный, интегрированный, неизменный, поддерживающий хронологию набор данных, предназначенный для поддержки принятия решений. В этом определении соединены две различные функции:

— сбор, организация, подготовка данных для анализа в виде постоянно наращиваемой базы данных;

— анализ, как элемент принятия решений.

Назначение информационного хранилища заключается в следующем:

— интеграция данных в масштабе бизнес-процессов;

— функционально-стоимостной анализ эффективности бизнес-процессов;

— сложные аналитические запросы в разрезах: виды услуг, клиенты, регионы, технологии;

— анализ данных в динамике и в сравнении с показателями отрасли. Основная цель информационного хранилища — сделать все значимые для управления бизнесом данные доступными в стандартизованной форме, пригодными для анализа и получения необходимых отчетов [7].

Свойства информационного хранилища

Уильям Инмон дал классическое определение информационного хранилища в 1990 г. Он охарактеризовал его как специальным образом администрируемую базу данных, содержимое которой имеет следующие свойства:

Инвариантность во времени

Неразрушаемость — стабильность информации

Минимизация избыточности информации

В отличие от БД в традиционных OLTP-системах, где данные подобраны в соответствии с конкретными приложениями, информация в DW ориентирована на задачи поддержки принятия решений. Для системы поддержки принятия решений требуются «исторические» данные — факты продаж за определенные интервалы времени. Хорошо спроектированные структуры данных DW отражают развитие всех направлений бизнеса компании во времени.

Поскольку в DW-технологии объекты данных выходят на первый план, то особые требования предъявляются к структурам БД, используемым для создания информационных хранилищ. Принципиально отличаются и структуры баз данных для OLTP- и DW-систем. Во втором случае в них помещается только та информация, которая может быть полезной для работы систем поддержки принятия решений (DSS).

Данные в информационное хранилище поступают из различных источников, где они могут иметь разные имена, атрибуты, единицы измерения и способы кодировки. После загрузки в DW данные очищаются от индивидуальных признаков, т.е. как бы приводятся к общему знаменателю. С этого момента они представляются пользователю в виде единого информационного пространства.

Если в четырех разных приложениях пол клиента кодировался четырьмя различными способами, то в информационном хранилище будет использована единая для всех данных схема кодировки (например, f, m).

Инвариантность во времени

В OLTP-системах истинность данных гарантирована только в момент чтения, поскольку уже в следующее мгновение они могут измениться в результате очередной транзакции. Важным отличием DW от OLTP-систем является то, что данные в них сохраняют свою истинность в любой момент процесса чтения.

В OLTP-системах информация часто модифицируется как результат выполнения каких-либо транзакций. Временная инвариантность данных в DW достигается за счет введения полей с атрибутом «время» (день, неделя, месяц) в ключи таблиц. В результате записи в таблицах DW никогда не изменяются, представляя собой снимки данных, сделанные в определенные отрезки времени. В DW содержатся как бы моментальные снимки данных. Каждый элемент в своем ключе явно или косвенно хранит временной параметр, например день, месяц или год.

Неразрушаемость — стабильность информации

В OLTP-системах записи могут регулярно добавляться, удаляться и редактироваться. В DW-системах, как следует из требования временной инвариантности, однажды загруженные данные теоретически никогда не меняются. По отношению к ним возможны только две операции: начальная загрузка и чтение (доступ). Это и определяет специфику проектирования структуры базы данных для DW. Если при создании OLTP-систем разработчики должны учитывать такие моменты, как откаты транзакций после сбоя сервера, борьба с взаимными блокировками процессов (deadlocks), сохранение целостности данных, то для DW данные проблемы не столь актуальны — перед разработчиками стоят другие задачи, связанные, например, с обеспечением высокой скорости доступа к данным.

Минимизация избыточности информации

Поскольку информация в DW загружается из OLTP-систем, возникает вопрос, не ведет ли это к чрезмерной избыточности данных? Нет, утверждает Билл Инмон. На самом деле избыточность минимальна (около 1%!), что объясняется следующими причинами:

· при загрузке информации из OLTP-cистем в DW данные фильтруются. Многие из них вообще не попадают в DW, поскольку лишены смысла с точки зрения использования в системах поддержки принятия решений;

· информация в OLTP-системах носит, как правило, оперативный характер, и данные, потеряв актуальность, удаляются. В DW, напротив, хранится историческая информация, и с этой точки зрения перекрытие содержимого DW данными OLTP — систем оказывается весьма незначительным;

· в DW хранится некая итоговая информация, которая в базах данных OLTP-систем вообще отсутствует;

· во время загрузки в DW записи сортируются, очищаются от ненужной информации и приводят к единому формату. После такой обработки это уже совсем другие данные.

Компоненты информационного хранилища

ПО промежуточного слоя

Обеспечивает сетевой доступ и доступ к базам данных. Сюда относятся сетевые и коммуникационные протоколы, драйверы, системы обмена сообщениями и пр.

Транзакционные БД и внешние источники информации

Базы данных OLTP-систем исторически предназначались для эффективной обработки структур данных в относительно небольшом числе четко определенных транзакций. Из-за ограниченной целевой направленности «учетных» систем применяемые в них структуры данных плохо подходят для систем поддержки принятия решений. Кроме того, возраст многих установленных OLTP-систем достигает 10 — 15 лет.

Уровень доступа к данным

Относящееся сюда ПО обеспечивает общение конечных пользователей с информационным хранилищем и загрузку требуемых данных из транзакционных систем. В настоящее время универсальным языком общения служит язык структурированных запросов (SQL).

Загрузка и предварительная обработка

Этот уровень включает в себя набор средств для загрузки данных из OLTP-систем и внешних источников. Выполняется, как правило, в сочетании с дополнительной обработкой: проверкой данных на чистоту, консолидацией, форматированием, фильтрацией и пр.

Читайте также:  Лучшая вафельница для тонких вафель отзывы

Представляет собой ядро всей системы — один или несколько серверов БД.

Метаданные (репозиторий, «данные о данных»). Играют роль справочника, содержащего сведения об источниках первичных данных, алгоритмах обработки, которым исходные данные были подвергнуты, и т.д.

Уровень информационного доступа

Обеспечивает непосредственное общение пользователя с данным DW посредством стандартных систем манипулирования, анализа и предоставления данных типа MS Excel, MS Access, Lotus 1-2-3 и др.

Уровень управления (администрирования)

Отслеживает выполнение процедур, необходимых для обновления информационного хранилища или поддержания его состояния. Здесь программируются процедуры подкачки данных, перестройки индексов, выполнения итоговых (суммирующих) расчетов, репликации данных, построения отчетов, формирования сообщений пользователям, контроля целостности и др.

Под хранением информации (от хранить – содержать в безопасности/целости [12]) следует понимать содержание информации во внешней памяти компьютера.

С хранением информации связаны такие понятия, как носитель информации (память), внутренняя память, внешняя память, хранилище информации. Носитель информации – это физическая среда, непосредственно хранящая информацию. Основным носителем информации для человека является его собственная биологическая память (мозг человека). Ее можно назвать внутренней памятью, поскольку ее носитель – мозг – находится внутри человека. Все прочие виды носителей информации можно назвать внешними (по отношению к человеку). Виды этих носителей менялись со временем от камня до бумаги. Развитие информационной техники привело к созданию магнитных, оптических и других современных видов носителей информации.

Хранилище информации – это определенным образом организованная совокупность данных на внешних носителях, предназначенная для длительного хранения и постоянного использования. Примерами хранилищ являются архивы документов, библиотеки, справочники, картотеки. Основной информационной единицей хранилища является определенный физический документ – анкета, книга, дело, досье, отчет и пр. Под организацией хранилища понимается наличие определенной структуры, т.е. упорядоченность, классификация хранимых документов. Такая организация необходима для удобства ведения хранилища: пополнения его новыми документами, удаления ненужных документов, поиска информации и пр.

Знания, хранящиеся в памяти человека, можно рассматривать как внутреннее хранилище информации, однако организацию этого хранилища нам понять трудно. Основное свойство человеческой памяти – большая скорость воспроизведения хранящейся в ней информации. Но по сравнению с внешними хранилищами человеческая память менее надежна. Поэтому для более надежного хранения человек использует внешние носители, организует хранилища информации.

Основные свойства хранилища информации – объем хранимой информации, надежность хранения, время доступа (т.е. время поиска нужных сведений), наличие защиты информации.

Информацию, хранимую на устройствах компьютерной памяти, принято называть данными. Организованные хранилища данных на устройствах внешней памяти компьютера принято называть базами данных.

В современных компьютерах основными носителями информации для внешней памяти служат магнитные и оптические диски. Рассмотрим, каким образом организуется хранение информации на магнитных дисках. Такой подход оправдан тем, что оптические диски для этой цели стали использоваться гораздо позже, а потому ради обеспечения совместимости с магнитными устройствами они во многом имитируют структуру последних.

Размещение информации наносителях. Обычный магнитный диск имеет две поверхности, пригодные для размещения информации, которые в технической литературе принято называть сторонами (side) диска. Учитывая, что в накопителях на жестких дисках на одной оси могут устанавливаться несколько дисковых пластин, общее количество сторон может быть и больше [8].

Каждую поверхность обслуживает собственная магнитная головка (head). Все головки собраны в единый механический блок и могут двигаться вдоль радиуса дисков, причем движение это является дискретным, т.е. головки занимают относительно диска только строго определенные положения. Наконец, каждая дорожка разделена на отдельные секторы (sector) (рис. 1.4). Сектор является неделимой порцией информации и может быть прочитан только целиком. Последней координатой информации на диске служит номер требуемого байта в секторе.

Итак, положение байта информации на магнитном диске определяется четырьмя “координатами”: номером стороны, номером дорожки диска, номером сектора и номером байта в нем. Такая система хранения данных сложна и требует определенных усилий по их извлечению. Поэтому созданы специальные программы, которые позволяют пользователю извлекать необходимые данные, не требуя от него знания всех этих координат.

Единицы хранения данных.При хранении данных решаются две проблемы: как сохранить данные в наиболее компактном виде и как обеспечить к ним удобный и быстрый доступ (если доступ не обеспечен, то это не хранение). Для обеспечения доступа необходимо, чтобы данные имели упорядоченную структуру, а при этом возникает необходимость дополнительно записывать адресные данные. Без них нельзя получить доступ к нужным элементам данных, входящих в структуру [8].

Поскольку адресные данные тоже имеют размер и тоже подлежат хранению, хранить данные в виде мелких единиц, таких, как байты, неудобно. Их неудобно хранить и в более крупных единицах (килобайтах, мегабайтах и т.п.), поскольку неполное заполнение одной единицы хранения приводит к неэффективности хранения.

В качестве единицы хранения данных принят объект переменной длины, называемый файлом. Файл – это последовательность произвольного числа байтов, обладающая уникальным собственным именем. Обычно в отдельном файле хранят данные, относящиеся к одному типу. В этом случае тип данных определяет тип файла.

В определении файла особое внимание уделяется имени. Оно фактически несет в себе адресные данные, без которых данные, хранящиеся в файле, не станут информацией из-за отсутствия метода доступа к ним. Кроме функций, связанных с адресацией, имя файла может хранить и сведения о типе данных, заключенных в нем. Для автоматических средств работы с данными это важно, поскольку по имени файла они могут автоматически определить адекватный метод извлечения информации из файла. Очевидно, что имя файла должно быть уникальным, так как это обеспечивает однозначность доступа к данным.

Понятие о файловой структуре.Хранение файлов организуется в иерархической структуре, которая в данном случае называется файловой структурой. В качестве вершины структуры служит имя носителя, на котором сохраняются файлы. Далее файлы группируются в каталоги (папки), внутри которых могут быть созданы вложенные каталоги (папки). Путь доступа к файлу начинается с имени устройства и включает все имена каталогов (папок), через которые проходит. В качестве разделителя используется символ “” (обратная косая черта).

Уникальность имени файла обеспечивается тем, что полным именем файла считается собственное имя файла вместе с путем доступа к нему. Понятно, что в этом случае на одном носителе не может быть двух файлов с тождественными полными именами.

Пример записи полного имени файла:

Следует иметь в виду, что сектора с информацией одного файла совсем не обязательно располагаются по порядку в одном месте диска. При записи система активно использует свободные места, которые образуются при удалении ненужных файлов. В результате отдельные части файла вполне могут попасть в разные области диска, что будет заметно замедлять доступ к информации. Для устранения этого явления в состав операционных систем обычно входят специальные служебные программы дефрагментации файлов.

Такой подход к организации хранения данных исторически был обусловлен тем, что в качестве материального носителя данных использовались накопители на магнитных дисках. При этом поверхность диска, на которую осуществлялась запись данных, форматировалась: разбивалась на дорожки и сектора. Программы форматирования обеспечивали создание сектора объемом 512 байт. Таким образом, для записи данных, принадлежащих одному файлу, как правило, требуется нескольких секторов. На рисунке отчетливо видно, что сектора на внешних дорожках диска имеют больший размер, чем ближайшие к центру. Это дает основания считать, что данные дорожки должны записываться более надежно. Поэтому нулевая дорожка, которая служит для хранения наиболее важной системной информации, всегда размещается на внешнем кольце поверхности диска.

Дата добавления: 2014-12-26 ; Просмотров: 1620 ; Нарушение авторских прав?

Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет

Ссылка на основную публикацию
Что такое видеокарта кратко
Из статьи читатель узнает об устройстве, принципах работы и основных характеристиках видеокарты, а также о том, что нужно учитывать при...
Что можно достать из старого монитора
Ребята, мы вкладываем душу в AdMe.ru. Cпасибо за то,что открываете эту красоту. Спасибо за вдохновение и мурашки.Присоединяйтесь к нам в...
Что можно писать на javascript
Аспирант Нетологии Максим Пименов рассказывает про JavaScript — невероятно популярный язык программирования, который учит сайты реагировать на поведение посетителей. JavaScript...
Что такое винчестер в компьютере фото
Что такое HDD, жёсткий диск и винчестер - эти слова являются разными широко распространёнными терминами одного и того же устройства,...
Adblock detector