Wiki¶
Título: Modelo de Replicação para a Preservação de Dados em Repositórios¶
Autor: Micael Ferreira Alves de Pinho¶
Orientadora: Maria Cristina de Carvalho Alves Ribeiro¶
Local: FEUP¶
Resumo Curto:¶
O projeto de dissertação aqui apresentado teve por objetivo a criação de um sistema para a geração de cópias de segurança dos conteúdos existentes numa instância DSpace, para que em caso de necessidade futura, seja possível a sua restauração. Optou-se por um repositório DSpace, visto que os investigadores da Universidade do Porto já estão bastante familiarizados com esta plataforma.
Desenvolveu-se um componente de backup para a geração de cópias de segurança e outro para restauração dos conteúdos. Estes componentes foram desenvolvidos utilizando as ferramentas de backup disponíveis no DSpace. Efetuaram-se melhorias nas mesmas, através da criação de interfaces mais intuitivas e melhoria dos próprios processos com a redução do processamento e tempo requerido.
A geração das cópias de segurança levantou questões sobre a disponibilidade e integridade das mesmas, visto que é possível que elas também sofram danos. O envio destas para outras localizações remotas foi ponderado, tendo-se analisado a possibilidade de utilização de serviços de armazenamento cloud. De modo a tornar abstrata a ligação com diferentes serviços cloud optou-se pela utilização do software open-source jclouds.
Para garantir a consistência, integridade e acessibilidade das cópias de segurança foram desenvolvidas duas componentes, uma para o envio das mesmas para a cloud e outra para a obtenção delas da cloud.
Resumo (pt):¶
A entrada no mercado das novas tecnologias digitais impulsionou o nosso mundo para uma era em que a criação, manipulação e o armazenamento de informação de forma digital cresceu significativamente. Por outro lado, surgiram alguns problemas relacionados com a preservação a longo prazo dessa mesma informação.
Atualmente, já existem repositórios que permitem o armazenamento e preservação de conteúdos digitais. Contudo, acontecimentos imprevisíveis, como ocorrência de catástrofes naturais, falhas de hardware, ou até mesmo erros humanos, podem provocar danos nos servidores, colocando em risco a informação existente.
Alguns conteúdos existentes nos repositórios digitais poderão ter um elevado valor e importância, e como tal, a sua perda poderá ter consequências graves. Por exemplo, no contexto de investigação, os conjuntos de dados (datasets) recolhidos possuem uma grande importância na validação de resultados obtidos em investigações e além disso constituem uma importante fonte de evidência para trabalhos futuros.
Hoje em dia já existem várias plataformas de repositórios disponíveis no mercado, sendo uma delas o DSpace. Este facilita o processo de criação de repositórios institucionais, para a recolha, partilha e preservação digital de conteúdos intelectuais, dos mais diversificados formatos digitais. O DSpace também fornece um vasto conjunto de ferramentas, para uma gestão eficaz dos conteúdos digitais, e em caso de algum formato digital se tornar obsoleto, é possível a sua migração para um dos formatos mais divulgados.
O projeto de dissertação aqui apresentado teve por objetivo a criação de um sistema para a geração de cópias de segurança dos conteúdos existentes numa instância DSpace, para que em caso de necessidade futura, seja possível a sua restauração. Optou-se por um repositório DSpace, visto que os investigadores da Universidade do Porto já estão bastante familiarizados com esta plataforma.
Desenvolveu-se um componente de backup para a geração de cópias de segurança e outro para restauração dos conteúdos. Estes componentes foram desenvolvidos utilizando as ferramentas de backup disponíveis no DSpace. Efetuaram-se melhorias nas mesmas, através da criação de interfaces mais intuitivas e melhoria dos próprios processos com a redução do processamento e tempo requerido.
A geração das cópias de segurança levantou questões sobre a disponibilidade e integridade das mesmas, visto que é possível que elas também sofram danos. O envio das destas para outras localizações remotas foi ponderado, tendo-se analisado a possibilidade de utilização de serviços de armazenamento cloud. De modo a tornar abstrata a ligação com diferentes serviços cloud optou-se pela utilização do software open-source jclouds.
Para garantir a consistência, integridade e acessibilidade das cópias de segurança foram desenvolvidas duas componentes, uma para o envio das mesmas para a cloud e outra para a obtenção delas da cloud.
Resumo (ing):¶
The appearance of new digital technologies in the market has launched our world into an era in which the creation, manipulation and storage of digital information have grown significantly in terms of importance. On the other hand, many problems associated with the preservation and interpretation of such information also rose.
One of the current solutions for this problems are some digital repositories that allow the storage and preservation of digital content. However, the unpredictable can happen, for example, natural disasters, hardware failure or human failure, all of which may cause damage to the server and put the stored information at risk.
Some of the content of the digital repository is of great value and importance, and for that reason, it could lead to serious consequences. For example, in research activities, the datasets are extremely important to validate the results obtained in researches and for reuse in futures researches.
At the present, there is more than one option of digital repository in the market and DSpace is one example. DSpace allows one to easily create an institutional repository, in order to collect, share and preserve intellectual digital content in diverse file formats.
DSpace also has many tools for the effective management of digital content. In case of a file format becoming outdated, it is possible to migrate its content to a new file format.
The goal of this project, is the development of a system for the creation of backups from the digital content preserved in a DSpace repository, in order to allow future restoration if necessary. DSpace has been chosen because it is widely used across the University of Porto.
Backup and restoration components have been developed for the creation and restoration of digital content. These components have been developed with the use of the backup tools incorporated in DSpace. Some improvements have been made through the creation of intuitive interfaces and the improvement of processes allowing the reduction of time and processing required.
The backup file creation posed problems regarding the integrity and availability of the information because it was also exposed to the risk damage. The upload to other remote locations was considered and the use of cloud storage services was analysed. In order to abstract the connection with different cloud services, the open-source software jclouds was used. To allow the consistency, integrity and accessibility of the backup files, two components have been developed, one of them to send the backup files to the cloud and the other one to receive the backup files from the cloud.