banner
Lar / blog / Malha de dados versus outras opções de gerenciamento de dados
blog

Malha de dados versus outras opções de gerenciamento de dados

May 01, 2023May 01, 2023

Getty Images

As organizações que buscam mais valor dos dados têm muitas estratégias para escolher. Certifique-se de entender as opções e suas respectivas limitações para escolher a arquitetura de dados certa.

As organizações não devem negligenciar as necessidades de dados e a estratégia de dados ao comprar ferramentas. Se o fizerem, podem fazer escolhas de tecnologia abaixo do ideal e subestimar a governança, segurança e privacidade de dados, disse Srujan Akula, CEO da The Modern Data Company, que fornece um sistema operacional de dados.

"Os profissionais devem priorizar a comunicação, envolver as partes interessadas e garantir uma compreensão abrangente dos objetivos e requisitos de sua organização antes de implementar qualquer solução de arquitetura de dados", disse Akula. Além disso, o treinamento da equipe e o desenvolvimento de habilidades são partes cruciais da adoção da tecnologia.

A malha de dados é o capítulo mais recente na evolução das arquiteturas de dados. As arquiteturas de análise de dados começaram com data warehouses antes de evoluir para data lakes. A malha de dados é a terceira versão a ser considerada pelas organizações.

"A malha de dados atende às necessidades de escala e variedade de dados, bem como à velocidade de obtenção de insights desses sistemas", disse Ravi Mayuram, CTO da empresa de banco de dados NoSQL de código aberto Couchbase.

Este artigo explora o que é malha de dados e como ela difere de outras abordagens comuns, incluindo data warehouses, data lakes e data fabrics. Ele também fornece conselhos práticos para organizações que implementam uma abordagem de malha de dados.

A malha de dados aborda os desafios de dimensionar dados e análises em organizações complexas. A malha de dados é uma arquitetura de dados descentralizada que organiza dados por domínios e é predominantemente focada em pessoas e processos. Zhamak Dehghani, CEO da Nextdata, foi pioneira no conceito enquanto trabalhava na consultoria de tecnologia Thoughtworks.

Possui quatro princípios fundamentais:

Essa abordagem contrasta a malha de dados com equipes e estruturas de dados centralizados. Essas equipes centralizadas tentam resolver todos os problemas, disse Lior Gavish, CTO do fornecedor de soluções de observabilidade de dados Monte Carlo Data. A malha de dados deve ajudar as empresas a escalar as equipes de dados. "Como podemos permitir que várias equipes diferentes usem dados de maneira eficaz e independente umas das outras?" Gavish disse.

Um data warehouse tende a ser monolítico e carrega dados em um único ambiente, funcionando como um repositório de dados que suporta análises e tomadas de decisão. Uma malha de dados permite um ambiente distribuído onde os dados não precisam ser movidos para fornecer valor comercial. Um data warehouse e uma malha de dados não são mutuamente exclusivos, porque um data warehouse pode fazer parte de uma malha de dados.

A filosofia por trás de um data warehouse é criar uma única versão da verdade e centralizá-la sob o controle da TI. O data warehouse é a plataforma de dados; é onde os usuários armazenam e criam produtos de dados.

"A malha de dados se concentra mais em uma mentalidade organizacional que trata os dados como produtos de primeira classe pertencentes a domínios individuais", disse Dipankar Mazumdar, defensor do desenvolvedor da Dremio, um provedor de soluções de data lake aberto.

Há desvantagens na abordagem do data warehouse.

"Os dados monolíticos impulsionam processos complexos de gerenciamento de mudanças [e] criam tempos de aceleração prolongados para novos técnicos", disse Jon Osborn, CTO de campo da empresa de automação de pipeline de dados Ascend.io. "[Também] alimenta uma lista de pendências de engenharia sem fim com solicitações que devem ser autoatendidas."

Como um data warehouse, um data lake centraliza o armazenamento e o processamento de dados, embora um data lake possa armazenar dados estruturados e não estruturados principalmente em arquivos ou armazenamento de objetos. Ele também pode se tornar parte de uma malha de dados.

"O conceito de malha de dados depende de uma camada de malha que une fontes de dados operacionais e data lakes específicos de domínio", disse Mayuram.

Fundamentalmente, ao avaliar o data lake ou abordagem de malha, ou combinação de ambos, um líder de dados deve entender se as arquiteturas para gerenciar dados distribuídos são apropriadas para sua organização. Grandes organizações com arquiteturas complexas podem sofrer com silos de dados e problemas de acessibilidade. Isso torna assustadora a integração de dados de diferentes fontes, disse Bob Audet, sócio e líder em gerenciamento de dados da Guidehouse, uma empresa de consultoria, serviços digitais e gerenciados.