Iedereen in de datawereld wil het liefst de hele dag bouwen aan voorspellende modellen, interactieve dashboards ontwikkelen of complexe data pipelines. Maar laten we eerlijk zijn: voordat je kunt rennen, moet je eerst leren lopen. En voordat je de business kunt overtuigen met bijvoorbeeld AI, moet je simpelweg weten welke data je in huis hebt. Welkom in de onvermijdelijke, en vaak onterecht als saai bestempelde, wereld van data governance. Everyone in the data world would love to spend all day building predictive models, developing interactive dashboards, or constructing complex data pipelines. But let's be honest: before you can run, you must first learn to walk. And before you can convince the business with AI, for instance, you simply need to know what data you have. Welcome to the inevitable, and often unfairly labeled as boring, world of data governance.
Wat is data governance nou echt? What is data governance really?
Vergeet even de theorieboeken. Zie je dataplatform of datawarehouse als een grote voorraadkast in een restaurant. Zonder governance pakt elke analist maar wat ingrediënten waarvan niemand weet hoe lang ze er al liggen. Data governance is de overgang van een typische, niet-steriele studentenkeuken (sorry voor het generaliseren) naar een sterrenrestaurant. Je wilt exact weten waar je ingrediënten vandaan komen (data lineage), wanneer de kip over de datum is (datakwaliteit) en wie de chef-kok is als de saus schift (data ownership). Je serveert het management tenslotte geen dashboard op basis van bedorven data. Forget the textbooks for a moment. Look at your data platform or data warehouse as a large pantry in a restaurant. Without governance, every analyst just grabs whatever ingredients, with no one knowing how long they have been sitting there. Data governance is the transition from a typical, non-sterile student kitchen (apologies for the generalization) to a Michelin-starred restaurant. You want to know exactly where your ingredients come from (data lineage), when the chicken is expired (data quality), and who the head chef is when the sauce curdles (data ownership). After all, you don't serve management a dashboard based on spoiled data.
Onze zoektocht naar de ideale inrichting voor een volwassen dataplatform, zijn we pragmatisch aangevlogen. We hebben de focus gelegd op een aantal praktische assen die voor ons bepalen of een tool écht werkt in de praktijk: In our search for the ideal setup for a mature data platform, we took a pragmatic approach. We focused on a number of practical pillars that determine for us whether a tool truly works in practice:
- Data catalog: Data catalog: De inventaris bestaand uit je ‘data assets’. Of in de context van bovenstaande metafoor: een totaaloverzicht van alle producten op voorraad, van kookroom tot tijgergamba. Welke entiteiten(tabellen) zijn beschikbaar? Waar staat alles? Kunnen we tabellen, pipelines en dashboards makkelijk terugvinden zonder dat we de originele ontwikkelaar hoeven te bellen? The inventory consisting of your 'data assets'. Or, in the context of the metaphor above: a complete overview of all products in stock, from cooking cream to tiger prawns. Which entities (tables) are available? Where is everything located? Can we easily find tables, pipelines, and dashboards without having to call the original developer?
- Data glossary: Data glossary: De menukaart waarin voor iedereen dezelfde definities staan opgenomen, om weer een link te leggen naar het restaurant. Spreken we dezelfde taal? Dit is echt cruciaal. Als marketing het over een 'actieve klant' heeft, telt finance dan op dezelfde manier? Op basis van dezelfde definitie? Zonder glossary praat men langs elkaar heen. The menu containing the same definitions for everyone, to link back to the restaurant metaphor. Do we speak the same language? This is absolutely crucial. If marketing talks about an 'active customer', does finance count them the same way? Based on the same definition? Without a glossary, people talk past each other.
- Data lineage: Data lineage: De herleidbaarheid: van informatie in dataproducten gebouwd voor de business helemaal terug tot de benodigde assets (kolommen) van tabellen in de diverse bronsystemen. Waar komt de tabel vandaan (lineage)? Welke afhankelijkheden zijn er? Welke impact heeft deze wijziging van tabel A uit bronsysteem X. Hoe wordt deze bijgewerkt? Traceability: from information in data products built for the business all the way back to the required assets (columns) of tables in the various source systems. Where does the table come from (lineage)? What dependencies exist? What impact does changing table A in source system X have? How is it updated?
- Datakwaliteit: Data quality: Is de data vers en accuraat? Strategische keuzes baseren op vervuilde, oude of incomplete data kost simpelweg geld en geloofwaardigheid. We willen direct zien of een tabel up-to-date is en of de kwaliteit tests zijn geslaagd. Zijn de waardes in kolom X wel uniek? Komen er lege waardes (NULL values) voor in kolom Y, hoe groeit het waarde bereik van kolom Z door de tijd, zien we gekke uitschieters? Is the data fresh and accurate? Basing strategic choices on dirty, old, or incomplete data simply costs money and credibility. We want to see immediately if a table is up-to-date and if the quality tests have passed. Are the values in column X unique? Do empty values (NULL values) occur in column Y? How does the value range of column Z grow over time? Do we see any strange outliers?
- Data classificatie: Data classification: Het labelen van de data. Wat is privacygevoelig? Wat is bedrijfsgeheim? Welke actie(s) gaan we daarop ondernemen? Essentieel voor je AVG/GDPR compliance, want een datalek is typisch een gevalletje ‘beter voorkomen dan genezen’. Labeling the data. What is privacy-sensitive? What is a trade secret? What action(s) will we take based on that? Essential for your GDPR compliance, because a data breach is typically a case of 'better safe than sorry'.
- Data ownership: Data ownership: De grote ‘wie-maken-we-wakker-als-het-stuk-is’ vraag. Welke chef-kok moet benaderd worden bij vragen of in geval van nood? Geen ‘zwevende’ datasets meer, maar een duidelijke eigenaar per domein of misschien zelfs een niveau dieper. The big 'who-do-we-wake-up-when-it-breaks' question. Which head chef should be approached for questions or in case of an emergency? No more 'floating' datasets, but a clear owner per domain or perhaps even a level deeper.
Met deze afgebakende scope als vertrekpunt, hebben we drie oplossingsrichtingen tegen het licht gehouden: Zelfbouw, DataHub, en Open Metadata. With this defined scope as a starting point, we evaluated three solution directions: In-house development, DataHub, and Open Metadata.
Zelfbouw In-house development
Het syndroom van de overmoedige engineer 😉 We kennen allemaal de verleiding. ‘Hoe moeilijk kan het zijn? We bouwen wel even een eigen portal met een database en een simpele frontend.’ Je begint vol frisse moed met een Python-script dat wat schema's uit je data warehouse trekt. Al gauw wil de business er definities aan toevoegen. Het resultaat is dat je al snel meer tijd kwijt bent aan het beheren en patchen van je eigen maatwerkoplossing dan aan het daadwerkelijk creëren van waarde voor de business. The overconfident engineer syndrome 😉 We all know the temptation. 'How hard can it be? We'll just build our own portal with a database and a simple frontend.' You start full of enthusiasm with a Python script pulling some schemas from your data warehouse. Soon enough, the business wants to add definitions. The result is that you quickly spend more time managing and patching your own custom solution than actually creating value for the business.
Zelfbouw geeft je op papier de ultieme vrijheid om het helemaal naar jouw hand te zetten. Maar de ‘technical debt’ en de onderhoudslast zijn in de praktijk groot. Tenzij je core business het ontwikkelen van data governance software is, moet je hier met een grote boog omheen lopen. Spoiler: het sterft meestal een stille dood zodra de engineer die het gebouwd heeft een andere baan vindt. In-house development on paper gives you the ultimate freedom to customize it completely to your liking. But the technical debt and maintenance burden are high in practice. Unless your core business is developing data governance software, you should steer clear of this. Spoiler: it usually dies a quiet death as soon as the engineer who built it finds another job.
DataHub DataHub
Toen keken we naar DataHub. Oorspronkelijk bedacht door een groep knappe koppen bij LinkedIn, dus je wéét dat het met schaalbaarheid wel goed zit. DataHub heeft een oersterke, push-gebaseerde architectuur. Je data catalog is altijd up-to-date. Als een dashboard om 10:00 uur kapotgaat door een wijziging, zie je dat direct in DataHub, niet pas de volgende dag. Next, we evaluated DataHub. Originally conceived by a group of smart minds at LinkedIn, so you know scalability is not an issue. DataHub has a powerful, push-based architecture. Your data catalog is always up-to-date. If a dashboard breaks at 10:00 AM due to a change, you see it instantly in DataHub, not the next day.
Toch liepen we al vrij snel tegen twee grenzen aan. Allereerst ademt de hele interface 'ontworpen door en voor engineers'. Kijken we naar de assen van Data Glossary en het betrekken van de business user, dan voelt dat bij DataHub nog steeds een beetje als een toevoeging achteraf. De leercurve voor bijvoorbeeld een data steward is relatief steil. However, we quickly hit two limitations. First of all, the entire interface breathes 'designed by and for engineers'. Looking at aspects such as the Data Glossary and broader business-user adoption, these capabilities still feel somewhat bolted on rather than being a core part of the experience. The learning curve for a data steward, for instance, is relatively steep.
Daarnaast is er de ‘paywall’. De open-source kern is solide, maar zodra je echt volwassen wilt worden met je governance (denk aan geautomatiseerd rechtenbeheer, geavanceerde monitoring van datakwaliteit, incident management en premium enterprise-integraties), word je richting hun betaalde cloud-oplossing geduwd. Veel functionaliteit die je eigenlijk nodig hebt voor een volwaardige implementatie, zit simpelweg achter slot en grendel. En dan praat je ineens over serieuze licentiekosten. Second, there is the issue of the paywall. The open-source core is solid, but once you want to take governance to a more mature level (think automated access control, advanced data quality monitoring, incident management, and premium enterprise integrations), you are pushed towards their paid cloud solution. Much of the functionality required for a fully-fledged enterprise implementation is simply locked behind paid tiers. And then you are suddenly talking about serious license costs.
Open Metadata Open Metadata
De terechte winnaar! In onze evaluatie kwam deze tool als de absolute en overtuigende winnaar uit de bus. Waarom? Omdat dit platform lijkt te begrijpen dat data governance niet alleen een IT-feestje is, maar een brug moet slaan naar de business. De API-first benadering onder de motorkap is een genot voor de engineers, maar de échte winst zit in de visuele en logische samenhang. Alles voelt als één geïntegreerd geheel. De Data Glossary is geen losse module, maar naadloos verweven met je fysieke databronnen, waardoor logische bedrijfstermen (dataproducten) moeiteloos koppelen aan harde tabellen (data assets). The rightful winner! In our evaluation, this tool emerged as the absolute and convincing winner. Why? Because this platform seems to understand that data governance is not just an IT initiative, but it needs to bridge the gap between technology and the business. The API-first approach under the hood is a delight for engineers, but the real value lies in the visual and logical cohesion. Everything feels like a single integrated whole. The Data Glossary is not a separate module but seamlessly woven into your physical data sources, allowing logical business terms (data products) to link effortlessly to hard tables (data assets).
Open Metadata laat zien dat datakwaliteit geen 'nice-to-have' is, maar een van de fundamenten van je platform. Profiling-resultaten en testuitkomsten zijn visueel direct inzichtelijk naast de kolomdefinities: je ziet in één oogopslag of je data betrouwbaar is. Ook zaken als Data Ownership en Data Classification (met handige tags voor PII-data) zijn met een paar klikken en drag-and-drop in te regelen door data stewards, zonder dat ze ook maar een command-line interface hoeven aan te raken. Open Metadata shows that data quality is not a 'nice-to-have', but one of the foundations of your platform. Profiling results and test outcomes are displayed directly alongside column definitions, allowing users to instantly assess whether data can be trusted. Features such as Data Ownership and Data Classification (including practical tags for PII-sensitive data) can be configured by data stewards with just a few clicks and simple drag-and-drop actions, without ever having to touch a command-line interface.
Conclusie Conclusion
Open Metadata biedt wat ons betreft op dit moment precies de juiste balans op de (open-source) markt. Het stelt je in staat om de volwassenheid van je dataplatform te verhogen, met een tool die intuïtief genoeg is voor de business, krachtig genoeg is voor engineering, én je niet halverwege verrast met een stevige betaalmuur voor basis governance-functionaliteit. Zo serveer je de business eindelijk een datamenu waar ze blind op kunnen vertrouwen. 'An offer you can't refuse'. Bon appétit! As far as we are concerned, Open Metadata offers exactly the right balance in the (open-source) market today. It enables you to increase the maturity of your data platform with a tool that is intuitive enough for the business, powerful enough for engineering, and doesn't surprise you halfway through with a hefty paywall for basic governance functionality. This way, you finally serve the business a data menu they can blindly trust. 'An offer you can't refuse'. Bon appétit!
Meer weten? Neem contact met ons op of plan een afspraak in. Want to know more? Please contact us or schedule an appointment.
Veelgestelde vragen Frequently asked questions
1. Wat is data governance? 1. What is data governance?
Simpel gezegd is data governance de set van afspraken, regels en rollen die bepalen hoe een organisatie met haar data omgaat. Het zorgt ervoor dat iedereen weet waar data vandaan komt, wie er verantwoordelijk voor is, en dat de data veilig en van goede kwaliteit is. Zie het als de huisregels voor je data, zodat er geen chaos ontstaat en je blind op je cijfers kunt vertrouwen. Simply put, data governance is the set of agreements, rules, and roles that determine how an organization manages its data. It ensures that everyone knows where data comes from, who is responsible for it, and that the data remains secure and high quality. Think of it as the house rules for your data, preventing chaos and ensuring you can blindly trust your numbers.
2. Waarom is data governance belangrijk? 2. Why is data governance important?
Zonder data governance ontstaan er snel fouten in je rapportages en dashboards. Als iedereen zijn eigen definities gebruikt of niemand weet of data wel klopt, kun je geen goede beslissingen nemen. Bovendien helpt het om te voldoen aan wetten zoals de AVG (GDPR) en zorgt het ervoor dat problemen met data direct worden opgelost omdat duidelijk is wie erover gaat. Without data governance, errors quickly creep into your reports and dashboards. If everyone uses their own definitions or no one knows if the data is accurate, you cannot make sound decisions. Additionally, it helps you comply with laws like GDPR and ensures data issues are resolved immediately because ownership is clear.
3. Wat is het verschil tussen een data catalog en een data glossary? 3. What is the difference between a data catalog and a data glossary?
Een data catalog is de technische inventaris van alle fysieke data assets (tabellen, kolommen, dashboards). Een data glossary is de menukaart met eenduidige definities van bedrijfstermen, zodat verschillende afdelingen (zoals Finance en Marketing) dezelfde taal spreken. A data catalog is the technical inventory of all physical data assets (tables, columns, dashboards). A data glossary is the menu with unambiguous definitions of business terms, ensuring different departments (such as Finance and Marketing) speak the same language.
4. Hoe helpt Open Metadata bij GDPR/AVG-compliance? 4. How does Open Metadata help with GDPR compliance?
Open Metadata maakt het mogelijk om privacygevoelige gegevens (PII) automatisch te labelen (classificatie) en de herkomst ervan te traceren (lineage). Hierdoor weet je precies welke persoonsgegevens waar zijn opgeslagen en wie er toegang toe heeft. Open Metadata makes it possible to automatically label privacy-sensitive data (PII) through classification and trace its origin through lineage. This ensures you know exactly which personal data is stored where and who has access to it.
5. Met welke databases en (BI-)tools kan Open Metadata worden geïntegreerd? 5. With which databases and (BI) tools can Open Metadata be integrated?
Open Metadata beschikt over een zeer uitgebreid palet aan out-of-the-box connectoren voor vrijwel alle populaire databases en moderne BI-tools. Voor een compleet overzicht kun je de officiële Open Metadata documentatie raadplegen. Belangrijk voor ons platform is dat alle kerncomponenten binnen Flux naadloos integreerbaar zijn: PostgreSQL, DuckDB en Dagster of Airflow. Open Metadata offers a highly extensive palette of out-of-the-box connectors for almost all popular databases and modern BI tools. For a complete list, you can refer to the official Open Metadata documentation. Crucially for our platform, all core components within Flux are seamlessly integrable: PostgreSQL, DuckDB, and Dagster or Airflow.