Dataiku est une plateforme unifiée de data science qui permet de centraliser, manipuler et automatiser facilement son pipeline de donnée sans avoir nécessairement besoins de hard skills en languages de programmation (même si ça peut permettre d’aller plus loin sur certains points). L’outil a été pensé comme une plateforme collaborative dans laquelle il est simple de travailler en équipe, de partager des workflow de traitement de données, etc. Véritable couteau suisse servant autant à automatiser de petits traitements récurrents en local que de gros pipeline data très complexes en complément d’autres outils comme AWS, Azure, GCP, etc.
L’ensemble des ses fonctionnalités no-code permettent facilement à l’ensembles de vos équipes de travailler sur des pipelines data plus ou moins complexes et ce, peu importe leurs hard skills respectifs.
Bien qu’assez simple à prendre en main, dataiku permet d’aller très loin dans l’ingestion, le traitement, l’automatisation et l’activation de la donnée. Il est notamment possible de faire intervenir du SQL, du R ou encore du Python a n’importe quel moment; d’utiliser facilement des algorithmes de ML et d’IA via datalab, etc.
Comme expliqué dans l’introduction, la plateforme est pensé à la base comme un outil collaboratif, intégrant notamment des fonctionnalités permettant d’optimiser le partage et l’échange au sein des équipes data et des équipes commerciales. Il s’agit notamment d’outils de gestion de projet, de chat, de wiki et de versions. Il est très facile de partager ses Workflow avec ses collaborateurs, de créer des templates, d’organiser la gouvernance etc.
Actuellement, nous utilisons principalement dataiku comme un outil interne que comme outil ayant vocation à servir de livrable. J’ai cependant quelques éléments intéressants à partager qui illustrent bien le potentiel et la versatilité de l’outil :