Snowflake lance Snowpark for Python
juin 2022 par Marc Jacob
Le Data Cloud Snowflake, annonce à l’occasion de sa conférence annuelle Snowflake Summit 2022, plusieurs améliorations pour renforcer les capacité des data scientists, des ingénieurs de données et des développeurs d’applications utilisant le Data Cloud. Les dernières innovations mettent Python au premier plan, avec le lancement de Snowpark for Python, désormais en preview publique, et une intégration native avec Streamlit pour le développement et l’itération rapides d’applications, actuellement en cours de développement.
En outre, Snowflake rationalise l’accès à davantage de données grâce à de nouvelles améliorations pour le travail sur des données en stream, tout en rendant les données stockées dans des formats ouverts et sur site, disponibles dans le Data Cloud. Ces améliorations permettent aux professionnels des données et aux développeurs de créer et de collaborer plus facilement avec les données, tout en tirant parti de la rapidité, de la simplicité, de la gouvernance cohérente et de la sécurité de la plateforme Snowflake.
L’introduction de Snowpark, le framework de développement de Snowflake, a ouvert un environnement de programmation riche pour les scientifiques, les ingénieurs de données et les développeurs d’applications afin de créer des pipelines, des applications et des flux de Machine Learning évolutifs directement dans Snowflake en utilisant leurs langages et bibliothèques préférés. Snowflake augmente les capacités des utilisateurs avec Snowpark for Python, en rendant l’écosystème de package et de bibliothèques open-source de Python accessible de manière transparente dans le Data Cloud.
Grâce à une sandbox Python hautement sécurisée, Snowpark for Python fonctionne sur la même infrastructure de calcul que les pipelines Snowflake et les applications écrites dans d’autres langages. Snowpark for Python bénéficie ainsi des mêmes avantages en termes d’évolutivité, d’élasticité, de sécurité et de conformité que ceux auxquels les développeurs sont habitués lorsqu’ils utilisent Snowflake. Les développeurs ont maintenant l’opportunité unique de rationaliser et de moderniser leur architecture data en consolidant leur traitement de données basé sur Python dans Snowflake en utilisant Snowpark.
Les mises à jour supplémentaires qui complètent Snowpark pour Python comprennent :
Snowflake Worksheets for Python, maintenant en preview privée, permet aux utilisateurs de développer des pipelines, des modèles de machine learning et des applications directement dans Snowsight, l’interface utilisateur de Snowflake, en utilisant Python et les API DataFrame de Snowpark pour Python.
Tout ça en rationalisant le développement avec l’auto-complétion du code et la possibilité de produire une logique personnalisée en quelques secondes.
L’intégration Streamlit de Snowflake, actuellement en cours de développement, apporte l’extension d’applications basées sur Python directement dans Snowflake, permettant aux utilisateurs de créer des applications interactives, et de partager, itérer et collaborer en toute sécurité avec les équipes commerciales pour augmenter l’impact du développement.
Large Memory Warehouses, actuellement en cours de développement, permet aux utilisateurs d’exécuter en toute sécurité des opérations gourmandes en mémoire telles que l’ingénierie des caractéristiques et l’apprentissage de modèles sur de grands ensembles de données à l’aide de bibliothèques open-source Python populaires disponibles via l’intégration Anaconda.
SQL Machine Learning, en commençant par les prévisions de séries temporelles, actuellement en preview privée, permet aux utilisateurs de SQL d’intégrer des prédictions basées sur le machine learning dans leurs analyses et leurs renseignements commerciaux quotidiens afin d’améliorer la qualité et la rapidité des décisions.
La syntaxe robuste de Python et l’écosystème de package open-source en font un choix populaire pour les développeurs. Le partenariat continu de Snowflake avec Anaconda étend l’accès à plus de package Python de manière transparente dans Snowflake, avec tout le code s’exécutant dans un environnement sandbox hautement sécurisé. Le programme Snowpark Accelerated a également connu une croissance continue, en grande partie grâce aux avancées de Snowflake en matière de Python, avec un plus grand nombre de partenaires construisant avec ce dernier pour étendre la puissance du Data Cloud dans le langage de leur choix.
Accéder aux bonnes données rapidement et efficacement est essentiel pour améliorer la productivité des développeurs, construire des modèles de machine learning avec une précision accrue et fournir des applications plus puissantes.
Les améliorations apportées par Snowflake permettent en outre aux équipes d’expérimenter plus rapidement, avec plus de données à portée de main, augmentant les capacités de programmation et permettant aux utilisateurs d’obtenir des informations plus détaillées. Ces nouvelles innovations comprennent :
La prise en charge des données en streaming pour éliminer les frontières entre les pipelines de streaming et de traitement par lots avec Snowpipe Streaming, actuellement en preview privée, pour l’ingestion sans serveur de données en streaming, et les tableaux matérialisés, actuellement en développement, qui simplifient la transformation des données en streaming de manière déclarative.
Tables Iceberg dans Snowflake, actuellement en développement, pour permettre aux utilisateurs de travailler avec Apache Iceberg, un format de table ouvert populaire. Et ce, dans un stockage externe tout en profitant de la facilité d’utilisation, des performances et de la gouvernance cohérente de la plateforme Snowflake, simplifiant ainsi la gestion globale des données et permettant une flexibilité architecturale.
External Tables for On-Premises Storage, actuellement en avant-première privée, pour permettre aux utilisateurs d’accéder à leurs données dans des systèmes de stockage sur site comme Dell Technologies, Pure Storage, et plus encore, à partir de Snowflake, afin qu’ils puissent bénéficier de l’élasticité du Data Cloud sans déplacer ces données.