En direct de Las Vegas. AWS aime à dire qu’il fait partie de ces entreprises qui écoutent leurs clients et leur apportent des réponses appropriées. « La majorité de l'innovation provient de l'écoute et de la réponse aux clients. Et aujourd'hui, les clients passent par toutes les industries, toutes les zones géographiques, tous les cas d'utilisation et aucun défi n'est trop grand » indique Adam Selipsky, actuel CEO de la firme en ouverture de sa keynote à re:invent 2022. Et le dernier challenge en date d'AWS est de taille : « Nous nous sommes engagés à alimenter nos opérations avec 100 % d'énergie renouvelable d'ici 2025. Nous sommes prêts à atteindre notre objectif, à plus de 85 % ». Le fournisseur de services cloud n’hésite pas à se mettre en avant sur le sujet de la décarbonation et du développement durable. « Nous sommes en tête des fournisseurs de services cloud avec une mesure d'efficacité de 0,25 litre d'eau consommée par kilowattheure dans nos centres de données. Et nous nous sommes engagés à devenir positifs en matière d'eau d'ici 2030. Cela signifie que nous rendrons l'eau que nous utilisons pour nos opérations directes ». Un beau programme en perspective, reste à savoir si les objectifs seront respectés dans les années à venir. En attendant, revenons sur Terre et passons aux annonces faites par le CEO d’AWS.
L’autre grand défi du fournisseur de cloud consiste à « gérer l'ampleur et la croissance des données ». AWS s'est concentré sur le développement d’un bon nombre de choses, à commencer par les bases de données. « Aujourd'hui, Amazon Aurora est une base de données relationnelle compatible avec MySQL et PostgreSQL, conçue pour le cloud. C'est le service qui connaît la croissance la plus rapide dans l'histoire d'AWS ». En ce sens, la firme annonce l’intégration d’Aurora zero-ETL avec la solution de data warehouse maison Redshift en preview. Avec ce service, les clients peuvent « utiliser cette plateforme pour effectuer des analyses interactives en temps réel sur des pétaoctets de données transactionnelles, consolider les données de plusieurs bases de données Aurora et les mettre à jour automatiquement et en continu ». Notons que ce service est serverless, il n’y a donc aucune infrastructure à gérer.
La data, le pétrole d’AWS
Façon puit de pétrole, AWS n’hésite pas à creuser encore et encore côté data. Le fournisseur américain annonce en effet une intégration Redshift pour Apache Spark avec Amazon EMR, sa plateforme big data. Disponible pour tous dès aujourd’hui, cette intégration aide les data engineers à créer et à exécuter des applications Spark qui peuvent consommer et écrire des données à partir d'un cluster Redshift. À partir d'Amazon EMR 6.9, cette intégration est disponible sur les trois modèles de déploiement pour EMR - EC2, EKS et Serverless. Précisons également que, grâce à cette intégration, les applications pourront s'exécuter jusqu'à 10 fois plus rapidement par rapport aux connecteurs Redshift-Spark existants. L'intégration d’Amazon Redshift pour Apache Spark est disponible dans toutes les régions où Amazon EMR, Amazon EMR sur EKS et Amazon Serverless sont disponibles. Ensemble, ces deux fonctionnalités sont censées aider les clients à évoluer vers un avenir sans ETL sur AWS, un changement important dans la gestion des données.
Dans la foulée, Adam Selipsky a annoncé DataZone, un service de gestion des données permettant de cataloguer, de découvrir, de partager et de gouverner les données. Le service s’intègre avec Redshift, Athena, et QuickSight et fournit des API à des sources tierces. Il sera disponible courant 2023.
DataZone devrait être disponible prochainement et offrira notamment des moyens de contrôle fins pour gérer et gouverner les données d'accès. (Crédit : C.S.)
Des changements sont d’ailleurs à prévoir côté BI, puisque Quicksight Q, sa plateforme alimentée par le machine learning (ML) et fournissant des analyses en libre-service se voit aujourd’hui boostée. Amazon a lancé ce service en septembre 2021 et annonce la prise en charge de deux types supplémentaires de questions qui simplifient et mettent à l'échelle les tâches analytiques complexes à l'aide du langage naturel : « prévision » (forecast) et « pourquoi » (why). Sur l’aspect prévision, le fonctionnement est plutôt simple. Pour poser une question liée, il suffit de comencer la question par le mot « forecast » ou la phrase « Show me a forecast ». Les informations minimales nécessaires pour créer une prévision sont l'une de ces deux questions de départ, plus la mesure que vous souhaitez prévoir. Par exemple, « Forecast sales » est suffisant pour générer une prévision.
Amazon Forecast automatise une grande partie du processus de prévision. (Crédit : AWS)
En ce qui concerne la fonctionnalité « why » - une question que beaucoup de personnes se posent régulièrement – AWS indique que ce type de question permettra aux utilisateurs dits « professionnels » « d'obtenir instantanément des informations auparavant uniquement accessibles aux analystes formés ». Lorsqu’un utilisateur pose une question « pourquoi » dans Q, il déclenche une analyse de contribution à la volée qui identifiera automatiquement les principaux facteurs de changement pour la mesure interrogée. Adam Selipsky prend en exemple « par exemple, la question de savoir pourquoi les ventes ont augmenté en janvier vous permet d'effectuer automatiquement des corrélations en arrière-plan pour obtenir des explications finales sur le sujet », précisant que l’ajout de cette fonctionnalité est en partie lié à une demande des clients.
Le service RDS arrive dans GuardDurty
La keynote ne serait évidemment pas complète sans le point sécurité habituel d’Adam Selipsky. La marketplace d’AWS compte aujourd’hui « une myriade de solutions de sécurité » selon son CEO. Plus tôt cette année, le fournisseur a lancé le service Malware Protection dans Amazon GuardDuty, « pour contribuer à détecter les fichiers malveillants résidant sur une instance ou une charge de travail en conteneur fonctionnant sur EC2 sans déployer de logiciel ou d'agent de sécurité ». A l’occasion de re:Invent 2022, la firme introduit GuardDuty RDS Protection en avant-première. Censé « garantir la sécurité en un clic » aux dires de Swami Sivasubramanian, VP database, analytique et ML chez AWS, RDS Protection profile et surveille l'activité d'accès aux bases de données existantes et nouvelles d’un compte. Pour cela, il utilise des modèles de ML personnalisés pour détecter avec précision les connexions suspectes aux bases de données Aurora.
RDS Protection est une fonction de GuardDuty, le service de détection de menaces de la firme. (Crédit : C.S.)
Une fois qu'une menace potentielle est détectée, GuardDuty génère un résultat de sécurité qui inclut les détails de la base de données et des informations contextuelles riches sur l'activité suspecte, ensuite intégré à Aurora, sans affecter les performances. Pendant la période de préversion, RDS Protection est disponible pour les clients de cinq régions AWS : USA Est (Virginie du Nord), USA Est (Ohio), USA Ouest (Oregon), Asie-Pacifique (Tokyo) et Europe (Irlande) et devrait être étendu aux autres régions courant 2023. A noter que pendant cette période, le service est disponible pour les clients sans frais supplémentaires.
Un data lake sécurité, du déjà vu ?
Enfin, relevons que fournisseur de Seattle lance un service baptisé « Security lake » qui ressemble fort au data lake lancé par Snowflake. Dans le détail, le service made in AWS propose de centraliser automatiquement les données de sécurité provenant de sources cloud, sur site et personnalisées dans un data lake spécialement conçu, stocké dans le compte utilisateur. Cet outil, présenté comme un facilitateur, doit également améliorer la protection des charges de travail, applications et données. La firme ajoute qu’il « rassemble et gère automatiquement toutes vos données de sécurité à travers les comptes et les régions. Vous pouvez utiliser vos outils d'analyse préférés tout en conservant le contrôle et la propriété de vos données de sécurité ». Lancé lors de l'AWS re:Invent 2022, Amazon Security Lake est pour l'instant disponible dans les régions USA Est (Virginie du Nord), USA Est (Ohio), USA Ouest (Oregon), Asie-Pacifique (Sydney), Asie-Pacifique (Tokyo), Europe ( Francfort) et l'Europe (Irlande), et sera bientôt étendu à d'autres régions.
Security Lake se conforme par ailleurs à l'Open Cybersecurity Schema Framework (OCSF), un projet de norme ouverte fondé par AWS, Broadcom, IBM, JupiterOne, Okta, Salesforce, Splunk et bien d’autres entreprises technologiques et orientées sécurité. OCSF est un effort collaboratif open source d'AWS et de ses partenaires du secteur de la cybersécurité qui vise à fournir un schéma standard pour les données générées par les outils de cybersécurité. Le code source public d'OCSF est hébergé sur GitHub.