Big Data – Architecture et technologies

Domaine de la formation :
  • IT
    Data, Cloud et IA
Durée de la formation :
  • 2 jours
Référence de la formation :
  • CI10-125

Concepts des données volumineuses. Big Data est le terme utilisé pour désigner des données volumineuses difficiles à exploiter avec les outils traditionnels, tels que les bases de données relationnelles. Ce concept nécessite de revoir le stockage des données, la gestion de recherche, le partage de l’information entre de multiples utilisateurs, sans oublier la restitution et l’analyse des données. Nous n’en avons pas fini avec les bouleversements dûs au Big Data dans les prochaines années. Anticipez ! Cette formation vous permet de comprendre les enjeux et les solutions proposées pour la mise en œuvre du Big Data.

Objectifs pédagogiques

Comprendre les concepts du Big Data. Connaître les technologies implémentées.

Cibles

Chefs de projet, architectes, développeurs.

Pré-requis

Avoir une bonne culture générale des systèmes d’informations.

Modalités

  • Tour d’horizon complet.
  • Une pédagogie active, avec de nombreux cas concrets.
  • Présentation de plusieurs outils.

Programme

  • Le besoin :
    • volumes importants de données,
    • traitements optimisés de flux de données au fil de l’eau,
    • données liées aux nouvelles technologies et aux nouveaux usages.
  • Domaines concernés :
    • recherche scientifique,
    • médical,
    • e-commerce,
    • sécurité.
  • Développement des techniques:
    • stockage,
    • indexation/recherche,
    • calcul.
  • Définition ETL : Extract Transform Load.
  • Les acteurs.
  • Caractéristiques NoSQL :
    • structure de données proches des utilisateurs, développeurs
    • données structurées et non structurées, documents, images,
    • fichiers XML, JSON, CSV…
  • Les différents modes et formats de stockage.
  • Stockage réparti : réplication, sharping, gossip protocol, hachage…
  • Systèmes de fichiers distribués : GFS, HDFS, BigTable..
  • Les bases de données.
  • Quelques exemples de produits et leurs caractéristiques :
    • Cassandra, MongoDB, CouchDB, DynamoDB.
  • Moteurs de recherche.
  • Principe de fonctionnement.
  • Méthodes d’indexation.
  • Recherche dans les bases de volumes importants :
  • Exemples de produits et comparaison :
    • Dremel, Drill, Elasticsearch, MapReduce.
  • Différentes solutions :
    • calculs en mode batch, ou en temps réel, sur des flux de données ou des données statiques.
  • Les produits :
    • langage de calculs statistiques, R Statistics Language
  • Outils de calcul sur des volumes importants :
    • Storm en temps réel, Hadoop en mode batch.
  • Zoom sur Hadoop :
    • complémentarité de HDMS et MapReduce.
  • Les offres Saas BigData comme Google BigQuery.
  • Les limites.
  • Les nouveautés annoncées.