Big Data Concepts et mise en oeuvre de Hadoop

42075 CFA

Ce livre sur Hadoop (versions 1 et 2), vise deux types de publics :

Il s’adresse d’une part aux décideurs, qu’ils soient techniciens (responsable informatique, spécialiste de Business Intelligence…) ou pas (responsable de la stratégie, directeur général…), et vise à démystifier le Big Data et Hadoop. Dans les chapitres concernés, les termes techniques sont limités au strict minimum et l’accent est mis, à chaque fois que cela est pertinent, sur l’utilisation et l’impact potentiel du Big Data et de Hadoop : Vue globale de Hadoop, Principaux apports de la version 2, Mettre en œuvre un cluster Hadoop, Hadoop : quand l’utiliser ?…

Il s’adresse également aux informaticiens, étudiants ou en activité, qui recherchent une première introduction en français, simple (sans être simpliste) et relativement exhaustive, au Big Data et à Hadoop. Les lecteurs concernés seront particulièrement intéressés par les chapitres suivants : Installer Hadoop sur une station de travail, HDFS, MapReduce, Les apports de la version 2, Aspects matériels, L’éco-système de Hadoop, Développer des programmes Hadoop, Mettre en oeuvre un cluster Hadoop…

Table des matières

  • Introduction
    • 1. Objectif du chapitre
    • 2. Le Big Data
      • 2.1 Introduction
      • 2.2 Informatique connectée, objets « intelligents » et données collectées
      • 2.3 Les unités de mesure dans le monde Big Data
      • 2.4 Big Data : au-delà des volumes, une rupture conceptuelle
    • 3. Big Data : l’échec des approches classiques
    • 4. Hadoop et Big Data
      • 4.1 Introduction
      • 4.2 Google File System et MapReduce
      • 4.3 Hadoop
    • 5. Problèmes « hadoopéables »
    • 6. Pour aller plus loin
      • 6.1 Niveau de performance des disques durs actuels
      • 6.2 Fonctions de type « map » et fonctions de type « reduce »
      • 6.3 Les distributions de Hadoop
  • Installer Hadoop sur une station de travail
    • 1. Objectif du chapitre
    • 2. Les différents modes de fonctionnement de Hadoop
      • 2.1 Le mode local
      • 2.2 Le mode pseudo-distribué
      • 2.3 Le mode totalement distribué
      • 2.4 Les clusters Hadoop virtualisés
    • 3. Installer Hadoop en mode pseudo-distribué
      • 3.1 Pré-requis matériels
      • 3.2 Pré-requis logiciels
        • 3.2.1 Système d’exploitation
        • 3.2.2 Machine virtuelle
    • 4. Installer Hadoop pas-à-pas sur une station de travail
      • 4.1 Installation de VirtualBox
      • 4.2 Installation de Hadoop (distribution CDH4)
  • Une vue globale de Hadoop
    • 1. Objectif du chapitre
    • 2. Introduction
    • 3. Stocker et traiter des volumes de données très importants
    • 4. Garantir la redondance des données
    • 5. Faire face à la panne d’un nœud
      • 5.1 Réaffecter les tâches
      • 5.2 Garantir la bonne fin des jobs en cours
      • 5.3 Le retour à la normale
    • 6. Garantir une évolution proportionnelle des performances
  • HDFS
    • 1. Objectif du chapitre
    • 2. Présentation de HDFS
    • 3. Principe de fonctionnement
      • 3.1 Le NameNode
      • 3.2 Le SecondaryNameNode
      • 3.3 Le NN comme SPOF
      • 3.4 Lecture d’un fichier HDFS par un programme Hadoop
      • 3.5 Création d’un fichier HDFS par un programme Hadoop
  • MapReduce
    • 1. Objectif du chapitre
    • 2. Présentation de MapReduce
    • 3. Principes de fonctionnement de MapReduce
    • 4. MapReduce du point de vue du développeur Java
      • 4.1 Les entrées-sorties
      • 4.2 La phase map (exemple 1)
      • 4.3 Entre la phase map et la phase reduce (exemple 1)
      • 4.4 La phase reduce (exemple 1)
      • 4.5 La phase map (exemple 2)
      • 4.6 Entre la phase map et la phase reduce (exemple 2)
      • 4.7 La phase reduce (exemple 2)
      • 4.8 Quelques remarques générales concernant les mappers et les reducers
    • 5. MapReduce du point de vue de l’administrateur Hadoop
      • 5.1 Le JobTracker
      • 5.2 Le TaskTracker
  • Les apports de la version 2 de Hadoop
    • 1. Objectif du chapitre
    • 2. High Availability
    • 3. Federation
    • 4. YARN
    • 5. Support de Microsoft Windows
    • 6. Autres apports de la version 2 de Hadoop
    • 7. Conclusion
  • Aspects matériels
    • 1. Objectif du chapitre
    • 2. Les nœuds maîtres
    • 3. Les nœuds esclaves
    • 4. Les aspects réseau
    • 5. Déterminer la taille d’un cluster Hadoop et prévoir son évolution
    • 6. Un exemple de cluster Hadoop
    • 7. Pour aller plus loin
      • 7.1 Règles concernant les nœuds esclaves
      • 7.2 Règles concernant les nœuds maîtres
      • 7.3 Règles concernant le réseau
      • 7.4 Règles concernant le cluster
  • L’écosystème de Hadoop
    • 1. Objectif du chapitre
    • 2. Pig, Hive et l’API de streaming
      • 2.1 Introduction
      • 2.2 Hive
      • 2.3 Pig
      • 2.4 L’API de streaming
    • 3. Outils orientés bases de données
      • 3.1 Flume
      • 3.2 Squoop
      • 3.3 HBase
      • 3.4 Impala
    • 4. Outils d’exploitation
      • 4.1 ZooKeeper
      • 4.2 Cloudera Manager
      • 4.3 Oozie
    • 5. Autres outils
      • 5.1 Hue
      • 5.2 Mahout
    • 6. Comment intégrer Hadoop dans un système d’information ?
  • Développer des programmes Hadoop
    • 1. Objectifs du chapitre
    • 2. WordCount
      • 2.1 Préparation des données
      • 2.2 Importation des données dans HDFS
      • 2.3 WordCount en Java
        • 2.3.1 Le driver
        • 2.3.2 Le mapper
        • 2.3.3 Le reducer
        • 2.3.4 Compilation et exécution du job
      • 2.4 WordCount en Python
        • 2.4.1 Le mapper
        • 2.4.2 Le reducer
        • 2.4.3 Exécution du job
      • 2.5 Conclusion
    • 3. JoinTables
      • 3.1 Introduction
      • 3.2 JoinTables en Java
      • 3.3 JoinTables en Pig Latin
      • 3.4 JoinTables en HiveQL
      • 3.5 Conclusion
    • 4. Conclusion
  • Mettre en œuvre un cluster Hadoop
    • 1. Objectif du chapitre
    • 2. Cluster dédié ou cluster dans le Cloud ?
    • 3. Les coûts
      • 3.1 Cluster dédié installé dans les locaux de l’organisme
        • 3.1.1 Les coûts de formation
        • 3.1.2 Les coûts matériels
        • 3.1.3 Les coûts logiciels
        • 3.1.4 Le coût du support technique
        • 3.1.5 Les coûts en énergie
        • 3.1.6 Les coûts en personnel
      • 3.2 Cluster dédié installé chez un hébergeur
        • 3.2.1 Les coûts de formation
        • 3.2.2 Les coûts matériels
        • 3.2.3 Les coûts logiciels
        • 3.2.4 Le coût du support technique
        • 3.2.5 Les coûts en personnel
        • 3.2.6 Les coûts en énergie
      • 3.3 Cluster partagé dans le Cloud
        • 3.3.1 Les coûts de formation
        • 3.3.2 Les coûts matériels
        • 3.3.3 Les coûts logiciels
        • 3.3.4 Le coût du support technique
        • 3.3.5 Les coûts en énergie
        • 3.3.6 Les coûts en personnel
        • 3.3.7 Les coûts en services
  • Quand utiliser Hadoop ?
    • 1. Objectif du chapitre
    • 2. Exemples de problèmes « hadoopéables »
    • 3. Exemples réels d’utilisation de Hadoop
      • 3.1 Dans le domaine de la gestion de clientèle
      • 3.2 Dans le domaine de la publicité
      • 3.3 Dans le domaine de la santé
      • 3.4 Dans le domaine de la lutte contre la fraude
      • 3.5 Dans le domaine des villes « intelligentes »
      • 3.6 Dans le domaine des moteurs de recherche ou de recommandations
      • 3.7 Dans le domaine de la maintenance préventive
      • 3.8 Autres usages
        • 3.8.1 Identification de patterns dans des photographies
      • 3.9 Principales sources d’information utilisées dans ce chapitre
  • Conclusion
Catégorie

Avis des clients

Il n'y a pas encore d'avis.

Soyez le premier à donner votre avis sur “Big Data Concepts et mise en oeuvre de Hadoop”

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Plus d'offres pour ce produit!

Questions et demandes générales

Il n'y a pas encore de demandes de renseignements.