Table des matières
- Introduction
- 1. Objectif du chapitre
- 2. Le Big Data
- 2.1 Introduction
- 2.2 Informatique connectée, objets « intelligents » et données collectées
- 2.3 Les unités de mesure dans le monde Big Data
- 2.4 Big Data : au-delà des volumes, une rupture conceptuelle
- 3. Big Data : l’échec des approches classiques
- 4. Hadoop et Big Data
- 4.1 Introduction
- 4.2 Google File System et MapReduce
- 4.3 Hadoop
- 5. Problèmes « hadoopéables »
- 6. Pour aller plus loin
- 6.1 Niveau de performance des disques durs actuels
- 6.2 Fonctions de type « map » et fonctions de type « reduce »
- 6.3 Les distributions de Hadoop
- Installer Hadoop sur une station de travail
- 1. Objectif du chapitre
- 2. Les différents modes de fonctionnement de Hadoop
- 2.1 Le mode local
- 2.2 Le mode pseudo-distribué
- 2.3 Le mode totalement distribué
- 2.4 Les clusters Hadoop virtualisés
- 3. Installer Hadoop en mode pseudo-distribué
- 3.1 Pré-requis matériels
- 3.2 Pré-requis logiciels
- 3.2.1 Système d’exploitation
- 3.2.2 Machine virtuelle
- 4. Installer Hadoop pas-à-pas sur une station de travail
- 4.1 Installation de VirtualBox
- 4.2 Installation de Hadoop (distribution CDH4)
- Une vue globale de Hadoop
- 1. Objectif du chapitre
- 2. Introduction
- 3. Stocker et traiter des volumes de données très importants
- 4. Garantir la redondance des données
- 5. Faire face à la panne d’un nœud
- 5.1 Réaffecter les tâches
- 5.2 Garantir la bonne fin des jobs en cours
- 5.3 Le retour à la normale
- 6. Garantir une évolution proportionnelle des performances
- HDFS
- 1. Objectif du chapitre
- 2. Présentation de HDFS
- 3. Principe de fonctionnement
- 3.1 Le NameNode
- 3.2 Le SecondaryNameNode
- 3.3 Le NN comme SPOF
- 3.4 Lecture d’un fichier HDFS par un programme Hadoop
- 3.5 Création d’un fichier HDFS par un programme Hadoop
- MapReduce
- 1. Objectif du chapitre
- 2. Présentation de MapReduce
- 3. Principes de fonctionnement de MapReduce
- 4. MapReduce du point de vue du développeur Java
- 4.1 Les entrées-sorties
- 4.2 La phase map (exemple 1)
- 4.3 Entre la phase map et la phase reduce (exemple 1)
- 4.4 La phase reduce (exemple 1)
- 4.5 La phase map (exemple 2)
- 4.6 Entre la phase map et la phase reduce (exemple 2)
- 4.7 La phase reduce (exemple 2)
- 4.8 Quelques remarques générales concernant les mappers et les reducers
- 5. MapReduce du point de vue de l’administrateur Hadoop
- 5.1 Le JobTracker
- 5.2 Le TaskTracker
- Les apports de la version 2 de Hadoop
- 1. Objectif du chapitre
- 2. High Availability
- 3. Federation
- 4. YARN
- 5. Support de Microsoft Windows
- 6. Autres apports de la version 2 de Hadoop
- 7. Conclusion
- Aspects matériels
- 1. Objectif du chapitre
- 2. Les nœuds maîtres
- 3. Les nœuds esclaves
- 4. Les aspects réseau
- 5. Déterminer la taille d’un cluster Hadoop et prévoir son évolution
- 6. Un exemple de cluster Hadoop
- 7. Pour aller plus loin
- 7.1 Règles concernant les nœuds esclaves
- 7.2 Règles concernant les nœuds maîtres
- 7.3 Règles concernant le réseau
- 7.4 Règles concernant le cluster
- L’écosystème de Hadoop
- 1. Objectif du chapitre
- 2. Pig, Hive et l’API de streaming
- 2.1 Introduction
- 2.2 Hive
- 2.3 Pig
- 2.4 L’API de streaming
- 3. Outils orientés bases de données
- 3.1 Flume
- 3.2 Squoop
- 3.3 HBase
- 3.4 Impala
- 4. Outils d’exploitation
- 4.1 ZooKeeper
- 4.2 Cloudera Manager
- 4.3 Oozie
- 5. Autres outils
- 5.1 Hue
- 5.2 Mahout
- 6. Comment intégrer Hadoop dans un système d’information ?
- Développer des programmes Hadoop
- 1. Objectifs du chapitre
- 2. WordCount
- 2.1 Préparation des données
- 2.2 Importation des données dans HDFS
- 2.3 WordCount en Java
- 2.3.1 Le driver
- 2.3.2 Le mapper
- 2.3.3 Le reducer
- 2.3.4 Compilation et exécution du job
- 2.4 WordCount en Python
- 2.4.1 Le mapper
- 2.4.2 Le reducer
- 2.4.3 Exécution du job
- 2.5 Conclusion
- 3. JoinTables
- 3.1 Introduction
- 3.2 JoinTables en Java
- 3.3 JoinTables en Pig Latin
- 3.4 JoinTables en HiveQL
- 3.5 Conclusion
- 4. Conclusion
- Mettre en œuvre un cluster Hadoop
- 1. Objectif du chapitre
- 2. Cluster dédié ou cluster dans le Cloud ?
- 3. Les coûts
- 3.1 Cluster dédié installé dans les locaux de l’organisme
- 3.1.1 Les coûts de formation
- 3.1.2 Les coûts matériels
- 3.1.3 Les coûts logiciels
- 3.1.4 Le coût du support technique
- 3.1.5 Les coûts en énergie
- 3.1.6 Les coûts en personnel
- 3.2 Cluster dédié installé chez un hébergeur
- 3.2.1 Les coûts de formation
- 3.2.2 Les coûts matériels
- 3.2.3 Les coûts logiciels
- 3.2.4 Le coût du support technique
- 3.2.5 Les coûts en personnel
- 3.2.6 Les coûts en énergie
- 3.3 Cluster partagé dans le Cloud
- 3.3.1 Les coûts de formation
- 3.3.2 Les coûts matériels
- 3.3.3 Les coûts logiciels
- 3.3.4 Le coût du support technique
- 3.3.5 Les coûts en énergie
- 3.3.6 Les coûts en personnel
- 3.3.7 Les coûts en services
- 3.1 Cluster dédié installé dans les locaux de l’organisme
- Quand utiliser Hadoop ?
- 1. Objectif du chapitre
- 2. Exemples de problèmes « hadoopéables »
- 3. Exemples réels d’utilisation de Hadoop
- 3.1 Dans le domaine de la gestion de clientèle
- 3.2 Dans le domaine de la publicité
- 3.3 Dans le domaine de la santé
- 3.4 Dans le domaine de la lutte contre la fraude
- 3.5 Dans le domaine des villes « intelligentes »
- 3.6 Dans le domaine des moteurs de recherche ou de recommandations
- 3.7 Dans le domaine de la maintenance préventive
- 3.8 Autres usages
- 3.8.1 Identification de patterns dans des photographies
- 3.9 Principales sources d’information utilisées dans ce chapitre
- Conclusion
Soyez le premier à donner votre avis sur “Big Data Concepts et mise en oeuvre de Hadoop”