Big Data Concepts et mise en oeuvre de Hadoop

42075 CFA

Ce livre sur Hadoop (versions 1 et 2), vise deux types de publics :

Il s’adresse d’une part aux décideurs, qu’ils soient techniciens (responsable informatique, spécialiste de Business Intelligence…) ou pas (responsable de la stratégie, directeur général…), et vise à démystifier le Big Data et Hadoop. Dans les chapitres concernés, les termes techniques sont limités au strict minimum et l’accent est mis, à chaque fois que cela est pertinent, sur l’utilisation et l’impact potentiel du Big Data et de Hadoop : Vue globale de Hadoop, Principaux apports de la version 2, Mettre en œuvre un cluster Hadoop, Hadoop : quand l’utiliser ?…

Il s’adresse également aux informaticiens, étudiants ou en activité, qui recherchent une première introduction en français, simple (sans être simpliste) et relativement exhaustive, au Big Data et à Hadoop. Les lecteurs concernés seront particulièrement intéressés par les chapitres suivants : Installer Hadoop sur une station de travail, HDFS, MapReduce, Les apports de la version 2, Aspects matériels, L’éco-système de Hadoop, Développer des programmes Hadoop, Mettre en oeuvre un cluster Hadoop…

Poser une question

Table des matières

Introduction
- 1. Objectif du chapitre
- 2. Le Big Data
  - 2.1 Introduction
  - 2.2 Informatique connectée, objets « intelligents » et données collectées
  - 2.3 Les unités de mesure dans le monde Big Data
  - 2.4 Big Data : au-delà des volumes, une rupture conceptuelle
- 3. Big Data : l’échec des approches classiques
- 4. Hadoop et Big Data
  - 4.1 Introduction
  - 4.2 Google File System et MapReduce
  - 4.3 Hadoop
- 5. Problèmes « hadoopéables »
- 6. Pour aller plus loin
  - 6.1 Niveau de performance des disques durs actuels
  - 6.2 Fonctions de type « map » et fonctions de type « reduce »
  - 6.3 Les distributions de Hadoop
Installer Hadoop sur une station de travail
- 1. Objectif du chapitre
- 2. Les différents modes de fonctionnement de Hadoop
  - 2.1 Le mode local
  - 2.2 Le mode pseudo-distribué
  - 2.3 Le mode totalement distribué
  - 2.4 Les clusters Hadoop virtualisés
- 3. Installer Hadoop en mode pseudo-distribué
  - 3.1 Pré-requis matériels
  - 3.2 Pré-requis logiciels
    - 3.2.1 Système d’exploitation
    - 3.2.2 Machine virtuelle
- 4. Installer Hadoop pas-à-pas sur une station de travail
  - 4.1 Installation de VirtualBox
  - 4.2 Installation de Hadoop (distribution CDH4)
Une vue globale de Hadoop
- 1. Objectif du chapitre
- 2. Introduction
- 3. Stocker et traiter des volumes de données très importants
- 4. Garantir la redondance des données
- 5. Faire face à la panne d’un nœud
  - 5.1 Réaffecter les tâches
  - 5.2 Garantir la bonne fin des jobs en cours
  - 5.3 Le retour à la normale
- 6. Garantir une évolution proportionnelle des performances
HDFS
- 1. Objectif du chapitre
- 2. Présentation de HDFS
- 3. Principe de fonctionnement
  - 3.1 Le NameNode
  - 3.2 Le SecondaryNameNode
  - 3.3 Le NN comme SPOF
  - 3.4 Lecture d’un fichier HDFS par un programme Hadoop
  - 3.5 Création d’un fichier HDFS par un programme Hadoop
MapReduce
- 1. Objectif du chapitre
- 2. Présentation de MapReduce
- 3. Principes de fonctionnement de MapReduce
- 4. MapReduce du point de vue du développeur Java
  - 4.1 Les entrées-sorties
  - 4.2 La phase map (exemple 1)
  - 4.3 Entre la phase map et la phase reduce (exemple 1)
  - 4.4 La phase reduce (exemple 1)
  - 4.5 La phase map (exemple 2)
  - 4.6 Entre la phase map et la phase reduce (exemple 2)
  - 4.7 La phase reduce (exemple 2)
  - 4.8 Quelques remarques générales concernant les mappers et les reducers
- 5. MapReduce du point de vue de l’administrateur Hadoop
  - 5.1 Le JobTracker
  - 5.2 Le TaskTracker
Les apports de la version 2 de Hadoop
- 1. Objectif du chapitre
- 2. High Availability
- 3. Federation
- 4. YARN
- 5. Support de Microsoft Windows
- 6. Autres apports de la version 2 de Hadoop
- 7. Conclusion
Aspects matériels
- 1. Objectif du chapitre
- 2. Les nœuds maîtres
- 3. Les nœuds esclaves
- 4. Les aspects réseau
- 5. Déterminer la taille d’un cluster Hadoop et prévoir son évolution
- 6. Un exemple de cluster Hadoop
- 7. Pour aller plus loin
  - 7.1 Règles concernant les nœuds esclaves
  - 7.2 Règles concernant les nœuds maîtres
  - 7.3 Règles concernant le réseau
  - 7.4 Règles concernant le cluster
L’écosystème de Hadoop
- 1. Objectif du chapitre
- 2. Pig, Hive et l’API de streaming
  - 2.1 Introduction
  - 2.2 Hive
  - 2.3 Pig
  - 2.4 L’API de streaming
- 3. Outils orientés bases de données
  - 3.1 Flume
  - 3.2 Squoop
  - 3.3 HBase
  - 3.4 Impala
- 4. Outils d’exploitation
  - 4.1 ZooKeeper
  - 4.2 Cloudera Manager
  - 4.3 Oozie
- 5. Autres outils
  - 5.1 Hue
  - 5.2 Mahout
- 6. Comment intégrer Hadoop dans un système d’information ?
Développer des programmes Hadoop
- 1. Objectifs du chapitre
- 2. WordCount
  - 2.1 Préparation des données
  - 2.2 Importation des données dans HDFS
  - 2.3 WordCount en Java
    - 2.3.1 Le driver
    - 2.3.2 Le mapper
    - 2.3.3 Le reducer
    - 2.3.4 Compilation et exécution du job
  - 2.4 WordCount en Python
    - 2.4.1 Le mapper
    - 2.4.2 Le reducer
    - 2.4.3 Exécution du job
  - 2.5 Conclusion
- 3. JoinTables
  - 3.1 Introduction
  - 3.2 JoinTables en Java
  - 3.3 JoinTables en Pig Latin
  - 3.4 JoinTables en HiveQL
  - 3.5 Conclusion
- 4. Conclusion
Mettre en œuvre un cluster Hadoop
- 1. Objectif du chapitre
- 2. Cluster dédié ou cluster dans le Cloud ?
- 3. Les coûts
  - 3.1 Cluster dédié installé dans les locaux de l’organisme
    - 3.1.1 Les coûts de formation
    - 3.1.2 Les coûts matériels
    - 3.1.3 Les coûts logiciels
    - 3.1.4 Le coût du support technique
    - 3.1.5 Les coûts en énergie
    - 3.1.6 Les coûts en personnel
  - 3.2 Cluster dédié installé chez un hébergeur
    - 3.2.1 Les coûts de formation
    - 3.2.2 Les coûts matériels
    - 3.2.3 Les coûts logiciels
    - 3.2.4 Le coût du support technique
    - 3.2.5 Les coûts en personnel
    - 3.2.6 Les coûts en énergie
  - 3.3 Cluster partagé dans le Cloud
    - 3.3.1 Les coûts de formation
    - 3.3.2 Les coûts matériels
    - 3.3.3 Les coûts logiciels
    - 3.3.4 Le coût du support technique
    - 3.3.5 Les coûts en énergie
    - 3.3.6 Les coûts en personnel
    - 3.3.7 Les coûts en services
Quand utiliser Hadoop ?
- 1. Objectif du chapitre
- 2. Exemples de problèmes « hadoopéables »
- 3. Exemples réels d’utilisation de Hadoop
  - 3.1 Dans le domaine de la gestion de clientèle
  - 3.2 Dans le domaine de la publicité
  - 3.3 Dans le domaine de la santé
  - 3.4 Dans le domaine de la lutte contre la fraude
  - 3.5 Dans le domaine des villes « intelligentes »
  - 3.6 Dans le domaine des moteurs de recherche ou de recommandations
  - 3.7 Dans le domaine de la maintenance préventive
  - 3.8 Autres usages
    - 3.8.1 Identification de patterns dans des photographies
  - 3.9 Principales sources d’information utilisées dans ce chapitre
Conclusion

Catégorie	Base de données

Avis des clients

0.0

0 avis

5 stars

0
4 stars

0
3 stars

0
2 stars

0
1 stars

0

Il n'y a pas encore d'avis.

Soyez le premier à donner votre avis sur “Big Data Concepts et mise en oeuvre de Hadoop” Annuler la réponse

Plus d'offres pour ce produit!

Questions et demandes générales

Il n'y a pas encore de demandes de renseignements.

SHOP BY CATEGORY

Mot de passe oublié ?

Votre panier (0)

Votre panier (0)

Big Data Concepts et mise en oeuvre de Hadoop

Table des matières

Avis des clients

Soyez le premier à donner votre avis sur “Big Data Concepts et mise en oeuvre de Hadoop” Annuler la réponse

Questions et demandes générales

Intelligence artificielle vulgarisée Le Machine Learning et le Deep Learning par la pratique

Ne restez plus seul(e)

Livraison

Paiement sécurisé

Support 24/7

SQL Server 2019 Apprendre à administrer une base de données transactionnelle avec SQL Server Management Studio

SQL Server 2019 Apprendre à administrer une base de données transactionnelle avec SQL Server Management Studio

Oracle 12c Administrez une base de données : Exercices et corrigés

Oracle 12c Administrez une base de données : Exercices et corrigés

SQL Server 2019 – SQL, Transact SQL Conception et réalisation d’une base de données (avec exercices pratiques et corrigés)

SQL Server 2019 – SQL, Transact SQL Conception et réalisation d’une base de données (avec exercices pratiques et corrigés)

PostgreSQL Principes de base de l’utilisation de la base de données

PostgreSQL Principes de base de l’utilisation de la base de données

MySQL 8 Administration et optimisation

MySQL 8 Administration et optimisation

PostgreSQL Administration et exploitation de vos bases de données (4e édition)

PostgreSQL Administration et exploitation de vos bases de données (4e édition)

Oracle 12c SQL, PL/SQL, SQL*Plus

Oracle 12c SQL, PL/SQL, SQL*Plus

Oracle Hyperion Essbase Analyse et pilotage de la performance de l’entreprise (Cours et ateliers) (2e édition)

Oracle Hyperion Essbase Analyse et pilotage de la performance de l’entreprise (Cours et ateliers) (2e édition)