Big data et machine learning : les concepts et les outils de la data science Pirmin Lemberger, Marc Batty, Médéric Morel... [et al.]

Résumé

Cet ouvrage s'adresse à tous ceux qui cherchent à tirer parti de l'énorme potentiel des « technologies Big Data », qu'ils soient data scientists, DSI, chefs de projets ou spécialistes métier.Le Big Data s'est imposé comme une innovation majeure pour toutes les entreprises qui cherchent à construire un avantage concurrentiel grâce à l'exploitation de leurs données clients, fournisseurs, produits, processus, machines, etc.Mais quelle solution technique choisir ? Quelles compétences métier développer au sein de la DSI ?Ce livre est un guide pour comprendre les enjeux d'un projet Big Data, en appréhender les concepts sous-jacents (en particulier le Machine Learning) et acquérir les compétences nécessaires à la mise en place d'un data lab.Il combine la présentation :* de notions théoriques (traitement statistique des données, calcul distribué...) ;* des outils les plus répandus (écosystème Hadoop, Storm...) ;* d'exemples d'applications ;* d'une organisation typique d'un projet de data science.Les ajouts de cette troisième édition concernent principalement la vision d'architecture d'entreprise, nécessaire pour intégrer les innovations du Big Data au sein des organisations, et le Deep Learning pour le NLP (Natural Language Processing, qui est l'un des domaines de l'intelligence artificielle qui a le plus progressé récemment).

Auteur :
Lemberger, Pirmin
Éditeur :
Malakoff, Dunod,
Collection :
InfoPro
Genre :
Manuel
Langue :
français.
Note :
Index
Mots-clés :
Nom commun :
Analyse des données -- Aspect économique | Données massives -- Gestion
Description du livre original :
1 vol. (X-256 p.) : ill. ; 25 cm
ISBN :
9782100790371.
Domaine public :
Non
Téléchargement du livre au format PDF pour « Big data et machine learning »

Table des matières

  • TABLE DES MATIÈRES
  • AVANT-PROPOS
    • ◆ Pourquoi un ouvrage sur le Big Data ?
    • ◆ À qui s’adresse ce livre ?
    • ◆ Comment lire ce livre ?
    • ◆ Travaux pratiques
    • ◆ Remerciements
  • PREMIÈRE PARTIE Les fondements
    du Big Data
    • 1 Les origines du Big Data
      • 1. 1 LA PERCEPTION DE LA DONNÉE
        DANS LE GRAND PUBLIC
        • 1.1.1 La révolution de l’usage
        • 1.1.2 L’envolée des données
        • 1.1.3 Un autre rapport à l’informatique
        • 1.1.4 L’extraction de données ou d’information ?
      • 1. 2 DES CAUSES ÉCONOMIQUES ET TECHNOLOGIQUES
        • 1.2.1 Une baisse des prix exponentielle
        • 1.2.2 Des progrès initiés par les géants du web
        • 1.2.3 Où se trouve la frontière du Big Data ?
          • ◆ Quelques exemples qui ne relèvent pas du Big Data
          • ◆ Quelques exemples qui relèvent du Big Data
      • 1. 3 LA DONNÉE ET L’INFORMATION
        • 1.3.1 La recherche pertinente
        • 1.3.2 Un avantage concurrentiel
        • 1.3.3 Des clients plus exigeants
      • 1. 4 LA VALEUR
      • 1. 5 LES RESSOURCES NÉCESSAIRES
      • 1. 6 DE GRANDES OPPORTUNITÉS
    • 2 Le Big Data dans les organisations
      • 2. 1 LA RECHERCHE DE L’ELDORADO
        • 2.1.1 L’entreprise au cœur d’un écosystème
        • 2.1.2 Une volonté de maîtrise
        • 2.1.3 Des besoins forts
      • 2. 2 L’AVANCÉE PAR LE CLOUD
      • 2. 3 LA CRÉATION DE LA VALEUR
      • 2. 4 LES « 3V » DU BIG DATA
        • 2.4.1 Le volume
        • 2.4.2 La vélocité
          • ◆ Au cœur du Time To Market
          • ◆ Au service des clients
        • 2.4.3 La variété
      • 2. 5 UN CHAMP IMMENSE D’APPLICATIONS
      • 2. 6 EXEMPLES DE COMPÉTENCES À ACQUÉRIR
        • 2.6.1 Appréhender de nouveaux modèles de traitement des données
        • 2.6.2 Maîtriser le déploiement de Hadoop ou utiliser une solution cloud
        • 2.6.3 Se familiariser avec de nouvelles méthodes de modélisation
        • 2.6.4 Découvrir de nouveaux outils d’analyse de données
      • 2. 7 DES IMPACTS À TOUS LES NIVEAUX
        • 2.7.1 Impacts sur la conception des systèmes
        • 2.7.2 Une nécessaire intégration du Big Data dans le SI
        • 2.7.3 Un élargissement des champs d’investigation
        • 2.7.4 La valorisation de la donnée, pilier de la transformation
        • 2.7.5 Un potentiel reposant sur plusieurs composantes SI
        • 2.7.6 Une disposition naturelle à partager
        • 2.7.7 Toujours plus de métier
      • 2. 8 UNE NÉCESSAIRE VISION D’ARCHITECTURE D’ENTREPRISE
        • 2.8.1 Un essoufflement perceptible
        • 2.8.2 Pour un Big Data qui ne devienne pas un nouveau silo
        • 2.8.3 Une industrialisation capitale pour les grands groupes
        • 2.8.4 Une transformation pour l’avenir
        • 2.8.5 Conséquences sur l’organisation de l’entreprise
        • 2.8.6 Impacts sur les relations entre clients et fournisseurs
        • 2.8.7 Implications juridiques
      • 2. 9 « B » COMME BIG DATA OU BIG BROTHER ?
        • 2.9.1 Connaissance client et préservation de la vie privée
        • 2.9.2 La lassitude est à notre porte
        • 2.9.3 Vers une démarche active
    • 3 Le mouvement NoSQL
      • 3. 1 BASES RELATIONNELLES, LES RAISONS D’UNE DOMINATION
      • 3. 2 LE DOGME REMIS EN QUESTION
        • 3.2.1 Les contraintes des applications web à très grande échelle
        • 3.2.2 Le « théorème » CAP
        • 3.2.3 Sacrifier la flexibilité pour la vélocité
        • 3.2.4 Peut-on définir ce qu’est une base de données NoSQL ?
      • 3. 3 LES DIFFÉRENTES CATÉGORIES DE SOLUTIONS
        • 3.3.1 Les entrepôts clé-valeur
          • ◆ Concepts
          • ◆ Usages
        • 3.3.2 Les bases orientées documents
          • ◆ Concepts
          • ◆ Usages
        • 3.3.3 Les bases orientées colonnes
          • ◆ Concepts
          • ◆ Usages
        • 3.3.4 Les bases de données orientées graphes
          • ◆ Concepts
          • ◆ Usages
      • 3. 4 LE NOSQL EST-IL L’AVENIR DES BASES
        DE DONNÉES ?
    • 4 L’algorithme MapReduce et le framework Hadoop
      • 4. 1 AUTOMATISER LE CALCUL PARALLÈLE
      • 4. 2 LE PATTERN MAPREDUCE
      • 4. 3 DES EXEMPLES D’USAGE DE MAPREDUCE
        • 4.3.1 Analyse statistique d’un texte
        • 4.3.2 Calcul d’une jointure entre deux grandes tables
        • 4.3.3 Calcul du produit de deux matrices creuses
      • 4. 4 LE FRAMEWORK HADOOP
        • 4.4.1 Planning des exécutions
        • 4.4.2 Tolérance aux pannes
          • ◆ Jobtrackers et tasktrackers
          • ◆ HDFS : un système de fichiers distribué
          • ◆ Exécutions spéculatives
        • 4.4.3 Découpage des données en lots
        • 4.4.4 Fusion et tri des listes intermédiaires
          • ◆ Le tri côté mapper
          • ◆ Le tri côté reducer
        • 4.4.5 Monitoring des processus
      • 4. 5 AU-DELÀ DE MAPREDUCE
  • DEUXIÈME PARTIE Le métier de data scientist
    • 5 Le quotidien du data scientist
      • 5. 1 DATA SCIENTIST : LICORNE OU RÉALITÉ ?
        • 5.1.1 L’origine du terme data scientist et définitions courantes
        • 5.1.2 Les compétences clés du data scientist
          • ◆ Quoi de neuf ?
          • ◆ Une dimension mathématiques / statistiques
          • ◆ Une dimension technologique / informatique
          • ◆ Une dimension métier
          • ◆ Alors mouton à cinq pattes ?
        • 5.1.3 Comment recruter ou se former
          • ◆ Les filières académiques
          • ◆ Les formations professionnelles
          • ◆ La participation à des concours
          • ◆ Les reconversions
      • 5. 2 LE DATA SCIENTIST DANS L’ORGANISATION
        • 5.2.1 Le data lab – une clé pour l’innovation par la donnée
        • 5.2.2 Le data lab – quelle place dans l’organisation ?
      • 5. 3 LE WORKFLOW DU DATA SCIENTIST
        • 5.3.1 Imaginer un produit ou un service
        • 5.3.2 Collecte des données
          • ◆ Disponibilité des données
          • ◆ Qualité des données
          • ◆ Questions techniques
          • ◆ Enjeux juridiques
          • ◆ Enjeux politiques
        • 5.3.3 Préparation
        • 5.3.4 Modélisation
        • 5.3.5 Visualisation
        • 5.3.6 Optimisation
        • 5.3.7 Déploiement
    • 6 Exploration et préparation de données
      • 6. 1 LE DÉLUGE DES DONNÉES
        • 6.1.1 Diversité des sources
          • ◆ Les SI transactionnels et la BI d’une entreprise
          • ◆ Les nouveaux entrepôts de données comportementales
          • ◆ Les données géographiques
          • ◆ L’open data
          • ◆ Les bases de données commerciales
          • ◆ Les données obtenues par crawling
        • 6.1.2 Diversité des formats
          • ◆ Les fichiers classiques
          • ◆ Les bases de données relationnelles
          • ◆ Les bases NoSQL
        • 6.1.3 Diversité de la qualité
          • ◆ L’exhaustivité
          • ◆ La granularité
          • ◆ L’exactitude
          • ◆ La fraîcheur
      • 6. 2 L’EXPLORATION DE DONNÉES
        • 6.2.1 Visualiser pour comprendre
        • 6.2.2 Enquêter sur le passé des données
        • 6.2.3 Utiliser les statistiques descriptives
          • ◆ Les box plot
          • ◆ Les histogrammes
        • 6.2.4 Les tableaux croisés dynamiques
      • 6. 3 LA PRÉPARATION DE DONNÉES
        • 6.3.1 Pourquoi préparer ?
        • 6.3.2 Nettoyer les données
        • 6.3.3 Transformer les données
          • ◆ Séparation et extraction
          • ◆ Agrégation
          • ◆ Transformation
          • ◆ Un exemple de transformation avec les cohortes
        • 6.3.4 Enrichir les données
        • 6.3.5 Un exemple de préparation de données
      • 6. 4 LES OUTILS DE PRÉPARATION DE DONNÉES
        • 6.4.1 La programmation
        • 6.4.2 Les ETL
        • 6.4.3 Les tableurs
        • 6.4.4 Les outils de préparation visuels
    • 7 Le Machine Learning
      • 7. 1 QU’EST-CE QUE LE MACHINE LEARNING ?
        • 7.1.1 Comprendre ou prédire ?
        • 7.1.2 Qu’est-ce qu’un bon algorithme de Machine Learning ?
        • 7.1.3 Performance d’un modèle et surapprentissage
        • 7.1.4 Machine Learning et Big Data –
          sur quoi faut-il être vigilant ?
      • 7. 2 LES DIFFÉRENTS TYPES DE MACHINE LEARNING
        • 7.2.1 Apprentissage supervisé ou non supervisé ?
        • 7.2.2 Régression ou classification ?
        • 7.2.3 Algorithmes linéaires ou non linéaires ?
        • 7.2.4 Modèle paramétrique ou non paramétrique ?
        • 7.2.5 Apprentissage hors ligne ou incrémental ?
        • 7.2.6 Modèle géométrique ou probabiliste ?
      • 7. 3 LES PRINCIPAUX ALGORITHMES
        • 7.3.1 La régression linéaire
          • ◆ Description
          • ◆ Avantages
          • ◆ Inconvénients
        • 7.3.2 Les k plus proches voisins
          • ◆ Description
          • ◆ Avantages
          • ◆ Inconvénients
        • 7.3.3 La classification naïve bayésienne
          • ◆ Description
          • ◆ Avantages
          • ◆ Inconvénients
        • 7.3.4 La régression logistique
          • ◆ Description
          • ◆ Avantages
          • ◆ Inconvénients
        • 7.3.5 L’algorithme des k-moyennes
          • ◆ Description
          • ◆ Avantages
          • ◆ Inconvénients
        • 7.3.6 Les arbres de décision
          • ◆ Description
          • ◆ Avantages
          • ◆ Inconvénients
        • 7.3.7 Les forêts aléatoires
          • ◆ Description
          • ◆ Avantages
          • ◆ Inconvénients
        • 7.3.8 Les machines à vecteurs de support
          • ◆ Description
          • ◆ Avantages
          • ◆ Inconvénients
        • 7.3.9 Techniques de réduction dimensionnelle
      • 7. 4 RÉSEAUX DE NEURONES ET DEEP LEARNING
        • 7.4.1 Les premiers pas vers l’intelligence artificielle
        • 7.4.2 Le perceptron multicouche
        • 7.4.3 L’algorithme de rétropropagation
          • ◆ La descente de gradient stochastique
          • ◆ Calcul du gradient par rétro-propagation
        • 7.4.4 La percée du Deep Learning
          • ◆ Idée n° 1 : initialiser judicieusement le RN
          • ◆ Idée n° 2 : utiliser les bonnes briques pour construire un réseau profond
        • 7.4.5 Exemples d’architectures profondes
          • ◆ Les Deep Belief Networks
          • ◆ Les réseaux de convolution
          • ◆ Les réseaux de neurones récurrents
          • ◆ Le Deep Learning pour le NLP
            • Les words embeddings
            • L’architecture encodeur-décodeur
            • L’apprentissage par transfert
            • Le mécanisme d’attention
              • Application au traitement du langage naturel
              • Application à la description d’image
              • L’état de l’art en NLP avec le Transformer et le modèle BERT
      • 7. 5 ILLUSTRATIONS NUMÉRIQUES
        • 7.5.1 Nettoyage et enrichissement des données
        • 7.5.2 Profondeur d’un arbre et phénomène de surapprentissage
        • 7.5.3 Apport du « feature engineering »
        • 7.5.4 Sensibilité de l’algorithme KNN au bruit
        • 7.5.5 Interprétabilité de deux modèles
        • 7.5.6 Bénéfices de l’approche ensembliste
      • 7. 6 SYSTÈMES DE RECOMMANDATION
        • 7.6.1 Approches type Collaborative-Filtering
          • ◆ Similarité Item-Based
          • ◆ Similarité User-Based
          • ◆ Exemple de code Spark
        • 7.6.2 Approches type Content-Based
          • ◆ Principe
          • ◆ TF-IDF
        • 7.6.3 Approche Hybride
        • 7.6.4 Recommandation à chaud : « Multi-armed bandit »
    • 8 La visualisation des données
      • 8. 1 POURQUOI VISUALISER L’INFORMATION ?
        • 8.1.1 Ce que les statistiques ne disent pas
        • 8.1.2 Les objectifs de la visualisation
      • 8. 2 QUELS GRAPHES POUR QUELS USAGES ?
        • ◆ Variable prédictive et variable cible qualitatives
        • ◆ Variable prédictive quantitative, variable cible qualitative
        • ◆ Variable prédictive qualitative, variable cible quantitative
        • ◆ Variable prédictive et variable cible quantitatives
        • ◆ Courbe ROC et évaluation des modèles de classification
      • 8. 3 REPRÉSENTATION DE DONNÉES COMPLEXES
        • 8.3.1 Principes d’encodage visuel
        • 8.3.2 Principes de visualisation interactive
          • ◆ La spécification d’une visualisation
          • ◆ La manipulation des vues
          • ◆ Le partage de l’information
  • TROISIÈME PARTIE Les outils du Big Data
    • 9 L'écosystème Hadoop
      • 9. 1 LA JUNGLE DE L’ÉLÉPHANT
        • 9.1.1 Distribution ou package
        • 9.1.2 Un monde de compromis
        • 9.1.3 Les services autour de Hadoop
      • 9. 2 LES COMPOSANTS D’APACHE HADOOP
        • 9.2.1 Hadoop Distributed File System
        • 9.2.2 MapReduce et YARN
        • 9.2.3 HBase
        • 9.2.4 ZooKeeper
        • 9.2.5 Pig
        • 9.2.6 Hive
        • 9.2.7 Oozie
        • 9.2.8 Flume
        • 9.2.9 Sqoop
      • 9. 3 LES PRINCIPALES DISTRIBUTIONS HADOOP
        • 9.3.1 Cloudera
        • 9.3.2 Hortonworks
        • 9.3.3 MapR
        • 9.3.4 Amazon Elastic MapReduce
      • 9. 4 SPARK OU LA PROMESSE DU TRAITEMENT BIG DATA IN-MEMORY
        • 9.4.1 L’émergence de Spark
        • 9.4.2 De MapReduce à Spark
        • 9.4.3 Les RDD au cœur du projet Spark
        • 9.4.4 La simplicité et flexibilité de programmation avec Spark
        • 9.4.5 Modes de travail en cluster
      • 9. 5 LES BRIQUES ANALYTIQUES À VENIR
        • 9.5.1 Impala versus Stinger
        • 9.5.2 Drill
      • 9. 6 LES LIBRAIRIES DE CALCUL
        • 9.6.1 Mahout
        • 9.6.2 MLlib de Spark
          • ◆ Analyse de texte
          • ◆ Online-learning
          • ◆ Le filtrage collaboratif
        • 9.6.3 RHadoop
    • 10 Analyse de logs avec Pig et Hive
      • 10. 1 POURQUOI ANALYSER DES LOGS ?
      • 10. 2 POURQUOI CHOISIR PIG OU HIVE ?
      • 10. 3 LA PRÉPARATION DES DONNÉES
        • 10.3.1 Le format des lignes de logs
        • 10.3.2 L’enrichissement des logs
          • ◆ Enrichissements temporels
          • ◆ Enrichissements géographiques
          • ◆ Enrichissements météorologiques
          • ◆ Enrichissements avec des données open data
          • ◆ Enrichissements par calculs
        • 10.3.3 La reconstruction des sessions
        • 10.3.4 Agrégations et calculs
      • 10. 4 L’ANALYSE DES PARCOURS CLIENTS
    • 11 Les architectures λ
      • 11. 1 LES ENJEUX DU TEMPS RÉEL
        • 11.1.1 Qu’est-ce que le temps réel ?
        • 11.1.2 Quelques exemples de cas réels
      • 11. 2 RAPPELS SUR MAPREDUCE ET HADOOP
      • 11. 3 LES ARCHITECTURES Λ
        • 11.3.1 La couche batch
        • 11.3.2 La couche de service
        • 11.3.3 La couche de vitesse
        • 11.3.4 La fusion
        • 11.3.5 Les architectures λ en synthèse
    • 12 Apache Storm
      • 12. 1 QU’EST-CE QUE STORM ?
      • 12. 2 POSITIONNEMENT ET INTÉRÊT DANS LES ARCHITECTURES Λ
      • 12. 3 PRINCIPES DE FONCTIONNEMENT
        • 12.3.1 La notion de tuple
        • 12.3.2 La notion de stream
        • 12.3.3 La notion de spout
        • 12.3.4 La notion de bolt
        • 12.3.5 La notion de topologie
      • 12. 4 UN EXEMPLE TRÈS SIMPLE
  • Conclusion
    • ◆ Et maintenant ?
    • ◆ Conseil n° 1 : Inscrivez-vous à des meetup Data
      dans votre ville
    • ◆ Conseil n° 2 : Suivez le MOOC (cours en ligne) « Apprentissage Automatique » de Andrew Ng sur Coursera
    • ◆ Conseil n° 3 : Abonnez-vous à des newsletters
      et suivez les actualités des sites dédiés
    • ◆ Conseil n° 4 : Téléchargez Dataiku DSS et faites les tutoriels associés
    • ◆ Conseil n° 5 : Faites votre premier concours Kaggle
    • ◆ Conseil n° 6 : Décortiquez la documentation en ligne de scikit-learn
    • ◆ Conseil n° 7 : Lisez d’autres livres pour aller plus loin
    • ◆ Conseil n° 8 : Les cursus officiels
  • Index
    • 3
    • <
    • A
    • B
    • C
    • D
    • E
    • F
    • G
    • H
    • I
    • J
    • K
    • M
    • N
    • O
    • P
    • Q
    • R
    • S
    • T
    • V
    • W
    • Y
    • Z
    • a
    • b
    • c
    • d
    • e
    • f
    • g
    • h
    • i
    • j
    • k
    • l
    • m
    • n
    • o
    • p
    • q
    • r
    • s
    • t
    • u
    • v
    • w
    • z
    • é

Commentaires

Laisser un commentaire sur ce livre