Java >> Java Tutorial >  >> Java

Buchbesprechung:Skalierung von Big Data mit Hadoop und Solr

Offenlegung: Ich habe ein Buch geschrieben, das von Packt Publishing veröffentlicht wurde, und ich habe ein kostenloses Rezensionsexemplar dieses Buches erhalten.

Scaling Big Data with Hadoop and Solr von Hrishikesh Karambelkar ist das neueste Buch von Packt Publishing über Big Data.

Ich hatte große Hoffnungen auf dieses, weil seine Beschreibung das verspricht

  1. Es ist eine Schritt-für-Schritt-Anleitung, die Ihnen hilft, leistungsstarke Suchmaschinen mit Apache Hadoop und Solr zu erstellen.
  2. Sie können das Buch ohne vorherige Erfahrung mit Apache Hadoop und Solr verstehen.

Lassen Sie uns herausfinden, ob dieses Buch diese Versprechen hält.

Was ist zwischen den Deckeln zu finden?

Das Buch ist in fünf Kapitel und drei Anhänge gegliedert, die im Folgenden beschrieben werden:

Das erste Kapitel beschreibt die Probleme, die durch Big Data gelöst werden. Es gibt eine kurze Einführung in Apache Hadoop und sein Ökosystem. Es hilft Ihnen auch bei der Installation und Konfiguration von Apache Hadoop und hat einen Abschnitt, der über seine Verwaltungstools spricht.

Das erste Kapitel ist solide und bietet eine wirklich gute Beschreibung des Hadoop Distributed File System (HDFS). Auch die Beschreibung des Map-Reduce-Algorithmus ist eine der besten, die ich je gesehen habe.

Kapitel zwei gibt einen Überblick über die Architektur von Apache Solr und beschreibt, wie Sie Apache Solr installieren und konfigurieren können.

In diesem Kapitel werden die verschiedenen Request-Handler gut erklärt, aber leider ist die Beschreibung des Solr-Schemas etwas vage. Es fühlt sich ein bisschen wie ein Referenzhandbuch an, was ein Problem sein könnte, wenn Sie keine Erfahrung mit Solr haben.

Das dritte Kapitel beschreibt die Probleme, die Solr alleine lösen kann, und zeigt die Vorteile der verteilten Suche auf. Es stellt verschiedene Datenverarbeitungs-Workflows vor und beschreibt die Vor- und Nachteile jedes Workflows. Dieses Kapitel endet mit der Beschreibung der Werkzeuge, die verwendet werden können, um die verteilte Suche mit Apache Solr zu implementieren.

Das dritte Kapitel hat einen sehr guten Start, aber das Ende dieses Kapitels wirft mehr Fragen auf, als es beantwortet. Um ehrlich zu sein, fühlt es sich etwas verwirrend an, weil es die Frage nicht beantwortet:

Wie kann ich diese Tools verwenden?

Kapitel vier beschreibt, wie Sie Daten mithilfe von Big-Data-Technologien indizieren können. Es beginnt mit der Beschreibung der NoSQL-Datenbanken und des CAP-Theorems. Dann gibt es eine Einführung in das Konzept der verteilten Suche. Außerdem wird beschrieben, wie Sie Hadoop, Solr und HBase mithilfe von Lily integrieren können. Das Kapitel endet mit einer Beschreibung, wie Sie Ihren Solr-Index mithilfe von SolrCloud und ZooKeeper in mehrere Shards aufteilen können.

Dieses Kapitel war gut zu lesen, aber es hat zwei Probleme:

  • Die Beschreibung von Lilys Installationsprozess war etwas vage. Zum Beispiel habe ich keine Ahnung, wohin ich seine JAR-Dateien kopieren soll.
  • Es wird davon ausgegangen, dass Sie nicht auf Probleme stoßen. Ich verstehe, dass es unmöglich ist, alle Ausnahmesituationen in einem Buch zu behandeln. Es hätte jedoch Antworten auf die häufigsten Probleme geben oder zumindest Ressourcen aufzeigen können, die nützlich sind, wenn Sie auf Probleme stoßen.

Der fünfte Kapitel konzentriert sich auf die Optimierung der Performance von Apache Solr. Es beschreibt, wie Sie Ihr Schema, Ihren Solr-Index und Ihre Suchlaufzeit optimieren können. Außerdem enthält es Tipps zur Verbesserung der Leistung des Java EE-Containers, der Ihre Solr-Instanz ausführt, und stellt verschiedene Möglichkeiten zur Überwachung der Leistung Ihres Setups vor.

Meiner Meinung nach ist dieses Kapitel das beste Kapitel des Buches. Es gibt konkrete Ratschläge, die Sie sofort umsetzen können.

Anhang A beschreibt zwei verschiedene Anwendungsfälle für Big Data-basierte Suchfunktionen. Die ausgewählten Anwendungsfälle sind gut und ich denke, dass der Autor seinen Fall sehr gut argumentiert hat.

Anhang B beschreibt, wie Sie Ihre Solr-Instanz konfigurieren können, wenn Sie einen der in Anhang A erwähnten Anwendungsfälle implementieren. Ich habe diesen Abschnitt des Buchs gerne gelesen und auch einige neue Tricks gelernt.

Anhang C beschreibt, wie Sie mithilfe der in Kapitel 3 beschriebenen Tools Daten zum Solr-Index hinzufügen können. Obwohl ich froh war, endlich Code zu sehen, war ich überrascht, dass die Codebeispiele nicht richtig erklärt wurden. Das macht es ziemlich schwierig, sie zu verstehen, wenn Sie keine Erfahrung mit diesen Tools haben.

Also, wie lautet das Urteil?

Ich habe gemischte Gefühle zu diesem Buch.

Man merkt, dass der Autor ein Experte auf diesem Gebiet ist und diese komplexen Themen verständlich erklärt. Dieses Buch gibt einen guten Überblick über das Thema, konzentriert sich aber hauptsächlich auf die Theorie.

Obwohl die Theorie anschaulich dargestellt wird, bietet das Buch nur sehr wenige Ratschläge zur Anwendung dieser Theorie in der Praxis. Das war eine Enttäuschung für mich, weil dieses Buch als Schritt-für-Schritt-Anleitung beworben wird.

Mit anderen Worten, Skalierung von Big Data mit Hadoop und Solr bietet eine gute Einführung in das Thema, aber seien Sie darauf vorbereitet, weitere Informationen aus anderen Quellen zu suchen.


Java-Tag