„An der Arbeit bei HMS schätze ich besonders den fairen Umgang mit Kunden und Kollegen. Außerdem ist die Vereinbarkeit von Beruf und Familie auch für Mitarbeiter im Management gegeben: Gleitzeit und die Möglichkeit, auch einmal im Homeoffice zu arbeiten, sind Angebote, die ich regelmäßig nutze.“

Johannes Schluchter, Teamleiter und Senior Software-Ingenieur

Wissen

Datenvorverarbeitung mit R: ausgewählte R-Packages, Performance und „Big Data“

Kursziel

Motivation: die Vorbereitung der Daten für eine statistische Auswertung verursacht hohen Aufwand und nimmt einen verhältnismäßig großen Anteil der Projektzeit in Anspruch. Hinzu kommt: gerade in diesem frühen Stadium eines Analyseprojektes ist die Vermeidung von Fehlerquellen besonders wichtig. Bei den heute üblichen großen Datenmengen sind auch Programmlaufzeiten und verfügbarer Speicher limitierende Faktoren, die berücksichtigt werden müssen.

Durch den Einsatz aktueller R-Packages lassen sich verschiedene Ziele gleichzeitig lösen:

  • Der Zeitaufwand für die Vorverarbeitung wird reduziert, hochqualifizierte Mitarbeiter können sich besser auf ihre inhaltlichen Analyseaufgaben konzentrieren.
  • Code kann lesbarer, verständlicher werden, Fehlerquellen werden reduziert.
  • Laufzeiten verkürzen sich, größere Datenmengen können verarbeitet werden.

In der Schulung werden die Einsatzschwerpunkte und speziellen Stärken und Schwächen der Packages „tidyr“, „plyr“, „dplyr“, „data.table“, „ff“ am konkreten Codebeispiel erläutert.

  Es werden Lösungen gezeigt für:

  • Variablen erstellen, verwalten
  • Auswählen von Fällen, Variablen
  • Datenaggregation
  • Gruppieren von Fällen/Records
  • Anwenden von Funktionen auf gruppierte Daten
  • Zusammenführen von Daten, sortieren

Anschließend sind Sie in der Lage, die für Ihre Aufgaben geeignetsten Packages/Lösungen auszuwählen und einzusetzen. Alle genannten Packages sind kostenfrei verfügbar und können problemlos in aktuellen R-Versionen eingesetzt werden.

Voraussetzungen & Zielgruppe

Der eintägige Kurs richtet sich an Programmierer, Data Manager und Statistiker mit Grundkenntnissen in R. Programmierkenntnisse sind erforderlich.

Führungskräfte mit entsprechendem fachlichem Hintergrund profitieren ebenfalls von Vergleich und Gegenüberstellung verschiedener Lösungen.

Kursinhalte

  • Einführung ins Thema
  • Saubere Strukturierung der Daten: "Tidy Data": Prinzipien und übliche Fehler
  • Allgemeine Datentransformations-Muster
  • Package "tidyr": Umstrukturierung von Datenbeständen
  • Package "plyr": Das "Split- Apply -Combine"-Prinzip
  • Package "dplyr": Standardoperationen für data frames
  • Package "data.table": hochperformante Verarbeitung
  • Package "ff": große Datenemengen verarbeiten

Termine

Wir führen diesen Kurs sowohl als Standardkurs, als auch in Form eines auf Ihre Bedürfnisse zugeschneiderten Coachings durch. Weitere Informationen geben wir Ihnen gerne per E-mail.