Google Data Cloud Summit – Recap

Google’s Data Cloud Summit took place May 26th, 18PT. The summit is home to their big data products and offerings, that aim to help customers succeed in data driven businesses. Here is a summary of news and announcements:

  • Dataplex, an intelligent data fabric. The product allows management of data across multiple sources, including data lakes, data warehouses and data marts for the goal of centralizing management and governance. From there, Dataplex allows to make data available for analytics and data science.
  • Datastream, a server-less change data capture (CDC) and replication service. The service allows to syncronize datasets across multiple systems by transferring changes alone, thus reducing the amount of data transferred and increasing performance and reliability.
  • Announcement of Analytics Hub, a fully-managed service built on BigQuery. The service aims to provide an open ecosystem for sharing and exchanging data across organisations at scale. Part of the offering will be controls and monitoring over data usage and sharing. The hub will offer self service and monetization for data owners, while reducing the need to operate infrastructure for data owners.
  • Dataflow Prime, a no-ops, serverless data processing platform. Dataflow Prime is a managed offering of Apache Beam based data processing pipelines. The product will autoscale infrastructure.
  • Cloud Spanner will allow more flexible and granular instance sizing
  • Key Visualizer, an interactive monitoring tool to analyze usage patterns in Cloud Spanner
  • Cloud Bigtable lifts SLA to 99.999% and introduces new security features. Security features are namely customer managed encryption keys (Googles acronym CMEK) and audit logs. Alongside with SLAs, the product now aims at compliance with regulated industries.
  • Sessions are available on demand
Google Data Cloud Summit

Join us to learn how leading companies are powering innovation with our data solutions. Attend sessions, demos, and live Q&As to discover how data can help you make smarter business decisions and solve your organization’s most complex challenges.

Google Data Cloud Summit

Source: Home – Data Cloud Summit

From Data to Product

In an ideal world, product managers have plenty of data they can use to validate their idea before building the wrong product. Yana Yushkina describes her journey from a Data Analyst to a Product Manager.

She talks about characteristics a good PM should bring, that include foundational analytical understanding, curiosity not just for technology but to search for the right answers in data, a sense of responsibility and the ability to communicate.

All of that combined with the right metrics at hand and self sufficient mindset will give a Product Manager the right answer from data.

Via Product School.

Salesforce buys Tableau

Salesforce buys Tableau for an amount of $15.7B, in not only its largest M&A deal to date, but probably one of the largest deals ever. After Google only acquired Looker earlier past week, it seems the race for Business Analytics is on.

SaaS giant Salesforce announced that it has signed an agreement with Seattle-based data visualization and analysis platform Tableau for $15.7 billion in stock. Both companies’ boards of directors approved the deal, which “is expected to be completed during Salesforce’s fiscal third quarter […]

Source: Salesforce To Buy Tableau For $15.7B In Its Largest M&A Deal To Date

Google to Acquire Looker

Google spent $2.6 billion all cash to acquire business intelligence platform Looker.

Google LLC today announced that it has entered into an agreement to acquire Looker, a unified platform for business intelligence, data applications and embedded analytics, in a $2.6 billion all-cash…

Source: Alphabet : 06.06.2019 Google to Acquire Looker more | MarketScreener

Why monitoring is hard

(and why your vendor will only sell you tools, not solutions)

Internet wiring

Intro

Monitoring infrastructure in a meaningful way is important to any IT operations, yet it is hard to realize. Many vendors adress this problem and promise a silver bullet.

Music Timeline.

Musikpopularität
Musik Timeline

Google hat gestern die Music Timeline vorgestellt. Das Projekt gibt äusserst spannende Einblicke was wann wie populär war. Sehr schön ist an den Daten und dem User-Interface, dass man quasi

Nur Country, kein Western
Nur Country, kein Western

“hineinzoomen” kann, also jede Musikrichtung genau anschauen kann. Man klickt durch alle Sub-Genres und von dort zu den Interpreten. All das hat Google für die letzten 60 Jahre aufbearbeitet.

 

 

via Laughing Squid.

Die Unsicherheit mit der Sicherheit

Vergangene Woche hatte ich die Ehre an einer Diskussionsrunde teilzunehmen, die sich mit dem Thema “Cyber Situational Intelligence” befasste. Teilnehmer der Runde waren durchaus namhafte Vertreter der in München ansässigen IT-Sicherheits- und Servicedienstleister. Fragestellung der Rund war es, wie man aus bestehenden Daten Informationen gewinnt, die der IT-Sicherheit dienlich sind. “Intelligence” ist in diesem Zusammenhang auch durchaus Nachrichtendienstlich zu verstehen, der Vorgang soll aus reinen Daten Hinweise auf Auffällige Vorgänge geben und “Actionable” Ereignisse anzeigen, die also eine Handlung erfordern.

Sehr schnell ist in dieser Runde die Unklarheit deutlich geworden, wie man sich dem Thema nähern kann. Zwar herrschte schnell Konsens darüber, dass aus konventionellen, heute am Markt erhältlichen Systemen, äußerst leicht eine Aufbereitung fast beliebiger Daten erstellbar ist, am Ende aber keine Bewertung stattfindet, die über das Produzieren weiterer Logfiles hinausgeht – also keine Information erstellt wird die “Actionable” Ereignisse von irrelevanten Vorgängen trennt.

Es gibt schier unerschöpfliche Datenquellen: interne, wie externe. Bei den Internen sind Firewalls, Intrusion Detection/Prevention Systeme (IDS/IPS), Web Application Firewalls (WAF), Webserver Logs, Application Server Logs, Datenbank Logs, um die Netzkomponenten zu nennen, wie auch Virenscanner und Desktopsicherheitssoftware. Im wesentlichen strukturierte Daten. Externe Quellen sind “Das Internet” mit seiner Blogosphäre, Pastebin, Twitter, Facebook und allen anderen sozialen Medien, die unstrukturierte, menschliche Kommunikation öffentlich machen, darüber hinaus aber auch Bewertungssysteme, Spamdatenbanken, Web-Reputations-Systeme, die man anzapfen kann.

Der Ansatz, den die Runde weiter verfolgte, war zentrale und übergreifende Stellen zu schaffen, die ein systematisches Vorgehen über Organisationsgrenzen hinweg ermöglicht. Die offenbare Problematik an dieser Stelle ist welche Daten von einer Zentralen Stelle verarbeitet werden sollen und welche Ergebnisse erwartet werden. Nicht zuletzt, weil auch die (rechtlichen) Anforderung jeder Industrie anders sind.

Grundsätzlich scheitert jeder Versuch Vorhersagen zu treffen auch an den bestehenden Erkennungssystemen. Jede WAF oder Virenscanner versucht schlussendlich bekannte Muster in Angriffen zu erkennen. Darüber hinaus ist die Qualität der Daten in der Regel nicht sehr hoch,  Ergebnisse sind schlicht zu unsicher. Eine zentrale Stelle kann zwar helfen, einen Unsicherheitsfaktor zu bestimmen und Ergebnisse quantitativ zu bewerten, eine automatisierte Entscheidung möchte aber sicher kein IT Verantwortlicher Aufgrund des Ergebnisses einer dritten Stelle treffen.

Natürlich ist es in der Praxis schwerere als in der Theorie, aber ist eine IT Organisation bereits mit dem Wissen über Schwächen ausgestattet  solle Energie besser in die Behebung der bekannten Schwächen fließen. Ein Graph, wie oft eine Lücke ausgenutzt worden ist, hilft zu dem Zeitpunkt kaum noch weiter.

Security Incident Event Management (SIEM) Systeme und deren potentielle Nachfolger können in der Praxis sicher helfen, mehr Wissen über komplexe Infrastruktur herzustellen. Aber ohne die menschliche Transferleistung und “Intelligence”, die erkannte Fehler auch behebt, werden solche Systeme auch in absehbarer Zukunft aufwendige und teure Reportingtools bleiben. Es bleibt ein großes und weites Feld für Innovation, auch wenn die notwendigen Ziele leicht misszuverstehen sind.