2020

Die öffentliche Statistik in Bewegung

Wir freuen uns, Ihnen mitteilen zu können, dass die Schweizer Tage der öffentlichen Statistik 2020 von Montag bis Mittwoch, Anfang September 2020, in Cham in der Nähe von Zug stattfinden werden.

Programm

Test 2020

11:00 – 12:00

Guillaume Obozinski Deputy Chief Data Scientist at the Swiss Data Science Center

  • Convex unmixing and learning the effect of latent variables in Gaussian Graphical models with unobserved variables

    The edge structure of the graph defining an undirected graphical model describes precisely the structure of dependence between the variables in the graph. In many applications, the dependence structure is unknown and it is desirable to learn it from data, often because it is a preliminary step to be able to ascertain causal effects. This problem, known as structure learning, is hard in general, but for Gaussian graphical models it is slightly easier because the structure of the graph is given by the sparsity pattern of the precision matrix of the joint distribution, and because independence coincides with decorrelation. A major difficulty too often ignored in structure learning is the fact that if some variables are not observed, the marginal dependence graph over the observed variables will possibly be significantly more complex and no longer reflect the direct dependencies that are potentially associated with causal effects. In this work, we consider a family of latent variable Gaussian graphical models in which the graph of the joint distribution between observed and unobserved variables is sparse, and the unobserved variables are conditionally independent given the others. Prior work was able to recover the connectivity between observed variables, but could only identify the subspace spanned by unobserved variables, whereas we propose a convex optimization formulation based on structured matrix sparsity to estimate the complete connectivity of the complete graph including unobserved variables, given the knowledge of the number of missing variables, and a priori knowledge of their level of connectivity. Our formulation is supported by a theoretical result of identifiability of the latent dependence structure for sparse graphs in the infinite data limit, which is a particular instance of a more general result we prove for unmixing with convex norms. We propose an algorithm leveraging recent active set methods, which performs well in the experiments on synthetic data.

    Short Bio

    Guillaume Obozinski graduated with a PhD in Statistics from UC Berkeley in 2009. He did his postdoc and held until 2012 a researcher position in the Willow and Sierra teams at INRIA and Ecole Normale Supérieure in Paris. He was then Research Faculty at Ecole des Ponts ParisTech until 2018. Guillaume has broad interests in statistics and machine learning and worked over time on sparse modeling, optimization for large scale learning, graphical models, relational learning and semantic embeddings, with applications in various domains from computational biology to computer vision.

  • Claude Macchi, Bundesamt für Statistik: Automatisierung der NOGA-Kodierung (NOGauto)

    Im Rahmen der BFS-Dateninnovationsstrategie wurden fünf besonders inspirierte Pilotprojekte ausgewählt, die in den letzten zwei Jahren die Grenzen der Machbarkeit in der öffentlichen Statistik getestet haben. Im Zentrum des Interesses stand die Anwendung komplementärer Analysemethoden (z. B. prädiktive Analytik mittels erweiterter Statistik, Datenwissenschaft und/oder maschinelles Lernen) auf BFS-interne Primärdatenquellen sowie bereits verknüpfte identifizierbare Sekundärdatenquellen, die in der aktuellen Statistikproduktion des BFS bereits verwendet werden. Es handelt sich hierbei um Pilotprojekte, die das Potenzial haben die BFS-Statistikproduktion zu erweitern oder zu ergänzen. Das Projekt Automatisierung der NOGA-Kodierung (NOGAuto) ist ein davon.

    Automatisierung der Kodierung der wirtschaftlichen Tätigkeit von Unternehmen anhand von Methoden des maschinellen Lernens, die an bereits im BFS vorhandene Daten angewandt werden (z. B. Erhebungsdaten, Beschreibung im Handelsregister, Schlüsselwörter, Erläuterungen der Nomenklaturen).

  • Luzius von Gunten, Bundesamt für Statistik: Machine Learning SoSi (ML_SoSi)

    Im Rahmen der BFS-Dateninnovationsstrategie wurden fünf besonders inspirierte Pilotprojekte ausgewählt, die in den letzten zwei Jahren die Grenzen der Machbarkeit in der öffentlichen Statistik getestet haben. Im Zentrum des Interesses stand die Anwendung komplementärer Analysemethoden (z. B. prädiktive Analytik mittels erweiterter Statistik, Datenwissenschaft und/oder maschinelles Lernen) auf BFS-interne Primärdatenquellen sowie bereits verknüpfte identifizierbare Sekundärdatenquellen, die in der aktuellen Statistikproduktion des BFS bereits verwendet werden. Es handelt sich hierbei um Pilotprojekte, die das Potenzial haben die BFS-Statistikproduktion zu erweitern oder zu ergänzen. Das Projekt Machine Learning» SoSi (ML_SoSi) ist ein davon.

    Gruppierung typischer prospektiver Verlaufsmuster bezüglich Leistungsbezügen im System der sozialen Sicherheit und Erwerbsarbeit sowie Schätzung der Gruppenzugehörigkeit durch Nutzung individueller Merkmale und retrospektiver Verlaufsdaten unter Anwendung von Methoden des maschinellen Lernens.

16:40 Cloture