Voix, données

Données géospatiales Droit d'auteur Exceptions au droit d'auteur Universités Voix, données

Le droit d’auteur et les données de recherche

Notes de ma présentation lors de l’École d’été sur les humanités numériques de 2022. Vous pouvez visionner ou consulter mes présentations antérieures sur mon carnet.

Parfois, il faut savoir protéger ses droits !

Dans son Petit cours d’autodéfense intellectuelle, Normand Baillargeon offre un vibrant hommage à la pensée critique et à la capacité de raisonnement. Par contre, il n’y offre aucun conseil pour se battre. Car en droit d’auteur, il faut savoir comment ester en justice, en plus de savoir créer !

Le droit d’auteur saisit les créations artistiques, culturelles, créatives ou leur communication, pour échafauder un régime de propriété assorti de toutes sortes de modalités. Pour y faire face, les agents socio-économiques doivent analyser leur communautés, contextes et ressources pour effectuer des choix stratégiques, symboliques et structurants. En ce qui concerne le domaine des données de recherche, me vous propose cette savoureuse lecture de Pablo Jensen: Pourquoi la société ne se laisse pas mettre en équations ainsi que de l’essentiel Vademecum pour la réutilisabilité des données du Consortium Cahier.

Or, il de bon aloi de blâmer le droit d’auteur pour une complexité délétère à l’innovation. Cette prémisse est malheureusement injuste: La complexité autour des enjeux juridiques de tout contexte découle de l’imbrication de divers ordres juridiques, tant publics que privés, de plusieurs facteurs technologiques ou médiatiques liés à l’environnement socio-économique des acteurs impliqués ainsi que le contexte mondialisé de l’ordre économique néolibéral. Pour les données de recherche en humanités numériques, nous nous situons en amont et en aval du processus de la recherche universitaire. Examinons les aspects légaux comme point focal en gardant en tête le système social de notre étude, l’université contemporaine.

1. Le droit d’auteur

Débuts britanniques du copyright au 18e siècle: Statute of Ann (livre, 1710) et l’Acte d’Hogarth (gravure, 1734). Le droit d’auteur Français et la piraterie américaine au 19e siècle. La codification internationale des nouvelles formes médiales depuis… Internet n’est qu’un écho d’une histoire bien connue du droit d’auteur !

1.1 Droit économique et artistique

Propriété

art 3, https://canlii.ca/t/ckj9#art3: protection de l’oeuvre. Produire, reproduire, publier, exécuter en public l’entièreté ou une partie substantielle de la forme exprimée. En 2012, le législateur édicte la «mise à disposition par Internet» comme une méthode d’exécution en public.

art. 6, https://canlii.ca/t/ckj9#art6durée du droit d’auteur. 50 ans après la mort de la créatrice (bientôt 70 ans). Après, l’utilisation n’est plus restreinte par le droit d’auteur et l’oeuvre est dans le domaine public.

Contrats, licences, cessions et toutes les concessions

art 13, https://canlii.ca/t/ckj9#art13possession, cessions et licences. Certaines dispositions sont édictées comme point de départ, mais le droit d’auteur est agnostique quant à la teneur des contrats.

Droit moral et artistique

art 14.1(2) https://canlii.ca/t/ckj9#art14.1: Les droits moraux sont incessibles; ils sont toutefois susceptibles de renonciation, en tout ou en partie. Encore les contrats!

1.2 Autour du droit d’auteur

Limitations

Les limitations édictent une utilisation sans autorisation mais rémunérée. Les Société de gestion collectives (SGC) sont les organisations appelées à gérer les droits sur un corpus homogène d’oeuvres pour une communauté donnée. Copibec gère la réprographie au Québec. Dans l’industrie, on parle des «petits droits» pour ceux gérées par les SGC.

Exceptions

Les exceptions édictent une utilisation sans autorisation et sans rémunération. L’utilisation équitable aux art. 29, 29.1 et 29.2. Le contenu non-commercial généré par les utilisateurs à l’art 29.21. Les Bibliothèques, archives et musées (BAM) aux art. 30.1 et 30.2.

Idées et faits (originalité de l’oeuvre)

Le droit d’auteur protège les oeuvres originales et fixées. Les faits (données) ne sont pas originales à moins que la sélection et l’arrangement de ceux-ci découle du talent, jugement et de l’effort. Une recette n’est pas protégée, à moins de se qualifier comme originale dans la forme qu’elle est exprimée. Les idées ne sont pas protégées par droit d’auteur.

Formes insaisissables (fixation de l’oeuvre)

Certaines formes d’expression artistiques glissent hors de la structure édictée par le droit d’auteur. La danse peut difficilement être fixée (filmer une chorégraphie protège la vidéo produite, pas la danse elle-même). Pour les artistes-interprètes musicaux, une forme de «droit voisin» est édicté. La mode est généralement exclue du droit d’auteur au Canada.

Les savoirs traditionnels et les formes d’expressions autochtones sont des formes glissent également (fort malheureusement) de la structure du droit d’auteur, tout comme le patrimoine vivant

Synthèse

2. Les données saisies par le droit d’auteur

2.1 Sources

Quelles sont les contraintes juridiques sur les sources envisagées ? Le domaine public? Les documents publics? Renseignements personnels? Cadre éthique de la recherche ? Données ouvertes liées ou secret de polichinelles ?

Utilisation équitable dans CCH: (1) le but de l’utilisation; (2) la nature de l’utilisation; (3) l’ampleur de l’utilisation; (4) les solutions de rechange à l’utilisation; (5) la nature de l’œuvre; (6) l’effet de l’utilisation sur l’œuvre. * CCH Canadienne Ltée c. Barreau du Haut-Canada, 2004 CSC 13 (CanLII), [2004] 1 RCS 339, au para 53, <https://canlii.ca/t/1glnw#par53>, consulté le 2022-06-06

2.2 Méthodes

Les faits (données) ne sont pas originales à moins que la sélection et l’arrangement de ceux-ci découle du talent, jugement et du travail.

Voir « idées et faits » sous 1.2

Est-ce que les données sont protégées par droit d’auteur?

Essentiellement, la compilation, pour être originale, doit être une œuvre que son auteur a créée de façon indépendante et qui, par les choix dont elle résulte et par son arrangement, dénote un degré minimal de talent, de jugement et de travail. Ce n’est pas une haute exigence, mais c’en est une. S’il en était autrement, n’importe quel type de choix ou d’arrangement suffirait, puisque ces opérations supposent un certain effort intellectuel. Toutefois, la Loi est claire: seules les œuvres originales sont protégées. Il se peut donc que certaines compilations ne satisfassent pas à ce critère.

Télé-Direct (Publications) Inc. c. American Business Information, Inc., [1998] 2 CF 22, 1997
CanLII 6378 (CAF), <http://canlii.ca/t/4mzd>

En plus du jugement Télé-Direct cité précédemment, voici une petite liste de jugements canadiens sur les questions de propriété des données, en ordre chronologique inversé:

La méthode scientifique est-elle un engin de création d’oeuvres protégées ?

Les types de documents canoniques produits en humanités numériques: thèses, articles et rapports, monographies… mais entre ces documents, il y a des billets, courriels et messages…

Les trois éléments du modèle documentaire en humanités numérique: la notice documentaire; la compilation de notices; et le corpus décrit par les notices.

2.3 Résultats

Quelle version de vos données rendre disponible? À quelle clientèle ?

Plusieurs licences pour le même objet de droit

Les trois soeurs, le plan: de mobilisation des connaissances; de gestion des données de recherche; de libre accès.

3. Perspectives futures

Chantier sur la gouvernance documentaire en humanités numériques:

  • Le plan de moissonnage de sources
  • Le dictionnaire de données, ou comment encode-t-on nos sources en données de recherches
  • La méthode, ou comment on transforme nos données en résultats
  • Le plan de mobilisation et de libre accès

Tous ces éléments doivent figurer dans la Charte d’un projet en HN. Il faut discuter des intentions quant au décorum du projet, notamment pour sa réutilisation.

Note importante: le dictionnaire des données doit spécifier dans quels champs nous inscrivons le statut juridique des oeuvres dans nos corpus. Il s’agit des métadonnées juridiques.

Le cas des jeux vidéo créés dans le cadre de la recherche.

Universités Voix, données

Comment réutiliser les données de recherche

Je tiens à remercier mes collègues du groupe de travail (Ré)utilisatibilité du consortium Cahier pour leur fabuleux guide: Vademecum pour la réutilisabilité des données. À la page 6, les auteurs indiquent :

L’un des principaux verrous pour la réutilisation des données concerne les aspects juridiques. En France, le cadre légal prône l’ouverture des données au maximum (cf. loi sur la république numérique14 et loi Valter15). En même temps, d’autres principes s’appliquent : les droits d’auteur et les droits voisins, la question de la propriété intellectuelle ou des données personnelles (droits à l’image, respect de la vie privée, etc.). C’est surtout flagrant pour les corpus récents (XXe -XXIe siècle). Il en découle des restrictions pour la réutilisabilité des données et leur citabilité16. Il existe une zone de flou, qui peut déstabiliser les porteurs de projets et les utilisateurs : par exemple, du point de vue des droits, certaines données sont inaccessibles, alors que leurs métadonnées sont, elles, accessibles.

Dans quelle mesure les métadonnées sont-elles concernées par le droit d’auteur ? Sans doute faudrait-il distinguer les métadonnées purement descriptives de celles qui sont le fruit d’un travail d’interprétation17. Mais si ce travail d’interprétation n’est pas signé, il est difficile concrètement de le protéger. Une des premières actions d’un projet doit être de chercher les indications de signatures et de protection juridiques (licence, source, propriété, etc.) des données. Si ces indications ne permettent pas la réutilisation des données, il est toujours possible de contacter les propriétaires des droits.

14 Voir https://www.economie.gouv.fr/republique-numerique

15 Voir https://www.legifrance.gouv.fr/jorf/id/JORFTEXT000031701525

16 Marie-Luce Demonet, « La Confiscation des données issues de l’humanisme numérique » in Véronique Ginouvès ; Isabelle Gras, La Diffusion numérique des données en SHS – Guide de bonnes pratiques éthiques et juridiques, Presses universitaires de Provence, 2018, Digitales, 9791032001790 〈hal-02068085〉.

17 Le droit d’auteur s’applique à tout travail témoignant de l’originalité d’une pensée. Voir le tutoriel de Mate-SHS avec une intervention de Lionel Maurel, « À qui appartiennent les données ? » : https://mate-shs.cnrs.fr/actions/tutomate/tuto25-propriete-donnees-lionel-maurel

Source: Vademecum pour la réutilisabilité des données. p. 6

À la page 11:

Faire un état des lieux juridique
Un tel état des lieux doit concerner autant les données réutilisées que les données produites
et comprendre au moins les aspects suivants :
– identification du statut juridique des données réutilisées ;
– prise en compte des différents types de contenus produits par le projet : images et transcriptions, images sans transcriptions, transcriptions sans images, etc. ;
– intégration de la question de la réutilisabilité des données à la convention entre les différents partenaires, qu’il s’agisse d’institutions, d’individus ou d’ayants droit ;
– résolution des problématiques induites par le RGPD (Règlement général sur la protection des données). En cas de doute, il faut contacter le DPO (Data Protection Officer), aussi appelé DPD (Délégué à la Protection des Données) de votre établissement, qui vous conseillera sur les démarches éventuelles à entreprendre auprès de la CNIL (Commission Informatique et Liberté) et sur les précautions à prendre avant
de traiter et de publier vos données ;
– résolution des contraintes liées au respect des droits d’auteurs ;
– état des lieux des possibles embargos pour ne pas se retrouver bloqué au moment de la mise en ligne des données

Source: Vademecum pour la réutilisation des données, janvier 2022, p.11

De plus, les auteurs précisent à la page 18:

Il faut pouvoir concevoir, dès la phase initiale du projet, une charte anticipant et précisant toutes les conditions de réutilisation possibles en concertation avec l’ensemble des acteurs concernés (institutions, ayants droit, etc.). Quand un projet implique plusieurs partenaires,
ou des partenaires internationaux, qui peuvent être soumis à des cadres légaux différents, il apparaît nécessaire de prévoir dans un document-cadre les difficultés potentielles à cette gestion des données, idéalement dès le tout début du projet.

Source: Vademecum pour la réutilisabilité des données. p. 18

Je me demande si la nouvelle norme ISO 24143:2022 – Information et documentation — Gouvernance de l’information — Concept et principes pourrait être utile pour documenter les pratiques des chercheurs en lien avec leur traitement des données… La recherche universitaire constitue une certaine forme de gouvernance des données.

Conférence Voix, données

Corpus et droit d’auteur

Cette présentation s’inscrit dans les activités de l’École d’été 2021 PLU6113 intitulé Humanités numériques : approche interdisciplinaire, sous l’égide du Centre d’études et de recherches internationales (CÉRIUM) et en association avec le Centre de Recherche Interuniversitaire sur les Humanités Numériques (CRIHN) et le projet Littérature québécoise mobile (LQM).

Source: Plan de cours de l’École d’été PLU6113
Lien direct vers YouTube: https://youtu.be/aJx_noq7lMA

Éléments préliminaires

Je tiens à remercier l’équipe du CRIHN et tout particulièrement Michael Sinatra pour leur efforts dans l’organisation de cet activité importante.

Je me suis inspiré de plusieurs sources pertinentes mais je tiens à souligner ce texte d’Edin Tabak (2017) concernant le modèle hybride pour la gestion des projets en humanités numériques. Cette contribution a su guider mes réflexions lors de l’organisation de cette présentation.

La vidéo ici-bas que j’ai préparé pour l’École d’été 2021 PLU6113 Humanités numériques synthétise plusieurs éléments présentés lors de deux midi-conférences du projet de recherche Littérature québécoise mobile (LQM) en mars avec Marjolaine Poirier, et en avril avec Anne-Sophie Hulin, sur le thème du Droit d’auteur et des métadonnées culturelles. La première vidéo présente les questions juridiques générales ayant trait aux métadonnées tandis que la seconde présente un arrangement institutionnel particulier très novateur et pertinent, les fiducies de données. J’ai regroupé ces deux présentations dans une liste de lecture sur YouTube, dont voici le lien :

Droit et données en culture en 2 parties : silences du droit et fiducies (2 vidéos, 104 minutes 57 secondes). Voici les synthèses de ces deux vidéos :

Les milieux artistiques, culturels et créatifs sont confrontées à l’émergence du numérique. Marchés, outils technologiques et méthodes de mobilisation semblent échapper à l’ordre régalien. Ces mutations imposent une réflexion quant aux arrangements institutionnels novateurs, à l’intersection de contextes et paratextes inédits.

[Conférence du 24 mars 2021, avec Marjolaine Poirier] Nous présenterons les résultats d’une étude approfondie concernant les questions juridiques applicables aux données culturelles et leur diffusion. Spécifiquement, nous explorons les difficultés de concevoir les données culturelles par le cadre juridique édicté par le droit d’auteur tout en positionnant le libre accès comme une hypothèse de travail pour enrichir la réflexion des intervenants du milieu.

[Conférence du 21 avril 2021, avec Dre Anne-Sophie Hulin] Afin de pallier les écueils présentés lors de la conférence midi du 24 mars, les intervenants présenterons la fiducie de données comme un modèle pertinent à mobiliser pour faire converger les intérêts de divers intervenants.

Source: Site du projet Littérature québécoise mobile (LQM)

Cette séance donne suite à celle organisée l‘an dernier, qui est également disponible dans mon carnet de recherche, sur le thème «Droit et libre accès» (il y a une logique dans ces séances : je m’intéresse au droit et je décortique un nouvel éléments pertinent des humanités numériques à chaque année).

Plan de la présentation

  • Droit d’auteur
  • Corpus
    • Sources protégées par droit d’auteur
    • Données (talent, jugement, effort dans la sélection et l’arrangement)
  • Corpus et droit d’auteur : éléments de corpus ; cycle de vie de la communication savante

La vidéo sera imbriquée dans ce billet dès que possible

Droit d'auteur Voix, données

Conférence: droit d’auteur et métadonnées en culture

Voici la captation d’une conférence que j’ai donné en tandem avec Marjolaine Poirier sur les questions de droit d’auteur sur les métadonnées culturelles, dans le cadre du projet de recherche Littérature Québécoise Mobile :

Je tiens à remercier la généreuse contribution du Conseil de recherche en sciences humaines du Canada (CRSH) ainsi que le Ministère de la culture et des communications du Québec.

Document numérique Voix, données

Répertoires d’outils et données en humanités numériques

BigDIVA, Voyant-Tools, Cytoscape, RStudio… et vous, vous utilisez quel outil pour votre projet en humanités numériques ?

La sélection d’un corpus et d’outils d’analyse s’inscrivent dans les choix des chercheurs sur les plans épistémologiques, conceptuels et méthodologiques. L’univers numérique permet à tout-un-chacun de saisir de nouvelles opportunités de développer son propre cadre de recherche, une sorte d’environnement scientifique personnalisé. Et c’est bien là le problème au niveau (trans/multi/inter)disciplinaire : l’opportunité d’innover de par ses choix de sources et d’outils, quitte à rendre son projet unique, introduit divers glissements quant à la reproductibilité et la transférabilité de ses approches.

Dit simplement, nous vivons à une époque offrant des opportunités inégalées de recherche, au point où nous risquons de prendre de vue l’entreprise collective scientifique qui nous motive.

En ce sens, j’applaudis chaleureusement toute initiative de recensement et de description d’outils et de sources pour des projets en humanités numériques. En voici quelques-uns qui sont passés sous mon nez, n’hésitez pas à en ajouter dans la section commentaire de ce billet:

Open Methods du site DARIAH: un répertoire qui recense les méthodes et outils en humanités numériques. Vraiment intéressant comme catalogue pour des démarches intellectuelles.

DiRT:Directory is a registry of digital research tools for scholarly use. 

Isidore, Votre assistant de recherche en Sciences Humaines et Sociales (sources, documents, sujets), surtout de France

De nos amies en Australie, le site HuNi pour les données artistiques et culturelles

Conférence Voix, données

droit + Intelligence artificielle: Conférence Les Cahiers de Propriété Intellectuelle

(BILLET EN COURS D’ÉCRITURE: ÉVÉNEMENT DU 23 NOVEMBRE – MISES À JOUR FRÉQUENTES AUJOURD’HUI)

Programme de la conférence Les Cahiers de Propriété Intellectuelle: droit + Intelligence artificielle

Je vous propose mes notes, j’assiste au colloque intitulé la droit + Intelligence artificielle: Conférence Les Cahiers de Propriété Intellectuelle

Première conférence: IA vue de l’extérieur

Marie-Jean Meurs, Coordonatrice d’HumanIA et Professeure, Département d’informatique (UQAM).

Apprentissage automatique: deux classes d’algorithmes,

  • apprentissage supervisé: ensemble d’entrainement ou d’apprentissage; ensemble de test; caractéristiques; hypothèse pour une nième instance suite à l’analyse de l’ensemble test. Capacités de généralisation: quels ensembles d’apprentissage; quelles caractéristiques; quels algorithmes; quels usages => choix humains
  • non supervisé: distance, caractéristique des « groupes »

Paul Gagnon, conseiller juridique ÉlémentAI

« La cité de l’intelligence artificielle » dans le MileX à Montréal…

Vu sur twitter ce matin: if it is written in python, it is machine learning; if it is written in powerpoint, it is artificial intelligence

Machines à tisser et le mouvement luddite/saboteur

Ne croit pas que la loi est à la remorque, nous avons le loisir d’anticiper, comprendre, comment le droit va s’arrimer à l’AI

Défis juridiques:

  • Anonymisation des données (RGPD) pour utiliser le « moins possible » les renseignements personnels, comparaisons: actuaire doit agir en vertu de limites à l’utilisation de faits dans l’industrie de l’assurance
  • RGPD: décision algorithmique, l’humain peut en appeler (transparence algorithmique), défaire la boîte noire technologique pour des raisons juridiques, la loi n’est pas à la remorque
  • Droit d’auteur: génération d’oeuvres par des algorithmes; décortiquer les nouveaux cas avec les outils juridiques existants; dichotomie entre l’expression et l’idée
  • droit sur les données: ne s’y attendait pas – le rôle des conditions d’accès imposées par les fournisseurs; données ouvertes (CC-BY vs. CC-NC), nuances technologiques qui ont une incidence en droit

Jocelyn MacLure, Professeur titulaire de philo, Université Laval

4e révolution industrielle, société post-travail, statut moral et juridique des agents algorithmiques: inflation sur la réflexion sur l’IA. On a besoin d’une perspective critique (au sens réfléchi, sobre, non-réactionnaire) pour mieux comprendre la situation.

Harari: Homo deus, 21 leçons pour le 21e siècle = révolutions sociales = on doit développer une autre approche

Citation:

Machines will be capable within 20 years to do any work a human can do, Herbert Simon pionnier de l’IA en 1965

Enjeux éthiques importants, il faut considérer les bénéfices

  • Rendre la justice plus accessible, efficace, juste
  • Santé: bénéfices attendus sont importants mais les risques persistent (ndlr, voir ce texte dans Le Devoir ce matin)
  • Accidents de la route

Enjeux éthiques

  • responsabilité [civile] des décisions ou actions des agents automatisés, lien de causalité, sommes-nous bien outillés avec les concepts et approches existantes.. concepteur de l’algorithme, l’utilisatrice…
  • Transparence des algorithmes, devoir d’explicabilité (sic) et de justification des concepteurs (retracer les étapes de prise de décision pour obtenir un résultat donné, les raisons du jugement de la machine sont inaccessibles surtout en apprentissage profond non supervisé). Probablement l’enjeu éthique le plus important. Cas de Predpol. Cas d’un prêt bancaire. Cas d’une université pour l’admission dans un programme. Cas d’un département des ressources humaines pour faire un premier tri. Cas de charte, de discrimination, droitt à l’égalité des chances => comment opérationaliser le devoir éthique de transparence ? Doit-on imposer un devoir de justifications ? débats en recherches… biais des algorithmes
  • Vie privée: texte dans Le Devoir. Droit à l’intériorité, ce droit d’avoir des opinions personnelles et de décider si on les diffuse… si un algorithme prédit mon opinion, contrevient-on à mon « droit d’intériorité »
  • Droit du travail: distribution de la richesse, justice au travail, est-ce que nos politiques fiscales et sociales et scolaires sont bien calibrées pour redistribuer les richesses engendrées par l’IA ? Paupérisation exacerbée des démunis.

Réflexion éthique et réflexion avec les juristes et des technologues. Qu Québec: prise de conscience par l’entremise de la déclaration de Montréal sur l’IA responsable, qui sera dévoilée le 3 décembre prochain.

La question qui m’anime suite au panel: les algorithmes sont des outils, vivons nous un moment similaire à l’écriture du code civil au début du 19e siècle: observons-nous un nouveau modèle pour le droit (où ni les juges/précédents, ni un texte-code-autoritaire mais un algorithme stipule le droit) ou simplement l’accélération de ce qu’on fait ? Est-ce que l’accélération mènera à un système juridique homothétique (qui résistera à l’accélération) ou mutera-t-il au delà des systèmes actuels (distinction entre civilisme, common law, droit religieuxlex machina?).

Deuxième panel: IA et PI

Tom Lebrun, doctorant à l’Université Laval

Deux arguments:

  1. le droit doit tenir compte de l’appropriation des données: apprentissage machine: apprentissage statistique == du déductif à l’inductif (doctrine citée: Dominique Cardon sociologue 2018; Sobel 2017; Mc Cormack 2014; Guadamuz 2018; Shank & Owens 1991) – Jurisprudence: Apple Computer c. Mackintosh Computers 1987; Éditions JCL…. réflexe est de se dire qu’apprentissage machine = appropriation (mais il y a CCH)
  2. L’IA est un outil. L’auteur qui l’utilise doit être considéré comme titulaire. $ possibilités: IA comme auteur; IA comme travailleur que l’on sollicite; ne connaître aucun auteur; IA comme outil (celle que Lebrun privilégie). Jurisprudence: Geophysical Service Incorporated c. Encana 2016; Thomson c. Robertson 2006. Est-ce que l’oeuvre est suffisamment nouvelle? Cinar c. Robinson 2013;

(Modèle formel d’un neurone artificiel)

Caroline Jonnaert, juriste et doctorante, Université de Montréal

Sujet de thèse: Encadrement des créations par apprentissage profond dans le droit d’auteur; Une image vaut mille «maux»; un outil qui n’est pas comme un appareil photo pour le photographe; les rôles s’inversent

Problématiques en droit d’auteur

  1. processus créatif (c.f. la présentation de Tom Lebrun)
  2. résultante créative: réflexion tardive au Canada; consensus étranger autour du régime centré sur l’empreinte créatrice humaine; divers aménagements proposés

Critères: originalité? auteur… humain?

Ouverture sur les constats de Azzaria dans les CPI 30(3)

Réflexion: est-ce que les paramètres des outils constitue une sélection et l’arrangement de faits, qui amène une protection? Quid pour la sélection et l’arrangement du corpus source analysé par l’outil

Louis-Pierre Gravel, avocat chez Robic, brevets

Big data étude d’IBM; percent of time spent processing & collecting data études McKinsey & Bloomberg; The Economist prétend que les données sont la ressource ayant le plus de valeur

(Notions de base en IA) Types d’IA: descriptive; diagnostique; prédictive; prescriptive (prévenir ou reproduire)

Global AIO Talent Report 2018, ElementAI; Indeed.com

Protection par brevet de l’IA (outils ou résultats)

Étude de Warin, Le Duc,  Sanger sur les brevets déposés en IA,

  • “Mapping Innovations in Artificial Intelligence Through Patents: A Social Data Science Perspective” (Warin, T., Le Duc R., Sanger W.), Proc. Int. Conf. Comput. Sci. Comput. Intell. (CSCI), 2017.

Étude de l’OCDE de 2017 STI Digital Scoreboard : domaines de l’IA. Voir aussi le rapport de (NDLR: 2018 sur les emplois de l’avenir)

Critères pour un brevet: une invention! (ou une amélioration)

  1. La nouveauté: première du genre
  2. L’ingéniosité ou rapport inventif; critère de la non-évidence
  3. L’utilité: fonctionnalité de l’invention

Non-brevetable: découvertes ou théories scientifiques; formules mathématiques; algorithmes

Inventions mises en oeuvre par ordinateur: n’ajoute rien et n’enlève rien à la brevetabilité d’un appareil ou d’un procédé. L’utilisation de l’ordinateur n’est pas suffisante

Deux catégories en IA:

  1. Avancement dans les technologies de l’IA
  2. Nouveaux appareils ou procédés faisant appel à l’IA; la vision de l’IA comme outil

Voir le texte de Camille Aubin dans Les CPI 30(3)

Panel 3: IA + droit civil

Nicolas Vermeys, professeur à la Faculté de droit, Université de Montréal

La responsabilité civile: agent autonome; agent intelligent. Col bleu tué dans l’usine Volkswagen; accident avec une voiture autonome

1457 CcQ responsabilité civile: faute, dommage et lien de causalité. Réparer ce préjudice.

Chaîne d’intervenants, 6 individus : Concepteur; programmeur; entraîneur; propriétaire; propriétaire de la base de données; utilisateur

Qui est responsable ? Dépend:

  1. type d’IA: agent intelligent ou autonome (aspirateur ou voiture?)
  2. de la qualification de la relation entre l’IA et son utilisateur: propriété, agence/mandat, gardien

Régimes juridiques possibles applicables à l’IA

  1. Responsabilité pour le fait (autonome) des biens… au Québec, le CcQ 1465: le gardien d’un bien est tenu de réparer le préjudice causé par le fait autonome (nécessite une nouvelle conceptualisation de ce dernier point), absence d’intervention humaine directe; mobilité ou dynamisme… et qui est le « gardien » de l’IA (notions de surveillance et contrôle) parmi les 6 intervenants identifiés
  2. Accorder la personnalité juridique aux agents autonomes… intelligence? Indépendance/initiative? Accordée à des objets? Refuser la personnalité juridique parce que: pas de patrimoine, pas raisonnable – est-ce qu’une IA est douée d’intelligence? et la raison, un autre niveau… exemple de Rainman.
  3. Régime inspiré de la responsabilité pour les animaux. Art. 1466. Propriétaire vs. le gardien.
  4. Régime inspiré de la responsabilité pour les esclaves. Wright c. Weatherly, 15 Tenn. (7 Yer.) 367, 378 (1835)

Quelle approche adopter? Les avocats sont de mauvais oracles (« The blind are not good trailblazers »), cf. juge Easterbrook «Cyberspace and the law of the Horse» (1996) Uni. of Chicago Legal Forum 207

Antoine Guilmain, docteur en droit UMontréal + Paris 1, Fasken  

William Deneault-Rouillard (en tandem)

IA + Contrat (excluant la blockchain)

Ça va régler tous les problèmes // Tout ou rien… fausse route

  1. Nouveaux modèles d’affaires: économie numérique. La donnée est une denrée. Contrat électronique, « I agree » sans lire, diarrhée contractuelle, gratuité et consommation (contrats d’adhésion, légalité), données comme contrepartie contractuelle, consentement…
  2. Application concrète de l’IA tout au long du cycle contractuel, recherche de co-contractants (marketing comportemental, ajustement de l’offre, embauche et analyse de candidatures), rédaction du contrat, compréhension et formation du contrat (recherche factuelle sur le cocontractant et quantification probabiliste du risque, adhésion: plug-in PrivacyCheck sur les conditions de contrats sur la vie privé ), gestion et analyse des contrats (reconnaissance automatique des types de contrats, recherche algorithmique de contrats….)  (outil kira de Fasken), litige et interprétation contractuels (outil predictice), exécution du contrat
  3. Défis conceptuels: propriété des données (database protection/encryption, data protected by copyright, data protected by trade secrets, data protected by privacy and data protection law) source: R. c. Stewart 1988 – pas de vol car pas de propriété sur données; arrangements contractuels; responsabilité civile contractuelle (multiplicité d’acteurs et attribution contractuelle; exonération art. 1613 CcQ; protection du consommateur; normalisation des contrats – ISO)

Rapport Villany: garder la main

Pierre-Luc Déziel

Dans Les CPI (30)3.

Ce que disent les données lorsque les IA les font parler. Projet « myPersonality » Michal Kosinski

Limite ontologique, opérationnelle (Ewert c. Canada, 2018 SCS 2018), structurelle…

Panel 4: Domaines d’application

Marc Lacoursière (prof AED, U Laval), Ivan Tchotourian (prof ), Ann-Shirley Lebel (étudiante)

Défi de l’encadrement juridique de l’intelligence artificielle dans l’industrie bancaire et des valeurs mobilières

 

Céline Castets-Renards, prof. Journalisme

Dans Les CPI 30(3)

Outils aidant les journalistes. Outils se substituant aux journalistes. Outils qui rédigent pour les journalistes.

Enjeux:

  1. Questionnement lié à l’emploi: outils qui rédigent pour le journaliste. Stagiaires, pigistes, jeunes journalistes: quelle nouvelle génération de journaliste?
  2. Métier même de journaliste: déontologie et professionnels. Vérification des faits, recoupements, interroger les gens, investigation… l’outil peur remettre en cause ces facteurs fondamentaux de la profession. Pluralisme et la diversité des médias, aurons-nous tous les mêmes information, consensuels, convergence de l’information. Protection des sources
  3. Liberté de la presse, d’information, d’expression. Les outils ne sont pas neutres. Quelles données seront utilisées et par quels systèmes aboutirons-nous aux articles

Transparence algorithmique: pas créé par le RGPD. Art 22 pas de décision automatique algorithmique sans droit d’appel – à lire avec les art. 13 à 15 pour la logique sous-jacente. L’art. 22 n’introduit pas l’explication individuelle. Il faut regarder comment les états ratifient le RGPD. Le texte Français propose un droit à l’explication pour les acteurs publics.

Jie Zhu

Justice prédictive

Data analytics: descriptive / diagnostic analysis => predictive analytics => prescriptive analytics

 

Commerce et Compagnies Document numérique Voix, données

Lecture de Weapons of Math Destruction (Cathy O’Neil, Crown Publishers, 2016)

Et si les algorithmes étaient en train de détruire notre société ? Cette surprenante prémisse est le point de départ de Cathy O’Neil dans son récent livre sur ce qu’elle nomme les weapons of math destruction ou WMD : les armes de destruction mathématiques. J’ai entendu parlé de l’ouvrage de O’Neil via la baladodiffision Sparc de Nora Young, diffusée à la mi-octobre, une émission web de la Canadian Broadcasting Corporation (CBC) sur les technologies.

Dans ce livre, l’auteure relate une série d’anecdotes soit personnelles, soit plus générales, groupées par thématiques. Ayant travaillé dans le domaine de la haute finance et de l’analyse des données massives en marketing numérique, O’Neil possède une expérience de terrain sur le recours au modèles statistiques et probabilistes appliqués à divers domaines économiques ou sociaux: les admissions à l’enseignement supérieur, le marketing web, la justice, la dotation et la gestion d’horaire en entreprise, l’attribution de cotes de crédit et le profilage pour le vote. Tous ces exemples illustrent comment les données massives, combinées à des processus algorithmiques, mènent à la codification de préjudices où les iniquités systémiques pénètrent dans la chambre de résonance du numérique (p. 3-4).

La première étape pour concevoir un algorithme consiste à bâtir un modèle : une représentation abstraite du monde réel, de laquelle nous pouvons obtenir or extraire des données. Il devient ainsi possible de prévoir ou prédire notre fiabilité, notre potentiel ou notre valeur relative par rapport à ces mesures (p. 4) afin d’optimiser ledit système social ou économique. Beaucoup des problèmes selon O’Neil découlent d’une césure entre le monde et son modèle, il manque un élément de rétroaction (feedback, p. 6) afin de raffiner les calculs et indices numériques issus du modèle. Les exceptions génèrent des cas erratiques et troublent l’harmonie du système:  « [WMD] define their own reality and use it to justify their results. This model is self-perpetuating, highly destructive – and very common. […] Instead of searching for the truth, the score comes to embody it » (p. 7).

Un des problème majeur selon O’Neil découle du secret qui entoure les modèles, les données et les algorithmes qui y sont appliqués. En plus d’être camouflée par les mathématiques souvent complexes et inaccessibles (p. 7), les assises sur lesquelles elles reposent ne sont ni testées, ni questionnées. Les pauvres y sont des proies faciles : puisqu’un algorithme se déploie rapidement et à faible coût, il est plus simple de traiter des masses de dossiers, tandis que les personnes plus fortunées reçoivent un traitement plus personnalisé. Par ailleurs, les algorithmes sont des secrets corporatifs jalousement gardés, ce qui complexifie d’avantage une critique sociale constructive (p.8).

Par ailleurs, une fois que l’algorithme est établi et que son score fait autorité, les humains tombant dans ses griffes sont tenus à un fardeau de preuve beaucoup plus élevé pour faire modifier leur score. Si l’algorithme est secret et obscur, son score est accepté et il est difficile de le renverser (p. 10). Il s’agit de dommages collatéraux (p, 13).

Ayant mis la table dans son chapitre introductif (que la mathématicienne n’a pas numéroté et serait le chapitre « 0 »), O’Neil présente les éléments constituant les « bombes » mathématiques, spécifiquement ce q’est un modèle. Elle emploie l’exemple des statistiques sportives, notamment pour le Baseball, puisqu’un livre récent a traité des analyses mathématiques desdites statistiques et fut porté à l’écran mettant en vedette Brad Pitt. Voici en vrac les morceaux présentés par O’Neil:

  • Un modèle est un univers parallèle qui puise dans les probabilités, recensant tous les liens mesurables possibles entre les divers éléments d’un modèle (p. 16)
  • « Baseball has statistical rigor. Its gurus have an immense data set at hand, almost all of it directly related to the performance of players in the game. Moreover, their data is highly relevant to the outcomes they are trying to predict. This may sound obvious, but as we’ll see throughout this book, the folks using WMDs routinely lack data for the behaviors they’re most interested in. So they substitute stand-in data, or proxies. They draw statistical correlations between a person’s zip code or language pattern and her potential to pay back a loan or handle a job. These correlations are discriminatory, and some of them are illigal. » (p. 17-18)

  • En ce qui concerne le baseball, « data is constantly pouring in. […] Statisticians can compare the results of these games to the predictions of their models, and they can see where they were wrong […] and tweak their model and […] whatever they learn, they can feed back into the model, refining it. That’s how trustworthy models operate » (p. 18)
  • « A model, after all, is nothing more than an abstract representation of some process, be it a baseball game, an oil company’s supply chain, a foreign government’s actions, or a movie theater’s attendance. Whether it’s running in a computer program or in our head, the model takes what we know and uses it to predict responses in various situations. » (p. 18)

  • Mais, rien n’est parfait dans un monde de statistiques: « There would always be mistakes, however, because models are by their very nature, simplifications. » (p. 20) Ils ont des points morts (blind spots), certains éléments de la réalité qui ne modélisent pas ou des données qui ne sont pas incorporées dans le modèle. « After all, a key component of every model, whether formal or informal, is its definition of success. » (p. 21)
  • « The question, however, is whether we’ve eliminated human bias or simply camouflaged it with technology. The new recidivism models are complicated and mathematical. But embedded within these models are a host of assumptions, some of them prejudicial. And while [a convicted felon’s] words were transcribed for the record, which could later be read and challenged in court, the workings of the recidivism model are tucked away in algorithms, intelligible only to a tiny elite. (p. 25)

  • Exemple du LSI-R: level of service inventory – revised, un long formulaire à être rempli par un prisonnier. (p. 25-26)
  • Afin de cerner le concept d’armes de destruction mathématiques, O’Neil propose trois facteurs, présentés sous forme de questions, afin d’identifiers quels algorithmes se qualifient. La première question s’articule ainsi: « Even if the participant is aware of being modelled, or what the model is used for, is the model opaque, or even invisible? […] Opaque and invisible models are the rule, and clear ones very much the exception.  » (p. 28) O’Neil cite la propriété intellectuelle, et son corollaire malsain, le secret industriel, à défaut d’une obligation de divulgation (comme les brevets – cette observation est mienne) comme étant la cause de cette opacité et de cette invisibilité. Ce qui introduit la seconde question: « Does the model work against the subject’s interest? In short, is it unfair? Does it damage or destroy lives? » (p. 29) Cette iniquité découle d’un système de rétroaction déficient (feedback loop). Finalement, la troisième question est « whether a model has the capacity to grow exponentially. As a statistician would put it, can it scale? […] the developing WMDs in human resources, health, and banking just to name a few, are quickly establishing broad norms that exert upon us something very close to the power of law. » (p. 29-30)
  • « So to sum it up, these are the three elements of a WMD: Opacity, Scale, and Damage. […] And here’s one more thing about algorithms: they can leap from one field to the next, and they often do. » (p.31)

Pas besoin d’avoir un doctorat en droit pour comprendre que les choses aux États-Unis sont bien différentes qu’ailleurs : leurs droits à la vie privée ne sont pas enchâssés dans des constitutions ou édictés par des lois. Le recours aux méthodes statistiques (Monte Carlo) appliquées à des modèles ou à des jeux de données incomplètes perpétuent des préjugés et les érigent en systèmes étanches, inhumains, injustes.

Dans le reste de son livre, O’Neil nous peint un portrait glauque mais lucide de la dystopie algorithmique qui s’installe tranquillement aux USA. Les pauvres, les marginalisés ou les illettrés sont proie aux analyses des machines tandis que les fortunés sont analysés par des humains.

De tous les chapitres, celui sur la justice m’interpelle le plus.

Dans un premier temps, O’Neil présente l’algorithme prédictif employés par les services de polices afin de déterminer où se produiront les crimes, tels l’outil PredPol ou le projet CompStat de la ville de New York. O’Neil relate comment d’autres approches des forces de l’ordre, dont la méthode stop-and-frisk (qui consiste à interpeller quiconque semble le moindrement suspect), ne fait que renforcer le modèle d’oppression envers certaines communautés qui se concentrent dans des quartiers précis…

D’un point de vue plus large, les réflexions de O’Neil concernant les WMDs me fait penser aux théories de Shannon sur la communication  ainsi que de Wiener sur la cybernétique, (liens vers des billets synthétiques sur ces théories). En particulier, le cadre d’analyse de O’Neil (ses trois questions ci-haut, pour déterminer si un algorithme est un WMD) évoquent les trois éléments de Shannon et Wiener pour l’information: communication, rétroaction, entropie.

J’ai aussi découvert un autre livre potentiellement intéressant: Unfair : the new science of criminal injustice par Adam Benforado chez Crown Publishers en 2016. Je me suis empressé de l’emprunter pour creuser cette fâcheuse intersection entre le droit et les mathématiques…

Je viens de jeter un coup d’oeil au livre de Benforado. Quoi que bien écrit et à première vue une critique constructive du système judiciaire, je ne vais pas effectuer une lecture plus approfondie. En fait, il traite spécifiquement des développements en psychologie cognitive, comportementale et en neuropsychologie (comment nous percevons le monde, comment nous nous expliquons nos biais personnels, comment notre cerveau réagit à des stimulus perçus consciemment ou non). De plus, il traite uniquement du système criminel et pénal américain, ce qui me semble bien loin de mes algorithmes et de mes mathématiques et le droit. Une bonne lecture donc, pour une autre fois.

Accès libre Canada Financement Gouvernements Musées Voix, données

Budget fédéral : quelques filons à explorer

Le Devoir de ce matin révèle certains détails du budget fédéral et certains d’entre eux méritent notre attention. Par exemple, en page A3, le quotidien montréalais indique que 2 millions seront consacrés à la création d’un Institut des données ouvertes… Il se peut qu’il s’agisse du site http://opendatainstitute.ca… à confirmer.

Également, Le Devoir nous informe que, en plus des investissements permanents en culture, le gouvernement fédéral attribue 5,6 millions pour le Musée virtuel du Canada ainsi que des « ouvrages de référence en ligne » qui, selon le Réseau art actuel,

 

Ouvrages de référence en ligne donne du contenu en ligne sur la culture et l’histoire du Canada et donne accès à L’Encyclopédie canadienne et à l’Encyclopédie de la musique au Canada, et au Dictionnaire biographique du Canada, un dictionnaire historique exhaustif dont les articles racontent la vie et décrivent l’époque des personnes qui ont façonné le Canada. Le Plan d’action économique de 2014 propose d’accorder un financement permanent de 1,2 million de dollars par année à Ouvrages de référence en ligne à compter de 2015-2016. Ces fonds s’ajoutent au financement existant de 0,9 million par année et portent l’investissement annuel à 2,1 millions. Le Musée canadien de l’histoire deviendra responsable d’Ouvrages de référence en ligne et de son financement.