IA, travail de la connaissance et données structurées ou non structurées


Intelligence artificielle (IA) transforme chaque jour le travail de la connaissance, à mesure que chaque nouvelle innovation évolue de plus en plus vite. Nous avons rencontré Ville Somppi, Vice-président des solutions industrielles à l'adresse M-Files, pour discuter de ces changements, de ce qu'ils signifient pour l'avenir des travailleurs du savoir et de la question de savoir si (ou comment) l'IA aidera les organisations à combler le fossé entre les données structurées et non structurées.
L'intelligence artificielle et l'avenir du travail
Certains chefs d'entreprise prédisent que l'IA va supprimer complètement le travail. Quel impact l'IA aura-t-elle sur l'avenir du travail ?
L'IA renforcera en fait l'ingéniosité et la créativité de l'homme. Les ordinateurs font ce que vous leur demandez. Si vous posez la bonne question, l'IA connaîtra la réponse. Dans le cas de l'IA générative, le résultat est probablement à mi-chemin, voire à 90 %, si vous avez une idée de ce qu'il faut produire. L'IA permettra aux travailleurs de s'émanciper en favorisant de nouvelles possibilités d'automatisation du travail de la connaissance.
L'IA ne saura pas au hasard ce qu'il faut créer - il faut qu'une personne, un acteur intelligent, lui demande de faire quelque chose et valide ensuite que le contenu produit est conforme à ce qui a été demandé. La partie lente de tout travail créatif, celle qui consiste à produire des actifs sur la base de l'idée originale, s'accélérera, mais l'IA ne remplacera pas la nécessité pour les travailleurs du savoir de concrétiser une vision et d'utiliser leur créativité pour donner vie à cette vision.
Vers l'automatisation du travail de la connaissance
Lorsque l'on parle d'optimisation des performances au travail, il est généralement question de gestion des fichiers et des processus, ce qui nous fait entrer dans la phase suivante de l'automatisation. Cette évolution résulte-t-elle de l'amélioration de la bande passante et des vitesses de traitement, et cela a-t-il toujours été le rêve ou s'agit-il d'un changement ?
Cela a toujours été le rêve, mais le processus a été très lent. L'histoire de l'informatique ne couvre que 50 ou 60 ans. Les premiers ordinateurs étaient à peine capables de stocker des données. Finalement, les interfaces graphiques sont apparues sur les marchés et nous avons trouvé des moyens de visualiser l'information sur un écran - et pas seulement imprimée sur du papier. Grâce à l'interface utilisateur graphique, il n'était plus nécessaire d'être un scientifique pour comprendre le fonctionnement d'un ordinateur, mais des tâches importantes comme la gestion des documents et la gestion des flux de travail étaient encore totalement manuelles.
La vision a toujours été l'automatisation du travail de la connaissance et l'innovation pour rendre tout travail plus facile - pour améliorer la productivité. Pour demander à un ordinateur de créer quelque chose, il suffit de parler ou d'écrire. Il y a quelques dizaines d'années, les ordinateurs pouvaient effectuer des calculs ou des simulations vraiment intéressants et puissants pour aider à concevoir quelque chose d'aussi complexe qu'une mission spatiale dans une autre galaxie. Demain, vous pourrez dire : "ChatGPT, peux-tu concevoir un vaisseau spatial pour moi sur la base de cet exemple ?". Au lieu de passer des milliers d'heures à utiliser une souris et un clavier pour dessiner le plan en 3D, il est beaucoup plus rapide d'obtenir une ébauche de conception réalisable à affiner. Il n'est pas nécessaire de tout expliquer littéralement : c'est la révolution.
Données structurées et non structurées
Aujourd'hui, un grand nombre de nos systèmes - de la gestion des fichiers aux processus d'entreprise - reposent tous sur des données structurées. de données structurées comme les fichiers Word ou PowerPoint. Mais les tweets peuvent être légalement découverts au tribunal et sont considérés comme des données non structurées. Lorsqu'il s'agit de travail sur la connaissance, existe-t-il vraiment une différence entre les données structurées et non structurées ou cette différence a-t-elle été complètement estompée ?
Traditionnellement, les ordinateurs ont besoin d'une structure pour comprendre les données. Supposons que le nom de votre entreprise ne soit que du texte. Un système structuré tel qu'un outil de gestion des relations avec la clientèle (CRM) peut lire un numéro d'identification correspondant au nom de votre entreprise, et il ne s'intéresse alors qu'à l'identification, et saura toujours quel numéro d'identification représente votre entreprise. Avec des données non structurées écrites par des humains, sans signification explicitement définie, un ordinateur ne les comprendra pas - ce n'est que du texte.
Avec les modèles linguistiques de grande taille, la structure est moins importante car les ordinateurs peuvent traiter les données non structurées plus efficacement afin d'en extraire le sens et tous les points de données intéressants. Supposons qu'un contrat soit valable en 2024. Si nous extrayons cette période sous forme de données structurées, l'ordinateur sait quand le contrat s'applique. Avec l'IA générative et son moteur d'inférence, vous pouvez demander ce que signifie un élément donné dans un actif non structuré, et l'IA le comprend car elle peut lire et interpréter un contenu non structuré.
Il existe une différence entre les données structurées et non structurées. Les premières sont destinées à être lues et comprises par les ordinateurs, tandis que les secondes circulent librement - jusqu'à présent, les ordinateurs ont eu du mal à les comprendre. Il est moins important aujourd'hui de tout avoir sous forme de données structurées, mais les données structurées sont toujours la façon dont les ordinateurs communiquent entre eux. Vous ne pouvez pas vraiment calculer la phrase "midi et quart", car un ordinateur ne voit par défaut que du texte. Un modèle de langage étendu peut convertir cette expression humaine en données structurées compréhensibles par l'ordinateur, ce qui permet d'effectuer des calculs normaux.
L'importance de l'intention informative
Pourquoi les données structurées sont-elles plus faciles à utiliser par les ordinateurs et comment M-Files traite-t-il les données non structurées ?
Avec les données structurées, vous ne disposez pas seulement de la valeur des données, mais aussi de la signification, du type et de l'intention informationnelle. Par exemple, un type de données est le nom d'une entreprise. Tout système utilisant ce point de données sait que cette désignation fait référence au nom de l'entreprise, ainsi qu'au type de données. Les données structurées peuvent aider un système à faire la différence entre un champ de texte et un champ de nombres. Et dans un champ numérique, que signifie le nombre ? S'agit-il d'une somme d'argent ou d'un code postal ? Grâce aux données structurées, les systèmes informatiques savent ce que vous voulez dire avec n'importe quelle information.
Si vous téléchargez un contrat sur M-Filesil s'agit simplement d'un document. Il n'est pas structuré, il est créé par l'homme, mais nous pouvons extraire des points de données intéressants tels que des métadonnées structurées. Parce que M-Files peut étiqueter les documents avec des métadonnées telles que la validité du contrat, nous pouvons transformer des parties de ces données non structurées en données structurées afin que les ordinateurs puissent les traiter pour appliquer des règles commerciales et permettre tous les types d'automatisation du travail de la connaissance.
L'IA générative coûte du capital
Le format des données a-t-il une incidence sur le coût de l'utilisation de l'IA générative ? Le traitement des données non structurées est-il plus coûteux et les nouveaux modèles linguistiques ont-ils changé la donne ?
L'utilisation de l'IA générative pourrait être coûteuse car l'ordinateur doit effectuer beaucoup de traitement pour comprendre le contenu, pour passer au crible tout chaos organisationnel existant ou pour trouver une période contractuelle valide donnée, contrairement à quelqu'un qui lirait simplement ces informations à partir des métadonnées. Si vous faites cela un million de fois, vous paierez probablement 50 000 dollars à l'entreprise qui fournit le service d'IA générative, car son IA fait un travail considérable.
Mais vous pouvez le faire pour toujours à partir d'un champ de données structuré et à faible coût parce que c'est trivial. Les grands modèles de langage ne sont que de gigantesques formules mathématiques alimentées par des réseaux neuronaux profonds. Vous saisissez une valeur d'entrée et la valeur de sortie apparaît. Mais le coût de cette opération mathématique est très élevé par rapport à ce que l'on pouvait faire il y a 50 ans.
L'élément coût est très important. Nous ne pouvons pas simplement remplacer toutes les anciennes technologies de l'information et utiliser l'intelligence artificielle et l'IA générative pour tout, parce que c'est environ un milliard de fois plus cher.
J'ai ici un smartphone qui dispose d'une plus grande puissance de calcul et d'un plus grand contrôle sur les technologies de l'information que tous les superordinateurs des années 1990. Les grands modèles de langage et les IA génératives qui comprennent le langage sont possibles parce que nous disposons d'une puissance de calcul beaucoup plus importante que par le passé - cela ne les rend pas bon marché, c'est juste possible. Toute entreprise appliquant ces technologies doit procéder à une analyse coûts-avantages. Quand devrions-nous utiliser ces technologies nouvelles, cool et coûteuses, plutôt que des technologies informatiques moins chères, plus mécaniques et traditionnelles ?