Info, dépêche ou communiqué de presse


mardi 16 mars 2010 à 11h06

TEMIS : Projet SAMAR du Ple de Comptitivit Cap Digital: vers une plateforme d'organisation de flux multimdia en langue arabe


TEMIS, leader en solutions de Text Mining pour l'Entreprise, annonce aujourd'hui qu'il pilote le projet de recherche et dveloppement SAMAR, un projet lablis par le ple de comptitivit Cap Digital Paris-Rgion.

Le volume des contenus en ligne est en faible croissance au Maghreb

Le contenu en ligne est en phase de dveloppement dans les pays du Maghreb. Etonnamment, la proportion des contenus en langue arabe issus de cette partie du globe est trs faible. La presse crite joue un rle primordial dans le dveloppement de l'Internet arabe et reprsente prs de 40 % de ses contenus1. Or, la production de contenus en langue arabe doit tre encourage pour que les internautes du Maghreb, de plus en plus nombreux, puissent lire des contenus de qualit dans leur langue maternelle. De l'autre ct des frontires, on souhaite galement diffuser des contenus rdigs en langue arabe afin d'tendre la gamme des sources d'informations provenant du Maghreb et de ne pas se limiter au faible volume de contenus non reprsentatifs, soit directement rdigs en anglais dans un souci de diffusion internationale, soit plus ou moins fidlement traduits en anglais.

Ouvrir des horizons aux contenus en arabe

Le projet SAMAR a t initi par l'Agence France-Presse avec la volont d'ouvrir son portail d'information des contenus multilingues crits en langue arabe. Mais les mcanismes de la langue arabe sont extrmement complexes et les technologies actuelles ne permettaient pas un traitement optimal de l'information vue du Maghreb. Ces contenus en arabe ne pouvaient donc tre relis aucune plateforme d'information internationale sans traduction pralable. Une intgration russie de nouvelles sources d'informations dans de tels systmes sous-entend en effet que les collections de contenus importes soient exploitables au mme titre que les autres contenus fdrs par le portail d'information. Cela implique une analyse linguistique pousse des contenus permettant ad minima d'indexer les informations et de les rendre accessibles via la recherche d'information en ligne.

SAMAR, la plateforme d'organisation de flux multimdia en langue arabe

Le projet SAMAR a pour objet le dveloppement d'une plateforme de traitement multimdia en langue arabe et sa validation. Pour ce faire, l'quipe SAMAR mne des exprimentations surla totalit des dpches arabes produites jusqu'ici par l'AFP, soit environ un million de dpches (150 millions de mots), mais aussi sur un ensemble de flux radio et tlvisuels arabes.

Le dfi de la langue arabe

La complexit de la langue arabe est un vrai dfi et pour mener bien ce projet ambitieux, un nombre important de verrous techno-linguistiques devront tre levs tels que:

  • La voyellation de l'arabe dans les textes pour la recherche
  • La transcription de la parole en arabe sachant qu'il existe plusieurs dialectes retranscrire de faon homogne.
  • L'appariement franais-arabe d'entits nommes
  • Etc?

La runion des meilleurs experts

Le projet SAMAR runit plusieurs partenaires stratgiques complmentaires, issus des mtiers de la reconnaissance vocale, et de la linguistique:

  • AFP, fournisseur des flux multimdia AFP et des flux radio et tlvisuels arabes
  • VECSYS, spcialiste de l'extraction de texte partir de contenus audiovisuels (speech to text)
  • VECSYS RESEARCH, expert du traitement de l'arabe parl littraire et dialectal
  • TEMIS, spcialiste de l'extraction de connaissance partir de textes, de la catgorisation d'information et de l'analyse d'informations stratgiques
  • NUXEO, spcialiste de la gestion de contenu multimdia
  • ANTIDOT, expert en recherche cross-lingue (franais<->arabe; anglais<->arabe)
  • MONDECA, expert en gestion des ontologies et des rfrentiels mtiers.
  • CNRS LLACAN (Langage, langues et cultures d'Afrique noire), expert en analyse de l'arabe littraire et de l'arabe dialectal
  • LIMSI, spcialiste de la modlisation de traduction sur base d'apprentissage
  • INALCO CERMOM (CEntre de Recherche Moyen-Orient et Mditerrane), expert en langue arabe et en validation des modles et des rsultats
  • GREYC UMR CNRS 6072, spcialiste de la traduction automatique (arabe-anglais; arabe-franais)

TEMIS, analyseur de la langue arabe crite

Dans le cadre de ce projet, TEMIS met toute son expertise en Text-Mining au service de l'analyse de contenu. Le logiciel Luxid de TEMIS analyse les structures grammaticales des contenus en arabe pour extraire les entits et les relations pertinentes. Il enrichit galement les contenus en leur associant des mtadonnes afin de rendre la recherche d'information plus prcise. L'analyse fournie par Luxid est rendue possible grce l'activation d'annotateurs spcifiques un thme et une langue. Pour le projet SAMAR, TEMIS utilise des annotateurs prcis et efficaces rsultant de plusieurs annes de dveloppement.

Des marchs dans l'expectative

Plusieurs applications se profilent dj l'issue du projet. Cette plateforme pourra en effet tre utilise par l'ensemble des mdias arabisants de la bordure mditerranenne et du Moyen-Orient pour l'organisation, la gestion et l'exploitation de leurs flux d'information.

La nouvelle plateforme fdrant des contenus en arabe reprsentera galement un vivier organis d'informations stratgiques pour les entreprises dveloppant des activits sur les marchs prometteurs du Moyen Orient et d'Afrique du Nord.

A propos de cap Digital

Cap digital est le ple de comptitivit francilien des contenus numriques. Il a pour objectif de faire de Paris et de sa rgion la rfrence mondiale du numrique. Le dveloppement de la R&D, la croissance des entreprises, la mise en rseau de ses adhrents et leur promotion l'international sont autant de missions que se fixe Cap Digital pour soutenir la crativit et la comptitivit de ce secteur industriel qui reprsente un march mondial de 300 milliards d'euros.

A propos de TEMIS

TEMIS dite des logiciels de Text Mining. Sa solution Luxid optimise le traitement de l'information en transformant du texte libre en donnes analysables pour l'extraction de connaissance, le classement automatique de documents, l'analyse de contenu et la visualisation d'information. Luxid joue un rle stratgique pour les secteurs des Sciences de la Vie, de l'Industrie, de la Dfense et de l'Edition & des Mdias, apportant une nouvelle dimension d'analyse aux activits d'Intelligence Economique, de recherche et innovation, d'analyse d'opinion, de voix du client et d'dition de contenu.

Cre en 2000, la socit est actuellement prsente travers ses filiales en France, en Allemagne, en Italie, et aux Etats-Unis, et au travers de ses partenaires dans le reste du monde.

La technologie innovante de TEMIS a attir de grands groupes tels que l'Agence Franaise pour les Investissements Internationaux, l'Agence France-Presse, BASF, Bayer Schering Pharma, BNP Paribas, Boehringer Ingelheim, CARMA International, Convera, Editions Lefebvre-Sarrut, Elsevier, EMC, Europol, Ingenuity, Liquid Campaign, Merck Serono, le Ministre de la Dfense, le Ministre des Finances, Nature Publishing Group, Novartis, Philip Morris International, PSA Peugeot-Citron, Roche Diagnostics, Roquette, Sanofi-aventis, Solvay Pharmaceuticals, Springer Science+Business Media, The McGraw-Hill Companies, Thomson Reuters, Trinity Mirror plc.

TEMIS est un membre actif du ple de comptitivit Cap Digital.

1 Internet en langue arabe : espace de libert ou fracture sociale ?, Ata S., revue trimestrielle MAGHREB-MACHREK, n 178, 2003-2004.

ContactsTEMIS
Martine Falhon
Corporate Communications
04 56 38 24 03
martine.falhon@temis.com


Copyright Business Wire 2010
© 2002-2026 BOURSICA.COM, tous droits réservés.

Réalisez votre veille d’entreprise en suivant les annonces de la Bourse

Par la consultation de ce site, vous acceptez nos conditions (voir ici)

Page affichée mercredi 6 mai 2026 à 9h23m04