A priori, personne ne connaît la startup Cerebras Systems… Mais cette indifférence pourrait ne pas durer si la compagnie livre effectivement un serveur complètement fou, fondé sur un processeur ahurissant, dédié aux applications d’Intelligence Artificielle. Où si elle sombre dans une opération financière douteuse…

Ce processeur bouscule toutes les valeurs admises en matière de fabrication et ne sera d’ailleurs pas vendu en tant que tel, tant il pose des problèmes de refroidissement et d’intégration. C’est le serveur, dont il sera le principal constituant, qui sera commercialisé.

Accrochez-vous, les détails ont de l’importance.

Le processeur WSE (Wafer Scale Engine) de Cerebras, ne fait pas moins de 20,32 cm x  22,86 cm et occupe donc une surface de 462,25 cm², soit 50 fois plus que le plus grand des circuits. Il embarque 1 200 milliards de transistors répartis sur 400 000 cores,  alors que le processeur GPU graphique le plus performant dépasse « à peine » les 20 milliards de transistors.

On imagine très bien les problèmes de fabrication et de refroidissement que ce processeur doit poser, Carebras ne le désignant d’ailleurs pas sous le qualificatif de processeur mais de wafer, qui comme chacun sait est une galette qui comporte un grand nombre de processeurs identiques, fabriqués en même temps, qu’il suffit ensuite de découper. La nuance est intéressante…

L’idée que défend Andrew Feldman, patron de Cerebras, est qu’il est plus facile de faire communiquer les cores et de les faire contribuer conjointement à une tâche globale, s’ils sont reliés par un bus interne à très haute vitesse, que de relier des processeurs par un bus externe, à bande passante limitée.

Ce qui explique que le wafer dédié IA de Feldman soit doté d’une fabrique spécifique, Swarm, structurée en « mesh network », qui fournit une bande passante de 100 peta bits/sec, soit 10 000 fois mieux que le plus rapide des GPU NVidia.

L’ensemble du wafer comporte une mémoire de 18 GB, accessible directement sur la « galette » en un seul cycle d’horloge, chaque core pouvant donc y accéder sans passer par un bus externe.

On le voit, ce WSE est en fait un cluster implanté dans un même circuit, en opposition totale avec ce qui se fait ailleurs.

Chacun des cores, appelés SLA pour « Sparse Linear Algebra Cores », est optimisé pour un usage de calcul d’analyse numérique (à travers son jeu d’instructions), dont on sait qu’elle est à la base des réseaux neuronaux orientés « deep learning », cible toute désignée du monstre de Feldman.

L’un des problèmes que doit résoudre Cerebras est le refroidissement de la plaque en fonctionnement, qui n’est évidemment pas compatible avec les mécanismes habituels de circulation d’air. Feldman est revenu pour cela à la bonne vielle circulation d’eau glacée, comme du temps des TCM d‘IBM, en montant au-dessus du wafer un « plateau froid », qui communique verticalement avec les cores à refroidir.

On peut espérer que cela va suffire…

 

 

 

 

 

 

 

 

 

 

Feldman et Lie avec Cerebras n’en sont pas à leur coup d’essai. Malgré d’indéniables qualités d’imagination et de compétences techniques (et de persuasion), ils sont aussi à l’origine du fiasco de SeaMicro, vendu 334 millions $ à AMD en 2012 et qui n’a débouché sur rien. Ce n’est pas tout d’avoir des idées, encore faut-il pouvoir les mettre en œuvre.

A première vue, l’idée de Feldman et celle de son associé, Sean Lie, cofondateur de Cerebras, avec qui il travaille depuis l’époque de SeaMicro (2010), est lumineuse.

On a quand même le droit d’être très sceptique et ceci pour trois raisons.

La première est qu’il ne suffit pas d’aligner les chiffres sur une feuille de papier et de multiplier par 100 000 tout ce qui se fait ailleurs. Ce serait trop facile. Il y a derrière des problèmes technologiques très complexes, sur lesquels se sont cassé les dents des « petits jeunes » comme Intel, IBM et quelques autres. Si c’était aussi simple, ça se saurait.

La seconde est que Feldman n’a pas trouvé aux Etats-Unis un partenaire susceptible de fabriquer son moteur IA. Il a fallu qu’il se tourne vers Taïwan et le fondeur TSMC, qui réalisera le WSE en gravure 16 nm, ce qui est loin, par contre, d’être un record du monde et explique en partie, la taille du wafer.

La troisième raison tient au couple Feldman-Lie lui-même. Car il faut se rappeler qu’il n’en est pas à son coup d’essai en matière de montages technologiques « hors du temps ». Dans les années 2010, il avait déjà imaginé un serveur « extraordinaire » qui devait se substituer aux Xeon d’Intel, pour des tâches telles que la gestion des impressions ou certains services basiques de la pile LAMP.

Fort de ses certitudes le couple avait vendu leur compagnie SeaMicro, à AMD pour 334 millions $. Mais l’opération s’est transformée en un fiasco monumental et c’est AMD qui en a fait les frais. Le produit lui-même n’étant jamais apparu sur le marché.

Cette fois, Feldman et Lie ont obtenu 100 millions $ en capital-risque et il est probable que comme en 2012, ils chercheront à vendre leur technologie, tant que le marché reste réceptif, Intelligence Artificielle oblige.

Il suffira de trouver un « gogo »…

Vous l’avez compris, nous ne croyons pas une seconde à la merveille qui nous est annoncée.