Ico Chamois d"or
Ico Polémiquons
Ico Le saviez-vous ?
Ico Dossier
Ico Club de lecture
Ico Le Petit Geste du Jour
Ico Réseau
Ico Messagerie
Ico Navigateur
Ico Système
Ico Multimedia
Ico Divers
 

Des souris vertes

Petites réflexions autour d'une pratique écologique du numérique



Actualité


La Programmation Responsable (5) : les structures de données tu maîtriseras
Date 07/12/2017
Ico Dossier
Comms Aucun commentaire


"J’ai manqué mon coup
La tête du clou
Est toute tordue"

Nakatsuka Ippekiro (1887-1946)


Hum, bon d'accord, on n'arrête pas de recycler le même dessin sur notre dossier, et alors ? Il faut dire que les titres de nos palpitants articles ne se prêtent pas facilement à une illustration imagée, surtout pour qui dessine avec le talent artistique d'un enfant de 3 ans ayant enfilé une bonne paire de moufles.


Bref, passons ces trivialités car on ouvre aujourd'hui un article excessivement important voire, nous n'avons pas peur de le dire, au moins aussi vital, indispensable et crucial que tous les autres mais même presque plus. Et, pour couronner le tout, il constitue un prolongement renversant à la fois de notre article sur l'algorithmique, non n'ayez pas peur, et de notre dernier article sur la base de données. Rappelez-vous, nous y avions énoncé, en effet, qu'il s'agissait autant que faire se peut de travailler en mémoire, et non à grand coup d'appels débridés à une base de données sympathique mais pas très véloce.


Et justement, aujourd'hui, nous regardons comment stocker efficacement des données en mémoire. Car la mémoire, certes, c'est rapide, mais il y a bien des manières de rendre un programme qui s'exécute entièrement dans cette belle zone nimbée aussi alerte qu'un hippopotame au sortir du déjeuner. Et, une fois de plus, c'est l'algorithmique qui va nous aider à faire la part des choses et à devenir le Programmeur Responsable de nos rêves.


Allez, n'introductions pas davantage car le fer est chaud et nous aussi, autant le battre sans tarder. En voiture ! Je précise que la voiture est à pédale, on ne va pas commencer à émettre des particules fines dans ce bel article aux éclats verdoyants d'automne, quand même. Aïe ! Ca y est, je me fais mordiller la cheville par les souris qui souhaitent qu'on en vienne au fait. On y va, on y va !



Et le menteur, mon cher Ouètsonne


Première révélation qui ne bouleversera pas ceux qui ont lu notre dernier article, nos données doivent être bien organisées pour s'adapter au contexte dans lequel on souhaite ensuite les récupérer. Ce n'est pas parce qu'on va travailler en mémoire que tout ce qu'on peut imaginer est efficace. A vrai dire, aucune structure de données n'est parfaite à tout point de vue, ça serait trop facile, c'est pourquoi il nous faut convoquer un peu nos connaissances en algorithmique et distinguer les opérations élémentaires suivantes :

- je souhaite accéder à une donnée précise dans mon gros paquet

- je souhaite ajouter une donnée à mon gros paquet

- je souhaite retirer une donnée à mon gros paquet

- je souhaite savoir si une valeur donnée appartient à mon gros paquet

- je souhaite énumérer toutes les données de mon gros paquet


Eh bien, c'est à peine pensable, mais il se trouve qu'AUCUNE, non, pas même une seule nulle part dans la galaxie, structure de données n'est parfaitement efficace pour toutes ces opérations. C'est bien la raison du pourquoi du fondement de cet article, en vérité, car il va nous falloir systématiquement faire des choix qui vont favoriser certaines opérations au détriment d'autres. C'est pourquoi tout Programmeur ResponsableTM se doit de connaître sur le bout des doigts une panoplie de structures de données, avec leurs avantages et leurs inconvénients, et d'être capable d'analyser son besoin pour choisir la plus adaptée au moment d'écrire ses milliers de lignes de code.


Le drame pour notre planète, mais qui en voit d'autres de toute manière, est que le choix systématique d'une structure de données pas du tout adaptée produit une pollution toute silencieuse : la machine ne crie pas, ne fume pas, le programme s'exécutera très bien, souvent même raisonnablement vite vu la puissance des processeurs, même ceux qui équipent les barrières de péage, donc personne ne s'aperçoit de ce gâchis constant d'instructions et de cycles machines, à part à la fin des fins l'ours polaire qui doit se déplacer de plusieurs dizaines de kilomètres supplémentaires chaque année pour trouver de la banquise.


Mais nous comptons bien que nos lecteurs aguerris et amateurs de gentilles souris vertes ne s'en laisseront pas conter et feront bien vite tous les efforts nécessaires, quand bien même ils ne recevraient pas de récompense du chef de l'Etat et d'acclamations de la foule en délire pour leur petite contribution stoïque à l'écologie numérique.


Or donc, comme nous le disions, aucune structure de données ne sera efficace pour toutes nos petites opérations élémentaires, et leur degré d'inefficacité se mesure grâce à la complexité propre à chacune de ces opérations, et là vous comprenez que vous avez bien fait de vous farcir notre bel article sur l'algorithmique sans vous assoupir.


Prenons par exemple le fait de trouver une donnée dans notre gros paquet de N données. Supposons que l'on a vraiment rangé tout ça en désordre complet, il nous faudra de l'ordre de N opérations (en général un peu moins, disons N/2 en moyenne, mais l'ordre de grandeur reste le même) pour aller retrouver notre petit copain, en gros on va les énumérer jusqu'à trouver la bonne. Si on a fait un petit effort, par exemple trié à l'avance nos données, on peut s'en sortir avec de l'ordre de log(N) opérations, ce qui est déjà nettement mieux, n'est-ce pas. Rappelons à toutes fins utiles, et sans frimer excessivement nos cours de maths de terminale, que log(10000)=4log(10), par exemple, soit au lieu de 10 000 essais, on en fait une dizaine environ. C'est mieux, non ? Mais toujours plus fort de café, si on a choisi une structure vraiment adaptée, on peut extraire notre donnée en une seule opération. Une seule ! Autrement dit ça vaut quand même bien le coup de choisir, non ?


Alors il se trouve que la plupart des programmeurs ne connaissent que le tableau, qui est une structure bien sympathique, mais qui offre précisément la complexité la moins bonne quand il s'agit d'aller chercher une valeur précise, même si elle a plein de qualités par ailleurs concernant les autres opérations. Bref, les tableaux sont certainement surutilisés (une souris me demande si ça existe, je suis sûr que l'Académie Française se hâtera de nous corriger, voire de l'inclure lors de sa prochaine session , si ça n'est pas le cas), et il serait bien temps de diversifier un peu notre palette en la matière.


Une petite remarque supplémentaire avant de décrire un peu le choix pléthorique au supermarché des structures de données : il faut savoir que toute structure de données n'est concrètement implémentée, à la fin des fins, qu'avec une combinaison de deux structures élémentaires, à savoir les tableaux et les listes chaînées. Couplée à quelques variables bien choisies, et parfois à des fonctions algorithmiques redoutables (comme les fonctions de hachage, par exemple), ces objets sympathiques nous permettent de construire des structures de données nettement plus complexes et adaptées à des situations très diverses. Cela dit, à moins d'utiliser un langage qui n'offre aucune structure de données un tant soit peu élaborée, et il y en a, ou d'avoir un besoin très spécifique en la matière, on aura rarement à implémenter soi-même ses propres structures de données complexes en partant de petits tableaux ou de listes chaînées.


Dernier point, enfin, la complexité en nombre d'opérations n'est pas nécessairement le seul critère qui entre en jeu quand il s'agit de choisir une structure de données, la place qu'elle occupe en mémoire peut également être décisive si vous stockez vraiment une grosse quantité de données. En règle générale, la différence n'est pas suffisamment importante d'une structure à l'autre pour que l'on prenne la peine de s'en soucier (les performances avant tout, n'est-ce pas), mais dans les situations extrêmes de beaucoup beaucoup d'octets à manipuler, on devra commencer à prendre des pincettes. Mais c'est également dans ce cas qu'on finira peut-être par développer ses propres structures de données aux petits oignons, si on en est là. Dans tous les cas, la structure de données qui occupe le moins de place en mémoire est le tableau, eh oui, bravo à lui. Comme quoi c'est tout de même un camarade bien gentil, malgré ses quelques défauts par ailleurs.



Tu les ranges tes données ?


Allez, il est temps de nous lancer dans un grand top 50, mais avec moins d'entrées au hit-parade quand même, des structures de données élues plus vertes de tous les temps par SourisMag. Bon, à vrai dire il existe tout un tas de structures très exotiques que nous garderons sous silence (arbres de plein de variétés, graphes, etc), pour nous contenter des structures les plus simples et les plus fréquemment utilisées. Nous allons également discuter des points forts et des points faibles de chacune, histoire de bien comprendre ce qui doit guider nos choix.



1 - Il est beau mon tableau


On commence par celui que nous connaissons tous, la structure universelle que même le VisualBasic de tonton doit savoir manipuler (enfin je dis ça, je m'avance peut-être), à savoir le tableau. Simple, élégant de bon, goût, le tableau est une structure formidable quand elle est implémentée par une vraie série de cases contigues en mémoire, jugez plutôt :


Plein d'avantages :

- c'est la structure la plus économe en mémoire

- c'est la structure la plus rapide à énumérer. Il ne faut qu'une seule opération pour passer d'un élément au suivant, et si en plus le tableau est tout entier dans le cache processeur ou dans la page de mémoire vive courante, on vole à la vitesse du vent

- c'est aussi la structure la plus efficace pour atteindre un élément donné si on connaît sa position : une seule opération, là encore, avec la même remarque que précédemment si le tableau est déjà chargé en mémoire


Mais des inconvénients :

- atteindre un élément dont on connaît la valeur, mais pas la position, demande d'énumérer tous les éléments. Coût de l'opération : de l'ordre de N instructions pour un tableau de taille N.

- c'est une des structures qui a le plus fort coût à l'insertion d'un élément. Si on l'ajoute à la fin et qu'on a alloué la place mémoire pour l'élément en trop, aucun problème. Par contre, ajouter un élément ailleurs nous oblige à décaler tous les éléments. Si jamais on a plus de place pour mettre un élément en plus, il faut allouer un tableau plus grand et tout recopier, bonjour le nombre d'opérations. Dans tous les cas l'insertion d'un élément coûte l'ordre de grandeur du nombre de valeurs dans le tableau.

- la suppression d'un élément est encore pire, sauf si là encore c'est le dernier. Dans tous les autres cas, c'est recopie de tous les éléments vers la gauche, sans possibilité de désallouer la mémoire inutilisée, sauf à tout recopier ailleurs, et là encore on paie environ N éléments en ordre de grandeur pour un tableau de taille N, sans compter la mémoire dépensée le temps de réaliser la copie. Eh oui ma bonne dame.



2- La liste déchaînée


Autre candidat bien sympathique parmi les structures toutes élémentaires, qu'on peut réimplémenter soi-même dans son salon sans risquer d'affreux plantages De La Mort, j'ai nommé la liste chaînée, sous vos applaudissements. Elle est toute simple : chaque élément contient une valeur, et un pointeur vers l'élément suivant. Facile, non ?


Des avantages à gogo :

- une efficacité redoutable pour énumérer tous les éléments, par petits sauts de puce de pointeur en pointeur. Pas tout à fait aussi véloce que le tableau, mais l'ordre de grandeur pour atteindre chaque élément depuis le précédent est d'une opération aussi.

- c'est une structure pas totalement, mais quand même relativement, efficace pour l'insertion d'un élément, où qu'il soit. En fait, il faudra compter de sauter jusqu'à l'élément où vous voulez ajouter un copain, donc plus il est loin du début, plus vous payez. Une seule instruction si vous insérez systématiquement en début de file, mais de l'ordre de N instructions si jamais vous allez n'importe où, c'est moins super.

- même chose pour la suppression, opération élémentaire, qui ne demande que de localiser l'élément en question.


Mais aussi des inconvénients quand même :

- on l'a déjà dit, atteindre un élément donné, par sa position comme par sa valeur, nécessite de suivre toute la liste, donc un ordre de grandeur de N opérations. Bof bof.

- cette structure occupe davantage de place en mémoire que le tableau, puisqu'en plus de la valeur on stocke l'adresse de l'élément suivant. Pas forcément énorme, mais ça peut commencer à saler l'addition si on a vraiment une grosse structure à maintenir.


Il existe une variante tout aussi rigolote, appelée la liste doublement chaînée, où, pour chaque élément, on stocke un pointeur vers l'élément précédent en plus du suivant. Dans ce cas on peut parcourir facilement la liste dans les deux sens, et insérer aussi facilement en début qu'en fin de liste. Pratique, mais là encore il y a un surcoût en mémoire.



3- En file indienne


Ah ah, ici on commence à rencontrer des structures un peu plus élaborées qui vont nous servir dans des situations très pratiques. Reconnaissons-le franchement, si on utilise des tableaux de manière courante, on ne va pas souvent sortir des listes chaînées de notre chapeau, sauf pour un exercice scolaire de programmation. Par contre la file, ça oui, on en voit partout et tout le temps. Dès qu'on fait communiquer deux machines/programmes/souris entre elles/eux, on a besoin d'une petite file : une structure où on empile d'un côté, et on dépile de l'autre, comme ça on prend toujours les éléments dans leur ordre d'arrivée, et on évite de mettre un joyeux désordre dans notre communication.


Alors, en fait la file en tant que telle peut être implémentée de plein de manières, mais si vous avez bien suivi ce qui précède, vous voyez que la plus efficace de loin est la liste doublement chaînée, puisque les opérations que l'on privilégie sont l'insertion en début et la suppression en fin de file. On peut s'en sortir aussi avec un tableau de taille variable, mais c'est à condition de connaître à l'avance la taille maximale du nombre d'éléménts qu'on peut mettre dans notre structure.


Pourquoi elle est gentille :

- insérer et supprimer un élément aussi bien en début qu'en fin de file ne nous coûte qu'une seule instruction machine, formidable.

- récupérer tous les éléments un à un à la suite est très efficace, même si ça n'est généralement pas pour cela qu'on choisit une file.


Pourquoi elle est méchante :

- l'insertion ou la suppression en milieu de file est totalement prohibée. Elle serait théoriquement possible, mais avec un surcoût non négligeable, et de toute manière c'est en contradiction flagrante avec la finalité même de la structure, donc souvent cette opération n'est même pas disponible.

- aller inspecter la file pour voir si une valeur précise y est stockée demande d'énumérer tous les éléments, donc de l'ordre de N instructions pour une file de taille N. Et là encore, cette possibilité n'est pas toujours offerte à l'utilisateur sympathique.



4- Remonté comme une pile


Autre structure à inclure dans sa petite besace, largement sous-estimée et trop peu utilisée à notre goût, la pile est votre amie dès lors qu'il s'agit ranger nos éléments pour ressortir toujours du tas le dernier déposé. Notez bien la différence avec la file, qui elle prend toujours l'élément le plus ancien encore disponible.


Par ailleurs, la pile est absolument indispensable dès que vous faites des parcours d'arbres en profondeur, ce que vous faites, si si, dès que vous parcourez une arborescence de fichiers. Si vous ne vous en rendez pas compte la plupart du temps, c'est que vous utilisez la pile d'appels de votre langage de programmation, en lieu et place de la votre propre.


Disons le franchement, elle regorge de qualités :

- l'insertion et la récupération d'un élément est simplissime, une seule minuscule instruction

- c'est une structure excessivement économe en mémoire, en tout cas quand elle est correctement implémentée

- l'énumération (enfin, le dépilement) de tous les objets dans la pile est très efficace


Mais elle a quand même quelques défauts :

- impensable d'insérer ou de retirer un élément ailleurs qu'au début, sans quoi elle perd tout son intérêt

- savoir si une valeur est présente dans la pile nécessite d'en énumérer tous les éléments un à un, donc de l'ordre de N instructions. Et encore, ceci n'est pas toujours possible sans dépiler puis réempiler tout le bazar.



5- Tout en gros tas


Moins connu du grand public, et très honnêtement assez difficile à trouver sur le marché aux structures incluses dans les librairies courantes, le tas est pourtant bien pratique dans certaines situations. Il faut dire aussi que son nom n'est pas très vendeur non plus, aux souris vertes on l'appelle souvent le Gros Tas, même si on a beaucoup d'affection pour lui.


Alors, le tas sert à entasser, eh oui, toutes nos petites données en leur accolant un poids. Plus la donnée pèse lourd, plus elle part au fond du tas. Et on peut ainsi récupérer en une seule instruction la donnée la plus légère, puis la suivante, etc. Il existe une variante également où c'est le plus lourd que l'on ressort à chaque fois ; bon, même si ça n'est pas disponible il suffit d'affecter l'opposé de nos poids pour que ça fasse la même chose, remarquez bien.


Une formidablitude non démentie :

- il faut une seule opération pour obtenir le minimum (ou le maximum) de notre structure. Attention cependant, comme l'insertion d'un élément n'est pas la plus économe, construire un tas juste pour trouver le minimum de N valeurs est moins efficace que d'énumérer simplement les valeurs en gardant la plus petite.

- l'énumération des valeurs successives ne coûte rien, et en prime on vous les renvoie dans l'ordre croissant des poids. Le tas fait donc partie des structures optimales pour trier des données, et est utilisé par un certain nombre d'algorithmes de tri

- voir si une valeur existe dans le tas est très rapide, de l'ordre de log(N) opérations pour un tas de taille N.

- l'insertion et la suppression d'une valeur est également relativement efficace, de l'ordre de log(N) opérations


Mais pas que non plus :

- ben, en fait, on pourrait remettre ici tous les points précédents : insertion, suppression, lecture d'une valeur, sont efficaces, c'est vrai, mais il existe des structures bien plus rapides pour chacune des ces opérations. Le tas est plutôt bon partout, mais il n'excelle nulle part.


En pratique, il n'y a pas de mystère, si le tas n'est pas utilisé de manière courante, c'est qu'il ne se démarquera de ses petits copains que dans des cas très spécifiques, et que pour l'écrasante majorité des cas il y aura toujours une structure plus adaptée. Mais ça reste souvent un bon deuxième choix si aucune implémentation d'une structure que vous souhaitiez n'est disponible.



6- En finesse mais à la hache


Nous avons gardé le meilleur pour la fin. Il existe toute une classe de structures qui s'appuient sur des fonctions de hachage pour vous offrir une efficacité redoutable sur certaines opérations très courantes. La structure algorithmique sous-jacente s'appelle une table de hachage, mais elle permet d'implémenter dictionnaires, ensembles, tableaux associatifs et sans doute encore d'autres structures que nous oublions au passage.


Le principe est toujours le même : grâce aux fameuses fonctions de hachage sorties du cerveau brumeux de mathématiciens déchaînés, nous sommes en mesure d'accéder à une valeur donnée de notre ensemble en une seule opération. Oui, une seule, et ceci quel que soit l'élément et quelle que soit la taille de votre ensemble. Vous pouvez vous pincer, vous ne rêvez pas. Alors, tout ceci n'a pas que des avantages, ça serait trop facile, et il va falloir payer du gros coût à la sortie sur certaines opérations. En général, nous utilisons ces structures pour stocker des ensembles (clé, valeur), on donne la clé et on retrouve la valeur en une seule opération rapide comme l'éclair.


Que de délices nous attendent :

- nous venons de le dire, une seule opération pour l'accès à un élément donné en connaissant uniquement sa clé associée.

- une seule opération aussi pour insérer et supprimer une clé de notre paquet

- une seule opération pour répondre à la question : ma clé est-elle dans mon gros tas ? Du coup c'est très utile pour dédoublonner des valeurs dans un ensemble : on pose tout dans notre dictionnaire / ensemble / table de hachage, et à l'arrivée l'ensemble des clés ne contient que des valeurs uniques.


Mais attention l'addition est parfois salée :

- commençons tout de suite par ce qui fâche, à savoir l'énumération des éléments qui est tout simplement misérable. Nous trouvons ici de très loin la structure la plus lente pour énumérer les éléments les uns après les autres, un phénomène dont bien peu de programmeurs semblent avoir conscience, qui mettent tout ce qu'ils ont sous la main dans une table de hachage uniquement pour la parcourir entièrement à la fin. Croyez-moi, la différence avec un tableau est tout simplement abyssale si la structure est de grande taille.

- la structure demande plus de place en mémoire que la plupart des autres structures élémentaires énumérées ici. Bon, rien d'incroyable non plus, surtout si elle est bien implémentée, mais dans certains langages où ça n'est pas le cas, la place occupée en mémoire peut devenir assez vite gênante.

- les opérations élémentaires demandent en moyenne une instruction, c'est vrai, mais il s'agit tout de même d'un calcul de hash qui est nettement plus qu'un simple accès à un élément dans un tableau par sa position. Donc une GROSSE instruction, quand même, et qui sollicite gentiment le processeur au passage.

- dernier point, si les hashs sont mal distribués, c'est-à-dire si la fonction de hachage utilisée ne se comporte pas très bien avec les données que vous stockez, eh bien là les ennuis commencent sérieusement et la structure devient aussi gracile qu'un éléphant cherchant à faire du skateboard. Le risque est minime tant que la taille de la structure reste limitée, mais si vous commencez à y jeter plusieurs millions d'entrées, il va sans doute falloir y regarder de plus près sur la manière dont la structure est implémentée dans les coulisses.


Mais cette dernière remarque est finalement valable pour n'importe quelle structure : si vous dépassez une taille critique, disons plusieurs centaines de milliers d'entrées, vous pourrez rarement vous contenter de l'implémentation standard à portée de main, et il vous faudra sans doute, soit la paramétrer finement, soit en modifier le code, soit carrément repartir de zéro pour écrire la votre à la place.


Alors, attention tout de même, tout ce qui brille n'est pas or, et tous les langages qui proposent des structures associatives ne les implémentent pas forcément de manière efficace. Aux Souris Vertes, par exemple, on se gausse régulièrement, mais gentiment, du gros éléphant PHP, un des langages pourtant les plus utilisés au monde, qui propose des tableaux associatifs qui ne sont efficaces ni comme tableaux, ni comme structure d'association. Une belle prouesse !


Halte au maintien de l'ordre

Il existe évidemment des milliards de millions d'autres structures de données qui peuplent l'univers de l'informatique moderne. Parmi celles-ci, il y en  qui nous laissent franchement perplexes aux souris vertes, à savoir celles qui maintiennent un ordre naturel des éléments : une liste ou un tableau triés, une map ordonnée (comme une table de hachage dont on peut énumérer les clés dans l'ordre croissant), etc.

Entendons nous bien, le fait d'avoir des données triées permet d'accélérer notablement certaines opérations, comme le fait de trouver un élément en log(N) par exemple au lieu de N essais. Mais, généralement, le fait de devoir maintenir l'ordre à l'insertion et la suppression de valeurs coûte bien plus cher que le fait de tout ranger sans se poser de question et de retrier ensuite. Donc, à moins d'avoir absolument besoin de l'ordre des éléments entre deux insertions, on sera bien inspiré de se tenir loin de ces structures qui ont l'air toutes bien rangées, mais sont sous-optimales pour pratiquement toutes les opérations (insertion, suppression, récupérer une valeur, etc).


Soigner son langage


Bien, nous en avons terminé de notre petit tour d'horizon des plus belles structures de données de la collection automne-hiver de l'année.  Nous ne pouvons que vous inviter à  découvrir par vous-même tous les autres trésors que nous n'avons pas abordés ici, sachant que plus vous choisirez une structure adaptée à vos besoins, plus votre code sera performant et votre impact en mémoire ou en stockage limité.


Mais, en pratique, on ne peut pas non plus occuper son temps éveillé à implémenter des structures de données, donc on est bien souvent contraint de s'appuyer sur celles qui sont disponibles de base dans le langage de programmation que nous utilisons. Arrivé à ce point de notre réflexion, on se rendra vite compte que tous les langages ne sont pas équivalents, non non non, et que s'il faut un critère pour les discriminer, au-delà des Super Benchmarks De La Mort qui vous démontrent que X lave plus blanc car il calcule des fractales à la vitesse du son, on sera bien inspiré de regarder si ledit langage possède des structures de données bien implémentées et adaptées à toutes les situations.


En général, quel que soit le langage utilisé, on essaiera d'avoir au minimum deux structures toujours sous le coude : un bon vieux tableau, ou liste, pour les traitements qui demandent des énumérations fréquentes, et une table de hachage, ou équivalent, pour tout ce qui demande des accès par valeur, ou du dédoublonnage. Muni de ces deux outils de base, et en choisissant systématiquement celui qui va le mieux, nous sommes déjà en mesure d'écrire du code quasi optimal dans toutes les situations courantes. Si en plus, on a gardé en tête les conseils de notre dernier article, et qu'au lieu de spammer notre base de données, on monte en mémoire une structure qui nous permet de les interroger de la manière la plus efficace possible tout au long de l'exécution de notre programme, on aura largement mérité d'encadrer notre diplôme de Programmeur Responsable (TM) au-dessus du canapé de notre salon.



Mais t'arrêtes donc de recopier, toi ?


Une dernière remarque, et après promis on s'arrête là pour aujourd'hui, car les souris piétinent d'impatience à mes côtés, il y a une chose qu'il faut absolument contrôler lorsque vous utilisez un langage de programmation, c'est la manière dont sont passés les paramètres des fonctions. Il y a en fait deux possibilités :

- les paramètres sont passés par référence, c'est-à-dire qu'on vous donne un pointeur sur l'objet que vous aviez passé, et que votre fonction peut le modifier à loisir, vous récupérez ensuite l'objet modifié

- les paramètres sont passés par valeur, autrement dit vous en avez une copie toute neuve dans votre fonction que vous pouvez triturer à l'envi, l'appelant n'en saura rien, le coquin.


Aucune des deux méthodes n'est universellement satisfaisante, car parfois vous aimeriez bien que la fonction appelée n'aille pas mettre en bazar tout ce que vous lui envoyez, et en même temps si vous avez une structure géante, vous ne voulez pas forcément la recopier entièrement de fonction en fonction.


Les langages les mieux conçus passent généralement les types primitifs (entiers, chaînes de caractères, etc) par valeur, et les objets plus complexes par référence, mais certains ont le mauvais goût de tout passer par valeur si on ne leur dit rien, et alors là bonjour les dégâts : dès que j'appelle une fonction, c'est recopie à gogo, donc grosse perte de temps et de mémoire. Pour ceux-là, on forcera systématiquement le code à passer nos structures de données par référence. Et si cela n'est pas disponible, fuyez le langage en question comme la peste !



Nous voici au bout de notre exploration curieuse et étonnée des structures de données en mémoire. Nous espérons n'avoir pas trop fatigué les lecteurs avec ces considérations qui peuvent avoir l'air de détails microscopiques , mais qui sont essentielles à nos yeux pour réduire le gaspillage informatique planétaire. Les souris sont déjà en train de courir dans le jardin, aussi je tire ma révérence en vous laissant vous délasser l'esprit sur un petit haïku final :

"Dans son écorce
Le chêne
Garde la mémoire de mon regard"

Midoriro no Mausu (la Souris Verte)

>Voir le billet et ses commentaires...
 

La Programmation Responsable (4) : de spammer ta base de données tu cesseras
Date 28/11/2017
Ico Dossier
Comms Aucun commentaire


"Soleil de printemps

Boîte aux lettres repeinte

Dégoulinades jusqu’à terre"


Hara Sekitei (1889-1951)


Ah mais tout de même. Enfin un article dont nos amis programmeurs comprennent le titre et savent de quoi-t-on va parler, voilà qui ne serait pas du luxe. C'est que tout développeur ne connaît que ça, la base de données. Il l'appelle, la rappelle, lui envoie des petits coucous, prend de ses nouvelles, discute avec elle du temps qu'il fait, et ce toute la journée durant. Eh bien, une fois de plus, c'est malheureux de toujours en arriver là, les souris vertes doivent mettre les pieds dans le plat et mettre le holà à cette idylle apparemment parfaitement innocente. La manipulation sans précaution de notre gentille base de données est LA cause noumero uno (una ?) d'inefficacité des programmes dans le monde, et donc une alliée bien malgré elle du gaspillage informatique à tous les étages, et du réchauffement climatique qui s'ensuit.


Il va donc nous falloir renverser la tête pour arrêter de marcher sur la vapeur, et ce même si cette si cette image vous laisse aussi perplexe que moi. Essayons de comprendre pourquoi la base de données n'est pas le formidable couteau suisse du programmeur que l'on imagine souvent, mais plutôt sa version masse d'armes de vingt kilos à pommeau incrusté que l'on maniera avec la délicatesse d'Hercule, en fin de journée et un peu pressé de finir son onzième travail sur douze.



A la vitesse de l'électron, mais avec un boulet au pied


La base de données est, c'est bien connu, la meilleure manière en programmation de ranger ses petites affaires et de les avoir sous le coude instantanément. La meilleure, vraiment ? Commençons par un petit rappel salutaire directement recopié, sans reversement aux ayants droits, de notre magnifique dossier sur les grandeurs numériques, en se remémorant les ordres de grandeur de latence suivants :


- depuis le cache processeur : 0, négligeable, rien du tout, niente, le processeur travaille directement avec son petit cache qu'il garde auprès de lui

- depuis la mémoire vive (ou RAM pour les intimes) : 10 ns, soit 0,00001ms

- depuis un disque dur SSD : 0,01 à 0,1ms

- depuis un disque dur à plateau : 1 à 10ms

- à travers un appel réseau : de 0,1 à 1ms si on est sur un réseau local très performant, de l'ordre de 30ms si l'on est à travers des connexions distantes


Mais pourquoi donc rappeler tout cela, me demande une souris qui gratte ses mignonnes petites oreilles de consternation ? C'est qu'il nous faut nous poser la question : où est notre base de données là-dedans ? En fait, elle est à cheval sur trois catégories : elle travaille pour partie en mémoire vive (grâce à un cache plus ou moins performant), pour une grosse partie depuis le disque dur, mais il faut lui ajouter une petite latence réseau, car elle est en général déportée sur une autre machine et, quand ça n'est pas le cas, toute la couche des appels réseaux est utilisée quand même pour des appels en local.


Alors, nous voyons tout de suite le problème d'appeler sans arrêt notre base de données : à chaque appel, on paye quelques millisecondes, voire beaucoup plus quand on fait des requêtes maousse costaudes, et des millisecondes qui s'entassent, eh bien ça fait des secondes, puis finalement des heures, voire des jours. Alors que l'on voit tout de suite que si nos données étaient toutes en mémoire, eh bien on irait constamment à la vitesse de la mémoire vive, soit 100 000 fois plus vite, excusez du peu. L'idéal étant même de toujours s'arranger pour travailler dans le cache processeur, là on tombe carrément dans la vitesse intersidérale absolue, sauf que c'est bien difficile à réaliser en pratique si l'on ne programme pas dans un langage qui permet de gérer finement l'allocation mémoire, et désormais très peu de langages modernes l'autorisent, vu que c'est aussi une source d'erreurs fatales et de cataclysmes sans nom. Cela dit, nous ne sommes tout de même pas obligés de nous mettre les mêmes contraintes pour notre petit programme que pour la séquence de lancement d'une fusée en temps réel, donc déjà si on arrête de spammer la base de données à tout va et qu'on sollicite un peu plus la mémoire vive de notre machine on sera bien content.


Bien entendu, il n'y a pas équivalence stricte entre ces méthodes de stockage de données : les données en mémoire vive ou dans un cache processeur sont volatiles, alors que dans votre base de données, elles seront persistantes (enfin si tout va bien). Remarquons d'ailleurs la tendance bien navrante de certains programmeurs à utiliser leur base de données comme fourre-tout pour y mettre des données qui n'ont aucun intérêt à être stockées, comme des résultats de calculs intermédiaires, des caches temporaires, etc, tout ça parce que c'est bien facile de tout ranger dans le gros placard que de travailler un peu à gérer des structures de données en mémoire. Résultat des courses, c'est la double peine : vous perdez en performance à appeler sans cesse votre base de données, et en plus vous consommez du stockage inutilement pour des données qui peuvent être recalculées à la demande.


Il existe aujourd'hui des bases de données non relationnelles fringantes, ou encore des systèmes de cache clé-valeur excessivement plus performants qu'une base de données traditionnelle, comme Redis pour n'en citer qu'un, et qui seront bien utiles dans certains contextes, comme le fait de partager certaines données volatiles entre plusieurs serveurs. Cela dit, même quand ils travaillent exclusivement en mémoire, bravo à eux, ils resteront toujours nettement moins performants que l'utilisation de la mémoire vive au sein même de la zone d'exécution de votre propre code : vous évitez ainsi de payer une petite (ou grosse) latence réseau, ainsi que tout un traitement lié au protocole de transfert aller-retour à la base et son interprétation dans le langage de programmation que vous êtes en train d'utiliser, bref un tas de choses qui ne coûtent pas bien cher si on se sert de sa base de données avec parcimonie, mais qui commencent à chiffrer sévèrement dès qu'on fait tourner plusieurs milliers de fois par seconde notre petit code.



Allô, la base de données ?


Bien bien, on vous a compris, les souris, on jette la base de données à la poubelle et on ne fait plus que du code en mémoire, merci et salut. Attendez ! Ne partez pas si vite, on ne va pas se quitter sur un malentendu pareil : il n'est pas question de mettre toute notre application en mémoire partout et tout le temps, sinon on a remplacé une nuisance par une autre. De toute manière c'est tout simplement impossible, car vous avez sans doute remarqué qu'on est loin de pouvoir mettre autant de mémoire vive sur une machine qu'elle n'a de stockage disponible. Si votre application consomme 100 Go sur disque dur, vous aurez bien du mal à obtenir l'équivalent pour passer l'ensemble en mémoire vive, même à considérer que ça prendrait strictement la même place, ce qui n'est pas vrai (le stockage en mémoire consomme toujours légèrement plus de place que la donnée elle-même).


Bon, donc on ne jette pas notre base de données à la poubelle, au contraire même : c'est tout de même une technologie super robuste pour stocker des données de manière persistante et garantir leur intégrité, beaucoup mieux que s'il fallait faire ça soi-même par des bouts de fichiers, ou tout autre technique tordue qui vous viendrait à l'esprit. Simplement on va s'interdire d'appeler trop souvent notre base de données, pour ne pas payer le coût prohibitif de l'appel à chaque fois qu'on a besoin d'une donnée. Imaginez un peu un code de 100 lignes qui appelle la base de données toutes les 10 lignes pour faire un traitement. Disons qu'on perd 1ms à chaque appel, ce qui est déjà très optimiste, donc notre code s'exécute en 10ms. Si on a réussi à faire tous ces appels en une fois, on ne paye déjà plus que 1ms, on a déjà gagné un facteur 10. Mais si en plus on a anticipé, et préparé dans une autre section de code ces données et qu'elles sont déjà en mémoire, là notre bout de code s'exécute de manière quasi instantanée.


Alors évidemment, ceci supppose d'arrêter de manier à la truelle un concept de programmation particulièrement en vogue, mais qui est une ineptie en terme de performances : l'absence de contexte. Je fais ma petite fonction qui s'occupe de son petit calcul et ne sait rien du reste du monde, mieux encore, je l'appelle au travers d'une API comme ça c'est super étanche, elle ne sait rien de mon application, c'est l'insouciance bienheureuse de l'ignorance béate. Ces principes sont très sains appliqués à une certaine échelle, pour éviter ce qu'il faut bien appeler un sac de noeud géant qui constitue malheureusement la réalité sordide de bien des projets informatiques ayant dérivé dans la nuit, mais ils sont franchement délétères quand on les reporte à une échelle microscopique, puisque l'on va finir par payer un coût exhobitant à chaque micro-étape de notre programme.


Aux Souris Vertes, nous avons un Principe Majeur s'agissant de structurer correctement son application : toute partie du code qui utilise un tant soit peu intensément les données doit pouvoir disposer de la logique complète de la manière dont elles sont structurées, et même la guider : on stocke toujours ses données de la manière la plus adéquate pour les reprendre ensuite, et pas selon un schéma préétabli qui fait beau sur le papier, mais qui est totalement impraticable pour la machine. C'est quand même elle qui travaille à la fin, non mais.


Résumons en quelques savants conseils percutants notre manière de gérer la base de données en Programmeur Responsable :

- mutualiser autant que possible les appels successifs, quitte à organiser le code autrement. Par exemple, je dois récupérer la date de naissance d'un utilisateur à partir de son login à chaque fois qu'il se connecte. Soit je fais un appel à chaque connexion, soit je charge une fois pour toute en mémoire une relation (login,date de naissance), et du coup je ne fais plus jamais d'appel à la base pour cette petite information triviale. Evidemment, si j'ai 30 millions d'utilisateurs, il va falloir que je commence à me poser des questions car cela va vite saturer joyeusement ma mémoire vive. On peut essayer d'optimiser le stockage en mémoire, mais effectivement passé une certaine échelle on ne pourra plus agir aussi simplement. En même temps, dans 99,99999% du temps vous aurez des petites quantités de données à traiter, disons moins de 100 000 d'un coup, et vous pouvez y aller gaiement avec ce genre d'optimisation qui ne coûte pas cher.

- maîtriser la logique globale de l'accès aux données dans l'application, en particulier savoir quelles parties de code écrivent ou lisent dans la base de données pour ne pas faire de traitements redondants ou des appels inutiles, pour des données que vous auriez pu vous repasser d'un bout à l'autre du code.

- stocker les données sous la forme la plus adaptée à la manière dont elles sont ensuite extraites. Le paradigme des bases de données relationnelles, je-mets-tout-à-plat-et-après-je-fais-30-jointures-si-j'ai-besoin, est en ce sens désastreux. En principe, on sait toujours comment une donnée est récupérée (toute seule ou en groupe, filtrée selon un attribut particulier, etc) et il faut en tenir compte dans la manière de structurer son stockage en base. Rappelons également que la création d'index à tout va quand on se rend compte que les performances sont abyssales, généralement lorsque l'on requête sur un ou des attributs que l'on n'avait pas anticipés, n'est pas une méthode viable : chaque nouvel index créé peut dépasser la taille des données brutes stockées, ce qui fait qu'on consomme du stockage à gogo sans vraiment corriger le problème, qui se trouve, comme presque toujours, au sein de la logique que déroule notre code.


Voilà, nous n'allons pas multiplier les conseils aujourd'hui, le principe est simple : on contrôle finement les appels à notre base de données, de manière à en faire le moins souvent possible. Et une fois qu'on a pris nos petites habitudes, on peut les appliquer même quand il n'y a pas forcément un enjeu important de performances, car il n'y a pas de raison de gaspiller des ressources machine, même quand la différence n'est pas perceptible à l'oeil nu. Bien sûr, on cherchera toujours un équilibre entre la complexité du code à écrire et à maintenir, et le gain réel en performance.


Allez, on s'arrête là pour aujourd'hui, vous avez déjà largement de quoi méditer. On se sépare sur un petit haïku providentiel :

"Ciel d'hiver -
La neige répond
A l'appel du rocher"

Midoriro no Mausu (la Souris Verte)

>Voir le billet et ses commentaires...
 

La Programmation Responsable (3) : de déléguer la programmation tu éviteras
Date 18/11/2017
Ico Dossier
Comms Aucun commentaire

La programmation façon souris verte


"Elles sont amaigries
Les mains qu’il joint
Lui pour qui je joins les miennes"

Yamaguchi Seishi (1901-1994)


Suite de notre palpitant dossier, nous prenons un peu de hauteur aujourd'hui jusqu'à nous élever dans la stratosphère de la pensée militante, pour dénoncer un fait social proprement scandaleux, inique et révoltant, rien de moins. A n'en pas douter, aucun domaine de l'activité humaine ne saurait être épargné par le phénomène moderne de la sous-traitance, qui sous ses dehors débonnaires d'efficacité industrielle et de ravissement béat du consommateur devant l'écrasement sans fin des prix, cache dans son arrière-boutique les violations de droits humains et de l'environnement qui permettent qu'un produit que personne ne saurait fabriquer de ses seules mains en moins de quelques décennies soit offert contre une poignée d'euros.


Fort heureusement éloignés de ces sombres vicissitudes, nos chers lecteurs-programmeurs n'en sont pas encore rendus à faire travailler des enfants ou à pulvériser des tonnes de produits toxiques pour gagner leur pain à la sueur de la main sur le clavier. Ouf. On notera cependant que la situation sociale dans les métiers de l'informatique n'est pas exempte des meilleures pratiques de précarisation ordinaire, avec de gentilles sociétés informatiques qui se dotent de conventions sociales dignes d'un roman de Dickens, et entretiennent une pratique décomplexée de l'exploitation du jeune diplômé à faire pâlir de jalousie les agences d'intérim. Le recours croissant à de la sous-traitance dans des pays à bas coût, qu'il faut bien aider les pauvres, pour de la production de code ou pour de l'assistance informatique à distance, achève de nous peindre un monde de l'informatique où il fait bon faire carrière.


Mais foin de tout cela, car je me fais rappeler à l'ordre par les souris qui se désolent de mes disgressions sur ces réalités sordides, alors que le sujet de notre article est d'un tout autre ordre, et qu'il serait temps de retrouver l'humeur pimpante et légère qui sied à un article écrit par de mignonnes petites souris vertes. De quoi parlons-nous réellement aujourd'hui, d'ailleurs ? Ah oui, c'est vrai, nous devions lancer un appel solennel et unanime à faire-le-soi-même son propre code avec ses petits doigts potelés, au lieu que de sans arrêt le déléguer à autrui qui l'avions écrit pour nous. Bon, cette introduction étant décidément sans espoir, et devant l'air navré des souris qui voient leur beau propos partir en sucette verbale, changeons vite de paragraphe pour nous racheter une conduite et un style, et rentrer dans le vif du sujet. En avant, marche !



Surtout ne fais rien, je m'en occupe pour toi


Cette belle proposition est le mantra de l'informatique moderne. Tout est donc organisé pour qu'aujourd'hui le développeur écrive de moins en moins de code, et passe donc ses journées à se gratter la tête pour comprendre comment réutiliser du code écrit par d'autres, ou à comprendre comment appeler le gentil service web qui est censé lui répondre en une nano seconde ce qu'il aurait mis trois jours à calculer par lui-même. Ce qui lui prendra parfois 5 jours d'analyse, allez comprendre.


Les promesses implicites qui justifient la multiplication de ces pratiques sont les suivantes :

- ceci permet de gagner du temps et de ne pas "réinventer la roue" à chaque petit problème qu'on rencontre

- ceci permet de bénéficier de code efficace, robuste et ultra-validé

- ceci permet de faire du code plus simple à maintenir sur la durée : le Gentil Développeur dont je reprends le code maintient sa petite fonctionnalité de son côté, je n'ai qu'à maintenir les 3 lignes de code qui l'appellent du mien, et en plus je bénéficie de toutes les avancées de son travail gratuitement et sans supplément. Le rêve !


Alors effectivement, si tout ceci était vrai partout et en toutes circonstances, l'équipe des Souris Vertes serait depuis longtemps en train de s'égayer dans les bois plutôt que d'écrire cet article inutile. Malheureusement, comme souvent ces promesses n'engagent que ceux qui y croient, et la réalité quotidienne de la tâche ingrate que l'on appelle "intégration" en informatique, par opposition au développement pur, et qui est un mot délicat pour signifier faire-rentrer-au-chausse-pied-ce -code-pas-de-moi-et-qui-ne-fait-pas-vraiment-ce-que-je-veux, est toute autre.


Permettons nous donc de reprendre un par un les points que nous avons cités, pour en dévoiler la face lunaire sombre et inquiétante.


Promesse 1 : plus de moins de temps


Disons le tout net, le gain de temps effectif est le plus souvent une vaste blague, car généralement plus le code à intégrer est complexe ou dense, plus la phase d'apprentissage pour se l'approprier et lui faire faire ce que l'on souhaite est longue. On peut ainsi passer des jours, des semaines ou même des mois à éplucher une documentation indigente ou à essayer de deviner le comportement de certaines fonctions par essai-erreur, voire en lisant directement le code source. Bref, le gain de temps sera très variable en fonction de la manière dont le code a été conçu et documenté, et de son adéquation à notre besoin initial. Ce qui est certain, en revanche, c'est qu'au lieu de passer vos journées à programmer, vous allez passer vos journées à décortiquer des documentations ou du code structuré de manière peut-être très différente de vos propres habitudes, ou bien à exécuter des bouts de programme dans le brouillard jusqu'à y voir plus clair. Il y en a peut-être qui adorent passer leurs journées de travail à ce genre de sport, personnellement ceci me rend instantanément mort d'ennui et le regard rivé à la fenêtre en regrettant de ne pas être ailleurs avec mes copines souris.


Promesse 2 : on ne va pas réinventer la roue, allons donc


En ce qui concerne ce fameux adage que j'ai moi-même entendu tant de fois s'agissant de produire du code informatique, eh bien personnellement aux souris vertes on ne voit pas trop le problème. Quand bien même on écarterait le fait que bien souvent, c'est une roue carrée ou carrément crevée qu'on essaie de vous refourguer discrètement, il est toujours plus épanouissant pour une personne de savoir inventer une roue par elle-même (vous sauriez le faire, vous ?) que de regarder quelqu'un d'autre le faire à sa place. A vrai dire, quand on regarde la société dans son ensemble, on voit vite que la plupart des gens passent précisément le plus clair de leur temps de travail à faire des choses redondantes ou superflues, la seule manière possible de garantir  qu'autant de gens doivent s'astreindre à pointer 40 heures par semaine alors que des millions de machines font le plus gros du travail à notre place. Le chef de projet qui vous enjoint d'arrêter de programmer vous-même votre petite fonction ne passe-t-il pas son temps à faire exactement la même chose que des milliers d'autres personnes dans le monde sur des projets similaires ? Est-ce qu'on ne pourrait pas factoriser un peu sa fonction inutile, au lieu d'essayer de toujours factoriser le travail du développeur ?


Promesse 3 : testé et approuvé, puis retesté et réapprouvé


Ah, alors là oui, en effet, voici un argument de poids (boum). Quand on sait que tester du code est souvent bien plus long que de l'écrire, et même souvent inversement proportionnellement plus pénible, puisque 30 secondes de négligence d'un développeur peuvent coûter des journées entières de recherche de petite bête dans les rouages, on ne peut qu'être sensible à cette alléchante proposition. Et bien souvent elle sera honorée, si si, à condition tout au moins que l'on se tourne vers du code issu de projets sérieux et qui tiennent la route, car aujourd'hui le premier venu pouvant mettre à disposition de l'univers le moindre fichier qu'il vient d'écrire en 4 secondes sur un coin de table, la circonspection devra être de mise si l'on ne souhaite pas se faire refourguer de la vulgaire camelote encore plus buguée qu'un système d'exploitation grand public dont nous tairons pudiquement le nom.


Promesse 4 : plus rapide que l'éclair, et sans les brûlures


Ah c'est ici que le bât blesse, qu'il érafle, égratigne voire meurtit profondément notre petit programmeur confiant. Il est évident qu'avec tout le temps investi par d'autres sur ce code que j'essaie de reprendre, il va être d'une efficacité redoutable, bien plus rapide que ce que j'aurais pu écrire avec mes dix doigts tout seul dans ma cave.


Malheureusement, lorsqu'il (ou ils, parfois un petit code cache une armée de programmeurs tapis derrière les tapis...de souris) a écrit son code magique, notre ami anonyme n'avait aucune idée du contexte dans lequel vous alliez vouloir vous en servir. Autrement dit, à moins que vous ne repreniez un morceau de code qui fasse exactement, mot pour mot et à la virgule près ce que vous souhaitiez, eh bien il sera sous-optimal pour votre besoin. Très souvent, le problème vient justement du fait que le programme veut traiter tous les cas qu'il imagine que les gens vont rencontrer, donc il devient générique, complexe et bourré de traitements inutiles pour l'utilisation très limitée que vous vouliez en faire.


Supposons par exemple que vous aimeriez trouver une petite librairie qui permette d'appliquer une rotation sur une image au format JPEG (je ne vous demanderai pas pourquoi vous cherchez quelque chose d'aussi tordu, à chacun ses loisirs). Il est probable que vous allez trouver tout un tas de librairies de traitement d'image qui permettent de faire plein de belles choses, dont justement la rotation. Et probablement elles traiteront tous les formats d'images disponibles dans l'univers. C'est très bien, seulement la rotation que vous souhaitiez appliquer consiste peut-être en 5 lignes de code, quand vous allez reprendre des dizaines de milliers de lignes de code qui ne vous serviront à rien, et appliquer une méthode dont vous ne maîtrisez pas les performances et la consommation de ressources. Faut-il alors utiliser la Super Librairie ? Nous laissons cette discussion pour le dernier paragraphe passionnant de cet article. 


Gardons tout de même bien en tête que le seul code vraiment optimal ne peut être écrit que par quelqu'un qui connaît toutes les contraintes et le contexte d'exécution, autrement dit vous, cher programmeur-lecteur. Et il y a dans la jungle informatique des bêtes féroces qu'il faudra absolument éviter de croiser, car elles vont plomber votre empreinte écologique programmatique à jamais, j'ai nommé les Gros Frameworks Qui Font le Café (alors qu'en plus en général on voulait seulement un petit chocolat). Ces bases de code tentaculaires sont généralement des monstres écrits pour garantir que le programmeur qui chausse du 47 ne programme pas trop Avec Ses Pieds, et donc lui imposer plein de contraintes et d'outils tout faits, résultat c'est le framework lui-même qui se charge de mettre les performances par terre au lieu du développeur qu'on pressentait peu scrupuleux.


De deux choses l'une : soit vous vous dites que vous savez programmer, et vous n'avez pas besoin d'un framework De La Mort. Même si vous programmez en équipe, deux ou trois conventions décidées ensemble suffiront à garder la cohérence de votre projet, sachant une fois encore que le framework n'a aucune idée de ce que vous allez programmer et donc ne vous aidera pas franchement à structurer le code intelligemment. Soit vous pensez que vous programmez comme un manche, et ce n'est pas le plus beau framework de la terre qui va vous sauver ; dans ce cas restez loin du clavier et allez plutôt faire un peu de jardinage, vous ferez moins de mal à la planète.



Promesse 5 : il n'y a plus qu'à le regarder grandir


Voilà, vous avez repris le petit, ou gros, ou Super Gros, bout de code qui vous manquait, et maintenant vous êtes sûr qu'en plus vous êtes tranquille pour les 10 prochaines années, le projet va suivre les évolutions et vous bénéficierez des nouveautés neuves gratuitement et sans aucun effort. Hum. Ceci, encore une fois, est vrai dans le monde enchanteur de Oui-Oui, mais un peu moins dans la forêt vierge des projets informatiques modernes. Car en effet, il n'est pas rare de rencontrer l'un des trois événements qui déciment nos attentes en la matière :

- les gens désertent, le projet s'arrête, plus d'évolution de rien du tout, vous voilà marron si jamais les besoins continuent d'évoluer (comme une évolution du standard JPEG pour reprendre notre petit exemple, même si c'est tout de même assez peu probable).

- pire, les gens se disputent et le projet continue, mais un autre groupe décide de faire un nouveau développement (ce qu'on appelle un branchement, ou un fork, "Si t'es pas content tu forkes", comme on dit dans le milieu). Que faire ? Qui a raison ? Qui est vilain ? Un vrai casse-tête.

- le pire du pire, tout d'un coup le ou les programmeurs décident que rien ne va plus et changent tout le fonctionnement de leur code, aucune compatibilité gardée, bref votre intégration part illico à la poubelle, et il vous faut remettre le métier sur son ouvrage à un moment où vous auriez bien d'autres choses à faire. Ah mais vraiment je vous jure.


Il faut donc un minimum de circonspection quand on choisit d'intégrer du code de projets externes, même s'ils présentent toutes les garanties de sérieux et d'intégrité, comme en atteste la destinée chaotique de projets open-source phares comme OpenOffice, Mysql, ou Gnome. Et on pourrait multiplier les exemples à l'envi.



Coder ou ne pas coder, telle est la question


"Dilemme de la proie

Fuir

Ou se cacher ?"


Midoriro no Mausu (la Souris Verte)

Bien bien, rendus à ce point de notre discussion, il est temps de se demander sans détour : faut-il, oui ou zut, utiliser du code écrit par d'autres, intégrer des applications tierces, utiliser des librairies externes ? Alors ? Les souris ? Ah, je vois qu'on a une réponse à ma droite : oui et non. Euh, super, merci les souris vraiment. Qu'est-ce que je vais écrire aux lecteurs qui défaillent d'impatience, avec ça ? D'accord, on me précise la réponse, on peut réutiliser du code dans les cas suivants :

- le projet donne les garanties de sérieux et de stabilité qui ne nous demanderont pas d'y remettre un jeton toutes les 2 semaines

- le code n'est pas trop complexe à utiliser, et est suffisamment documenté pour notre usage

- notre besoin de performance n'est pas énorme, en particulier nous ne souhaitons pas faire 10 millions de rotations d'images JPEG par seconde avec la librairie Lambda que nous avons trouvée

- le code que nous avons trouvé constitue une fonctionnalité simple et bien délimitée, il ne cherchera pas à faire le café à notre place


Il faut surtout savoir doser son effort : inutile de mettre de l'enjeu à recoder tout un truc compliqué s'il existe déjà par ailleurs et que vous n'en faites qu'une utilisation très anecdotique. Il existe même quelques cas où, très honnêtement, il serait suicidaire de se lancer dans une réimplémentation personnelle de certains algorithmes, sauf si vous aimez vous lancer des défis : toutes les librairies cryptographiques, les prises en charge de protocoles tordus dont la définition fait 2500 pages, etc.


En revanche, il reste un cas où il faudra presque toujours y aller par vos propres petits moyens personnels et à la lampe torche, c'est si votre code est destiné à être utilisé de manière intensive et qu'il constitue le maillon faible des performances de toute votre application. Comme dit précédemment, si vous devez implémenter 10 millions de rotations d'images JPEG par seconde, il n'y a pas, il va falloir vous retrousser les manches, et faire votre code de manipulation d'images aux petits oignons pour que pas un octet ne dépasse du processeur. Mais, franchement, n'est-ce pas ce qui rend la programmation si passionnante ? Qui pourrait préférer passer ses journées à réutiliser des API GoogleBook toutes faites au lieu de répondre à cet appel du monde sauvage de la programmation débridée ?



Bien programmer sa conclusion


Vous l'avez compris, aux Souris Vertes nous sommes loin de trancher systématiquement en faveur du code tout-fait-tout-prêt à être enfourné au micro-ondes, ou du code super custom fait par nos petits doigts agiles. N'en déplaise aux tenants de la solution de facilité de ne pas se poser de questions, il faudra toujours se la poser, la question, éventuellement revenir sur ses propres choix, et user de tact et de raffinement pour construire le meilleur compromis possible sans sacrifier la banquise au passage. En particulier, essayer d'enrayer un peu le report systématique de certains framework ou librairies ultra-gourmands mais que tout le monde se refile comme si c'était l'évangile ferait du bien aux ours polaires.


A vous de jouer maintenant ! Cela dit, si vous restez sur votre faim de vrais conseils de programmation concrets qui vous parlent de votre quotidien au moins autant que l'édition régionale du journal télévisé, ne vous éloignez pas trop, car lui suite de notre dossier promet de décoller vers des sommets vertigineux en la matière. On se retrouve dès que vous aurez retrouvé votre plus belle combinaison spatiale, et qu'on aura de notre côté fini de tailler nos crayons de couleur. A suivre !

>Voir le billet et ses commentaires...
 


Infos blog

Des Souris Vertes

Derniers billets

Dossier   07/12/2017
La Programmation Responsable (5) : les structures de données tu maîtriseras
Dossier   28/11/2017
La Programmation Responsable (4) : de spammer ta base de données tu cesseras
Dossier   18/11/2017
La Programmation Responsable (3) : de déléguer la programmation tu éviteras
Dossier   04/11/2017
La Programmation Responsable (2) : de ricaner en cours d'algorithmique tu arrêteras
Le Petit Geste du Jour   24/10/2017
Le Petit Geste Du Jour : je nettoie ma boîte de messagerie
Dossier   16/10/2017
La Programmation Responsable (1) : Ce dossier tu liras
Réseau   05/10/2017
Mes données dans le cloud : écologique ou pas ?
Dossier   26/09/2017
Au secours, mon ordi est lent ! (8) : J'apprends à reconnaître et changer le matériel
Le Petit Geste du Jour   10/09/2017
Le Petit Geste De La Rentrée : j'arrête le streaming
Divers   25/05/2017
Les souris vertes s'invitent à la radio
Le Petit Geste du Jour   20/05/2017
Le Petit Geste Du Jour : je change les réglages de mon appareil photo
Dossier   11/05/2017
Au secours, mon ordi est lent ! (7) : Je réinstalle mon système tout seul comme un grand
Le Petit Geste du Jour   06/05/2017
Le Petit Geste Du Jour : j'écris un haïku pour me détendre
Divers   14/04/2017
Cultiver l'attente...
Club de lecture   25/03/2017
Les souris vertes ont lu pour vous : la convivialité d'Ivan Illich
Le Petit Geste du Jour   09/03/2017
Le Petit Geste Du Jour : j'enlève la signature automatique des messages
Polémiquons   27/02/2017
L'inquiétant mariage de la science et du numérique
Dossier   17/02/2017
Au secours, mon ordi est lent ! (6) : J'adapte mon système à mes besoins
Club de lecture   12/02/2017
Les souris vertes ont lu pour vous : une question de taille, d'Olivier Rey
Le saviez-vous ?   21/01/2017
Le saviez vous ? La voiture est un ordinateur sur roues
Dossier   10/01/2017
Au secours, mon ordi est lent ! (5) : J'apprends à ne pas perdre mes données
Dossier   30/12/2016
Au secours, mon ordi est lent ! (4) : Je nettoie Windows à grands jets
Polémiquons   23/12/2016
Le Petit Geste de l'Année : je ne commande rien d'électronique au père noël
Le Petit Geste du Jour   11/12/2016
Le Petit Geste Du Jour : j'utilise un bloqueur de publicités
Dossier   27/11/2016
Au secours, mon ordi est lent ! (3) : J'apprends à ne pas polluer mon ordinateur
Dossier   14/11/2016
Au secours, mon ordi est lent ! (2) : Je dégage l'antivirus à coup de pied
Dossier   05/11/2016
Au secours, mon ordi est lent ! (1) : les souris vertes à la rescousse
Le Petit Geste du Jour   23/10/2016
Le Petit Geste Du Jour : j'utilise le mode avion même à pied
Système   16/10/2016
L'ordinateur portable est-il plus écologique ?
Le Petit Geste du Jour   02/10/2016
Le Petit Geste Du Jour : je gère la durée de vie de ma batterie
Club de lecture   17/09/2016
Les souris vertes ont lu pour vous : l'âge des low tech, de Philippe Bihouix
Système   21/08/2016
J'apprends à gérer mes mots de passe
Le Petit Geste du Jour   08/08/2016
Le Petit Geste Du Jour : j'arrête d'inclure les messages quand je réponds
Polémiquons   30/07/2016
Ecole et numérique font-ils bon ménage ?
Le Petit Geste du Jour   19/07/2016
Le Petit Geste du Jour : j'arrête d'écrire mes mails en HTML
Chamois d"or   10/07/2016
Le saviez vous ? Il est possible d'être informaticien sous Windows sans se pendre
Messagerie   04/07/2016
L'incarnation du mal : la pièce jointe dans les mails
Le Petit Geste du Jour   26/06/2016
Le Petit Geste Du Jour : Je réduis la luminosité de mon écran
Divers   18/06/2016
Stop à l'imprimante jetable
Dossier   12/06/2016
Grandeurs du monde numérique (6) : Réseaux en folie
Le Petit Geste du Jour   05/06/2016
Le Petit Geste du Jour : j'éteins ma box quand je ne m'en sers pas
Le saviez-vous ?   31/05/2016
Le saviez-vous : Google n'est pas le seul moteur de recherche ?
Dossier   25/05/2016
Grandeurs du monde numérique (5) : Dans la jungle des écrans
Le Petit Geste du Jour   20/05/2016
Le Petit Geste du Jour : je mets mes sites favoris... en favoris
Le Petit Geste du Jour   15/05/2016
Le Petit Geste du Jour : je change la page de démarrage de mon navigateur
Dossier   14/05/2016
Grandeurs du monde numérique (4) : Les spectaculaires performances des jeux vidéos
Le saviez-vous ?   12/05/2016
Le saviez-vous : à quoi sert l'économiseur d'écran ?
Dossier   08/05/2016
Grandeurs du monde numérique (3) : Monsieur Herz mesure la solitude du processeur
Dossier   06/05/2016
Grandeurs du monde numérique (2) : Octets et compagnie, les rois du stockage
Dossier   05/05/2016
Grandeurs du monde numérique (1) : c'est gros, c'est petit ?
Divers   04/05/2016
Les souris partent à l'aventure


MP  Mighty Productions
> Blogs
> Des Souris Vertes
 
RSS       Mentions légales       Comms  Haut de la page