feat: articles sur comprendre les LLM

2024-12-02 21:21:47 -05:00
parent e5aa60e0ae
commit 078137026c
5 changed files with 272 additions and 0 deletions
--- a/_site/atom_fr.xml
+++ b/_site/atom_fr.xml
@ -106,6 +106,57 @@
 	<li><a href="https://www.privacyguides.org/">PrivacyGuides</a> Bien que le site existe en français, de nombreux articles ne sont pas encore traduits et peuvent être intéressants à lire.</li>
 </ul>

+	</content>
+</entry><entry xml:lang="fr">
+	<author><name>Oxbian</name><uri>https://blog.arka.rocks</uri></author>
+	<title type="html">Comprendre les LLM</title>
+	<link rel="alternate" type="text/html" href="https://blog.arka.rockspages/fr/comprendre-llm.html"/>
+	<id>https://blog.arka.rockspages/fr/comprendre-llm.html</id>
+	<published>2024-11-28T00:00:00Z</published>
+	<updated>2024-11-28T00:00:00Z</updated>
+	<content type="html">
+		&lt;h1&gt;Comprendre les LLM&lt;/h1&gt;
+		<p>Le nombre de modèles de <a href="https://en.wikipedia.org/wiki/Large_language_model">LLM</a> ne cesse de proliférer, mais que veulent dire tous ces mots obscurs ?</p>
+<blockquote>Qu'est ce que mistral 7B Q6 veux dire ?</blockquote>
+<p>Pour cela, explorons le vocabulaire technique du domaine des LLM puis regardons en techniques comment cela fonctionne.</p>
+<h2>Définitions</h2>
+<p><strong>Training</strong>:  processus d'apprentissage du LLM, des données "d'entrainement" lui sont fournies pour qu'il comprenne et génère du langage naturel. Il ajuste ses poids et ses paramètres pour minimiser une fonction de perte spécifique.</p>
+<p><strong>Fine-tuning</strong>: ajustement du LLM pré-entrainé sur des données spécifiques à une tâche ou à un domaine particulier. Permet d'adapter le modèle à un domaine particulier, tout en conservant les connaissances générales acquises lors du training.</p>
+<p><strong>Contexte</strong>: ensemble d'informations entourant un mot, une phrase ou un passage de texte, qui donne du sens à celui-ci. Les modèles de LLM utilisent le contexte pour comprendre et générer du langage de manière plus précise.</p>
+<p><strong>Tokens</strong>: unités de base utilisées par les modèles de LLM pour représenter les éléments de texte, tels que les mots, les sous-mots ou les caractères. Chaque token est associé à un vecteur de représentation dans l'espace latent du modèle. Ex : "token1", " ", "ok", "!"</p>
+<p><strong>Inférence</strong>: processus par lequel un modèle de LLM génère des prédictions ou du langage à partir de données en entrée, après avoir été entraîné. Le temps entre la requête de l'utilisateur et la sortie produite par le LLM. L'inférence est souvent utilisée dans des applications en temps réel telles que la traduction automatique ou la génération de texte. C'est en quelque sorte le temps de réflexion du modèle</p>
+<p><strong>Architecture</strong>: structure interne d'un modèle de LLM, comprenant les couches de neurones, les mécanismes d'attention et d'autres composants qui déterminent son fonctionnement et sa capacité à comprendre et à générer du langage naturel.</p>
+<p><strong>Quantification</strong>: la quantification est utilisée pour réduire la taille des modèles en convertissant les valeurs de paramètres de haute précision en valeurs de précision inférieure, ce qui permet d'économiser de l'espace de stockage et de mémoire et d'améliorer l'efficacité des calculs. C’est l’équivalent de la compression que l’on connaît pour les fichiers classiques.</p>
+<p><strong>Prunning</strong>: technique d'optimisation consistant à enlever les poids les moins importants des paramètres du modèle.</p>
+<p><strong>Température</strong>: un paramètre permettant d'influencer la distribution des probabilités de mots. À température basse, les probabilités seront plus élevées sur les tokens proches, tandis qu'à haute température, les probabilités sont dispersées plus uniformément.</p>
+<p><strong>Paramètres</strong>: les paramètres d'un modèle de traitement du langage naturel sont les composants clés qui déterminent sa capacité à comprendre et à générer du langage. Un modèle avec un grand nombre de paramètres peut offrir des performances plus élevées, mais nécessitera également des ressources plus importantes. Souvent indiqué par le nombre de B du modèle (ex : Mistral 7 B).</p>
+<p><strong>Mixtures of Experts (MoE)</strong>: Technique d'apprentissage automatique qui décompose une tâche en sous-tâches, entraîne un modèle expert sur chacune des sous-tâches, puis entraîne un modèle de triage qui apprend à quel expert faire confiance en fonction de l'entrée, et finalement combine les résultats des différents experts. Ces modèles demandent beaucoup de VRAM ou de RAM (selon si on utilise un GPU ou un CPU), mais ils disposent d'un temps d'inférence inférieur à des modèles possédant autant de paramètres. <a href="https://huggingface.co/blog/moe">Pour en apprendre plus</a></p>
+<h2>Comment sont mesurées ces valeurs ?</h2>
+<p><strong>Inférence</strong>: on évalue le temps nécessaire au modèle pour traiter une nouvelle entrée et produire une sortie.</p>
+<p><strong>Quantification</strong>: optimisation des performances et des coûts du modèle en réduisant la taille des paramètres. Chaque paramètre passera de 32 bits à 6 bits pour du Q8 par exemple. Ce processus améliore les performances, le matériel supporté, mais en échange, il perd en précision et est complexe à mettre en œuvre.</p>
+<h2>Point clé lors de la sélection du modèle</h2>
+<ul>
+	<li><strong>Cas d'utilisation prévu</strong>: pour faire des recherches, de la traduction ? du code ?</li>
+	<li><strong>Domaine de données</strong>: s'agit-il de données liées à un domaine spécifique ou à des connaissances générales. Un modèle pré-entrainé sur des données spécifiques pourrait être plus intéressant</li>
+	<li><strong>Exigences en précision</strong>: le modèle doit-il être précis ? Si oui, préférer les modèles plus grands, ils ont tendance à être plus précis</li>
+	<li><strong>Vitesse d'inférence</strong>: la latence basse est-elle critique, les modèles plus petits infèrent plus rapidement</li>
+	<li><strong>Besoin mise à l'échelle</strong>: nombre d'utilisateurs, de requêtes par seconde ? Pour des grands modèles, cela peut vite devenir coûteux.</li>
+	<li><strong>Cloud vs sur site</strong>: l'API cloud est plus simple, mais à moins de contrôle et de personnalisation que sur site. Et moins de gestion de données personnelles</li>
+	<li><strong>Contraintes budgétaires</strong>: équilibrer le coût par rapport aux fonctionnalités (nombre de requête par seconde, taille du modèle...)</li>
+	<li><strong>Considérations éthiques</strong>: évaluer les biais du modèle, la sécurité et les risques de mauvaise utilisation selon notre cas d'utilisation.</li>
+</ul>
+<h2>Benchmark des modèles</h2>
+<p>Pour évaluer les performances des modèles, il faut définir les besoins auxquels doit répondre le modèle, puis utiliser les tests spécialisés dans chaque besoin pour trouver le meilleur modèle.</p>
+<p>De nombreux tests existent avec chacun sa spécialisation sur les compétences du modèle. Les sites ci-dessous permettent de comparer les modèles selon ces tests.</p>
+<ul>
+	<li><a href="https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard">Hugging face leaderboard</a></li>
+	<li><a href="https://llm-stats.com/">LLM stats</a></li>
+</ul>
+<h2>Sources:</h2>
+<p><a href="https://blog.synrune.io/comment-bien-choisir-son-modele-dia-generative-le-guide-complet/">Bon tuto expliquant comment choisir son LLM</a></p>
+<p><a href="https://www.hub-franceia.fr/wp-content/uploads/2024/06/Hub-France-IA-Choisir-un-modele-IA-Generative.pdf">Étude de marché auprès d'entreprises pour l'intégration de LLM</a></p>
+<p><a href="https://www.deeplearningbook.org/">Apprendre le deeplearning de A à Z</a></p>
+
 	</content>
 </entry>
 </feed>
--- a/_site/index_fr.html
+++ b/_site/index_fr.html
@ -44,12 +44,14 @@

            <ul>
 				<li><a href="pages/fr/data-privacy.html">Données et vie privée</a><p>22-10-2023</p></li>
+				<li><a href="pages/fr/comprendre-llm.html">Comprendre les LLM</a><p>28-11-2024</p></li>
 			</ul>
 			<h2>Tags:</h2>
 			<div class="tags">
 				<ul>
 					<li><a href="pages/fr/tags/vie_privée.html">vie privée</a></li>
 					<li><a href="pages/fr/tags/bonne_pratique.html">bonne pratique</a></li>
+					<li><a href="pages/fr/tags/intelligence-artificielle.html">intelligence-artificielle</a></li>
 				</ul>
 			</div>
        </article>
--- a/_site/pages/fr/comprendre-llm.html
+++ b/_site/pages/fr/comprendre-llm.html
@ -0,0 +1,97 @@
+<!DOCTYPE html>
+<html lang="fr">
+<head>
+    <!-- Metadonnées -->
+    <meta charset="UTF-8">
+    <meta name="viewport" content="width=device-width, initial-scale=1.0">
+    <meta name="description" content="Explication des termes techniques autour des LLM">
+    <meta property="og:title" content="Comprendre les LLM">
+    <meta property="og:type" content="article" >
+    <meta property="og:article:author" content="Oxbian">
+    <meta property="og:article:published_time" content="28-11-2024">
+
+    <!-- CSS & Atom -->
+    <link rel="alternate" href="../../atom_fr.xml" type="application/atom+xml" title="RSS">
+	<link rel="stylesheet" href="https://arka.rocks/assets/style/colorscheme.css">
+    <link rel="stylesheet" href="../../assets/css/style.css">
+    <link rel="shortcut icon" href="../../assets/favicon/favicon.ico" type="image/x-icon">
+
+    <title>Comprendre les LLM</title>
+</head>
+<body>
+    <!-- En tête -->
+    <header>
+        <nav>
+            <ul>
+                <li><a href="../../index_fr.html">Accueil</a></li>
+                <li><a href="../../pages/fr/how-to-read.html">Comment lire ce blog ?</a></li>
+                <li><a href="../../pages/fr/about.html">À Propos</a></li>
+                <li><a href="../../atom_fr.xml">RSS</a></li>
+            </ul>
+        </nav>
+    </header>
+
+    <!-- Contenu principale -->
+    <main>
+        <article>
+            <h1>Comprendre les LLM</h1>
+            <p>Le nombre de modèles de <a href="https://en.wikipedia.org/wiki/Large_language_model">LLM</a> ne cesse de proliférer, mais que veulent dire tous ces mots obscurs ?</p>
+<blockquote>Qu'est ce que mistral 7B Q6 veux dire ?</blockquote>
+<p>Pour cela, explorons le vocabulaire technique du domaine des LLM puis regardons en techniques comment cela fonctionne.</p>
+<h2>Définitions</h2>
+<p><strong>Training</strong>:  processus d'apprentissage du LLM, des données "d'entrainement" lui sont fournies pour qu'il comprenne et génère du langage naturel. Il ajuste ses poids et ses paramètres pour minimiser une fonction de perte spécifique.</p>
+<p><strong>Fine-tuning</strong>: ajustement du LLM pré-entrainé sur des données spécifiques à une tâche ou à un domaine particulier. Permet d'adapter le modèle à un domaine particulier, tout en conservant les connaissances générales acquises lors du training.</p>
+<p><strong>Contexte</strong>: ensemble d'informations entourant un mot, une phrase ou un passage de texte, qui donne du sens à celui-ci. Les modèles de LLM utilisent le contexte pour comprendre et générer du langage de manière plus précise.</p>
+<p><strong>Tokens</strong>: unités de base utilisées par les modèles de LLM pour représenter les éléments de texte, tels que les mots, les sous-mots ou les caractères. Chaque token est associé à un vecteur de représentation dans l'espace latent du modèle. Ex : "token1", " ", "ok", "!"</p>
+<p><strong>Inférence</strong>: processus par lequel un modèle de LLM génère des prédictions ou du langage à partir de données en entrée, après avoir été entraîné. Le temps entre la requête de l'utilisateur et la sortie produite par le LLM. L'inférence est souvent utilisée dans des applications en temps réel telles que la traduction automatique ou la génération de texte. C'est en quelque sorte le temps de réflexion du modèle</p>
+<p><strong>Architecture</strong>: structure interne d'un modèle de LLM, comprenant les couches de neurones, les mécanismes d'attention et d'autres composants qui déterminent son fonctionnement et sa capacité à comprendre et à générer du langage naturel.</p>
+<p><strong>Quantification</strong>: la quantification est utilisée pour réduire la taille des modèles en convertissant les valeurs de paramètres de haute précision en valeurs de précision inférieure, ce qui permet d'économiser de l'espace de stockage et de mémoire et d'améliorer l'efficacité des calculs. C’est l’équivalent de la compression que l’on connaît pour les fichiers classiques.</p>
+<p><strong>Prunning</strong>: technique d'optimisation consistant à enlever les poids les moins importants des paramètres du modèle.</p>
+<p><strong>Température</strong>: un paramètre permettant d'influencer la distribution des probabilités de mots. À température basse, les probabilités seront plus élevées sur les tokens proches, tandis qu'à haute température, les probabilités sont dispersées plus uniformément.</p>
+<p><strong>Paramètres</strong>: les paramètres d'un modèle de traitement du langage naturel sont les composants clés qui déterminent sa capacité à comprendre et à générer du langage. Un modèle avec un grand nombre de paramètres peut offrir des performances plus élevées, mais nécessitera également des ressources plus importantes. Souvent indiqué par le nombre de B du modèle (ex : Mistral 7 B).</p>
+<p><strong>Mixtures of Experts (MoE)</strong>: Technique d'apprentissage automatique qui décompose une tâche en sous-tâches, entraîne un modèle expert sur chacune des sous-tâches, puis entraîne un modèle de triage qui apprend à quel expert faire confiance en fonction de l'entrée, et finalement combine les résultats des différents experts. Ces modèles demandent beaucoup de VRAM ou de RAM (selon si on utilise un GPU ou un CPU), mais ils disposent d'un temps d'inférence inférieur à des modèles possédant autant de paramètres. <a href="https://huggingface.co/blog/moe">Pour en apprendre plus</a></p>
+<h2>Comment sont mesurées ces valeurs ?</h2>
+<p><strong>Inférence</strong>: on évalue le temps nécessaire au modèle pour traiter une nouvelle entrée et produire une sortie.</p>
+<p><strong>Quantification</strong>: optimisation des performances et des coûts du modèle en réduisant la taille des paramètres. Chaque paramètre passera de 32 bits à 6 bits pour du Q8 par exemple. Ce processus améliore les performances, le matériel supporté, mais en échange, il perd en précision et est complexe à mettre en œuvre.</p>
+<h2>Point clé lors de la sélection du modèle</h2>
+<ul>
+	<li><strong>Cas d'utilisation prévu</strong>: pour faire des recherches, de la traduction ? du code ?</li>
+	<li><strong>Domaine de données</strong>: s'agit-il de données liées à un domaine spécifique ou à des connaissances générales. Un modèle pré-entrainé sur des données spécifiques pourrait être plus intéressant</li>
+	<li><strong>Exigences en précision</strong>: le modèle doit-il être précis ? Si oui, préférer les modèles plus grands, ils ont tendance à être plus précis</li>
+	<li><strong>Vitesse d'inférence</strong>: la latence basse est-elle critique, les modèles plus petits infèrent plus rapidement</li>
+	<li><strong>Besoin mise à l'échelle</strong>: nombre d'utilisateurs, de requêtes par seconde ? Pour des grands modèles, cela peut vite devenir coûteux.</li>
+	<li><strong>Cloud vs sur site</strong>: l'API cloud est plus simple, mais à moins de contrôle et de personnalisation que sur site. Et moins de gestion de données personnelles</li>
+	<li><strong>Contraintes budgétaires</strong>: équilibrer le coût par rapport aux fonctionnalités (nombre de requête par seconde, taille du modèle...)</li>
+	<li><strong>Considérations éthiques</strong>: évaluer les biais du modèle, la sécurité et les risques de mauvaise utilisation selon notre cas d'utilisation.</li>
+</ul>
+<h2>Benchmark des modèles</h2>
+<p>Pour évaluer les performances des modèles, il faut définir les besoins auxquels doit répondre le modèle, puis utiliser les tests spécialisés dans chaque besoin pour trouver le meilleur modèle.</p>
+<p>De nombreux tests existent avec chacun sa spécialisation sur les compétences du modèle. Les sites ci-dessous permettent de comparer les modèles selon ces tests.</p>
+<ul>
+	<li><a href="https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard">Hugging face leaderboard</a></li>
+	<li><a href="https://llm-stats.com/">LLM stats</a></li>
+</ul>
+<h2>Sources:</h2>
+<p><a href="https://blog.synrune.io/comment-bien-choisir-son-modele-dia-generative-le-guide-complet/">Bon tuto expliquant comment choisir son LLM</a></p>
+<p><a href="https://www.hub-franceia.fr/wp-content/uploads/2024/06/Hub-France-IA-Choisir-un-modele-IA-Generative.pdf">Étude de marché auprès d'entreprises pour l'intégration de LLM</a></p>
+<p><a href="https://www.deeplearningbook.org/">Apprendre le deeplearning de A à Z</a></p>
+
+        </article>
+    </main>
+
+    <!-- Bas de page -->
+    <hr>
+    <footer>
+        <p>Contactez-moi pour toute question ou discussion, je réponds assez vite en général.</p>
+
+        <!-- Réseaux sociaux-->
+        <div id="social">
+            <ul>
+                <li><a rel="me" class="mastodon" href="https://social.linux.pizza/@Oxbian">Mastodon</a></li>
+                <li><a class="mail" href="mailto:oxbian@mailbox.org">Mail</a></li>
+				<li><a class="gpg" href="https://arka.rocks/B3777BB478C7862BE696576B0E8F319FD43747E5.asc">GPG</a></li>
+            </ul>
+        </div>
+    </footer>
+</body>
+</html>
--- a/_site/pages/fr/tags/intelligence-artificielle.html
+++ b/_site/pages/fr/tags/intelligence-artificielle.html
@ -0,0 +1,55 @@
+<!DOCTYPE html>
+<html lang="fr">
+<head>
+    <!-- Metadonnées -->
+    <meta charset="UTF-8">
+    <meta name="viewport" content="width=device-width, initial-scale=1.0">
+
+    <!-- CSS & Atom -->
+    <link rel="alternate" href="../../../atom_fr.xml" type="application/atom+xml" title="RSS">
+	<link rel="stylesheet" href="https://arka.rocks/assets/style/colorscheme.css">
+    <link rel="stylesheet" href="../../../assets/css/style.css">
+    <link rel="shortcut icon" href="../../../assets/favicon/favicon.ico" type="image/x-icon">
+
+    <title>Tag: intelligence-artificielle</title>
+</head>
+<body>
+    <!-- En tête -->
+    <header>
+        <nav>
+            <ul>
+                <li><a href="../../../index_fr.html">Accueil</a></li>
+                <li><a href="../../../pages/fr/how-to-read.html">Comment lire ce blog ?</a></li>
+                <li><a href="../../../pages/fr/about.html">À Propos</a></li>
+                <li><a href="../../../atom_fr.xml">RSS</a></li>
+            </ul>
+        </nav>
+    </header>
+
+    <!-- Contenu principale -->
+    <main>
+        <article>
+            <h1>intelligence-artificielle</h1>
+            <ul>
+				<li><a href="../../../pages/fr/comprendre-llm.html">Comprendre les LLM</a></li>
+			</ul>
+
+        </article>
+    </main>
+
+    <!-- Bas de page -->
+    <hr>
+    <footer>
+        <p>Contactez-moi pour toute question ou discussion, je réponds assez vite en général.</p>
+
+        <!-- Réseaux sociaux-->
+        <div id="social">
+            <ul>
+                <li><a rel="me" class="mastodon" href="https://social.linux.pizza/@Oxbian">Mastodon</a></li>
+                <li><a class="mail" href="mailto:oxbian@mailbox.org">Mail</a></li>
+				<li><a class="gpg" href="https://arka.rocks/B3777BB478C7862BE696576B0E8F319FD43747E5.asc">GPG</a></li>
+            </ul>
+        </div>
+    </footer>
+</body>
+</html>
--- a/articles/fr/comprendre-llm.md
+++ b/articles/fr/comprendre-llm.md
@ -0,0 +1,67 @@
+---
+date: 28-11-2024
+description: Explication des termes techniques autour des LLM
+tags: intelligence-artificielle
+---
+
+# Comprendre les LLM
+
+Le nombre de modèles de [LLM](https://en.wikipedia.org/wiki/Large_language_model) ne cesse de proliférer, mais que veulent dire tous ces mots obscurs ?
+
+> Qu'est ce que mistral 7B Q6 veux dire ?
+
+Pour cela, explorons le vocabulaire technique du domaine des LLM puis regardons en techniques comment cela fonctionne.
+## Définitions
+
+**Training**:  processus d'apprentissage du LLM, des données "d'entrainement" lui sont fournies pour qu'il comprenne et génère du langage naturel. Il ajuste ses poids et ses paramètres pour minimiser une fonction de perte spécifique.
+
+**Fine-tuning**: ajustement du LLM pré-entrainé sur des données spécifiques à une tâche ou à un domaine particulier. Permet d'adapter le modèle à un domaine particulier, tout en conservant les connaissances générales acquises lors du training.
+
+**Contexte**: ensemble d'informations entourant un mot, une phrase ou un passage de texte, qui donne du sens à celui-ci. Les modèles de LLM utilisent le contexte pour comprendre et générer du langage de manière plus précise.
+
+**Tokens**: unités de base utilisées par les modèles de LLM pour représenter les éléments de texte, tels que les mots, les sous-mots ou les caractères. Chaque token est associé à un vecteur de représentation dans l'espace latent du modèle. Ex : "token1", " ", "ok", "!"
+
+**Inférence**: processus par lequel un modèle de LLM génère des prédictions ou du langage à partir de données en entrée, après avoir été entraîné. Le temps entre la requête de l'utilisateur et la sortie produite par le LLM. L'inférence est souvent utilisée dans des applications en temps réel telles que la traduction automatique ou la génération de texte. C'est en quelque sorte le temps de réflexion du modèle
+
+**Architecture**: structure interne d'un modèle de LLM, comprenant les couches de neurones, les mécanismes d'attention et d'autres composants qui déterminent son fonctionnement et sa capacité à comprendre et à générer du langage naturel.
+
+**Quantification**: la quantification est utilisée pour réduire la taille des modèles en convertissant les valeurs de paramètres de haute précision en valeurs de précision inférieure, ce qui permet d'économiser de l'espace de stockage et de mémoire et d'améliorer l'efficacité des calculs. C’est l’équivalent de la compression que l’on connaît pour les fichiers classiques.
+
+**Prunning**: technique d'optimisation consistant à enlever les poids les moins importants des paramètres du modèle.
+
+**Température**: un paramètre permettant d'influencer la distribution des probabilités de mots. À température basse, les probabilités seront plus élevées sur les tokens proches, tandis qu'à haute température, les probabilités sont dispersées plus uniformément.
+
+**Paramètres**: les paramètres d'un modèle de traitement du langage naturel sont les composants clés qui déterminent sa capacité à comprendre et à générer du langage. Un modèle avec un grand nombre de paramètres peut offrir des performances plus élevées, mais nécessitera également des ressources plus importantes. Souvent indiqué par le nombre de B du modèle (ex : Mistral 7 B).
+
+**Mixtures of Experts (MoE)**: Technique d'apprentissage automatique qui décompose une tâche en sous-tâches, entraîne un modèle expert sur chacune des sous-tâches, puis entraîne un modèle de triage qui apprend à quel expert faire confiance en fonction de l'entrée, et finalement combine les résultats des différents experts. Ces modèles demandent beaucoup de VRAM ou de RAM (selon si on utilise un GPU ou un CPU), mais ils disposent d'un temps d'inférence inférieur à des modèles possédant autant de paramètres. [Pour en apprendre plus](https://huggingface.co/blog/moe)
+
+## Comment sont mesurées ces valeurs ?
+
+**Inférence**: on évalue le temps nécessaire au modèle pour traiter une nouvelle entrée et produire une sortie.
+
+**Quantification**: optimisation des performances et des coûts du modèle en réduisant la taille des paramètres. Chaque paramètre passera de 32 bits à 6 bits pour du Q8 par exemple. Ce processus améliore les performances, le matériel supporté, mais en échange, il perd en précision et est complexe à mettre en œuvre.
+
+## Point clé lors de la sélection du modèle
+
+- **Cas d'utilisation prévu**: pour faire des recherches, de la traduction ? du code ?
+- **Domaine de données**: s'agit-il de données liées à un domaine spécifique ou à des connaissances générales. Un modèle pré-entrainé sur des données spécifiques pourrait être plus intéressant
+- **Exigences en précision**: le modèle doit-il être précis ? Si oui, préférer les modèles plus grands, ils ont tendance à être plus précis
+- **Vitesse d'inférence**: la latence basse est-elle critique, les modèles plus petits infèrent plus rapidement
+- **Besoin mise à l'échelle**: nombre d'utilisateurs, de requêtes par seconde ? Pour des grands modèles, cela peut vite devenir coûteux.
+- **Cloud vs sur site**: l'API cloud est plus simple, mais à moins de contrôle et de personnalisation que sur site. Et moins de gestion de données personnelles
+- **Contraintes budgétaires**: équilibrer le coût par rapport aux fonctionnalités (nombre de requête par seconde, taille du modèle...)
+- **Considérations éthiques**: évaluer les biais du modèle, la sécurité et les risques de mauvaise utilisation selon notre cas d'utilisation.
+
+## Benchmark des modèles
+
+Pour évaluer les performances des modèles, il faut définir les besoins auxquels doit répondre le modèle, puis utiliser les tests spécialisés dans chaque besoin pour trouver le meilleur modèle.
+
+De nombreux tests existent avec chacun sa spécialisation sur les compétences du modèle. Les sites ci-dessous permettent de comparer les modèles selon ces tests.
+- [Hugging face leaderboard](https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard)
+- [LLM stats](https://llm-stats.com/)
+
+## Sources:
+
+[Bon tuto expliquant comment choisir son LLM](https://blog.synrune.io/comment-bien-choisir-son-modele-dia-generative-le-guide-complet/)
+[Étude de marché auprès d'entreprises pour l'intégration de LLM](https://www.hub-franceia.fr/wp-content/uploads/2024/06/Hub-France-IA-Choisir-un-modele-IA-Generative.pdf)
+[Apprendre le deeplearning de A à Z](https://www.deeplearningbook.org/)