Tutoriel Google Colab : de zéro à ton premier notebook IA en 15 minutes
Si tu veux coder un projet IA sans rien installer localement, Google Colab est parfait.
Objectif de ce tuto :
- créer un notebook ;
- activer le GPU ;
- installer des dépendances ;
- charger un dataset ;
- lancer un mini entraînement ;
- sauvegarder le travail.
1) Créer ton notebook Colab
- Va sur https://colab.research.google.com
- Connecte-toi avec ton compte Google
- Clique sur Nouveau notebook
Tu arrives sur une interface avec des cellules de code Python.
2) Vérifier la version Python
Dans la première cellule, colle :
import sysprint(sys.version)Clique sur ▶️ pour exécuter.
3) Activer un GPU
- Menu Exécution → Modifier le type d’exécution
- Dans Accélérateur matériel, choisis GPU
- Sauvegarde
Teste ensuite :
import torchprint("CUDA dispo:", torch.cuda.is_available())if torch.cuda.is_available(): print("GPU:", torch.cuda.get_device_name(0))Si True, c’est bon.
4) Installer tes dépendances
Dans Colab, préfixe avec ! pour lancer une commande shell :
!pip install -q transformers datasets scikit-learn matplotlibAjoute ==version si tu veux figer des versions exactes.
5) Connecter Google Drive (recommandé)
Pour éviter de perdre tes fichiers :
from google.colab import drivedrive.mount('/content/drive')Tu pourras sauvegarder dans :
/content/drive/MyDrive/...
6) Charger un petit dataset
Exemple avec datasets :
from datasets import load_dataset
ds = load_dataset("imdb")print(ds)print(ds["train"][0])7) Mini entraînement (baseline simple)
Exemple ultra rapide avec scikit-learn (CPU/GPU peu importe) :
from sklearn.feature_extraction.text import TfidfVectorizerfrom sklearn.linear_model import LogisticRegressionfrom sklearn.metrics import accuracy_score
# Petit subset pour aller vitetrain_texts = ds["train"]["text"][:3000]train_labels = ds["train"]["label"][:3000]test_texts = ds["test"]["text"][:1000]test_labels = ds["test"]["label"][:1000]
vec = TfidfVectorizer(max_features=20000)X_train = vec.fit_transform(train_texts)X_test = vec.transform(test_texts)
clf = LogisticRegression(max_iter=300)clf.fit(X_train, train_labels)
preds = clf.predict(X_test)print("Accuracy:", accuracy_score(test_labels, preds))Tu obtiens un premier pipeline NLP fonctionnel en quelques minutes.
8) Sauvegarder un artefact modèle
import joblib
output_path = "/content/drive/MyDrive/colab/models/imdb_baseline.joblib"joblib.dump((vec, clf), output_path)print("Sauvegardé:", output_path)9) Exporter vers GitHub
Dans Colab :
- Fichier → Enregistrer une copie dans GitHub
Astuce : garde un repo avec :
notebooks/pour les.ipynbsrc/pour le code Python proprerequirements.txtpour les dépendances
10) Problèmes fréquents (et solutions)
“Mon runtime redémarre tout seul”
- Réduis l’usage RAM
- Évite de charger tout le dataset en mémoire
- Sauvegarde souvent vers Drive
“Je n’ai pas de GPU”
- Réessaie plus tard
- Vérifie le type d’exécution
- Si besoin intensif, passe à Colab payant
“J’ai perdu mes fichiers”
- Tout ce qui est dans
/contentest temporaire - Stocke les outputs dans Drive
Checklist rapide avant de fermer Colab
- Notebook renommé proprement
- Dépendances notées
- Résultats sauvegardés dans Drive
- Copie poussée sur GitHub
Et après ?
Prochaine étape logique :
- passer de notebook à script Python réutilisable ;
- automatiser les runs ;
- déployer sur une infra plus stable si ton projet grossit.
Pour démarrer vite et proprement, Colab fait le job. Pour la prod, pense migration.