Tutoriel Google Colab : de zéro à ton premier notebook IA en 15 minutes

Si tu veux coder un projet IA sans rien installer localement, Google Colab est parfait.

Objectif de ce tuto :

créer un notebook ;
activer le GPU ;
installer des dépendances ;
charger un dataset ;
lancer un mini entraînement ;
sauvegarder le travail.

1) Créer ton notebook Colab

Va sur https://colab.research.google.com
Connecte-toi avec ton compte Google
Clique sur Nouveau notebook

Tu arrives sur une interface avec des cellules de code Python.

2) Vérifier la version Python

Dans la première cellule, colle :

1
import sys
2
print(sys.version)

Clique sur ▶️ pour exécuter.

3) Activer un GPU

Menu Exécution → Modifier le type d’exécution
Dans Accélérateur matériel, choisis GPU
Sauvegarde

Teste ensuite :

1
import torch
2
print("CUDA dispo:", torch.cuda.is_available())
3
if torch.cuda.is_available():
4
    print("GPU:", torch.cuda.get_device_name(0))

Si True, c’est bon.

4) Installer tes dépendances

Dans Colab, préfixe avec ! pour lancer une commande shell :

1
!pip install -q transformers datasets scikit-learn matplotlib

Ajoute ==version si tu veux figer des versions exactes.

5) Connecter Google Drive (recommandé)

Pour éviter de perdre tes fichiers :

1
from google.colab import drive
2
drive.mount('/content/drive')

Tu pourras sauvegarder dans : /content/drive/MyDrive/...

6) Charger un petit dataset

Exemple avec datasets :

1
from datasets import load_dataset
2

3
ds = load_dataset("imdb")
4
print(ds)
5
print(ds["train"][0])

7) Mini entraînement (baseline simple)

Exemple ultra rapide avec scikit-learn (CPU/GPU peu importe) :

1
from sklearn.feature_extraction.text import TfidfVectorizer
2
from sklearn.linear_model import LogisticRegression
3
from sklearn.metrics import accuracy_score
4

5
# Petit subset pour aller vite
6
train_texts = ds["train"]["text"][:3000]
7
train_labels = ds["train"]["label"][:3000]
8
test_texts = ds["test"]["text"][:1000]
9
test_labels = ds["test"]["label"][:1000]
10

11
vec = TfidfVectorizer(max_features=20000)
12
X_train = vec.fit_transform(train_texts)
13
X_test = vec.transform(test_texts)
14

15
clf = LogisticRegression(max_iter=300)
16
clf.fit(X_train, train_labels)
17

18
preds = clf.predict(X_test)
19
print("Accuracy:", accuracy_score(test_labels, preds))

Tu obtiens un premier pipeline NLP fonctionnel en quelques minutes.

8) Sauvegarder un artefact modèle

1
import joblib
2

3
output_path = "/content/drive/MyDrive/colab/models/imdb_baseline.joblib"
4
joblib.dump((vec, clf), output_path)
5
print("Sauvegardé:", output_path)

9) Exporter vers GitHub

Dans Colab :

Fichier → Enregistrer une copie dans GitHub

Astuce : garde un repo avec :

notebooks/ pour les .ipynb
src/ pour le code Python propre
requirements.txt pour les dépendances

10) Problèmes fréquents (et solutions)

“Mon runtime redémarre tout seul”

Réduis l’usage RAM
Évite de charger tout le dataset en mémoire
Sauvegarde souvent vers Drive

“Je n’ai pas de GPU”

Réessaie plus tard
Vérifie le type d’exécution
Si besoin intensif, passe à Colab payant

“J’ai perdu mes fichiers”

Tout ce qui est dans /content est temporaire
Stocke les outputs dans Drive

Checklist rapide avant de fermer Colab

Notebook renommé proprement
Dépendances notées
Résultats sauvegardés dans Drive
Copie poussée sur GitHub

Et après ?

Prochaine étape logique :

passer de notebook à script Python réutilisable ;
automatiser les runs ;
déployer sur une infra plus stable si ton projet grossit.

Pour démarrer vite et proprement, Colab fait le job. Pour la prod, pense migration.