Classement des valeurs numériques et discrétisation

La discrétisation des données

On appelle discrétisation le découpage en classes (ou groupe de valeurs) d'une série de variables quantitatives ou qualitatives en vue de sa représentation graphique ou cartographique.

La discrétisation consiste à la fois au découpage de données en classes homogènes et en la justification mathématique de cette classification et du nombre de classes retenu.

Le mode gradué de QGIS correspond à une représentation adaptée aux données quantitatives données relatives (densités, pourcentages, autres ratios...).

Les modes de discrétisation QGIS :

  • Intervalles égaux : L'amplitude entre la valeur min et la valeur max est divisée par le nombre de classes

  • Quantiles (effectifs égaux) : Chaque classe représente le même nombre de données soit 1/n de l'effectif des données (n= nombre de classes).

  • Rupture naturelles (Jenks) : Minimisation des variances intra-classe et maximisation des variances inter-classe. Pour chaque classe les valeurs sont les plus proches possibles (à tendance homogène) et les classes sont les plus éloignées possibles (à tendance hétérogène).

  • Écart-type : Chaque classe est déterminée selon une fraction ou un multiple de l'écart-type par rapport à la moyenne. L'écart-type mesure la dispersion d'une série de valeurs autour de leur moyenne (ici toutes les valeurs)

  • Jolies ruptures : Basé sur la fonction "Pretty" de R, qui permet d'obtenir des intervalles de classe équidistants, arrondis (jolies valeurs) et couvrant l'ensemble des valeurs

Mode de discrétisation

On peut modifier chaque critère individuellement (attribut ou expression, symbole, couleur, classes et mode), la modification est prise en compte automatiquement.

ConseilLes modes de discrétisation

La discrétisation nécessite de faire plusieurs choix :

  • le choix du nombre de classes est lié au possibilités de la représentation cartographique, au-delà de 4 à 5 classes la lecture est délicate. Dans tous les cas, le nombre de classes ne peut dépasser la partie entière de 1 + 3,33*log(n)

    Dans l'exemple précédent de la couche commune de la BDTOPO, il y a 10 communes (n=10), donc 4 classes au maximum sont permises.

  • le choix du mode de discrétisation doit révéler les données significatives de l'étude

Il existe des tendances pour ces choix qui sont basées sur l'observation de la distribution de la série (ensemble des données de la colonne objet de l'analyse graduée).

Quelques règles liées à l'observation de la distribution :

  • les classes doivent couvrir l'ensemble des données

  • les classes vides sont interdites

  • un individu ou une valeur doit être dans une et une seule classe

  • les limites de classes sont contiguës

  • la précision des limites de classes doivent être cohérentes avec la précision des données

  • déterminer la forme principale de la distribution

La forme de la distribution oriente le choix du mode de discrétisation.

Formes de distribution

Mode de discrétisation QGIS :

  • le mode intervalles égaux (appelé aussi amplitude) est adaptée lorsque les valeurs des données sont réparties uniformément sur toute l'amplitude de la série. Ce mode est inadapté si les valeurs extrêmes s'écartent de la série. (à utiliser avec une distribution uniforme ou symétrique)

  • le mode quantile (appelé aussi nombre égal ou effectifs égaux) s'applique à toutes les formes de distribution de données, il implique une répartition équilibrée des données. (à utiliser avec une distribution uniforme ou multimodale)

  • le mode écart-type convient bien à une distribution symétrique, courbe de Gauss en forme de cloche. (à utiliser avec une distribution symétrique ou très peu dissymétrique)

  • le mode ruptures naturelles (Jenks) proche des seuils observés, donne généralement de bons résultats pour toutes les distributions, cependant la méthode de Jenks n'est pas conseillée lorsque la distribution est trop hétérogène. (à utiliser avec une distribution multimodale)

  • le mode jolies ruptures se rapproche du mode intervalles égaux avec des classes adaptées aux extrémités de la distribution. (à utiliser avec une distribution uniforme ou symétrique)

  • l'échelle logarithmique : convient aux données présentant un large éventail de valeurs. Des classes étroites pour les valeurs faibles et des classes larges pour les valeurs élevées

Pour la distribution asymétrique positive (dissymétrique à gauche), la méthode de la progression géométrique est préconisée de manière générale. Cependant cette méthode n'est pas disponible dans QGIS. Aussi pour les distributions asymétriques on peut utiliser les modes associés à la distribution multimodale (mode quantile ou mode ruptures naturelles (Jenks)), l'échelle logarithmique ou utiliser la colonne expression pour transformer l'échelle de la valeur à discrétiser.

Exemples de transformation d'échelle :

  • transformation avec la fonction logarithme pour une distribution asymétrique positive ou transformation avec la fonction racine carrée pour une distribution asymétrique positive moins prononcée

  • transformation avec la fonction carrée pour une distribution asymétrique négative ou transformation avec la fonction cubique pour une distribution asymétrique négative prononcée

Pour observer la distribution de la série :

On peut utiliser l'onglet Histogramme qui permet d'afficher un histogramme interactif des valeurs du champ ou de l'expression utilisé pour le rendu. Les classes peuvent être définie ou ajoutée depuis l'histogramme.

Dans l'exemple ci-dessus, les classes actuelles apparaissent avec leur couleur et leur borne supérieure. On voit que la première barre qui contient 5 valeurs a été découpé en deux classes

(min à 606 et 606 à 977... les barres noires verticales sont déplaçables. Il est possible de créer une nouvelle classe en double-cliquant dans l'histogramme.

ComplémentDiscrétisation "Ecart-type" et "Jolies ruptures", nombre de classes prédéterminé

Qgis fixe le nombre de classes en fonction de l'algorithme choisi, il est un peu différent entre le mode Ecart-type et le mode Jolies ruptures.

Ecart-type :

  • La division des classes est créée en utilisant la moyenne et l'écart type à la moyenne. Les classes sont centrées sur la moyenne, l'intervalle est de taille égale à (n) fois l'écart type. (n) étant une valeur entière ou une valeur décimale arrondie ex : 3, 2 , 1 , 0.5 , 0.2 , 0.1

  • Par exemple avec le champ "popul" de la couche commune de la BDTOPO, la moyenne est 2311,20 et l'écart type calculé à partir de l'ensemble des valeurs est 4357,66.

    • pour le choix 1 classe, Qgis affiche 2 classes. Obligatoire car les classes sont centrées sur la moyenne.

    • pour le choix 2 classes, Qgis affiche 3 classes calculées avec un intervalle de 2 fois l'écart type.

    • pour le choix 3 classes, Qgis affiche 4 classes calculées avec un intervalle de 1 fois l'écart type.

    • .............

    • pour le choix 5 classes, Qgis affiche 7 classes calculées avec un intervalle de 0.5 fois l'écart type.

    • .............

    • pour le choix 13 classes, Qgis affiche 18 classes issues du calcul avec un intervalle de 0.2 fois l'écart type.

    • Etc... la rupture s'effectue lorsque l'amplitude entre la valeur min et la valeur max divisée par le choix des classes donne un résultat proche de (n) fois l'écart type.

  • Le libellé Std Dev (Standard Deviation) provient de la traduction en anglais de l'écart type.

Jolies ruptures :

  • La taille des classes est toujours une valeur entière arrondie au multiple spécifié (résultat<>0) et l'origine est basée sur la valeur min arrondie.

  • Dans notre exemple avec le champ "popul" de la couche commune de la BDTOPO, les différentes tailles sont 10000, 5000, 2000, 1000, etc... ce qui nous donne

    • pour le choix 1 classe, Qgis affiche 1 classe.

    • pour le choix 2 classes, Qgis affiche 2 classes calculées avec un intervalle de 10 000.

    • pour le choix 3 classes, Qgis affiche 4 classes calculées avec un intervalle de 5 000.

    • ............

    • pour le choix 6 classes, Qgis affiche 8 classes calculées avec un intervalle de 2 000.

    • .............

    • pour le choix 11 classes, Qgis affiche 15 classes calculées avec un intervalle de 1 000.

    • Etc... la rupture s'effectue lorsque l'amplitude entre la valeur min et la valeur max divisée par le choix des classes donne un résultat proche des différentes valeurs entières arrondies au multiple spécifié.