Introduction
Individus et variables
Construction d'un tableau de données
Description élémentaire d'un tableau
Changement de variables et codage
Similarité
V Similarité
5.1 Quelques définitions

- Une similarité ou dissimilarité est toute application à valeurs numériques qui permet de mesurer le lien entre les individus d’un même ensemble ou entre les variables. Pour une similarité le lien est d’autant plus fort que sa valeur est grande.

- Un indice de similarité (ou plus simplement une similarité) sur un ensemble W est une application s de W*W dans R+ qui vérifie les deux conditions suivantes :
c1) s symétrique :" (w,w’) Î W*W ; s(w,w’) = s(w’,w)
c2) " (w,w’) ÎW*W avec w¹w’ ; s(w,w) = s(w’,w’) > s(w,w’).

- Un indice de dissimilarité (ou plus simplement une dissimilarité) est une application d qui satisfait à la condition c1 et à c2’ qui suit :
c2’) " wÎW d(w,w)=0;

- Distance et Ultramétrique : une distance est un indice de dissimilarité qui vérifie en plus les deux propriétés suivantes :
d1) d(w,w’) =0 Þ w=w’
d2) d(w,w’) £ d(w,w’’) + d(w”,w’) (l’inégalité triangulaire) pour tout w,w’,w” ÎW.
Un indice de dissimilarité, qui vérifie seulement la propriété (d1) est appelé « indice de distance ».
S’il vérifie seulement la propriété (d2) on dit que c’est un « écart ».
Si au lieu de vérifier (d2), l’indice de dissimilarité vérifie l’inégalité suivante :
d3) d(w,w’) £ Max( d(w,w”), d(w”,w’) ) " w, w’, w'' ÎW.
On dit que c’est un « écart ultramétrique » (ou une « dissimilarité ultramétrique »). On voit facilement que la condition (d3) entraîne (d2). Un indice de dissimilarité, satisfait (d1) et (d3) est appelé « distance ultramétrique ».
5.2 Tableaux de variables quantitatives
* Distances entre individus
Distances euclidiennes générales : ce sont les distances les plus classiques, elles vérifient :
où M est une matrice symétrique définie positive. On les nomme également distances quadratiques ou métriques dont voici quelques cas particuliers :
· distance euclidienne simple : c’est le cas où M=1 :

· distance de Mahalanobis : elle se rencontre fréquemment en analyse des données et surtout en analyse discriminante :
où V est la matrice de variance-covariance.
· distance du c2 : la distance du chi2 est importante en analyse des données. Elle est particulièrement bien adaptée aux tableaux de contingence. Elle est utilisée en analyse factorielle des correspondances, elle a comme formule:

* Distances entre variables
Les similarités les plus classiques sont la covariance ou corrélation entre variables. La valeur absolue de la corrélation est un indice de similarité.
L’ensemble de ces distances peuvent aussi être utilisé sur des tableaux de variables binaires. D’autres distances peuvent aussi être définies.
5.4 Tableaux de variables qualitatives
· Similarités entre individus
Le codage disjonctif complet permet de se ramener à un tableau de variables binaires. On peut utiliser les similarités et dissimilarités indiquées précédemment et en particulier la distance du .
· Similarités entre variables
A partir de deux variables qualitatives v1 et v2 , on peut considérer le tableau de contingence associé. Ce tableau permet de définir une similarité entre les deux variables. Par exemple, la valeur du de contingence peut être utilisée comme similarité entre les deux variables :
où q est le nombre de modalités de la première variable et r le nombre de modalités de la deuxième variable.
5.5 Dissimilarités entre groupes d’individus
Etant donné deux groupes d’individus A1 et A2 de W et une dissimilarité d : W*W ® R+, on peut imaginer de nombreuses dissimilarités entre groupes :
* Distance du lien minimum :
* Distance du lien maximum :
* Distance des centres de gravité : dans le cas où l’espace d’arrivée des p variables O=O1*… Op est un espace vectoriel muni d’une distance quadratique, on peut prendre comme distance entre deux groupes, la distance de leur centre de gravité. Dans le cas de deux groupes A1 et A2 disjoints, une distance dérivée de la distance des centres de gravité et plus souvent utilisée est :

m(A1) est le poids du groupe A1 et où g1 est le centre de gravité de A1. Cette distance représente la perted’inertie résultant de l’agrégation de A1 et A2.