Introduction
Individus et variables
Construction d'un tableau de données
Description élémentaire d'un tableau
Changement de variables et codage
Similarité
IV Changement de variables et codage
4.1 Intérêt du changement de variable
Le changement de variable est important en analyse de données. Il est parfois imposé par la méthode, pour la clarté des données... . Nous presentons quelques exemples :

a)On a un tableau hétérogène et l’on désire exprimer certains des paramètres descriptifs à l’aide de nouvelles variables pour que toutes les variables deviennent de même type.
Exemple : soit le tableau hétérogène suivant:
March\viande Prix Mode de trans Fragilité
W1 7.6 Avion 1
W2 10.9 Bateau 2
W3 3.5 Train 3

En définissant trois tranches de prix : ]0,5] ; ]5,10] ; [10,20] respectivement codée 1,2,3 ; on peut alors définir la variable v'1 : W ® {1, 2, 3}sans structure, qui associe à chaque individus le code correspondant à sa tranche de prix.
On a donc v’1 (w3) =2 ; v’1(w2) =3; v’1(w3)=1.
Si on considère aussi que l’espace associé à la variable fragilité est sans structure on définit une nouvelle variable v’3 qui prend les mêmes valeurs que v3 mais qui est qualitative nominale.
Le tableau de données défini par les variables v’1 , v2 , et v’3 devient homogène puisque les variables sont devenues nominales.

b)Certaines méthodes d’analyse de données sont incompatibles avec le type des variables initiales, on est alors parfois amené à transformer un tableau de données quantitatives en un tableau de modalités pour pouvoir utiliser par exemple une analyse factorielle des correspondances multiples .

c) Pour synthétiser l’information contenue dans un tableau de données, on réduira sa taille. On peut par exemple, remplacer l’ensemble des variables par quelques combinaisons linéaires de ces variables.

4.2 Formalisation de la notion de changement de variable
Il y a deux types de changement de variables :
le changement de variable par changement de structure et le changement de variable par codage.
* changement de structure :
Définition : Etant donnée une variable V : W ® O munie d’une structure S, on dit que l’on a fait un changement de structure, lorsqu’on remplace V par une variable V’ : W ® O munie d’une structure S’¹ S et que V(w) =V’(w) pour tout w ÎW.
Exemple : considérons la variable tranche d’âge qui prend les valeurs :
1 à jeune;
2 à adultes;
3 à personnes âgées.
Si l’on associe à cette variable la structure d’ordre usuelle, alors c’est une variable qualitative ordinale. Si maintenant, on ne désire plus faire intervenir l’ordre entre les tranches d’âge, la variable devient nominale. Dans une enquête sociologique il peut être intéressant de supprimer l’ordre entre les tranches d’âge afin de faciliter l’apparition d’éventuels liens entre les jeunes et les personnes âgées.
*Changement de codage
Définition : Pour effectuer un changement de codage d’une variable, il faut se donner un espace d’arrivée O’ muni d’une structure S’ et une application c de O dans O’. La nouvelle variable V’ est obtenue en composant les fonctions v et c. On retrouve v’=c o v
Exemple : reprenons la variable V précédente. Si l’on désire mettre dans une même classe, les jeunes et les personnes âgées, on défini une variable V’ : W ® O’ qui prend les valeurs 1 et 2. v’ est une variable qualitative nominale qui s’obtient par codage.
Ce codage est l’application C : O®O’ telle que c(1)=c(3)=1 et c(2)=2 et on a v’=c o v
4.3 Différents types de changement de variables
* Transformation quantitatif-quantitatif
- Centrage réduction :
Quand les variables sont mesurées avec des échelles différentes ou ont des dispersions hétérogènes, il peut s’avérer utile de « centrer » et « réduire » ces variables.

- Centrer une variable v consiste à en soustraire sa moyenne
- Réduire une variable v consiste à la diviser par son écart-type.

Une variable centrée-réduite satisfait aux deux propriétés suivantes :
· sa moyenne est nulle
· son écart type est égal à un
Cela permet d’obtenir :
a) des données indépendantes de l’échelle choisie
b) des variables ayant même moyenne et même dispersion.

Exercice

- Combinaison de variables :
On peut créer une nouvelle variable quantitative en appliquant des fonctions numériques (combinaison linéaire, polynomiale, etc…). On peut aussi utiliser des fonctions utilisant des expressions logiques de variables quantitatives ou qualitatives.
Exemple : v’ = (v1>v6)* (2v1 + v3 )6.
* Transformation quantitatif-qualitatif
Découpage par bornes choisies par l’utilisateur :
On effectue un découpage de R à l’aide de bornes définies par l’utilisateur. On numérote ensuite les classes associées à ce découpage en respectant l’ordre. La nouvelle variable qualitative ordinale est obtenue en affectant à chaque individu le numéro de la classe à laquelle il appartient.
Remarquons qu’un découpage entraîne généralement une perte d’information de deux sortes, on perd :
· la distinction entre les objets d’une même classe
· l’amplitude de la différence entre les objets de deux classes différentes.
Exemple : si v est la variable âge, on peut lui associer une variable qualitative ordinale définie par trois tranches d’âge :
* jeunes : 0 à 20 ans
* adultes : 20 à 60 ans
* personnes âgées : plus de 60 ans.
On associe les codes 1, 2, 3 à ces trois tranches, on a :
Si 0 < v(wi)< 20 alors v’(wi)=1
Si 20 <v(wi)<60 alors v’(wi)=2
Si 60 <v(wi) alors v’(wi)=3
Découpage par intervalles égaux
En utilisant les intervalles égaux I1, .. Ik, on obtient directement k classes d’objets contigus. La longueur de chaque intervalle étant bien sûr égale à où M et m sont respectivement la plus grande et la plus petite valeur prise par la variable.
Découpage par effectifs égaux
Ce type de découpage présente l’intérêt d’éviter les classes vides et découpe finement les endroits denses; contrairement au découpage par intervalles égaux, il tient compte de l’échantillon. La construction de la fonction de répartition empirique F permet d’obtenir ce découpage. Les parties d’effectifs égaux J1 , .. Jk sont définies par :
J1 = F-1([0,1/k])
Ji = F-1(]i-1/k, i/k])
Jk= F-1(]k-1/k,1]).
Cette technique permet de trouver des classes d’individus ayant sensiblement le même effectif.
* Transformation qualitatif-qualitatif
Par changement de structure ou par changement de codage : le premier type de transformation consiste à ne plus tenir compte de l’ordre d’une variable qualitative ordinale, qui devient ainsi une variable qualitative nominale. Le deuxième type de transformation consiste à regrouper des modalités :
codage initial :
0 à 20 ans à code 1
20 à 60 ans à code 2
60 ans et plus à code 3
indiv age
1 1
2 2
3 1
4 3
5 2

codage final :
moins de 20 ans et plus de 60 ans à code 1 ;
entre 20 et 60 ans à code 2.
Par combinaison de variable :
cette transformation est analogue à la combinaison de variables quantitatives.
Exemple : soit deux variables qualitatives v1 et v2 à trois modalités codées 1,2,3. On crée une nouvelle variable qualitative v3 à deux modalités codées 1 et 2 : v3 = 1 si v1=1 et si v2 =1 ou 3 ; v3=2 sinon.
* Transformation qualitatif-quantitatif
codage disjonctif complet
Ce codage consiste à transformer une variable qualitative à r modalités en r variables binaires indicatrices de chaque modalité.
Exemple : soit trois individus a, b, c répondant aux questions suivantes :
couleur des yeux (Y), âge (A), sexe(S), leurs réponses étant codées de la manière suivante :
Yeux : vert 1 ; bleu 2 ; marron 3.
Age : 0 à 20 ans à1 ; 20 à 50 ans à 2 ; plus de 50 ans à 3.
Sexe : féminin à1 ; masculin à 2 ;
Y A S
A 1 2 2
B 2 1 1
C 3 3 2

Le codage disjonctif complet de ce tableau est:
Vert Bleu Marron 0-20 20-50 +50 F M
A 1 0 0 0 1 0 0 1
B 0 1 0 1 0 0 1 0
C 0 0 1 0 0 1 0 1