Notre généalogie est-elle biaisée ?

Publier ses données généalogiques sur Internet ne sert pas seulement à partager avec d’autres généalogistes. Cela sert également aux historiens, notamment en démographie historique. Ainsi, une étude récemment publiée s’appuie sur les données publiées sur Geneanet. Toutefois, les résultats sont mitigés. Notre généalogie serait-elle biaisée ?

Le 6 mars 2018 a été publiée sur le site HAL, Étude de la démographie française du XIXe siècle à partir de données collaboratives de généalogie (1).

Les auteurs ont étudié les données de 2 457 450 individus nés en France entre 1800 et 1804. Pour cela, ils ont travaillé à partir des données publiées sur Geneanet. Cette étude a pour but de montrer que le travail de collecte et de saisie effectué (…) peut potentiellement être réutilisé en démographie historique (…)  et qu’il est possible de retrouver, bien qu’il subsiste parfois quelques biais, certains résultats de la littérature (2).  La littérature mentionnée concerne la littérature de référence en démographie française pour la période du XIXe siècle.

Si les auteurs soulignent que la couverture spatiale est un atout des arbres en ligne, ils relèvent quelques points non pas bloquants, mais posant pour le moins certaines limites.

Le premier point, que tout utilisateur de Geneanet connaît bien, est la difficulté à regrouper les branches communes des arbres. L’arbre universel permettrait une étude simplifiée et plus fine de la démographie française. Simplifiée dans le sens où il n’y aurait pas à traiter de nombreux doublons ; plus fine dans le sens où les informations seront probablement plus nombreuses, variées et documentées.

Le second point concerne la précision des informations retranscrites qui est, je cite : inhérente à la volonté de ces individus (3). Si je rejoints les auteurs sur ce point, je ne suis pas d’accord dans leur minoration de cette constatation. Ainsi, selon eux, “certaines erreurs peuvent être corrigées en confrontant les relevés des utilisateurs entre eux, en se fiant aux valeurs les plus fréquemment observées. Malheureusement, ce n’est pas aussi simple que cela. Tout comme moi, vous avez constaté qu’une erreur, qui pouvait provenir de votre arbre, était répétée à l’envie sur Geneanet, car recopiée sans vérification. Dans ce cas, ce ne sont pas les relevés qu’il faut confronter entre eux, mais aller à la source.

 

Comparaison des données issues de l’échantillon avec la littérature

Si l’étude en elle-même est intéressante, elle m’amène à m’interroger sur notre pratique de la généalogie, et l’interprétation que peuvent en faire des historiens qui ne pratiquent pas la généalogie.

Les auteurs soulignent que les données de l’INSEE concernant les naissances par sexe, pour 1801, indiquent un taux de masculinité de 105, alors qu’il est de 116 dans leur échantillon. Selon eux l’existence d’un biais sexiste dans les études de généalogie n’est pas nouvelle (4). Les auteurs Gavrilov et Gavrilova mentionnent l’existence d’une sous-déclaration des femmes et des enfants dans les bases de données généalogiques (5).

Cette assertion m’étonne. Notre généalogie serait-elle biaisée dans le sens où elle serait sexiste ? Je ne le crois pas. Nous savons tous combien il est difficile d’établir la généalogie des femmes, les sources à leur sujet étant moins nombreuses que pour les hommes. Nous intéresserions-nous alors qu’aux hommes, jusqu’à ne noter dans les filiations que les garçons ? Là encore, je ne serais pas aussi affirmative.

Le taux de fécondité est lui aussi en décalage par rapport à ce qui peut être trouvé dans la littérature. Dans l’échantillon de Charpentier et Gallic, il est de 1,46 enfant par femme (mariée, ayant au moins 15 ans), alors qu’il est de 4,46 selon J. Chesnais (6). Pour expliquer cet écart je vois deux réponses.

La première étant que les généalogistes n’indiquent pas tous les enfants mort-nés ou morts à quelques jours. Il suffit de voir les questions posées à ce sujet sur les réseaux sociaux et les forums pour le constater.

La deuxième concerne notre mode de recherche. Cherchez-vous et notez-vous systématiquement TOUS les enfants d’un couple ? Lorsque j’ai commencé la généalogie, je ne m’intéressais qu’à mes ancêtres directs. Il m’arrivait de noter d’autres enfants, selon les découvertes dans les registres, mais je n’allais pas au-delà. Je reprend maintenant toute ma généalogie, et relève tous les enfants. Il est fréquent qu’une fratrie de quatre enfants retrouve six autres frères et sœurs. De quoi fausser les statistiques..

notre généalogie est-elle biaisée ?

Les données migratoires sont-elles, elles aussi, concernées par ces différences de résultats ?

Charpentier et Gallic soulignent que les données généalogiques ne permettent pas, à priori, d’étudier les migrations liées au marché du travail. La saisie des différentes professions de nos ancêtres ne se fait pas aussi naturellement que pour une naissance, un mariage ou un décès, d’autant que ces informations peuvent être trouvées sur différents documents. Il faut alors penser à aller sur la fiche de l’individu et créer un évènement profession. Je n’y pense pas toujours et je le regrette, car étudier l’évolution professionnelle est aussi importante (je lance ici un appel à l’équipe d’Heredis pour que la profession puisse être documentée à l’occasion de la saisie par acte).

En outre, je m’interroge sur le fait qu’ils n’aient pu suivre les individus de leur échantillon dans le cadre de migrations temporaires (déplacements momentanés au cours d’une vie : lieu de naissance, de mariage, de naissance des enfants et de décès) par manque d’informations (7). L’échantillon de départ a été découpé de la façon suivante : les aïeux (nés entre 1800 et 1804), ils représentent 1 547 086 individus, leurs enfants – 402 190 individus -, leurs petits-enfants et arrières-petites-enfants. Les dates de naissances et de décès ne sont indiquées que pour 53% des aïeux. Pourquoi un taux aussi faible ? Ne saisissons-nous des données complètes que pour notre branche directe ?

 

Notre généalogie est-elle biaisée ?

Enfants non intégrés dans la famille, dates non complétées, migrations ignorées. Le constat parle de lui-même, notre généalogie est biaisée.

Nous avons tous commencé de la même façon, en ne nous intéressant qu’à notre lignée directe, en négligeant les collatéraux. Toutefois, je constate que les généalogistes qui reprennent leurs données en y incluant tous les enfants, les professions et d’autres évènements, sont de plus en plus nombreux. En formation, je conseille toujours aux généalogistes débutants de ne pas se lancer dans la course du “premier arrivé en haut de l’échelle du temps”. Il est plus intéressant de prendre son temps, de rechercher un maximum d’informations sur ses ancêtres, en incluant les autres membres de la famille.

Le généalogiste français a entamé sa mue pour devenir un historien familial. Nous avons donc beaucoup à apprendre des études publiées à partir de nos données comme celle d’Arthur Charpentier et Ewen Gallic.

Reprenons nos généalogies, corrigeons les, complétons les, et rendez-vous dans quelques années pour une nouvelle étude démographique à partir de données collaboratives de généalogie.

 

(1) Arthur Charpentier, Ewen Gallic. Étude de la démographie française du XIXe siècle à partir de données collaboratives de généalogie. 2018. 〈hal-01724269〉

(2) ibid, page 1

(3) ibid, page 4

(4) ibid, page 8

(5) L. A. Gavrilov and N. S. Et-gavrilova, Étude biodémographique des déterminants familiaux de la longévité humaine, Population (French Edition), vol.56, issue.1/2, pp.225-235, 2001.

(6) J. Chesnais, La Transition démographique : étapes, formes, implications économiques . Travaux et documents -Institut national d’études démographiques, 1986.

(7) Arthur Charpentier, Ewen Gallic. Étude de la démographie française du XIXe siècle à partir de données collaboratives de généalogie. 2018. 〈hal-01724269〉, page 12