Transfert (protocoles)

De WikiGenWeb
Révision de 22 février 2011 à 22:07 par Purdey (discussion | contributions) (Lieux et adresses)

(diff) ← Version précédente | Voir la version actuelle (diff) | Version suivante → (diff)
Aller à : navigation, rechercher

Gedcom est largement utilisé à travers le monde entier, mais d'autres sont envisageables.

Fichiers texte

Certains logiciels et utilitaires proposent l'exportation des données dans des fichiers tabulaires en mode texte. Cela conduit à des fichiers peu volumineux et consultables dans un simple éditeur de texte.

Très séduisant pourvu que les fichiers soient organisés sur le même plan : nombre de colonnes et nature des données. Ce n'est pas le cas.

Cependant pour des utilisateurs expérimentés capables de transformer ces fichiers, cette méthode sera retenue exceptionnellement pour un sauvetage.

Fichiers XML

Cette technologie est très prometteuse. Pour l'immédiat aucun logiciel usuel ne la propose.

Le seul que je connaisse actuellement est en version de base. Il tourne sous Linux avec licence GNU. L'équipe de conception est dynamique et réactive. Il s'appelle GRAMPS. La documentation, les sources et le produit sont disponibles sur le site d'entrée http://web.archive.org/web/20040728024203/http://sourceforge.net/ Initiative à suivre.

Début 2002 les Mormons ( The Church of Jesus Christ of Latter-day Saints ) ont publié un projet pour la révision Gedcom XML 6.
La version finale n'est pas encore disponible. En effet le projet est controversé si l'on en croit les rares communications accessibles sur le Web.

Extrait de la préface:
"This draft is not a complete specification. However, the Document Type Definition (DTD) and extensive examples are included. We feel that is enough to give a reasonable understanding of the specification."


Entre temps, il nous reste à maitriser la 5.5 !

Lieux et adresses

Le tag PLAC débute une ligne indiquant un lieu.

Les composantes hiérarchiques ou administratives sont notées selon un ordre croissant séparées par une virgule. La norme ne précise pas le nombre de niveaux. En pratique la valeur de six est utilisée par quelques logiciels, dont Heredis. De son coté GMX est limité à quatre.


L'en tête du fichier précise dans un tag FORM la séquence des éléments du lieu, exemple :

2 FORM Town , Area code , County , Region , Country, Subdivision


d'où dans le corps du fichier:

2 PLAC Annonay,07100,Ardèche,Rhône-Alpes,F,Hôpital
2 PLAC Lalouvesc,07520,Ardèche,Rhône-Alpes,F,
2 PLAC Saint-Pierre-sur-Doux,07,Ardèche,Rhône-Alpes,F,


En important un fichier du genre dans le logiciel rédacteur vous aurez la surprise de devoir répondre aux questions sur l'organisation des lieux. A quoi bon ce tag FORM documenté en anglais. De plus la virgule finale sans élément n'est pas justifiée et perturbe certains logiciels.


Cette manière de renseigner les lieux indique une confusion entre le nom et l'adresse d'un lieu. Ce qui importe dans une base c'est de mentionner le nom. Son adresse correspond à d'autres utilisations. Un logiciel de généalogie n'est pas un agenda.


Je trouve dommage d'encombrer les écrans ou les états par la répétition des régions, du pays et des départements sous forme numérique et littérale. Éventuellement le département sous l'une des deux formes suffit à localiser le village tandis que le lieu-dit est indispensable pour restituer l'atmosphère d'une famille.

Gestion des sources

Comment concilier les extrèmes, PAF avec l'abondance de détails et GMX sans détails.
Paf est très riche c'est presque un logiciel de documentaliste avec une source principale et une source spécifique tout en respectant l'étendue de la grammaire. Il est probablement le seul. Lors d'un transfert il y a perte de données.
GMX ne retient qu'un titre et un texte. Il y a insuffisance de données.
En intermédiaire Heredis transmet un compromis raisonnable pour ce qui est des valeurs mais il reste fantaisiste dans l'attribution des valeurs face à la nature des tags.

Extraction de données

Pour envoyer des données à un autre généalogiste, il faut extraire une partie de votre base pour isoler une branche ou un groupe de personnes répondant à certaines caractéristiques. Les logiciels proposent cette fonction et l'expérience montre que la réussite est rarement totale.


Parmi les défauts
les liens vers des personnes hors de l'extraction restent dans le fichier les relations des personnes sont bien transmises mais pas les personnes liées la totalité des sources est transférée au lieu d'une sélection ajustée


Pour les médias il faut envoyer les documents en plus du gedcom avec l'indication des répertoires destinataires pour avoir quelque chance que votre correspondant s'y retrouve. Si son logiciel traite les médias c'est alors gagné. Si les médias ne sont pas reconnus une nouvelle saisie manuelle rétablira la situation.

Ordres des enregistrements

La règle est simple et claire : l'ordre d'écriture des enregistrements peut être quelconque. Un enregistrement appartient à l'un des huit types FAM INDI SOUR NOTE REPO OBJE SUBM SUBN. Le niveau en début de ligne est toujours 0 par convention. Cependant un enregistrement ne doit pas être fractionné.


exemple réel dans l'un des logiciels testés


l'importation déclenchait des messages d'erreurs : ' référence vers individu absent'. Tout simplement des enregistrements INDI étaient après des enregistrements FAM. Le logiciel devrait charger entièrement les enregistrements avant d'établir les liens. Dépannage évident : déplacer les enregistrements perturbants avec un éditeur de texte.


Référence des enregistrements
Elle peut contenir 22 caractères alpha-numériques. Elle doit être unique pour chaque type d'enregistrements.


En pratique la majorité des logiciels impose la propriété  : unique, par rapport à tout le fichier. L'inconvénient reste mineur car souvent une référence contient un caractère lié au type d'enregistrement et de facto la condition est remplie. Cest une bonne pratique qui facilite la consultation visuelle du fichier gedcom. Pourquoi ne pas utiliser le type d'enregistrement, ce qui serait plus lisible comme @FAM12345@ ou @INDI123456789012345678@ ; pas plus de 18 chiffres et ça devrait suffire.


Ordres des structures Dans le corps d'un enregistrement les structures de même niveau ne sont pas ordonnées. Elles doivenr être imbriquées dans la structure de niveau précédent, dans laquelle elles débutent. Il ne faut pas confondre le niveau hierarchique et le nombre caractérisant un niveau. Une structure supérieure est repérée par un nombre inférieur. Une ligne est la structure de plus petite taille qui suit cette règle.

exemple réel dans l'un des logiciels testés:

   0 @....@ INDI
   ...
   1 CENS
   2 DATE 1901
   2 PLAC Great Coates, Lincs.
   2 NOTE aged 1, at home.
   2 SOUR @S341@
   1 EVEN
   ...
   0 @......

La source n'était pas traitée quand elle se présentait après une note. C'est une erreur incontestable. Les quatre lignes niveau 2 doivent s'interpréter quel que soit l'ordre. Elles sont correctement imbriquées dans la structure de niveau 1, elle même imbriquée dans le niveau 0 de l'enregistrement.

Dépannage possible : permuter les lignes en cause avec un éditeur de texte. Mais cela requiert beaucoup d'attention et de soin, d'autant plus que le fichier est gros.

Types de Caractères dans les documents généalogiques

Les informations sont contenues dans des fichiers ou des tables selon un format spécifique à chaque logiciel. En particulier les caractères utilisés pour représenter ces données sont codés ce qui définit une page de caractères. Malheureusement il n'existe pas une page universelle, mais les pages les plus usuelles sont peu nombreuses. Cela permet de décrire la très large majorité des documents pour les ordinateurs de la famille PC à partir de deux types:

  • - fonctionnant sous DOS, la page type désignée par OEM
  • - fonctionnant sous WINDOWS, la page type désignée par ANSI

Cette disposition fonctionne correctement si le logiciel émetteur et le logiciel récepteur utilisent la même langue. Pour obtenir un résultat indépendant de la langue, une grille contenant tous les caractères mondiaux a été publiée, désignée par ANSEL. Ainsi avec un tableau de conversion pour chaque langue le document de référence est exploitable par tous les logiciels comportant cette option.

Conversion des caractères : Méthode

Le convertisseur couvre les besoins à partir de la page de caractères de Windows ANSI de très loin la plus fréquente en offrant:

  • conversion ANSI <-> oem dans les deux sens
  • conversion ANSI <-> ANSEL dans les deux sens

Tous les documents de type texte peuvent ainsi être traités et visualisés quel que soit l'environnement, si l'alphabet de référence est le français.

Dans le cas spécifique des fichiers Gedcom il convient de mettre à jour l'en tête de fichier pour mentionner la page de caractères pour la lecture. Le convertisseur comporte cette option. Le convertisseur est téléchargeable librement à : http://www.chez.com/ocado/convansel/index.html

Exemples de conversion des caractères Ce tableau est un extrait de conversions appliquées à la langue française

   ansi ansel IBMPC
   é âe ,
   è áe Š
   ê ãe ˆ
   ë èe
   ó âo
   ò áo 
   ô ão â 
   ö èo 
   á âa 
   à áa … 
   â ãa ƒ
   ä èa 
   ú âu 
   ù áu 
   û ãu – 
   ü èu 
   í âi 
   ì ái 
   î ãi Œ 
   ï èi ‹ 
   ý ây 
   ÿ èy 
   ç ðc ‡ 
   ñ ~n 

Conversion ANSI <---> ANSEL <---> IBMPC

Détails pour l'écriture d'une date

La grammaire Gedcom est très complète pour représenter les dates avec différents calendriers avec les formats spécifiques à chacun. Dans une première partie la forme la plus usuelle est exposée.
Elle utilise le calendrier Grégorien et a été retenue pour application dans les utilitaires de ce site. La seconde partie cite les autres éléments avec un commentaire justificatif.

CALENDRIER GREGORIEN

La valeur 'date' doit être au format : jj mmm aaaa

avec 1 ou 2 chiffres pour jj
trois lettres pour le mois abrégé : [ JAN | FEB | MAR | APR | MAY | JUN | JUL | AUG | SEP | OCT | NOV | DEC ]
4 chiffres pour l'année
Pour représenter une date exacte et complète tous les éléments sont requis.
Pour une indication partielle l'année seule ou une combinaison mois année peut être utilisée.
Il est également possible de qualifier une date avec un des préfixes:

ABT <DATE> | EST <DATE> la date est approximative
CAL <DATE> la date est calculée à partir d'un autre événement ou selon l'age lors de l'événement
BEF <DATE> | TO <DATE> date au plus tard d'un événement
AFT <DATE> | FROM <DATE> date au plus tôt d'un événement
FROM <DATE> TO <DATE> date dans la période incluant les bornes
BET <DATE> AND <DATE> date dans l'intervalle excluant les limites

Pour l'enregistrement d'une date autre que pour un événement seule la forme exacte est utilisable. En particulier cette forme est utilisée pour la date de mise à jour d'un enregistrement.

AUTRES CALENDRIERS

Calendrier révolutionnaire français

L'histoire n'en fait usage que pour une dizaine d'années. Actuellement la compréhension des dates sous cette forme n'est plus intuitive et ce calendrier est un obstacle pour un traitement efficace des dates.

Tous les logiciels de généalogie offrent la possibilité de notes qui peuvent recevoir la mention des dates sous la forme originale. Et comme il existe des convertisseurs il est facile de traduire en une date grégorienne.

Calendrier Julien

Son usage s'est éteint au XVI ème siècle en France. Par ailleurs les sources traitant de cette époque mentionnent rarement jour et mois et la différence d'une petite quinzaine de jours n'est pas significative. Pour les cas rigoureux il reste, comme ci dessus, la possibilité de convertir.

Calendriers internationaux

La portée des règles Gedcom est internationale et d'autres expressions de dates sont possibles. L'utilisation de ces calendriers vise des logiciels écrits pour des langues se référant à ces calendriers. Si une généalogie rédigée en français cite des dates de ce type, la conversion s'impose.


Annexe

Auteur

  • Ensemble de page réalisées par Sylvain Peyrichou (décédé en 2005).

Son site a fermé mais il est encore consultable dans les archives du web

et il a aussi été intégralement repris à l'identique par un de ses amis,

A voir aussi

  • Transfert (protocoles) Gedcom est largement utilisé à travers le monde entier, mais d'autres sont envisageables.

Applications à télécharger