4.15. Duplicaten zoeken en samenvoegen
Pagina in behandeling!!!
Deze tool detecteert dubbele entiteiten, analyseert ze en biedt de mogelijkheid om ze automatisch of handmatig samen te voegen als het echte duplicaten zijn, of om ze te bevestigen als niet-duplicaten als dat niet het geval is.
Er zijn 4 manieren om duplicaten samen te voegen, elk manier wordt op deze pagina beschreven.
- Globale zoekopdracht in het gehele genealogiebestand
- Automatische detectie telkens wanneer een entiteit wordt gewijzigd
- Handmatige samenvoeging waarbij de gebruiker twee entiteiten selecteert om samen te voegen
- Slepen-en-neerzetten van entiteiten tussen genealogiebestanden
Bij elk van deze methoden wordt onderstaand venster gebruikt:
Beschrijving
De tool Duplicaten Samenvoegen bestaat uit drie onderdelen:
- Selectievenster voor entiteiten: hier kies je welke entiteiten je wilt controleren op duplicaten.
- Samenvoegvenster: hier worden alle potentiële duplicaten getoond en kun je analyseren of ze moeten worden samengevoegd.
- Speciale lijst voor niet-duplicaten: hier worden je bevestigingen opgeslagen dat twee entiteiten géén duplicaten zijn.
Voordat we deze drie componenten beschrijven, leggen we eerst uit hoe Ancestris de kans berekent dat twee entiteiten duplicaten zijn of niet. Ancestris berekent een Overeenkomstscore.
Overeenkomstscore (Resemblance Score)
Het is vaak moeilijk om met absolute zekerheid vast te stellen dat twee entiteiten duplicaten zijn of juist niet. Zelfs voor een mens kan het soms lastig zijn om met zekerheid te bepalen of twee individuen of entiteiten daadwerkelijk dezelfde zijn of juist niet hetzelfde zijn.
Natuurlijk zou het gemakkelijker zijn om de detectie te beperken door te zeggen dat twee individuen met exact dezelfde achternaam, voornaam en geboortedatum duplicaten zijn. In werkelijkheid kunnen datums ontbreken of bij benadering zijn, kunnen voornamen in een andere volgorde staan of onvolledig zijn, enzovoort. In deze gevallen wilt u nog steeds dat Ancestris iets kan detecteren.
Daarom gebruikt Ancestris een Overeenkomstscore. Hoe meer bepaalde informatie overeenkomt, hoe waarschijnlijker het is dat de entiteiten duplicaten zijn.
De berekende scores kunnen variëren van negatieve getallen tot hoge positieve getallen. Ze worden uitgedrukt als percentage, hoewel een score hoger dan 100% kan zijn.
Ancestris zal de potentiële duplicaten volgens deze indicator in aflopende volgorde weergeven, met de bedoeling u te vertellen: "Hoewel dit niet zeker is, gezien de gelijkenissen in de informatie tussen deze twee individuen, kunnen ze duplicaten zijn. En dit is de vertrouwensscore dat ze dat ook zijn."
Vervolgens is het aan u om te beslissen of u de duplicaten wilt samenvoegen of de gelijkenis wilt negeren.
Dit betekent dat Ancestris u mogelijk potentiële duplicaten laat zien die u als geen duplicaten beschouwt, en omgekeerd. Ancestris kan ook mogelijk duplicaten niet weergeven, die volgens u wel echte duplicaten kunnen zijn.
Onze excuses als de detector niet perfect is en laat het ons alstublieft weten als u dergelijke gevallen vindt.
Venster voor entiteits-selectie
Wanneer een globale zoekopdracht naar duplicaten wordt gestart, wordt het volgende venster weergegeven. Dit toont de verschillende soorten entiteiten en hoeveel ervan in het GEDCOM-bestand kunnen worden gevonden.
Selecteer de vakjes van de entiteiten waarvoor u naar duplicaten wilt zoeken.
Alleen de vakjes van entiteiten die in het GEDCOM-bestand aanwezig zijn, zijn ingeschakeld. In het bovenstaande voorbeeld zijn er bijvoorbeeld geen multimedia-entiteiten.
Als u bekende niet-duplicaten wilt uitsluiten van de zoekopdracht, d.w.z. entiteiten die u al als niet-duplicaten hebt bevestigd, vink dan het overeenkomstige vakje aan.
Om de lijst van paren van entiteiten te zien die u als niet-duplicaten hebt bevestigd, drukt u op de knop Lijst weergeven. Dan verschijnt de lijst met duplicaten waarvan u bevestigd heeft dat ze geen duplicaten zijn.
============================================= ^^^^^^ =============================
Het samenvoeg-venster
Na het starten van het zoeken naar duplicaten verschijnt het volgende venster.
Dit venster toont één voor één de volledige lijst van alle potentiële duplicaten waarbij de waarschijnlijkheid hoger is dan 40%.
De lijst is gesorteerd van het meest zekere duplicatenpaar naar het minst zekere, per entiteitscategorie. Voor elk paar vergelijkbare entiteiten geeft Ancestris de score-indicator bovenaan weer.
Grote genealogieën kunnen enkele duizenden duplicaten bevatten. Dit venster toont maximaal de eerste 10.000 duplicaten per entiteitstype. Als uw genealogie meer duplicaten bevat, moet u deze eerst samenvoegen voordat u de overige kunt bekijken.
De titel van het venster geeft het nummer aan van het duplicatenpaar in de lijst (hier in roze), samen met de score-indicator die aangeeft hoe groot de kans is dat de twee entiteiten daadwerkelijk hetzelfde zijn en dus samengevoegd moeten worden (hier in groen).
Er wordt een algemene boodschap weergegeven (in het witte veld) die afhangt van de manier waarop de tool werd gestart: via een globale zoekopdracht, automatische detectie of een handmatige actie. Dit bericht helpt ook bij het begrijpen van de kleurcodering die wordt gebruikt om de informatie weer te geven.
Elk duplicatenpaar, bestaande uit twee entiteiten, wordt weergegeven in twee kolommen.
In de titel van elke kolom kan met een knop elk van de entiteiten in de bewerkingsvensters geopend worden voor meer details. (hier geel aangegeven)
In elke kolom worden de eigenschappen van elke entiteit van het veronderstelde duplicaat weergegeven.
- Waarden die verschillen, worden in rood weergegeven.
- Waarden die identiek zijn, worden in blauw weergegeven voor de linker entiteit en in grijs voor de rechter entiteit.
- Waarden die waarschijnlijk duplicaten zijn, worden aan beide zijden in blauw weergegeven.
Het doel van de vergelijking is om de rechter entiteit < < < < in de linker entiteit samen te voegen als u bevestigt dat ze duplicaten zijn. Dus gegevens gaan van rechts < < < < naar links!
Daarom is er voor elke eigenschap aan de rechterkant een selectievakje beschikbaar waarmee u Ancestris handmatig kunt laten weten welke gegevens na het samenvoegen behouden moeten blijven.
De knoppen helemaal onderaan het scherm, worden gebruikt om door de lijst met duplicatenparen te navigeren, de beslissing uit te stellen, ze onmiddellijk samen te voegen of ze direct als niet-duplicaat te bevestigen.
Werkbalk met knoppen
Veld 1: Zoek dubbele
Met dit veld kan een dubbele gezocht worden in de lijst. Voer de tekst in en druk op Enter. gebruik vervolgens de knoppen Vorige en Volgende om naar de vorige of volgende overeenkomende duplicaat te gaan.
Knop 2: Ga naar de eerste dubbele 
Geeft de eerste dubbele weer in de volgorde van de betrouwbaarheidsindex, dwz de meest waarschijnlijke dubbele.
Knop 3: Ga naar de vorige dubbele 
Geeft het vorige duplicaat weer.
Knop 4: Wissel linker- en rechter- entiteiten 
Verwissel de linker en rechter entiteiten om de twee entiteiten aan de linkerkant samen te voegen. Dit is handig als de meeste informatie die moet worden bewaard na het samenvoegen zich aan de rechterkant bevindt.
Knop 5: Ga naar de volgende dubbele
Geeft het volgende duplicaat weer.
Knop 6: Ga naar de laatste dubbele 
Geeft het laatste duplicaat in de betrouwbaarheidsindex weer, dus het minst waarschijnlijke duplicaat.
Knop 7: Verwijder dubbele
Verwijdert de potentiële dubbele uit de weergegeven lijst.
Als de zoekopdracht naar dubbelen opnieuw wordt gestart, wordt deze (verwijderde) wel opnieuw weergegeven.
Knop 8: Voeg samen 
Sluit het venster.
Knop 9: Voeg automatisch samen 
Sluit het venster.
Knop 10: Dit is geen duplicaat 
Sluit het venster.
Knop 9: Sluit het venster 
Sluit het venster.
Venster
De titel van het venster geeft het weergegeven dubbele paarnummer aan en het percentage vertrouwen (in groen) dat de twee entiteiten van dit paar in feite hetzelfde zijn en daarom moeten worden samengevoegd.
De twee entiteiten van het veronderstelde dubbele paar staan in de twee kolommen.
Met een knop (in geel) kunt u elk van de entiteiten in de editors selecteren voor meer details.
Voor elke eigenschap van de entiteiten toont het venster de waarden van de eigenschap voor elk van de twee entiteiten van het veronderstelde duplicaat.
-
In rood worden de waarden weergegeven die afwijken tussen de twee entiteiten..
-
Identieke waarden worden voor de linker entiteit in blauw weergegeven en in grijs voor de rechter entiteit.
Het doel van de vergelijking is om de rechtse entiteit samen te voegen in de linker (de linker blijft dan dus bestaan).
Hiertoe selecteren de selectievakjes de informatie van elke entiteit die moet worden bewaard na het samenvoegen.
De knoppen onderaan navigeren binnen de dubbele paren, voegt ze samen of negeert ze.
werkbalk met knoppen
Knop 1: Ga naar de eerste dubbele
Geeft de eerste dubbele weer in de volgorde van de betrouwbaarheidsindex, dwz de meest waarschijnlijke dubbele.
Knop 1: Ga naar de vorige dubbele
Geeft het vorige duplicaat weer.
Knop 3: Wissel linker- en rechter- entiteiten
Verwissel de linker en rechter entiteiten om de twee entiteiten aan de linkerkant samen te voegen. Dit is handig als de meeste informatie die moet worden bewaard na het samenvoegen zich aan de rechterkant bevindt.
Knop 4: Ga naar de volgende dubbele
Geeft het volgende duplicaat weer.
Knop 5: Ga naar de laatste dubbele
Geeft het laatste duplicaat in de betrouwbaarheidsindex weer, dus het minst waarschijnlijke duplicaat.
Verwijder dubbele knop
Verwijdert de potentiële dubbele uit de weergegeven lijst.
Als de zoekopdracht naar dubbelen opnieuw wordt gestart, wordt deze (verwijderde) wel opnieuw weergegeven.
Knop 8: Sluit het venster
Sluit het venster.
Samenvoegen
Door op de knop Samenvoegen te klikken, wordt de rechts aangevinkte informatie toegevoegd aan de linker entiteit, daarna wordt de rechter entiteit verwijderd uit de Gedcom.
Voor informatie die maar één keer kan bestaan (bijv. geboorte), is het alleen mogelijk om de informatie van een van de twee entiteiten te behouden.
Zodra het samenvoegen is voltooid, geeft het venster hetzelfde duplicaat weer met het resultaat van de samenvoeging, zodat u kunt controleren of alles is bewaard zoals u wilde.
U kunt dan doorgaan naar het volgende duplicaat.
=====================================================================
Gebruik
Het samenvoegen van dubbelen werkt in twee stappen.
Eerst geeft u de detectiecriteria op en vervolgens kiest u hoe u duplicaten wilt samenvoegen .
Globale zoekopdracht
Automatische detectie
Handmatige samenvoeging
Slepen en neerzetten van de ene stamboom naar de andere
Aanpassingen
De personalisatie-elementen zijn de criteria.
De gebruikte criteria worden voor de volgende keer opgeslagen.
Er is geen andere aanpassingsmogelijkheid.