Statistisk Raseteori

og Klassifikasjon av Menneskeheten i Raser

Hvis man slår opp dette emnet på internett blir man møtt av en flom av hat og fornektelse. Under jødisk herredømme er vår tid viet løgnindustri og søppelproduksjon. Det tyvende århundre ble marxismens: Marxisme-leninisme i øst, og Frankfurter-skolens kulturmarxistiske prosjekt i vest. Deres doktriner og dogmer er overordnet alt, også i Akademia. Ingen vitenskap tåles som fører til resultater og konklusjoner som tvert motsier dem. Da Tyskland tapte annen verdenskrig mot jødene ble det praktisk talt slutt på arvelighetsforskning og raseforskning. Marxismens dogme er jo at alle mennesker er født like og at bare miljøet, samfunnet, gjør oss forskjellige. Den fornekter den biologiske arvs betydning. Rase er i følge marxismen en sosial konstruksjon for å undertrykke og utbytte andre mennesker.

Frekkhet - chutzpah - er jødenes varemerke. Man sier ikke like ut at man ikke billiger raselæren, ikke tror på den. Å nei, marxismen gjør anspråk på vitenskapelighet! Derfor sier man at vitenskapen selv har gjendrevet raselæren! Det er ikke vanskelig å få dette til å virke i praksis når man har makt til å ansette og avsette akademisk personale, og hersker over hva som skrives i fagtidsskriftene og massemedia. Når intet noensinne slipper igjennom som opplyser om rase tror allmenheten at raseforskerne selv har forkastet sitt fag. Marxistiske professorer står rede til å rykke ut hver gang spørsmålet blir reist for høytidelig å erklære at raselæren er gammel rasistisk psevdovitenskap og at moderne genetikk har gjendrevet den. Alle vitenskapsmenn i vår tid er enige om det, sier man. Men det er ikke vanskelig å få til, for de som er uenige får ingen akademisk stilling og anerkjennes ikke som vitenskapsmenn. De får aldri noe publisert i et antropologisk fagtidsskrift. Det er herredømme og maktspråk som gjelder, ikke vitenskap.

De gamle raseforskerne, før 1970 men særlig før 1945, hadde ikke adgang til genetiske data. Ei heller hadde de regnemaskiner til å bearbeide store mengder data. Derfor kunne de ikke bevise sine konklusjoner med metoder som holder mål i vår tid. Deres betraktninger måtte bli skjønnsmessige og grovkornede. Det utnyttes av demagogene i vår tid til å avfeie hele denne vitenskap som vilkårlig. Hva er rase, spør man. Hvor går skillet mellom en rase og en annen og hvor kommer det fra? Finnes ikke en glidende overgang mellom de såkalte rasene slik at ethvert skille er vilkårlig? Hefter ikke raselæren seg utelukkende ved visse ytre kjennetegn som hudfarve? Er det ikke bevist at menneskene nesten er 100 % genetisk identiske? Er ikke alle såkalte raseegenskaper i virkeligheten sterkt miljøavhengige og lite arvelige?

Men kritikken er uberettiget. All vitenskap i gammel tid var hemmet av liten evne til databehandling på samme måte som raseforskningen. Men ingen betrakter derfor biologien, geologien, arkeologien osv. på 1800-tallet som psevdovitenskap og humbug. Ingen forkaster Darwins lære for at han ikke beviste den med statistisk teori og computer-simuleringer. Han kjente ikke en gang til arvelighetens hemmelighet, men ingen bruker det mot ham. Vitenskapen skrider frem i mange små skritt, og noen store, og hver mann må gjøre sitt beste med midlene som står til rådighet i hans tid. Fremgangene blir sjelden kullkastet senere, bare forfinet og utdypet. Her skal jeg vise at det samme gjelder raselæren. Med de beste statistiske metoder og computer-programmer, og store mengder genomdata, beviser jeg at raselæren stemmer.

Hva er rase? Det kunne man ikke gi et godt svar på før. Men det samme gjelder de andre gruppene av levende ting: art, slekt, familie, orden, klasse, rekke, rike. Noen sier at definisjonen av art (species) er at medlemmene kan få levedyktig og fruktbart avkom sammen. Men det er ikke en brukbar definisjon og er aldri blitt brukt, for man kan ikke i praksis prøve å krysse alle individene i en populasjon for å finne ut om de tilhører en og samme art eller flere. All tilordning av individer til en art skjer etter morfologiske kriterier, eller muligens i vår tid genetiske. Hvordan skulle man ellers klassifisere døde individer, beinrester av døde dyr? Når det gjelder de andre grupperingene har man ikke en gang et forslag til eksakt definisjon, men ingen blir opprørt over det. Ingen påstår at zoologenes inndeling av dyr i ordener er vilkårlig. De fleste av disse grupperingene ble oppfunnet av svensken Carl von Linné på 1700-tallet.

I vår tid har vi muligheten til å gi alle disse grupperingene, fra rase til rike og roten i stamtreet, et presist innhold. Vi beregner et stamtre for individene i en samling levende ting med statistiske metoder. Rikene svarer da til nodene like under roten i treet, og rasene er bladene. Når man ordner ting i en trestruktur er det vanlig å tenke seg treet stilt på hodet med roten øverst og bladene nederst; jeg følger den konvensjonen. Vanligvis lar vi roten i treet omfatte alle levende ting, men vi kan like gjerne begrense oss til en samling levende ting som interesserer oss særlig. Det er hva vi skal gjøre. Vi begrenser oss til en samling mennesker eller menneskelignende skapninger, uten å ha noe forutinntatt syn om at de utgjør en art eller slekt. Vi vil bare utlede slektskapet dem i mellom og finne fellesskap og forskjeller.

Men før vi kan gå videre må vi skjønne hvorfor vi overhodet skal ordne levende ting i trær. Hvorfor ikke bare i forskjellige grupper, ferdig med det? Svaret er evolusjonen. Det er darwinistisk evolusjon som har avlet treet. Alt liv på Jorden er naturlig ordnet i et tre fordi alt liv på Jorden har felles opphav. Alle mennesker på Jorden har også felles opphav. Hva det kommer av? Sannsynlighetslovene. Når noe sjeldent som liv eller menneske oppstår skjer det av en tilfeldighet, og den er meget usannsynlig. Derfor kan den bare skje én gang, ikke to ganger uavhengig av hverandre. Tenk deg at sannsynligheten er 1e-6 (én av en million). Evolusjonen har hatt mange millioner år på seg til å lykkes så til slutt går det. Men to stokastisk uavhengige hendelser med denne sannsynlighet har en sannsynlighet av bare 1e-6 * 1e-6 = 1e-12 eller én av tusen milliarder! Det er så usannsynlig at det i praksis aldri skjer. Livet oppsto bare én gang, og mennesket oppsto bare én gang. Nytt liv oppstår bare gjennom arv fra bestående liv, aldri spontant fra dødt stoff. Og nye mennesker fødes kun av andre mennesker og arver sitt vesen; de kan ikke oppstå av planter eller dyr eller dødt stoff.

Men at vi har felles opphav forklarer ikke alene hvorfor vi danner et tre. I roten var vi ett, i bladene mangfoldige. Hvor kommer mangfoldet fra? Hvorfor finnes det 2 millioner levende arter på Jorden og ikke bare én? Hvorfor er menneskene inndelt i et utall forskjellige raser? Hvorfor ikke bare én? Det var det Darwin fant forklaringen på. Alt liv er stadig utsatt for små tilfeldige endringer av sine arveanlegg; vi kaller dem mutasjoner. Ved diffusjon sprer menneskene (eller annet liv) seg utover Jorden og kommer bort fra hverandre slik at de ikke lenger kan parre seg. Da kan de ikke utveksle sine endrede arveanlegg. Utvalgskreftene i et miljø sørger for at noen arveanlegg naturlig foretrekkes fremfor andre, litt forskjellige anlegg. Det driver menneskets egenskaper i en bestemt retning. Men utvalgskreftene i forskjellige miljøer er forskjellige slik at menneskene i det ene miljøet drives i en annen retning enn i det andre. Slik blir vi forskjellige. Av enhet avles mangfold. Men det er vel å merke ikke det enkelte menneske som forandres - det kan ikke forandre seg; det er rasen som evolverer over mange generasjoner.

Du har hørt det sagt at hele menneskeheten i dag utgjør en eneste rase. Men allerede ut i fra evolusjonslæren skjønner man at det er umulig: En art som har eksistert i flere millioner år og spredt seg utover hele Jorden kan umulig bestå av en eneste rase. Antropologien er som sagt et politisert og korrupt fag. Den fornekter evolusjonslæren, trosser vitenskapelig metode, og motsier alt vi har erfart og iakttatt. Marxismen postulerer likhet blant nålevende mennesker. Den stiller evolusjonen på hodet og sier at menneskeheten var mangfoldig før men enhetlig i dag. Men slik er det ikke. Evolusjonen går alltid fra enhet til mangfold, aldri den andre veien. Riktignok kan raser dø ut slik at mangfoldet skrumper inn, men det bare hemmer veksten i mangfoldet, det stanser den ikke. Raser kan også krysse seg, men siden hver rase er perfekt tilpasset livet i et bestemt miljø blir ikke krysningsproduktene veltilpasset noe miljø og er lite livsdyktige. Naturen setter skranker for dem og holder tallet nede.

Noe "moderne menneske", kalt Homo Sapiens, finnes ikke. Spør antropologene hva de mener med det! Hvordan skiller man dette fra annet? Gi meg teori og algoritme! Den nålevende menneskehet er mangfoldig, og mangfoldet er større i dag enn før. "Moderne" vekker forestillinger om å være høyt utviklet, langt fremskreden, om å stå høyt i forhold til forfedrene. Men det er slett ikke slik at alle nålevende mennesker står høyere enn alle fortidens. Neandertalerne, som marxistene elsker å rakke ned på, overlevde i istidens Europa og var høytstående kulturmennesker. De tåler ikke sammenligning med vår tids primitive stammer av villmenn. Og hvorfor skal Neandertalerne regnes som en annen art (species) enn vi? De fleste antropologer mener jo samtidig at noen av europeernes forfedre krysset seg med dem, dvs. at noen av våre forfedre er Neandertalere! Var det ikke det som per def skulle være umulig da?

Godt! Nå er mye ryddet bort. Tåkene letter. Hva står på programmet? I juni 2019 lastet jeg ned samtlige mitokondriske DNA-sekvenser (mtDNA) som fantes i GenBanks database og som kommer fra mennesker. Hvis du vil gjenta dette skal du følge oppskriften du finner hos mitomap. Der nede på siden står det: Searching for human mtDNA sequences in GenBank? To search for complete or near-complete sequences, click: Execute Search . Klikk på execute search her og følg siden rådet som kommer opp: A FASTA file of these sequences may be downloaded by executing the search shown to the left. On the results page, use the "Send To" drop-down to download a FASTA file to your computer. . Det var hva jeg gjorde. Jeg lastet ned en FASTA-fil med 48912 mtDNA-sekvenser. Det tok tid! Den var på ca 800 Mb.

Noe som kompliserer analysen av disse sekvensene er at de ikke er nøyaktig like lange alle sammen (alignment-problemet). Jeg tellet dem som har lengde fra 16550 opp til 16590 og fant henholdsvis: 4 6 7 10 13 306 170 1074 406 932 590 513 485 203 365 961 2461 3472 9319 11356 8481 3928 1342 629 266 157 92 45 26 3 4 9 14 7 0 1 0 0 0 0 7 1. 11356 av dem har lengden 16569 så dette er den vanligste lengden. Lengdevariasjonen er ikke stor som man ser; noen få nukleotider kortere eller lengre. Jeg brukte alle som er minst 16550 nukleotider (basepar) lange, og det var 47696 stykker.

Jeg skal bruke denne samlingen av mtDNA-sekvenser til å klassifisere menneskeheten i raser. Et individs mtDNA-sekvens er 100 % arvelig så dette overvinner innvendingen om at vi skulle klassifisere ut i fra noe som ikke er biologisk arvelig men kulturelt betinget eller miljøavhengig. Rasene fremgår av disse sekvensene, så dermed gjendriver jeg påstanden om at rasene ikke finnes i genene. mtDNA-sekvensen koder ikke for noen av de velkjente eiendommelige rasetrekkene så dermed bevises det at rase ikke bare har med disse å gjøre men omfatter alt ved mennesket. Denne sekvens er som et ID-kort hvor rasens ID-nummer står oppført. Det er bare å lese det! Men man finner ikke dermed ut noenting om rasenes egenskaper; man bare skiller dem ad og bestemmer deres slektskap. Slektskapet fremgår av stamtreet, som er hva jeg skal beregne - menneskerasenes stamtre.

Treet er topologisk riktig, beskriver slektskapet; men det er metrisk intetsigende: det er blindt for evolusjonens hastighet og retning. Det sier intet om hvor forskjellig en node er blitt fra modernoden eller i hvilken retning forandringen har skjedd. mtDNA-sekvensen styrer energiproduksjonen i cellene; derfor blir den utsatt for utvalgskrefter hvis man vandrer til et annet klima. Forøvrig er den nøytral og fungerer da som et molekylært ur. De gamle raseforskerne kunne ikke finne det sanne stamtreet fordi de måtte forholde seg til observerbare raseegenskaper. Men likhetene og forskjellene i disse gjenspeiler ikke alltid slektskapet så godt. Man trenger det molekylære uret for å oppdage det sanne slektskap. mtDNA-sekvensen er ideell for dette formål. Hvis man brukte f.eks. kraniometriske data (hodeskallemål) til å klassifisere menneskeheten ville man nok komme frem til et noe anderledes tre. Dette beskriver raseforskjellene i dagens menneskehet godt, men er upålitelig når det gjelder avstamningen.

En siste ting er verd å påpeke om stamtreet: Det er et binært tre. Det forgrener seg, fordyper seg, ved spaltning av rasene (bladene). Av sannsynlighetsgrunner kan en rase bare spalte seg i to om gangen. Tenk på celledeling. Derfor blir treet binært: Det vokser ved at et blad spalter seg og får to datternoder som blir de nye bladene i den grenen. Likevel er det ikke alltid lett å bestemme rekkefølgen av spaltningene når man betrakter sporene i stor tidsavstand og med begrenset oppløsning. Som vi skal se vil det i blant være en viss usikkerhet om dette.

mtDNA-sekvensen arves kun gjennom moren; den rekombineres ikke. Den sier ikke nødvendigvis noe om individets rasesammensetning. Det man egentlig finner er stammorens rase. Individet kan i prinsippet n generasjoner tilbake ha denne stammor som eneste ane av denne rase, men det er usannsynlig. Dessuten er det ikke individet jeg skal undersøke men hele verdensbefolkningen, samplet og representert ved samlingen av sekvenser i GenBank. Analysen berøres ikke av hvorvidt folk er av blandet avstamning. Hvorfor jeg ikke bruker Y-DNA-sekvensen? Fordi den er over 57 millioner basepar lang! De andre DNA-sekvensene i cellekjernen er enda lengre. Å laste ned mange av disse ville bli altfor mye.

Det brysomme med DNA-sekvenser er at dataene ikke er reelle tall men nukleotider som bare tar 4 verdier: Adenin, Guanin, Cytosin og Thymin. AGCT. En sekvens er altså et langt ord over dette alfabet. Den genetiske avstand mellom to nukleotider er den samme for alle: 0 hvis de er like, ellers en konstant forskjellig fra 0. Dette byr også på problem når jeg skal kode dem som reelle tall, hvilket er hva jeg skal, for de statistiske metodene krever det. Hvordan det? Normalfordelingen har en særstilling i statistikken grunnet sentralgrenseteoremet. Ved å legge sammen mange stokastisk uavhengige, identisk fordelte, variabler nærmer man seg normalfordelingen, og det uansett hvilken fordeling disse variablene har! Det er et fantastisk teorem og en naturlov. Normalfordelingen representerer en strukturløs homogen populasjon hvor bare hvit støy skiller individene. De er altså like bortsett fra en viss tilfeldig variasjon. Dette er mitt begrep om rase.

Normalfordelingen er en kontinuerlig fordeling over tallinjen. Da skjønner du hvorfor jeg må frem til reelle tall og ikke kan bruke AGCT direkte. Hvis jeg koder hver av disse bokstavene som et tall blir sekvensen en lang kjede av tall, ikke et enkelt tall. Hvordan skal man da kunne snakke om normalfordeling? Den er en skalar fordeling. Løsningen på dette finnes i den statistiske verktøykassa; bi bare litt. Man skal selvsagt ikke sammenligne individene bare på en enkelt plass i sekvensen. Ei heller skal man midle over alle plassene eller noe sånt, hvilket bare visker ut informasjonen.

Men la oss begynne med tallkodingen av nukleotidene. Problemet er, som nevnt, at de må kodes slik at avstanden mellom dem er den samme for alle, dvs. den euklidske avstanden må svare til den genetiske. Men det er umulig hvis man koder dem som tall! Hvis man f.eks. koder AGCT som 1.0, 2.0, 3.0, 4.0 blir avstanden mellom A og G 1.0 men mellom A og T 3.0. Det går ikke! For å oppnå det ønskede avstandsforhold må de kodes inn i et euklidsk rom Rn av høyere dimensjon n. Sagt på en annen måte må det metriske rom av de fire nukleotidene med metrikken beskrevet oven avbildes isometrisk (avstandsbevarende) inn i et euklidsk rom. For n = 1 går det altså ikke; for n = 2 ei heller. Men for n = 3 går det: Man koder de fire nukleotidene som hjørnene i et regulært tetraeder. Hver av dem får da en vektorkode med 3 komponenter, 3 koordinater (x,y,z). Jeg bruker et tetraeder som er sentrert i origo og dreiet slik at hver koordinat er forskjellig for de fire nukleotidene. Det er viktig for at den kodede sekvensen, sekvensen avbildet inn i et euklidsk rom, skal være følsom for mutasjoner. Jeg har skilt ut de tekniske detaljene i dette og annet i en egen teknisk utredning slik at spesielt interesserte som selv vil forske kan lære seg alt om dette, mens allmenheten slipper å plages av det.

Her må det skytes inn at sekvensene som kommer fra GenBank ikke bare har AGCT i seg men også ambiguity codes som opptrer når det er usikkert hvilken nukleotid som står på plassen. Heldigvis forekommer dette sjelden; jeg regnet ut at bare 0.12 % av plassene er usikre. Jeg kodet dem alle som 0.0 .

Av sekvensen (N nukleotider lang) får man for hver koordinat i første rekke en vektor i RN. Som sagt oven er N et stort tall, typisk 16569. Det er altfor stort, og unødig stort, for alle mennesker er like på de fleste plassene i sekvensen. Jeg skal projisere vektoren ned i et rom av langt lavere dimensjon. Problemet er hvordan man skal gjøre det. Jeg kom frem til at jeg vil se på vektoren som et signal med diskret tid. Så wavelet-transformerer jeg det. Det er en integral-transformasjon hvor man bruker boksfunksjoner som modellsignaler i steden for sinus-funksjoner. En boksfunksjon svinger opp og ned mellom +1 og -1 akkurat som sinus, men i diskontinuerlige sprang, ikke harmonisk. Integralet av DNA-signalet mot en boksfunksjon gir en wavelet-koeffisient. Så bruker jeg en følge av boksfunksjoner med voksende frekvens akkurat som i Fourier-analyse. Det gir meg en følge av wavelet-koeffisienter. Disse sammen er wavelet-transformen av DNA-signalet. Jeg bruker de første n koeffisientene og får da en vektor i Rn, hvor n skal være et langt lavere tall enn N. Avbildningen fra RN ned i Rn er lineær. Jeg henviser igjen til den tekniske utredningen for den som vil se teorien i alle enkeltheter.

Wavelet-transformasjon er kontinuerlig med hensyn på punktmutasjoner. Når det gjelder innsettings- og slettingsmutasjoner er virkningen at en del av signalet skiftes (transleres) mot venstre eller høyre. Plasser ved boksfunksjonens stup vil da oppleve brå endring, men hvis bare én nukleotid er satt inn eller tatt ut rammes bare to plasser i hver periode. Når frekvensen er lav vil dette derfor ha liten effekt på wavelet-koeffisienten. Med oppløsningen 99*2 bruker jeg frekvenser opp til 66. 16569/66 = 251 så bare ett ledd av 250 blir grovt forskjellig. Det betyr at transformasjonen for praktiske formål er kontinuerlig også mhp disse mutasjonene. Dessuten er slike mutasjoner sjeldne og har liten betydning.

Husk nå at vi får en vektor i Rn for hver koordinat i nukleotidenes vektorkoder. Vi føyer dem sammen og får en vektor i R3n. For hvert individ/sekvens i samlingen får jeg en slik vektor. Dette er vektorsettet jeg skal arbeide med statistisk. Jeg begynte med n = 33 slik at jeg fikk 99 egenskaper å arbeide med. Tenkte at det ville være nok til å skille menneskeheten ad i noen hovedgrupper, og det viste seg å stemme. Å gå ned fra 16569 til 99 er kraftig kompresjon, og med tap av informasjon, men det duger til å se viktige forskjeller. Riktignok tar nukleotiden bare fire verdier, men likevel. Jeg prøvde siden å øke oppløsningen fra 99 til 99*2 = 198. Min erfaring er at det forfiner og fordyper treet men ellers bevarer det som før. Jeg spår at korreksjonen ved oppgang fra 99*2 til 99*3 blir mindre, og fra 99*3 til 99*4 enda mindre osv.. Det er resultatene for oppløsningen 99*2 jeg skal presentere. Det tok nesten en halvtime på min maskin å beregne vektorene med denne oppløsning! Likevel har jeg ikke nådd ned til det fulle stamtreets blader (rasene), så treet er så langt ufullstendig. Men resultatene og konklusjonene er så viktige og interessante at jeg ville skrive en foreløpig rapport. Det tar tid å utvikle treet og granske nodene.

Nå har jeg et vektorsett, én vektor for hver sekvens i samlingen. Altså 47696 vektorer. Oppgaven er å klassifisere dem. For å gjøre det bruker jeg Principal Component Analysis (PCA). Det går ut på å finne hovedretningen i vektorsettet. Forklaringen på hvordan man gjør det overlater jeg til den tekniske utredningen, men det bygger på enkel lineær regresjon og man finner retningen hvori punktsettet er mest vidstrakt. Koordinaten i den retningen skiller punktene sterkest mulig ad. Sagt på en populasjonsgenetisk måte er dette egenskapen hvori individene i populasjonen er mest forskjellige. Den kalles hovedegenskapen (Principal Component).

Når hovedretningen er funnet beregner jeg hver vektors koordinat i den retningen ved å ta skalarproduktet (prikkproduktet). Da ender jeg opp med et sett tall (skalarer). Og da er jeg nådd dithen at jeg kan spørre om dette sampel er normalfordelt. Jeg regner vektorsettet som trukket fra en raseren befolkning hvis og bare hvis svaret er ja. For å avgjøre om sampelet er normalfordelt bruker jeg statistisk hypoteseprøving, men ikke Pearsons velkjente χ2 goodness-of-fit test eller noen av de andre generelle testene. Disse testene avgjør om fordelingen er normal eller ikke, men i raseforskningen er spørsmålet alltid om den er entoppet eller flertoppet. Da finnes det en sterkere test. Mitt hovedredskap er båsalgoritmen.

Båsalgoritmen teller toppene. Den deler inn dataintervallet i k båser, f.eks. k = 30. Den antar at fordelingen er uniform slik at sannsynligheten i hver bås er p = 1/k. Med sampelstørrelsen n gir binomialfordelingen forventet antall individer i hver bås, np, og variansen, np(1-p). Hvis n er stor nok og k liten nok er hver av disse fordelingene tilnærmet normal (sentralgrenseteoremet). Hvis båstallet ligger i fordelingens øvre α-hale slutter jeg at båsen hører til en topp. Hvis det ligger i nedre α-hale slutter jeg at den hører til en bunn. Jeg teller toppene oppover tallinjen ved å telle når jeg kommer til en toppbås, men bare telle videre etter at jeg har passert en bunnbås. Hvis jeg teller 0 topper slutter jeg at fordelingen er uniform, hvilket betyr at der bare er bakgrunnsstøy og ingen rase. Hvis jeg teller 1 slutter jeg at befolkningen er raseren (normalfordelt i hovedegenskapen) og at jeg har nådd et blad på stamtreet. Ellers slutter jeg at der er flere raser og at jeg må skille dem ad.

Forutsetningen her er at rasene, de normale komponentene, er disjunkte. Det er de faktisk i den nåværende menneskehet. Så dette byr ikke på problemer. Men båsalgoritmen i dens enkleste form som beskrevet virker bare når de ulike rasene er omtrent like store eller ikke altfor ulike i størrelse. Er ikke dette oppfylt, og det er det ikke alltid, så blir det vanskeligere. Da må man gå til verks i flere iterasjoner og fjerne toppene man finner fra sampelet før man går videre. Båsalgoritmen virker heller ikke bra når toppene ligger for nær hverandre. Et alternativ når man har nærliggende topper er polynommetoden. Man tilpasser da en 2m-gradskurve til den empiriske tettheten i dataområdet. Hvis kurven passer godt slutter man at man har m topper, og kurvens bunner gir skillepunktene mellom dem.

Hvis hypotesen om normalitet forkastes slutter jeg at befolkningen er raseblandet. Oppgaven er da å finne den historiske spaltningen. Når en rase er i ferd med å spalte seg beveger fordelingen seg bort fra normalfordelingen i retning en totoppet fordeling. Dette kan beskrives med den nest viktigste fordelingen i raseforskningen, den normale blandingsfordelingen med to komponenter, i korthet den 2-blandede fordelingen, som er en konvekskombinasjon av to forskjellige normalfordelinger: f(x; μ1122,α) = α1 fN(x; μ11) + α2 fN(x; μ22) hvor α1, α2 >= 0 og α1 + α2 = 1, α = α1. Den har fem parametre, mot normalfordelingens to. Å estimere dem er et berømt problem som er meget vanskelig å løse. Maximum Likelihood Estimatorene (MLE) eksisterer ikke! Det finnes ingen formler for parametrene uttrykt i sampelvariablene slik som for parametrene i normalfordelingen. Man må estimere dem algoritmisk. Heldigvis trenger vi ikke dette her; man trenger det bare når man vil studere evolusjonen på nært hold. Vi skal bare se på de to normale komponentene etter at de er blitt disjunkte.

To normalfordelinger er i prinsippet aldri helt disjunkte siden hver av dem i teorien er allestedsnærværende. Men i hypoteseprøvingen har man et mer praktisk statistisk forhold til det. Man kan si at de er praktisk disjunkte hvis et (1 - α) -konfidensintervall for den ene og ett for den andre er disjunkte.

Hvis man har kommet til at der er flere topper i fordelingen, som antas disjunkte, hvordan skal man skille dem ad? Husk at de skal kløves i to datternoder. Hvor ligger det optimale skillepunktet som svarer til den historiske spaltningen? Jeg brukte båsalgoritmen til å finne bunnene mellom toppene. Slik fikk jeg skilt toppene ad. I hver av dem estimerte jeg parametrene i normalfordelingen på vanlig måte. For hvert par av naboer A,B fant jeg det optimale skillepunktet: Det er punktet som ligger like langt fra sentrum i A målt i A-standardavvik som fra sentrum i B målt i B-standardavvik. Det finnes et entydig slikt punkt. Jeg definerer avstanden mellom A og B som denne felles avstanden. Jeg setter fordelingens skillepunkt mellom naboene A,B som har størst innbyrdes avstand, og bruker det optimale skillepunktet mellom A og B.

Slik kunne jeg spalte settet av skalarer. Jeg fikk ett sett tall som ligger under skillepunktet og et annet som ligger over. Dermed kunne jeg samle vektorene som hører til det første i ett sett og de som hører til det andre i et annet. På hvert av disse to vektorsettene brukte jeg algoritmen rekursivt. Jeg fortsatte å utvikle treet inntil jeg i et blad nådde en normalfordelt populasjon eller slapp opp for individer eller variansen i vektorsettet brøt sammen og ble null eller nesten null. I det siste tilfelle nådde jeg grensen for oppløsningens evne til å skille rasene. I få grener nådde jeg ned til rasene, men jeg fant de viktigste skillene, og av dem har jeg kunnet utlede mange interessante konklusjoner.

Jeg kom altså frem til et binært stamtre for menneskerasene. Hver node i treet har en unik hovedegenskap. Hver node svarer også til en forhistorisk rase. I et tidløst perspektiv kaller jeg derfor alle nodene raser, men hvis fokus er på nåtiden kaller jeg dem rasefamilier. Roten i treet er urmenneskeheten. Den definerer jeg som nålevende menneskers siste felles forfedre.

Det var først nå det store arbeidet begynte med å finne ut noe om nodene i treet. Hvilke mennesker rommes av en node og hvor holder de til? Det er faktisk vanskelig å få svar på, for min eneste kilde til opplysning om individene bak sekvensene er noen sparsomme notiser i recorden i GenBanks database. Jeg laget et skript for å laste ned et sett recorder ved bruk av GenBanks eutils -verktøy, og plukket ut den ønskede metainformasjonen med et program. FASTA-filen med sekvensene i min samling har en header-rad for hver sekvens, men der står i beste fall haplogruppen, ellers bare referansen (accession-version) til recorden i GenBanks database og annet. Haplogruppene ble viktige for meg i å kartlegge nodene i treet. Husk at jeg bare har data om mtDNA-sekvenser, så det er alltid mtDNA-haplogrupper jeg mener. Jeg laget et verktøy som viser haplogruppefordelingen i en node. Siden kunne jeg liste alle headere for en valgt haplogruppe i den noden. Hver header gir meg en referanse så jeg får da et sett slike, og med skriptet kan jeg laste ned all ønsket metainfo om individene bak sekvensene. Det er ikke mye som står der, desværre, men som regel finner jeg info om land, etnisk gruppe, stamme, haplogruppe, samt en merknad med diverse info - i alle fall noe av dette. Når jeg fant interessant info i en record utnyttet jeg at de ofte forekommer i serie slik at jeg kan slå opp de andre også. Jeg tok også stikkprøver av individer som mangler haplogruppe i headeren. På den måten har jeg møysommelig kunnet sette sammen bitene i puslespillet.

Er du spent? Desværre er ikke bildet av nodene særlig klart unntatt på høyere nivå i treet. Bladene er oftest ikke renrasede og har en veldig utbredelse. Sånn ser menneskerasenes stamtre ut:

@0,0 (47696) urmenneskeheten
   @1,0 (2883) B:aboriginer:SørøstAsia,Oceania,SørAmerika
   @1,1 (44813) restmenneskeheten
      @2,2 (3121) BC:mongoler
         @3,4 (1741) B
            @4,8 (1150) BT:ØstAsia,Amerika,Russland,Europa
            @4,9 (591) BI:SørøstAsia,SørAmerika
         @3,5 (1380) CF:Amerika,SørøstAsia,Sibir
      @2,3 (41692) HU:aftenlendinger
         @3,6 (14996) UALFH
            @4,12 (5648) UCFA
               @5,24 (2186) CFU:SørAmerika,SørøstAsia,Sibir,Iran,India,Irak,SørAfrika
               @5,25 (3462) UAF
                  @6,50 (2957) UAF:Sverige,Finland,Russland,Serbia,Amerika,Kina,Midtøsten,India
                  @6,51 (505) L
                     @7,102 (271) L
                        @8,204 (136) L
                        @8,205 (135) L:Berber,Andalusia
                     @7,103 (234) L
                        @8,206 (110) L:SørAfrika,Namibia
                        @8,207 (124) L:SørAfrika,Namibia,Jemen
            @4,13 (9348) UAHL:Europa,Afrika,Russland,Amerika,Midtøsten,India
         @3,7 (26696) HUT
            @4,14 (11547) HUTJ:Europa
            @4,15 (15149) HUTI:Europa

Her har jeg brukt innrykk til å vise dybden i treet. Kodene som begynner med @ er systematiske rasenavn. Det er simpelthen nodens adresse i treet som jeg representerer slik: Først kommer nodens dybde; siden et tall som angir stien fra roten til noden: Går man til venstre blir biten 0, ellers 1; når man har nådd frem til noden har man således en bitstreng. Jeg oppfatter den som et heltall i binær notasjon og konverterer til vanlig desimal notasjon. F.eks. betyr @2,3 noden i dybde 2 med bitstrengen 11, så man har gått til høyre to ganger for å komme dit. Tallet som står i parentes er antall individer i samlingen som hører inn under noden. Vær klar over at menneskeheten langt i fra er jevnt og tilfeldig samplet, så at en node har få (mange) individer her behøver ikke bety at rasen er liten (stor) i verdensbefolkningen. Siden står i noen noder de dominerende haplogruppene; i @2,3 er det H og U. Noen av de høyeste nodene har jeg satt navn på: urmenneskeheten, aboriginere, restmenneskeheten, mongolere, aftenlendinger. Ellers står en liste over land eller verdensdeler hvor jeg har funnet forekomster. Desværre har jeg ikke hatt noen mulighet til å bedømme hvor tallrikt rasen forekommer i disse ulike landene. Hvor Europa står oppført først har europeere en sterk dominans i samlingen, men det er usikkert hvor sterk den er i virkeligheten. Etter å ha gått gjennom utallige eksempler har jeg likevel dannet meg et inntrykk av hvor en nodes hjemsted ligger.

La meg stanse litt og se hva jeg har utrettet så langt. Påstanden fra dagens skoleantropologer om at det ikke finnes noen raser, bare geografiske gradienter (clines), har jeg gjendrevet. Det finnes både kontinuerlig og diskret struktur i menneskeheten; kontinuerlig (glidende overganger) innad i rasene og diskret (brå overganger) mellom dem. For at du skal se dette med egne øyne gir jeg som eksempel fordelingen over båser i aftenlendingenes node (@2,3) med 30 båser:

197.3580        0.000096
230.3936        0.000024
263.4293        0.000120
296.4650        0.004581
329.5007        0.036530
362.5363        0.065504
395.5720        0.126883	topp 1
428.6077        0.107551	topp 1
461.6434        0.016454
494.6790        0.001943	skillepunktet
527.7147        0.002183	mellom disse	511.1968
560.7504        0.010865
593.7861        0.056702	topp 2
626.8217        0.128754	topp 2
659.8574        0.075290	topp 2
692.8931        0.004965
725.9288        0.003502
758.9644        0.009618
792.0001        0.042310
825.0358        0.120215	topp 3
858.0714        0.033220
891.1071        0.001943
924.1428        0.004485
957.1785        0.007675
990.2141        0.030725
1023.2498       0.056893	topp 4
1056.2855       0.025688
1089.3212       0.012065
1122.3568       0.012065
1155.3925       0.001151

Det er helt klart at vi her har flere disjunkte normalfordelinger: raser! Bunnene mellom dem ligger nesten på null så sjansen for å klassifisere feil er nesten lik null.

La oss gå gjennom treet sammen. Vi begynner med urmenneskeheten i @0,0. Den spaltet seg i aboriginere (@1,0), som nesten bare har haplogruppe B, og restmenneskeheten (@1,1). Aboriginene har sitt hovedsete i SørøstAsia, ute på øyene i Stillehavet, og i SørAmerika. Restmenneskeheten spaltet seg videre i mongolere (@2,2) og aftenlendinger (@2,3). Mongolene domineres av haplogruppene B og C men har også mye F. De holder til i ØstAsia, Sibir og Amerika. Aftenlendingene domineres av haplogruppene H og U. De spaltet seg i @3,6 og @3,7. @3,6 rommer Midtøsten, India og Afrika, men har også noen grener som strekker seg nordover i Asia, hvorav noen utvandret til Amerika. @3,7 er den europeiske grenen.

Som vi ser påminner dette sterkt om klassisk raselære. Men vi ser noen selsomme ting som jeg er den første til å oppdage. For det første, elefanten i rommet: Den afrikanske grenen @6,51 ligger på dybde 6 i treet! Og afrikanerne er ikke en gang samlet der! Du kjenner sikkert til skoleantropologenes yndlingsdoktrine om at alle mennesker stammer fra Afrika og at hovedskillet i menneskeheten går mellom afrikanere og ikke-afrikanere, L-mennesker og ikke-L (haplogruppe L). I følge den doktrinen er afrikanerne de som ble igjen i Afrika, mens alle andre mennesker utvandret. Hvis dette var sant og menneskets urhjem lå i Afrika (Afrika-hypotesen) skulle vi se skillet afro mot ikke-afro høyt oppe i treet. Afrikanerne skulle ha skilt seg ut i en egen gren og vært samlet der i en node nær roten. Men det er slett ikke hva jeg har funnet. Hva skal dette bety?

Jeg bega meg ut på leting etter afrikanerne. Begynte med dem som skiller seg sterkest ut fra andre aftenlendinger og kan formodes å utgjøre Afrikas urbefolkning: Pygmeene i Kongo og buskmennene (khoisan) i det sørlige Afrika. Jeg visste at de har mye L0 i seg og det hjalp meg å finne dem. Jeg fant og klassifiserte 45 buskmenn. Her er resultatet:

KC622099.1      @6,50
KC622098.1      @6,50
KC622097.1      @6,50
KC622096.1      @5,24
KC622095.1      @4,14
KC622094.1      @4,14
KC622093.1      @4,14
KC622092.1      @5,24
KC622091.1      @4,14
KC622090.1      @6,50
KC622089.1      @6,50
KC622088.1      @6,50
KC622087.1      @6,50
KC622086.1      @4,14
KC622085.1      @4,14
KC622084.1      @6,50
KC622083.1      @4,14
KC622082.1      @4,14
KC622081.1      @6,50
KC622080.1      @6,50
KC622079.1      @4,14
KC622078.1      @8,207
KC622077.1      @4,13
KC622076.1      @4,14
KC622075.1      @6,50
KC622074.1      @4,13
KC622073.1      @4,15
KC622072.1      @4,15
KC622071.1      @4,15
KC622070.1      @4,15
KC622069.1      @4,15
KC622068.1      @5,24
KC622067.1      @5,24
KC622066.1      @4,14
KC622065.1      @1,0
KC622064.1      @1,0
KC622063.1      @8,207
KC622062.1      @4,14
KC622061.1      @4,14
KC622060.1      @4,13
KC622059.1      @4,13
KC622058.1      @4,13
KC622057.1      @4,14
KC622056.1      @1,0
KC622055.1      @6,50

Heureka! Ser du hva jeg ser? La meg føre statistikk over dette:

@5,24   4       9 %
@1,0    3       7 %
@4,15   5       11 %
@4,14   14      31 %
@6,50   12      27 %
@4,13   5       11 %
@8,207  2       4 %

Buskmennene er forkomne bastarder av alle Jordens raser! Akk, Afrikas stolte renrasede urbefolkning. En illusjon blott. Sic transit gloria mundi. Bare mongolerblodet mangler. Men de er 7 % aborigine. Ironisk nok er de bare 4 % afrikanske, hvis man med det forstår @6,51.

La oss se på pygmeene også. Jeg fant hele 87 av dem i min samling og klassifiserte alle. Resultat:

HM771199.1	@1,0
HM771198.1	@4,14
HM771197.1	@4,14
HM771196.1	@4,14
HM771195.1	@4,13
HM771194.1	@4,13
HM771193.1	@4,13
HM771192.1	@4,13
HM771191.1	@4,13
HM771190.1	@1,0
HM771189.1	@1,0
HM771188.1	@1,0
HM771187.1	@5,24
HM771186.1	@5,24
HM771185.1	@5,24
HM771184.1	@5,24
HM771183.1	@5,24
HM771182.1	@5,24
HM771181.1	@5,24
HM771180.1	@3,5
HM771179.1	@3,5
HM771178.1	@3,5
HM771177.1	@4,13
HM771176.1	@4,13
HM771175.1	@4,13
HM771174.1	@5,24
HM771173.1	@4,13
HM771172.1	@4,8
HM771171.1	@4,14
HM771170.1	@5,24
HM771169.1	@4,13
HM771168.1	@4,13
HM771167.1	@3,5
HM771166.1	@3,5
HM771165.1	@5,24
HM771164.1	@3,5
HM771163.1	@5,24
HM771162.1	@5,24
HM771161.1	@1,0
HM771160.1	@1,0
HM771159.1	@4,15
HM771158.1	@4,15
HM771157.1	@4,15
HM771156.1	@5,24
HM771155.1	@5,24
HM771154.1	@5,24
HM771153.1	@5,24
HM771152.1	@5,24
HM771151.1	@5,24
HM771150.1	@3,5
HM771149.1	@3,5
HM771148.1	@3,5
HM771147.1	@5,24
HM771146.1	@5,24
HM771145.1	@4,13
HM771144.1	@5,24
HM771143.1	@3,5
HM771142.1	@3,5
HM771141.1	@5,24
HM771140.1	@5,24
HM771139.1	@5,24
HM771138.1	@3,5
HM771137.1	@3,5
HM771136.1	@3,5
HM771135.1	@1,0
HM771134.1	@5,24
HM771133.1	@5,24
HM771132.1	@5,24
HM771131.1	@5,24
HM771130.1	@5,24
HM771129.1	@5,24
HM771128.1	@5,24
HM771127.1	@5,24
HM771126.1	@4,15
HM771125.1	@4,15
HM771124.1	@3,5
HM771123.1	@3,5
HM771122.1	@4,13
HM771121.1	@4,15
HM771120.1	@4,15
HM771119.1	@4,15
HM771118.1	@4,15
HM771117.1	@4,15
HM771116.1	@4,15
HM771115.1	@3,5
HM771114.1	@3,5
HM771113.1	@3,5

Her er statistikken:

@5,24   32      37 %
@3,5    19      22 %
@4,8    1       1 %
@1,0    7       8 %
@4,15   11      13 %
@4,14   4       5 %
@4,13   13      15 %

Pygmeene er en blanding av alt mulig de også! De har til og med mongolsk blod i seg, mye også (23 %). Det eneste som mangler er det afrikanske blodet i @6,51. Stikk den!

Nå ville jeg teste resten av afrikanerne. Jeg klassifiserte 77 individer fra SørAfrika og Namibia som ikke er buskmenn men som er L0. Resultat:

@5,24   17      22 %
@3,5    1       1 %
@4,15   37      48 %
@4,14   3       4 %
@4,13   3       4 %
@8,206  8       10 %
@8,207  8       10 %

Ser man på! Dette var interessant. For det første ser vi at det aboriginske blodet er borte. Det mongolske er også nesten helt borte (1 %). De har hele 20 % afrikansk blod i seg :). Ellers er det den europeiske grenen @4,15 som dominerer. Den rommer altså annet enn bare europeere. SørAfrika og Namibia synes rasemessig å være helt eksepsjonelle steder i Afrika. Jeg så på andre afrikanske land. Her er Mozambique:

KR135884.1	@4,15
KR135883.1	@4,15
KR135882.1	@4,15
KR135881.1	@4,15
KR135880.1	@4,15
KR135879.1	@4,15
KR135878.1	@4,15
KR135877.1	@4,15
KR135876.1	@4,15
KR135875.1	@4,15
KR135874.1	@4,15
KR135873.1	@4,15
KR135872.1	@4,15
KR135871.1	@4,15
KR135870.1	@4,15

Hva ser jeg? 100 % @4,15! Jeg undersøkte Etiopia, Sudan og Somalia. Sammenlagt 25 individer. Resultat:

@4,15   22      88 %
@4,14   2       8 %
@4,13   1       4 %

Aha, nå demrer det for meg. Det må finnes en nyafrikansk rase under @4,15. @6,51 er den gammelafrikanske rasen som nå bare finnes i SørAfrika, og litt blant berberne i Marokko. Men @5,24 må vel ha kommet til Afrika enda tidligere enn @6,51, for pygmeene har hele 37 % @5,24 men ikke noe @6,51 i det hele tatt. I SørAfrika og Namibia generelt er 22 % @5,24. Buskmennene er noe for seg; de domineres av @4,14 og @6,50.

Tåkene letter. Fakta: Afrikanerne tilhører en rekke vidt forskjellige familier. Dette forklarer det store genetiske mangfold hos dem. Alle disse familiene har sine tyngdepunkt utenfor Afrika, unntatt @6,51 som praktisk talt er utdødd. Det innebærer at det ikke finnes noen urbefolkning i Afrika; alle afrikanere er innvandrere. Afrika ble befolket i flere innvandringsbølger, og man finner spor etter dem alle i det sørlige Afrika, samt i Jemen. Under istiden var Rødehavet tørrlagt og Jemen en bro mellom Afrika og Asia. Etter istiden ble landet en avkrok hvor rester av svunnen tids folkevandring er bevart.

Den første innvandringsbølgen til Afrika var aboriginenes. De er utdødde i Afrika, men genetiske vitnesbyrd om at de en gang var der finnes hos buskmennene og pygmeene. Dessuten fant jeg rester i Jemen:

KM986624.1      Y538    L0a2a2a Yemen
KM986599.1      Y358    L0a2a2a Yemen
KM986580.1      Y252    L0a2a2a Yemen
KM986571.1      Y206    L0a2c   Yemen
KM986569.1      Y193    L0a2a2a Yemen
KM986565.1      Y166    L0a2a2a Yemen
KM986563.1      Y158    L0a2a2a Yemen
KM986522.1      Y103    L23456  Yemen
KM986519.1      Y016    L0a2c   Yemen

Alle disse har jeg klassifisert som aborigine. Annen innvandringsbølge var mongolenes. Man kan se hos buskmennene og pygmeene at mongolene i liten grad blandet seg med aboriginene, men fordrev dem og omsider utryddet dem. Tredje innvandringsbølge bragte aftenlendingene til Afrika ved @5,24. De fordrev mongolene og klarte nesten å utrydde dem. I dag er pygmeene de eneste overlevende i Afrika med et betydelig innslag mongolsk blod (23 %). Fjerde innvandringsbølge var aftenlendingene i @6,50 og @6,51 hvor sistnevnte danner en rent afrikansk familie. Pygmeene har intet av dette i seg så jeg formoder at de er Afrikas eldste overlevende befolkning som først ble fortrengt og isolert. Forholdet mellom @6,50/@6,51 og @5,24 kan jeg ikke lese ut av statistikken; de ble fortrengt sammen til SørAfrika. Endelig kom @4,13 @4,14 og @4,15 og mest sannsynlig i den rekkefølgen. @4,13 og @4,14 finnes nå bare i rikelig monn hos buskmennene og pygmeene. Hos buskmennene dominerer til og med @4,14. @4,15 dominerer hos alle nålevende afrikanere unntatt buskmenn og pygmeer.

Det er Afrikas forhistorie i et nøtteskall. Det er et innvandringsland og en smeltedigel. Kanskje søkte alle vesteurasiske raser tilflukt der under istiden. Rettere sagt, en del av dem. De andre holdt seg enten utenfor Afrika eller vandret nordover igjen så snart klimatet tillot. De som ble igjen i Afrika evolverte etterhvert negroide trekk. Mørk hud var f.eks. nødvendig for å overleve Afrikas brennende sol inntil man kunne sy tøy å dekke seg med. Det ble vel for varmt i Afrika å dekke seg med dyrehuder. Utvalgskreftene i Afrika pekte i det hele tatt i en annen retning enn i Europa og drev snart afrikanerne langt bort fra oss. Det er altså ikke fjernt slektskap som gjør oss så forskjellige men evolusjonens drivkrefter. Det gjelder ikke bare kroppsbygning men enda mer karakteregenskaper, sinnelag, åndsevner. Alle mennesker som har evolvert i et belte om ekvator er primitive, står lavt og utretter ingenting. Det er den harde sannhet.

Afrika-hypotesen er med dette så godt som død - jeg har slaktet skoleantropologenes hellige ku :). Men jeg vil ikke erklære den død før jeg har sett direkte bevis for at menneskehetens urhjem ligger i SørøstAsia. Det er imidlertid min arbeidshypotese. Aboriginene har sitt tyngdepunkt der og står nok urmenneskene nærmest. Jeg har ikke akkurat gjendrevet Afrika-hypotesen, men den er sterkt svekket. Det er vanskelig å forestille seg et hendelsesforløp som forsoner den med stamtreet. Det måtte bli meget komplisert og usannsynlig. Afrikas urbefolkning måtte være utryddet og sporløst forsvunnet. Antar man et urhjem i SørøstAsia faller derimot alle brikker naturlig på plass. Jeg skal prøve å avgjøre dette spørsmålet endelig i en ny utredning med et nytt og anderledes datasett, og andre metoder.

Et spørsmål nær beslektet med afrikanernes opprinnelse er om negrito-stammene i det fjerne Østen er i slekt med afrikanerne eller bare oppviser konvergent evolusjon under lignende utvalgskrefter i tropene. Det finnes negritoer i Malaysias jungel (f.eks. Semang), på Andaman-øyene, Filippinene, Papua Ny Guinea, Melanesia og i Australia. Her er Andaman-individene klassifisert:

AY950300.2	@4,13
AY950299.2	@4,14
AY950298.2	@4,13
AY950297.2	@1,0
AY950296.2	@4,14
AY950295.2	@4,14
AY950294.2	@4,13
AY950293.2	@4,13
AY950292.2	@4,14
AY950291.2	@4,14
AY950289.2	@3,5
AY950290.1	@1,0
AY950288.1	@1,0
AY950287.1	@1,0
AY950286.1	@1,0

Statistikk:

@3,5    1       7 %
@1,0    5       33 %
@4,14   5       33 %
@4,13   4       27 %

Så de har mye aftenlandsk blod i seg, og det må nok tolkes som negroid blod. @4,13 og @4,14 må her bety de samme nyafrikanske rasene som i Afrika er fortrengt og nesten bare finnes hos buskmennene og pygmeene. De synes å ha svært lite mongolsk blod i seg, men derimot en hel del aborigint, hvilket ikke overrasker. Dermed er spørsmålet avgjort for andamanernes vedkommende: Det er slektskap! Dette bekrefter forøvrig resultatet fra 1973 av en undersøkelse av andamanernes hodeskalle-morfologi som sluttet at den ligner mer på afrikaneres enn asiaters. Her er statistikk for Papua Ny Guinea:

@5,24   1       2 %
@1,0    33      62 %
@4,13   19      36 %

De er mest aborigine men har også mye nyafrikansk blod i seg. Slektskap her også. Solomon-øyene:

@5,24   24      51 %
@1,0    4       9 %
@4,15   3       6 %
@4,13   16      34 %

Her ser vi interessant nok at den gammelafrikanske rasen i @5,24 dominerer. Men de har også mye nyafrikansk fra @4,13. De er nesten ikke aborigine. Slektskap. Her er litt urbefolkning fra Australia og Papua:

EF495222.1      aus38   Australia: Kalumburu	@1,0
EF495221.1      pap12   Papua New Guinea: Bundi area	@4,15
EF495220.1      aus20   Australia: Kalumburu	@4,13
EF495219.1      aus28   Australia: Kalumburu	@4,14
EF495218.1      aus33   Australia: Kalumburu	@4,13
EF495217.1      pap45   Papua New Guinea: Bundi area	@4,15
EF495216.1      pap84   Papua New Guinea: Bundi area	@4,15
EF495215.1      pap100  Papua New Guinea: Bundi area	@4,14
EF495214.1      aus9    Australia: Kalumburu	@4,15

Nyafrikansk. Det får være nok. Vi ser at svaret alltid er det samme: slektskap! Akkurat disse har mye nyafrikansk blod i seg. Jeg vil forresten ta med noen Vedda-individer fra Sri Lanka som kan mistenkes å høre til den negroide befolkning i Asia. Desværre har jeg bare 3 av dem:

MH844548.1      @4,15
MH844547.1      @4,14
MH844546.1      @4,15

Det bekrefter min mistanke. Hvordan kan dette slektskap forklares? Jeg formoder at negrene før i tiden var utbredt over hele SørAsia fra Afrika i vest til Ny Guinea, Melanesia og Australia i øst. Dette varte helt frem til yngre steinalder. Da oppsto elvekulturene fra Nilen i vest til Mekong i øst. Folk gikk over til husdyrhold og jordbruk; trengte beitemarker og pløyde åkre. Skogene ble hugd ned. Negrene, som var jegere og samlere, mistet sitt habitat og sine jaktmarker. De ble fordrevet, utryddet eller tatt til slaver. Derfor finner vi dem nå bare ute på øyer i det Indiske hav og Stillehavet, samt i jungelen hvor den ennå finnes. Deres utbredelsesområde ble kappet i to: Afrika og det fjerne Østen.

Hva med Indias forhistorie; gjenspeiler den Afrikas? Jeg klassifiserte 170 indere og her er statistikken:

@5,24   58      34 %
@1,0    1       1 %
@4,15   6       4 %
@4,14   4       2 %
@6,50   55      32 %
@4,13   46      27 %

Her ser vi både likheter og forskjeller fra Afrikas forhistorie. For det første er aboriginene nesten utdødde i India, akkurat som i Afrika. I India ser jeg ikke den minste rest av mongolene. Kom de aldri til India eller er de utdødde? Det kan være en effekt av at jeg har søkt indere på visse haplogrupper som jeg vet er utbredt i India. Men jeg tror likevel de er nær utdødde i India, akkurat som i Afrika. En forskjell fra Afrika er at @5,24 ennå dominerer. Siden @5,24 ikke er negroid i India får vi her en indikasjon på at den ble negrifisert etter ankomst til Afrika. @6,50 er nest største rase i India, men finnes knapt i Afrika. @4,13 står sterkt i India, men er fortrengt i Afrika. På den annen side finnes @4,14 og @4,15 knapt i India. Jeg slutter av dette at også India er et innvandringsland, for aboriginene, og kanskje mongolene også, må ha blitt fortrengt av senere innvandrere. Noen urbefolkning har India ikke. Menneskehetens urhjem må ligge i SørøstAsia.

Den mongolske folkevandringen, som vi konstaterte i Afrika, nådde Europa også. Jeg har hørt at Cro Magnon -mennesket under istiden hadde haplogruppe C, og det tyder på at det var mongolsk, selv om jeg ikke har kunnet bekrefte dette da jeg mangler sekvenser. Aftenlendingene fordrev mongolene fra Europa og det finnes i dag ikke andre etniske spor etter dem fra gammel tid enn muligens lappene (samene) i NordSkandinavia. De tilbragte visst istiden som fanger på en isfri stripe langs norskekysten. Jeg fant 3 samer i samlingen og klassifiserte dem, og de hadde alle europeisk rase, men det kan jo skyldes oppblanding med nordmenn og svensker i nyere tid:

KU953390.1      FTDNA 409205    U5a2a1a ethnicity:Finnish, Saami; origin_locality:Finland: Inari    @4,15
MF356207.1      FTDNA 575639    U5b1b1a ethnicity:Saami; origin_locality:Norway: Tana   @4,14
MF152681.1      FTDNA 315965    U5b1b1a1        ethnicity:Saami; origin_locality:Sweden @4,14

Men jeg har funnet en rekke mongolske individer spredt rundt om i Europa og nærområder som nok er rester etter en eldgammel mongolsk bosetning i Europa. Her er eksempler:

MK820649.1      FTDNA MI45247   T2f1a1  ethnicity:Scottish; origin_locality:Scotland: Caithness	@4,8
MK580638.1      FTDNA 167860    T2f1a1  ethnicity:Finnish; origin_locality:Finland: Perho	@4,8
MK391750.1      FTDNA 395743    T2f1a1  ethnicity:English; origin_locality:England: Yorkshire	@4,8
MH763828.1      FTDNA IN34446   T2f4    ethnicity:Chechen; origin_locality:Dishni-Vedeno	@4,8
MG952838.1      S2      T2f1a1a Hungary: Szeged region	@4,8
KY670861.1      9_Ps    T2f     Russia: Pskov region	@4,8
KY670859.1      8_VN    T2f     Russia: Novgorod region	@4,8
KX440372.1      JT186   T2f2    Romania	@4,8
KX440371.1      JT185   T2f4    Azerbaijan	@4,8
KX440370.1      JT184   T2f     Syria	@4,8
KX440369.1      JT183   T2f1a1a France	@4,8
KX440368.1      JT182   T2f1a1a France	@4,8
JN887353.1      FTDNA 212243    T2f1    ethnicity:Swedish; origin_locality:Sweden: Tagarp	@4,8
JF940522.1      T2f1a   origin_locality:Sweden	@4,8
HQ286590.1      T2f     ethnicity:Armenian	@4,8
KR030505.1      FTDNA B12109    T2b     origin_locality:France: Alsace: Bas Rhine	@4,8
KM013847.1      FTDNA 314859    T2f2    ethnicity:Pomak; origin_locality:Bulgaria: Kochan	@4,8
KF322082.1      FTDNA 287493    T2f     ethnicity:Finnish; origin_locality:Finland	@4,8
JQ619780.1      T2f     ethnicity:Finnish	@4,8
MF116367.1      FTDNA 439572    H1m     ethnicity:Norwegian; origin_locality:Norway: MRO	@4,8
GQ153528.1      ethnicity:English	@4,8
JN657206.1      FTDNA E13940    K       ethnicity:Germano-celtic; origin_locality:Germany, Freiburg	@4,8
KT803045.1      FTDNA 380450    K1a11   ethnicity:French; origin_locality:France Rh##ne-Alpes Loire	@4,8
KT725859.1      FTDNA B59928    K1a11   ethnicity:English-Irish-French-German; origin_locality:USA: IL	@4,8
MH029820.1      FTDNA IN12850   W1      ethnicity:Finnish; origin_locality:Finland: Mikkelin mlk	@4,8
KX856070.1      FTDNA 521812    I5a1    ethnicity:English; origin_locality:England: Great Yarmouth	@4,9
KX017466.1      FTDNA B9452     I5a     ethnicity:Finnish; origin_locality:Finland	@4,9
KT124612.1      FTDNA 410819    I1a1d   ethnicity:Welsh; origin_locality:Wales: Llandeilo, Carmarthenshire	@4,9
KM925143.1      FTDNA 309864    I5a     ethnicity:Finnish; origin_locality:Finland: Pori	@4,9
KJ746501.1      FTDNA B6205     I5a1a   ethnicity:English; origin_locality:UK: W Sussex: Yapton	@4,9
MG952795.1      D13     H1b1b   Hungary: Debrecen region	@3,5
MG744602.1      FTDNA 762575    I5a1a   ethnicity:French; origin_locality:France	@3,5
KU171095.1      Theo1   K1c     Greece: Theopetra, Thessaly	@3,5

De Britiske øyer og Skandinavia synes overrepresentert og det antyder at disse (halv)øyene i Europas utkant var mongolenes siste tilfluktssted i Europa.

Haplogruppene var til god hjelp for meg da jeg skulle identifisere rasene. Men hva er egentlig sammenhengen mellom haplogrupper og raser? Det finnes ingen en-til-en korrespondanse mellom dem. Sagt på en annen måte gir ikke haplogruppen perfekt informasjon om rasen. La oss ta et eksempel: Vi står i roten og får vite om en mann at han har haplogruppe B. Hva er sannsynligheten for at han er aborigin? Vi vil beregne den betingede sannsynligheten P(aborigin | B). P(aborigin ∩ B) = P(B | aborigin) P(aborigin). Og P(aborigin ∩ B) = P(aborigin | B) P(B). Så P(aborigin | B) = P(B | aborigin) P(aborigin) / P(B) = 0.9 * 0.06 / 0.08 = 0.68 . Altså sier ikke den opplysningen om mannen så mye om hans rase. Det lønner seg å gjette at han er aborigin, men sannsynligheten for å ta feil er stor. For fremtiden bør man angi rase i steden for haplogruppe.

Erlend