Csúcs Sándor: Leggyakoribb szavaink eredete

A finnugor nyelvrokonságot tagadók, vagy az abban kételkedők gyakran felteszik a következő kérdést: Hogyan állíthatják a finnugristák, hogy a magyar finnugor nyelv, hiszen maguk is elismerik, hogy csak hat-hétszáz finnugor eredetű szavunk van. Ez pedig például az ÉKSz hetvenezer címszavának csak az egy százaléka. Ez a szembeállítás persze eleve megkérdőjelezhető, hiszen becslésem szerint az ÉKSz címszavainak 85-90%‑a összetett vagy képzett szó, az említett finnugor eredetű szavak pedig mind tőszavak. Ha csak a tőszavakat vesszük figyelembe, akkor lényegesen javul (kb. 10%-ra) az ősi eredetű szókincs aránya, de ezt egyesek még mindig kevesellhetik. Véleményünk kialakításakor figyelembe kell venni, hogy ősi szavaink egy hatezer évvel ezelőtti kőkorszaki művelődést tükröznek. Az azóta eltelt idő kommunikációs szükségletei sok ezer új szó alkotását és kölcsönzését tették szükségessé.

Tegyük fel úgy a kérdést, milyen súllyal vannak jelen a mai magyar nyelvhasználatban ősi eredetű szavaink. Erre a kérdésre kétféleképpen válaszolhatunk: vizsgálhatunk szövegeket és elkészíthetjük a bennük szereplő szavak etimológiai statisztikáját, vagy megtehetjük ugyanezt leggyakoribb szavainkkal. Én ezúttal az utóbbi módszert választottam.

Az MTA Nyelvtudományi Intézetének honlapján hozzáférhető a Magyar Nemzeti Szövegtár.[1] Ennek számítógépes elemzése eredményeképpen készült egy szabadon letölthető lista, amely a feldolgozott szövegek leggyakoribb ezer szavát tartalmazza csökkenő gyakorisági sorrendben. Ezt a listát dolgoztam fel és ennek alapján publikálom leggyakoribb szavaink etimológiai statisztikáját. Az említett lista lenyűgöző terjedelmű, 187,6 millió szövegszót tartalmazó anyag alapján készült. A szövegek öt nyelvváltozatot képviselnek: a sajtó nyelvét (az anyag 45%-a), szépirodalmi szövegeket (20%), tudományos (14%) és hivatalos (11%) szövegeket, valamint személyes tárgyú szövegeket (10%). A sajtónyelv túlsúlya látszik abban, hogy a listán a 83. szó a kormány, a 115. a képviselő, a 151. a politikai stb. Lehetett volna statisztikát készíteni külön-külön minden nyelv-változatra. De ezt nem tartottam szükségesnek, bár az eredeti táblázat erre lehetőséget nyújtott volna.

Az eredeti lista tulajdonneveket, számjegyekkel írt számneveket, rövidítéseket sőt egy két angol szót is tartalmaz. Ezek etimológiai vizsgálatát mellőztem, 107 szóval csökkentve így a listát. Az anyagban szereplő összetett szavak két, néhány esetben három szótőből állnak, amelyek természetesen különböző eredetűek lehetnek. Az összetett szavak komponenseit tehát külön-külön kellett etimológizálni. Ez viszont 129 szóval növelte az anyagot. Listámon így 1022 szó szerepel.

Az így kialakított listát először alaktanilag elemeztem, vagyis megállapítottam, hogy melyek a tőszavak, a képzett szavak és az összetett szavak. Tőszavaknak azokat tekintettem, amelyek sem leíró, sem nyelvtörténeti szempontból nem tartalmaznak járulékos elemet (képzőt), pl. ő, új, két, nap, ad stb. A tesz igét is tőszónak tekintettem, amelynek a végén kimutatható egy -sz képző. Ez azonban csak a jelen idejű alakokban van meg és inkább időjelnek tekinthető. A tőszavak száma 246 (a teljes anyag 24%‑a).

Képzett szavak esetén elsősorban a nyelvtörténeti szempontot érvényesítettem, vagyis ide soroltam mindazokat a szavakat, amelyek ebből a szempontból képzettnek tekinthetők. Hogy szavunk csak nyelvtörténeti szempontból képzett: egy uráli *ku- (ko-) névmástőből keletkezett -gy névmásképzővel (Zaicz, 2006:308). Nálam tehát a képzett szavak csoportjába került. Hasonló eset leggyakoribb szavunk az a határozott névelő. Ez az az névelő alakváltozata (mássalhangzóval kezdődő szavak előtt) és azonos alakú mutató névmásból keletkezett. A mutató névmás pedig az uráli *o- (u-) nyíltabbá vált alakjának (a-) -z névmásképzővel ellátott alakja. További példák azokra a szavakra, amelyeknek képzett volta csak nyelvtörténeti vizsgálattal mutatható ki: ez, egy, meg, mond, olyan, több, úgy, pedig, majd, most, fel, között, első, más, ha stb. Az ily módon definiált képzett szavak száma anyagomban 523 (51%).

Az eredeti táblázatban 124 összetett szó van. Ez közül 119 két komponensből, 5 háromból áll. Így az etimológiailag elemzendő szavak száma 253 (25%). Az idesoroláskor is a nyelvtörténeti szempont volt az elsődleges, vagyis idekerültek az ún. elhomályosult összetételek is. Pl. magyar < ugor *mańċȝ ‘férfi, ember, nem, törzs’ + finnugor *irkä ‘férfi, fiú’ (Zaicz 2006:505). További példák: ember, tehát, nélkül stb. Összetett szavaknak tekintettem az igekötős igéket is. Ebbe a csoportba soroltam azokat az összetett szavakat is, amelyekhez képző is járul, pl. feladat, elmond, nemzetközi, országgyűlés, eljárás, költségvetés, külföldi stb.

Megjegyzés a képzett és összetett szavakhoz. Az ebbe a két csoportba sorolt szavak első közelítésben természetesen a belső keletkezésű szavak közé tartoznak, hiszen a magyar nyelv külön életében keletkeztek tő + képző(k) vagy tő + tő (+ képző) stb. kapcsolatából. Kutatásom alapvető célkitűzése szempontjából azonban mindenképpen indokolt feltenni azt a kérdést, hogy a képzett és összetett szavakban szereplő tövek milyen eredetűek. Hiszen csak így kaphatunk reális képet arról, hogy milyen szerepet játszanak ősi eredetű szavaink a mai magyar nyelvhasználatban.

A munka legfontosabb része természetesen a szavak eredetének megállapítása volt. Ismerve a magyar etimológiai kutatások színvonalát, ez nem tűnt túl nehéz feladatnak. De fejlettség ide, fejlettség oda, mindig vannak olyan szavak, amelyek makacsul ellenállnak a megfejtésükre irányuló törekvéseknek, illetve olyanok, amelyeknek eredete nagyon bizonytalan, vagy amelyekkel kapcsolatban többféle magyarázat is létezik. Hogy ne szaporítsam túlságosan a kategóriákat, az erősen bizonytalan eredetű szavakat az ismeretlen eredetűek csoportjába soroltam (pl. sor, csoport, fizet, igény, föld stb.) A vitatott eredetűek esetében magam döntöttem valamelyik magyarázat mellett (pl. az úr esetében a régi török származtatást fogadtam el a finnugorral szemben). Ha nem tudtam dönteni, akkor ezek is az ismeretlen eredetűek csoportjába kerültek. Az elmondottakból kiderült, hogy az etimológiai kutatásnak és így az etimológiai statisztikának is van szubjektív oldala: nem ritkán a kutató érdeklődési körétől, képzettségétől, sőt kifejezetten érzelmeitől függ egy-egy etimológia megítélése, bármennyire is törekszik valaki az objektív állásfoglalásra. Ez persze rám is érvényes. Az itt közölt számok végső soron az én véleményemet tükrözik, ugyanebből az anyagból egy másik kutató talán az enyémtől némileg eltérő statisztikát állított volna össze. Azt azonban nyugodtan állíthatom, hogy nagy vonalakban az én statisztikám megbízható és elfogadható mindazok számára, akik tudományos módszerekkel művelik az etimológia tudományát.

Tekintsük most át azokat a műveket, amelyek alapján az etimológiákat csoportokba soroltam. Ezek a művek ma is mindenki számára hozzáférhetők, tehát munkám ellenőrizhető.

TESz = Benkő Loránd (főszerk.), A magyar nyelv történeti-etimológiai szótára I–IV. Akadémiai Kiadó, Budapest, 1967–1984.

MSzFE = Lakó György (főszerk.), A magyar szókészlet finnugor elemei I–IV. Akadémiai Kiadó, Budapest, 1967–1981.

UEW = Rédei Károly (szerk.), Uralisches Etymologisches Wörterbuch I–III. Akadémiai Kiadó, Budapest, 1988–1991.

ÉKSz = Pusztai Ferenc (főszerk.), Magyar értelmező kéziszótár. Akadémiai Kiadó, Budapest, 2003.

Zaicz 2006 = Zaicz Gábor (főszerk.), Etimológiai szótár. Tinta Könyvkiadó, Budapest.

Falk Nóra, Etimológiák. Tinta Könyvkiadó, Budapest 2009.

Az anyag csoportosításakor a magyar etimológiai kutatások során kialakult rendszerre támaszkodtam. Vagyis célszerűnek és szükségesnek látszott megkülönböztetni az alábbi csoportokat:

– ősi eredetű szavak

– jövevényszavak

– belső keletkezésű szavak

– ismeretlen eredetű szavak

 

Ősi eredetűnek tekinthetjük azokat a szavakat, amelyek az uráli, a finnugor vagy az ugor alapnyelvből származnak. A legrégebbi réteg az uráli (kb. 6000 éves). Ide azok a szavak tartoznak, amelyek folytatói nyelvcsaládunk finnugor és szamojéd ágában is megvannak. A finnugor réteg kb. 4500 éves, az ugor pedig legalább 3000 éves. Ez utóbbiba azok a szavak tartoznak, amelyeknek csak két legközelebbi rokon nyelvünkben, a hantiban (= osztják) és a manysiban (= vogul) van megfelelőjük.

Milyen kritériumok alapján állíthatjuk egy-egy szavunkról, hogy ősi eredetű?

1) A legfontosabb természetesen az, hogy legyen legalább egy rokon nyelvi megfelelője. Persze, minél több megfelelője van a szónak, annál biztosabb az eredete. Sajnos kevés olyan etimológiát találunk, amely minden mai uráli nyelvben képviselve lenne. Ezt a jelenséget azonban a nyelvfejlődés itt nem részletezhető törvényszerűségeit figyelembe véve normálisnak tekinthetjük.

2) A rokonított szavak hangalakjának összehasonlítása során legyenek megállapíthatók szabályos hangmegfelelések. Ez egyes esetekben szabályos azonosságot, más esetekben szabályos eltérést jelent. Így például a finn szókezdő t-nek általában a magyarban is t felel meg (vö. talvi ~ tél, tunte- ~ tud), a szókezdő p-nek viszont f (vö. puu ~ fa, puno- ~ fon stb.).

3) A rokonított szavak jelentése legyen azonos vagy hasonló. A hasonló jelentések esetében persze az intuíciónak is van szerepe, de aligha vonhatjuk kétségbe a fent említett tunte- ~ tud igepár etimológiai összetartozását amiatt, hogy a finn szó jelentése ‘ismer, érez’.

Példák anyagomból ősi eredetű szavainkra. Uráli: mond, mi, mert, több, után, ha, eset, egyik, lát, alap, alatt, név, út, megy, te, él (ige), talál, hó (időegység), szem, hagy, hosszú stb.

Finnugor: van, meg, kell, lesz, év, maga, új, tesz, rész, ad, vesz, áll (ige), mellett, való, másik, ma, világ, kér, három, jár, néz, kéz, teljes, vezet, négy, ház, rossz, fiatal, válasz, keres, szép stb.

Ugor: ki (igekötő), jó, szó, fog (ige), által, hét, javaslat, hoz, jön, jól, jut, szól, vár (ige), oldal, fogad, lép (ige), tér (fn.), utolsó, kívül, rá, folytat, hozzá, régi, kedves, hasonló, lépés stb.

Ősi eredetű szavak esetén – hogy minél reálisabb képet kaphassunk anyanyelvünkben játszott szerepükről – külön csoportot alkottam azokból a szavakból, amelyeknek uráli, finnugor, ugor eredete bizonytalan. A példáktól ezúttal eltekintek.

A több mint kétszáz éve folyó jövevényszó-kutatásnak köszönhetően meglehetősen biztos ismeretekkel rendelkezünk az idők során nyelvünkbe került jövevényszó-rétegekről. Anyagomban vannak a honfoglalás előtti időkből származó iráni jövevényszavak (pl. ezer, város, tíz ) és régi török jövevényszavak[2] (pl. idő, úr, ország, illetve, kis, kép, szám, ír, érik/ér, ok, erő, gyerek, köszön stb.). A honfoglalás utáni időkből származnak szláv (pl. munka, dolog, pénz, rend, beszél, család, péntek, csinál), latin (pl. millió, politikai, óra, mód, miniszter, probléma, persze, iskola, forma), német (pl. pont, párt, fontos, cél) és neo-latin (olasz: forint, piac, francia: milliárd, tárgy) jövevényszavaink. Külön csoportot képeznek azok a szavak, amelyeket etimológiai szótáraink vándorszónak vagy nemzetközi szónak minősítenek. Ezek számos nyelvben ismert szavak, amelyeknél közvetlen átadó nyelv nem állapítható meg, pl. amerikai, program, könyv, parlament, európai, film, francia, dollár.

Az anyagomban előforduló jövevényszavak statisztikája:

– iráni 12
– régi török 73
– szláv 54
– latin 36
– német 18
– neo-latin 14
– nemzetközi 11
   
Összesen 222, a teljes anyag 22%‑a.

 

A belső keletkezésű, tehát a magyar nyelv külön életében keletkezettek közé tartoznak természetesen a képzett és az összetett szavak is. Statisztikámban azok külön csoportot képeznek, itt tehát csak az onomatopoetikus (hangutánzó-hangfestő) szavakat vettem figyelembe, pl. de, kap, perc, levél, hang, pillanat, tapasztalat stb.

Ismeretlen eredetűek pl. nap, akar, törvény, sor, hely, hiszen, viszont, gondol, saját, támogatás, kezd, hisz, figyelem, éppen, kíván, szükség, sikerül, csak, ülés, vizsgálat stb. Ehhez a csoporthoz két megjegyzést fűznék. 1) A képzett szavak (pl. támogatás) azért kerültek ide, mert a tövük ismeretlen eredetű. Maga a szó belső keletkezésű. 2) Természetesen lehetséges, hogy az idesorolt szavak között is vannak ősi eredetűek, csak ezt nem tudjuk bebizonyítani. Így pl. hisz igénk ragozás tekintetében egy olyan , 7 igéből (tesz, lesz, vesz, eszik, iszik, visz, hisz) álló igetípushoz tartozik, amelynek 6 tagja biztosan ősi eredetű. Valószínű tehát, hogy a hisz is az. Csak éppen nincs rokon nyelvi megfelelője, mert az minden rokon nyelvből kiveszett, vagy mert még nem találtuk meg. Ezért tehát ismeretlen eredetűnek kell tekinteni.

Vizsgálataim lényegét az alábbi táblázat tartalmazza. Ebben alaktani besorolás szerinti bontásban és etimológiai rétegenként tüntettem fel az abszolút adatokat és ezek százalékos arányait.

Milyen következtetéseket vonhatunk le a táblázat számadataiból? A legfontosabb természetesen az, hogy leggyakoribb ezer szavunk között (és ezek a szavak bármely magyar szöveg szavainak kétharmad részét teszik ki) elsöprő többségben vannak az ősi eredetűek, részarányuk 61 (a bizonytalanokkal együtt 67) %. Figyelemreméltó az is, hogy a képzett és összetett szavak között még nagyobb az ősi eredetűek aránya: képzettek 66 (73) %, összetettek 73 (77)%. Ez ugyanis azt jelenti, hogy ősi szavainkat sokkal nagyobb arányban használjuk fel új szavak alkotására, mint például a jövevényszavakat. A képzettek között a jövevényszavakból képzettek aránya például csak 16%.

 

  tőszó % képzett % összetett % összes %
ősi 94 38 346 66 185 73 625 61
? ősi 17 7 34 7 10 4 61 6
jövevény 96 39 82 16 44 17 222 22
belső kel. 5 2 7 1 12 1
ismeretlen 34 14 54 10 14 6 102 10
összesen 246 100 523 100 253 100 1022 100

 

Ma is makacsul élő régi tévedés a magyarnak a török nyelvekkel való rokonítása. Ha egy pillantást vetünk a régi török jövevényszavak számára (73 szó) és kiszámítjuk részarányukat (7,1%), akkor megnyugodhatunk. A török nyelvekkel való rokonságot a statisztika sem támasztja alá.

Még egy megjegyzés. Az adatokat százas csoportokban összesítettem. Mint várható volt az első százban kiugróan magas az ősi eredetű szavak aránya: 84%. A következő százas csoportban ez 60%-ra csökken. A továbbiakban e körül ingadozik. Hol néhány százalékkal alacsonyabb, hol magasabb, de tendenciaszerű csökkenés nem állapítható meg. Ebből pedig azt a következtetést vonhatjuk le, hogy az arányszám feltehetőleg a második ezer szó esetében stb. sem csökken.

Talán itt az ideje, hogy levonjuk a végső következtetést: a mai magyar nyelvhasználatban elsöprő többségben vannak azok a szavak, amelyek közvetlenül vagy közvetve etimológiai kapcsolatba hozhatók a rokonnak tekintett nyelvek szavaival. Ez a tény pedig ésszerűen csak egyféleképpen magyarázható: mindezeknek a szavaknak egy közös forrása volt, az uráli (finnugor) alapnyelv. Ezek után aligha tagadhatja bárki a finnugor nyelvek rokonságát és a magyar beletartozását a finnugor nyelvcsaládba.

Nem hiszem, hogy fejtegetéseim meggyőzték a sumér vagy az etruszk rokonítás vagy más délibábos elméletek legelvakultabb híveit, de talán lesznek néhányan, akik elgondolkodnak a dolgon.

 

Csúcs Sándor

 

[1]     További információk a szövegtárról: Váradi Tamás: The Hungarian National Corpus. In: Proceedings of the 3rd LREC Conference, Las Palmas, Spanyolország, 2002, 385–389, http://mnsz.nytud.hu

Sass Bálint: „Mazsola” – eszköz a magyar igék bővítményszerkezetének vizsgálatára. In: Váradi Tamás (szerk.): Válogatás az I. Alkalmazott Nyelvészeti Doktorandusz Konferencia előadásaiból, MTA Nyelvtudományi Intézet, Budapest, 2009, 117–129, http://corpus.nytud.hu/mazsola

Oravecz Csaba, Váradi Tamás, Sass Bálint: The Hungarian Gigaword Corpus. In: Proceedings of LREC 2014, 2014. http://mnsz.nytud.hu

[2]     Az átadó nyelvet Róna-Tas András újabban „nyugati ótöröknek” (West Old Turkic) nevezi.