Szövegbányászat bevezető könyv + letöltés

A könyv

A POLTEXT projekt egyik legfontosabb eredményeként 2016-ban megjelent a Kvantitatív szöveglemezés és szövegbányászat a politikatudományban című kötet Sebők Miklós szerkesztésében.

A könyv letölthető az alábbi linken.

A könyv megrendelhető a textmining KUKAC tk.mta.hu címen.

Általános információk

A kötet legfontosabb célja az, hogy bevezetést nyújtson a nemzetközi politikatudomány egy kurrens irányzatába, a szövegek kvantitatív elemzésébe (quantitative text analysis – QTA). A szövegek és más minőségi adatok (filmek, képek) elemzése annyiban különbözik a mennyiségi (kvantitatív) adatokétól, hogy nyers formájukban még nem alkalmasak arra, hogy statisztikai, illetve ökonometriai elemzés alá vessük őket, s így további módszertani problémákat vetnek fel, melyek speciális tárgyalása szükséges.

A kötet kiindulópontját a politikai szövegek társadalomtudományi elemzésének problémája adja. E feladatot – eltérő jellegű kutatási eredményekkel, de – kvalitatív és kvantitatív módszertani eszközökkel egyaránt meg lehet oldani, így a könyv négy nagyobb blokkja közül az első e módszerek relatív hasznosságát és fogalmi alapjait tárgyalja. Mivel a QTA magyarországi politikatudományi felhasználása e sorok írásakor még messze nem tekinthető általánosnak, az első fejezetben érintjük ennek olyan kutatástervezési problémáit is, mint a felfedezés logikája, illetve a kutatás folyamata. Ennek során külön kitérünk a számítógépes támogatással, illetve gépi elemzéssel elvégezhető munkafolyamatokra, mint a 21. századi társadalomtudomány gyorsan fejlődő és lassan megkerülhetetlenné váló területére.

A kötet következő két blokkja már a szűken vett kvantitatív szövegelemzés és a vele nagy átfedést mutató szövegbányászat feladataiba nyújt betekintést. Ezek közül az első blokk tisztázza az adatok visszakeresésének és kinyerésének alapjait, majd bevezetést nyújt a talán legelemibb szövegbányászati feladatba, a névelem-felismerésbe. Ezt követően olyan haladóbb feladatokkal ismerkedünk meg, mint a deduktív logikát követő osztályozás, az ennek egy speciális alkalmazásának tekinthető véleményelemzés, illetve az induktív elven működő csoportosítás.

A kötet negyedik fejezetcsoportja a leggyakrabban használt szövegbányászati megoldások gyakorlati alkalmazását tárgyalja. Ennek kapcsán foglalkozunk két alternatív osztályozási megoldással, az automatizált szótáralapú szövegelemzéssel, illetve a félig automatizált felügyelt tanulási megközelítéssel. A csoportosítási feladat klasszikus megoldásaként pedig a felügyelet nélküli tanulási algoritmusokat mutatjuk be.

A könyvet záró fejezet tágabb kitekintést nyújt a kvantitatív szövegelemzés tudományterületére, illetve határvidékeire, segítve a téma iránt érdeklődő olvasót a további tájékozódásban.