O slovarju

Kako deluje

Kontekst.io je iskalnik sorodnih besed in fraz, samodejno generiran iz več besedilnih korpusov sodobne slovenščine.

Slovenski iskalnik temelji na računskem jezikovnem modelu, ki vsaki besedi ali frazi priredi položaj v latentnem prostoru tako, da so besede, uporabljene v podobnih kontekstih, tudi v latentnem prostoru blizu.

Računski model vsebuje okrog 600.000 besed in fraz.

Kako uporabljati

Spletno mesto mogoče uporabljati kot:

  • slovar sinonimov: primer za zavržno,
  • iskalnik podobnih izdelkov: primer za rupurut,
  • iskalnik podobnih osebnosti: primer za Matjaža Hanžka,
  • iskalnik podobnih filmov, televizijskih serij ali glasbe: primer za Igro prestolov.

Računski model

Računski model je naučen na okrog 15 gigabajtov obdelanega besedila. Primeren je kot začetna točka za opravila strojnega učenja. Podrobnosti o dostopu do računskega modela so navedene na strani partnerstvo.

Viri podatkov

Med najpomembnejšimi viri so:

  • korpus akademskih besedil KAS,
  • korpus slovenskih spletnih besedil SlWAC,
  • referenčni korpus GigaFida mini,
  • filmski podnapisi v slovenščini,
  • besedila prispevkov v številnih spletnih forumih in blogih,
  • kuharski recepti,
  • besedila novic v večini slovenskih spletnih medijev med letoma 2016 in 2018,
  • prosto dostopne knjige, katerim so potekle avtorske pravice, dostop do katerih so prijazno omogočili na založbah Beletrina in Eno,
  • slovenski del paralelnih korpusov, dostopnih na OPUS.

Zahvale

Avtor se zahvaljuje: