2014

2015

2016

2017

2018

2019

2020

2022

2023

2024

2025

Dvacátéšesté setkání Pražského informatického semináře

Tomáš Skopal

Podobnostní vyhledávání v nestrukturovaných datech

V dnešní době velkých dat ("Big Data") se stále častěji setkáváme s daty, která pocházejí ze senzorů digitalizujících "signály přírody" a jejichž technická datová struktura slouží pouze k manipulaci a reprodukci. Nejčastěji mezi tato nestrukturovaná data řadíme multimédia (obraz, zvuk), ale senzorová data mohou být daleko rozmanitější.

Anotace Přednášející Poster

2025
2024
2023
2022
2020
2019
2018
2017
2016
2015
2014

Přehrát záznam

23. února 2017

16:00

Posluchárna E-107, FEL ČVUT
Karlovo nám. 13, Praha 2
Zobrazit na mapě

V dnešní době velkých dat ("Big Data") se stále častěji setkáváme s daty, která pocházejí ze senzorů digitalizujících "signály přírody" a jejichž technická datová struktura slouží pouze k manipulaci a reprodukci. Nejčastěji mezi tato nestrukturovaná data řadíme multimédia (obraz, zvuk), ale senzorová data mohou být daleko rozmanitější. Pro vyhledávání v nestrukturovaných datech se používají abstraktní podobnostní modely, kde jsou datové entity reprezentovány doménově specifickými deskriptory (např. vysokodimenzionálními vektory, časovými řadami nebo řetězci). Podobnost entit se pak měří jako vzdálenost jejich deskriptorů a celý problém je tak geometrizován jako vyhledávání nejbližších deskriptorů k deskriptoru dotazového objektu.

Geometrie podobnostních prostorů je velmi důležitá pro indexování, tj. pro databázovou techniku urychlující vyhledávání, ale také pro samotné modelování podobnosti a deskriptorů. V přednášce ukážeme, že obvyklé euklidovské vnímání prostoru není zdaleka jedinou možností reprezentace, velmi používaný je obecnější metrický model. Lze dokonce vyrobit unikátní vzdálenostní prostory, jejichž topologické vlastnosti jsou přímo odvozeny z dat. Budeme také diskutovat otázky spojené s modelováním podobnosti, zejména problematiku sémantických deskriptorů vs. chytrých podobností.

Tomáš Skopal

Tomáš Skopal se věnuje výzkumu v oblasti podobnostního vyhledávání a tématům okolo multimediálních databází a information retrieval. Je docentem a vedoucím katedry softwarového inženýrství MFF UK. V roce 2006 založil úspěšnou výzkumnou skupinu SIRet (SImilarity RETrieval), kterou až do současnosti vede. Magisterský diplom získal na Univerzitě Palackého v Olomouci, doktorát na VŠB - Technické univerzitě v Ostravě. Od té doby působí v Praze na Univerzitě Karlově a pracoval také jako hostující profesor a výzkumník na Univerzitě v Kostnici (Německo) a na DCC, University of Chile v Santiagu.

Jeho program je tvořen hodinovou přednáškou, po níž následuje časově neomezená diskuse. Základem přednášky je něco (v mezinárodním měřítku) mimořádného nebo aspoň pozoruhodného, na co přednášející přišel a co vysvětlí způsobem srozumitelným a zajímavým i pro širší informatickou obec. Přednášky jsou standardně v angličtině.

Idea Pražského informatického semináře vznikla z rozhovorů představitelů několika vědeckých institucí na téma, jak odstranit zbytečnou fragmentaci informatické komunity v ČR.

Seminář připravuje organizační výbor ve složení Roman Barták (MFF UK), Jaroslav Hlinka (ÚI AV ČR), Michal Chytil, Pavel Kordík (FIT ČVUT), Michal Koucký (MFF UK), Jan Kybic (FEL ČVUT), Michal Pěchouček (FEL ČVUT), Jiří Sgall (MFF UK), Vojtěch Svátek (FIS VŠE), Michal Šorel (ÚTIA AV ČR), Tomáš Werner (FEL ČVUT), Filip Železný (FEL ČVUT)