hashovací funkce

Hashovací funkce je funkce, která mapuje klíče z velkého univerza $U$ do menší množiny indexů ${0, 1, \ldots, m-1}$. Tedy:

\[h: \mathcal{U} \to [m]\]

Základní vlastnosti

Kolize nastává, když $h(x) = h(y)$ pro $x \neq y$.

[!important] Pigeonhole principle Pokud $|U| > m$, kolize jsou nevyhnutelné. Nelze je zcela eliminovat, pouze minimalizovat.

Každá rodina hashovacích funkcí má definované vlastnosti, které popisují pravděpodobnosti kolize: c-univerzálnost

\[h(x) = x \bmod m\]

Příklad:

m = 13 (prvočíslo)
h(25) = 25 mod 13 = 12
h(38) = 38 mod 13 = 12  ← kolize!

\[h(x) = \lfloor m \cdot ((x \cdot A) \bmod 1) \rfloor\]

kde $A \in (0,1)$ je konstanta (Knuth doporučuje $A \approx \frac{\sqrt{5}-1}{2} \approx 0.618$).

Slouží k hashování řetězců (nebo vektorů) složená rodina rolling hash