16 changed files with 580 additions and 0 deletions
--- a/lomakinae/.gitignore
+++ b/lomakinae/.gitignore
@ -0,0 +1,2 @@
 __pycache__/
 *.pyc
--- a/lomakinae/docs/01_report.md
+++ b/lomakinae/docs/01_report.md
@ -0,0 +1,86 @@
 # Отчёт. Задание 1 - структуры данных
 ## Цель
 Реализовать три структуры данных (связный список, хеш-таблица, BST) и экспериментально сравнить их
 производительность на операциях insert / find / delete при случайном и отсортированном порядке входных
 данных.
 ## Параметры эксперимента
 | Параметр    | Значение                             |
 | ----------- | ------------------------------------ |
 | N (записей) | 10 000                               |
 | Повторений  | 5                                    |
 | Поисков     | 100 существующих + 10 несуществующих |
 | Удалений    | 50                                   |
 ---
 ## Результаты
 ### Случайные данные (shuffled)
 ![shuffled](data/01/attachments/plot_shuffled.png)
 ### Отсортированные данные (sorted)
 ![sorted](data/01/attachments/plot_sorted.png)
 ---
 ## Анализ
 ### Деградация BST на отсортированных данных
 ![bst comparison](data/01/attachments/plot_bst_comparison.png)
 На случайных данных BST - самая быстрая структура: insert 0.027 с. Случайный порядок вставки даёт сбалансированное
 дерево глубиной ~log N, поэтому каждый новый узел находит своё место за O(log N) шагов. На отсортированных - 12.77 с,
 то есть в ~473 раз медленнее. Причина: при последовательной вставке отсортированных ключей каждый новый узел уходит в
 правое поддерево предыдущего. Дерево вырождается в цепочку глубиной N, и каждая вставка требует O(N) шагов вместо O(log N).
 ### Хеш-таблица нечувствительна к порядку
 HashTable показывает практически одинаковое время в обоих режимах (insert: 0.033 с против 0.032 с). Это ожидаемо:
 индекс бакета вычисляется через `hash(name)`, который не зависит от порядка вставки. Операции работают за O(1)
 при любом входе.
 ### Связный список медленен при поиске
 LinkedList не имеет никакой структуры для навигации - единственный способ найти запись это пройти список от головы до нужного узла.
 Find всегда O(N) независимо от порядка данных: shuffled 0.041 с, sorted 0.039 с. Insert O(N^2) для всей выборки - перед каждой вставкой
 нужно пройти весь список для проверки дубликата. На отсортированных данных LinkedList не меняет поведение, тогда как BST деградирует
 до 12.77 с - в этом единственном сценарии LinkedList оказывается быстрее BST.
 ### Удаление
 LinkedList - чтобы удалить узел, нужно пройти список от головы до нужного элемента и перешить next предшественника.
 Это O(N) в любом случае, порядок данных не имеет значения. Shuffled: 0.027 с, sorted: 0.026 с - разница в пределах погрешности.
 HashTable - вычисляем индекс бакета через `hash(name)`, затем удаляем узел из связного списка этого бакета. Порядок вставки не
 влияет на то, в каком бакете лежит запись, поэтому время стабильно в обоих режимах: 0.00033 с.
 BST - ищем узел спуском по дереву, затем обрабатываем три случая: нет потомков, один потомок, два потомка. На случайных данных
 дерево сбалансировано, глубина ~log N, удаление занимает 0.00014 с. На отсортированных данных дерево вырождено в
 цепочку - каждый узел уходил в правое поддерево при вставке, поэтому поиск удаляемого узла проходит через всю цепочку O(N).
 Результат: 0.061 с, то есть в ~435 раз медленнее.
 ---
 ## Вывод
 **Частые вставки** - HashTable. Время вставки не зависит от порядка и объёма данных: индекс бакета вычисляется за O(1),
 вставка в бакет - тоже O(1). Подтверждают цифры: 0.033 с на shuffled и 0.032 с на sorted при N=10000.
 **Частый поиск** - HashTable. По той же причине: `hash(name)` сразу указывает на нужный бакет, линейный перебор не нужен.
 Find: 0.00057 с на shuffled, 0.00070 с на sorted - стабильно при любом входе.
 **Получить данные в отсортированном порядке** - BST при случайном порядке вставки. Элементы размещаются по правилу BST
 (слева меньшие корня, справа большие корня), поэтому обход по схеме левое поддерево -> корень -> правое поддерево возвращает
 все записи в алфавитном порядке без дополнительной сортировки. Важное условие: данные должны вставляться в случайном
 порядке, иначе дерево вырождается (см. деградацию BST на отсортированных данных).
 LinkedList сам по себе проигрывает по всем операциям из-за O(N\*\*2) на вставку и O(N) на поиск. Однако его идея лежит в основе
 хеш-таблицы: каждый бакет - это связный список, через который разрешаются коллизии. Как самостоятельная структура данных для
 справочника он неэффективен, но как строительный блок внутри HashTable - незаменим.
--- a/lomakinae/docs/data/01/README.md
+++ b/lomakinae/docs/data/01/README.md
@ -0,0 +1,9 @@
 # Задание 1: структуры данных
 ## Как запустить
 ```sh
 python main.py
 ```
 ## Результаты
 Графики генерируются автоматически в папку `attachments/`.
--- a/lomakinae/docs/data/01/attachments/plot_bst_comparison.png
+++ b/lomakinae/docs/data/01/attachments/plot_bst_comparison.png
--- a/lomakinae/docs/data/01/attachments/plot_shuffled.png
+++ b/lomakinae/docs/data/01/attachments/plot_shuffled.png
--- a/lomakinae/docs/data/01/attachments/plot_sorted.png
+++ b/lomakinae/docs/data/01/attachments/plot_sorted.png
--- a/lomakinae/docs/data/01/main.py
+++ b/lomakinae/docs/data/01/main.py
@ -0,0 +1,6 @@
 from src.experiment import main_experiment
 from src.plot import build_plots
 if __name__ == "__main__":
    main_experiment()
    build_plots()
--- a/lomakinae/docs/data/01/results.csv
+++ b/lomakinae/docs/data/01/results.csv
@ -0,0 +1,91 @@
 structure,mode,operation,run,time_sec
 LinkedList,shuffled,insert,1,3.25562
 LinkedList,shuffled,find,1,0.040773
 LinkedList,shuffled,delete,1,0.026344
 HashTable,shuffled,insert,1,0.033497
 HashTable,shuffled,find,1,0.000593
 HashTable,shuffled,delete,1,0.000348
 BST,shuffled,insert,1,0.024071
 BST,shuffled,find,1,0.000218
 BST,shuffled,delete,1,0.000136
 LinkedList,shuffled,insert,2,3.454281
 LinkedList,shuffled,find,2,0.040282
 LinkedList,shuffled,delete,2,0.026526
 HashTable,shuffled,insert,2,0.031691
 HashTable,shuffled,find,2,0.000568
 HashTable,shuffled,delete,2,0.000338
 BST,shuffled,insert,2,0.024978
 BST,shuffled,find,2,0.000213
 BST,shuffled,delete,2,0.000135
 LinkedList,shuffled,insert,3,3.453681
 LinkedList,shuffled,find,3,0.0404
 LinkedList,shuffled,delete,3,0.026843
 HashTable,shuffled,insert,3,0.031902
 HashTable,shuffled,find,3,0.000536
 HashTable,shuffled,delete,3,0.000319
 BST,shuffled,insert,3,0.025369
 BST,shuffled,find,3,0.000219
 BST,shuffled,delete,3,0.000138
 LinkedList,shuffled,insert,4,3.417185
 LinkedList,shuffled,find,4,0.040816
 LinkedList,shuffled,delete,4,0.027023
 HashTable,shuffled,insert,4,0.037826
 HashTable,shuffled,find,4,0.000582
 HashTable,shuffled,delete,4,0.00033
 BST,shuffled,insert,4,0.036423
 BST,shuffled,find,4,0.000227
 BST,shuffled,delete,4,0.00014
 LinkedList,shuffled,insert,5,3.4723
 LinkedList,shuffled,find,5,0.040734
 LinkedList,shuffled,delete,5,0.027866
 HashTable,shuffled,insert,5,0.031981
 HashTable,shuffled,find,5,0.000546
 HashTable,shuffled,delete,5,0.000332
 BST,shuffled,insert,5,0.024578
 BST,shuffled,find,5,0.000227
 BST,shuffled,delete,5,0.000146
 LinkedList,sorted,insert,1,3.271489
 LinkedList,sorted,find,1,0.038886
 LinkedList,sorted,delete,1,0.026646
 HashTable,sorted,insert,1,0.030995
 HashTable,sorted,find,1,0.000625
 HashTable,sorted,delete,1,0.000302
 BST,sorted,insert,1,13.000812
 BST,sorted,find,1,0.128239
 BST,sorted,delete,1,0.06369
 LinkedList,sorted,insert,2,3.384572
 LinkedList,sorted,find,2,0.03915
 LinkedList,sorted,delete,2,0.026683
 HashTable,sorted,insert,2,0.032596
 HashTable,sorted,find,2,0.0006
 HashTable,sorted,delete,2,0.000315
 BST,sorted,insert,2,12.593249
 BST,sorted,find,2,0.10657
 BST,sorted,delete,2,0.058763
 LinkedList,sorted,insert,3,3.27816
 LinkedList,sorted,find,3,0.038938
 LinkedList,sorted,delete,3,0.025567
 HashTable,sorted,insert,3,0.03168
 HashTable,sorted,find,3,0.000631
 HashTable,sorted,delete,3,0.00031
 BST,sorted,insert,3,12.809241
 BST,sorted,find,3,0.110947
 BST,sorted,delete,3,0.062604
 LinkedList,sorted,insert,4,3.277437
 LinkedList,sorted,find,4,0.039812
 LinkedList,sorted,delete,4,0.025627
 HashTable,sorted,insert,4,0.031844
 HashTable,sorted,find,4,0.000917
 HashTable,sorted,delete,4,0.000383
 BST,sorted,insert,4,12.722063
 BST,sorted,find,4,0.111841
 BST,sorted,delete,4,0.060014
 LinkedList,sorted,insert,5,3.261706
 LinkedList,sorted,find,5,0.037981
 LinkedList,sorted,delete,5,0.025241
 HashTable,sorted,insert,5,0.032067
 HashTable,sorted,find,5,0.000742
 HashTable,sorted,delete,5,0.000342
 BST,sorted,insert,5,12.713176
 BST,sorted,find,5,0.108333
 BST,sorted,delete,5,0.059109
--- a/lomakinae/docs/data/01/src/init.py
+++ b/lomakinae/docs/data/01/src/init.py
--- a/lomakinae/docs/data/01/src/bench.py
+++ b/lomakinae/docs/data/01/src/bench.py
@ -0,0 +1,72 @@
 import time
 from .ll import ll_insert, ll_find, ll_delete
 from .ht import ht_new, ht_insert, ht_find, ht_delete
 from .bst import bst_insert, bst_find, bst_delete
 def _build_ll(records):
    head = None
    for name, phone in records:
        head = ll_insert(head, name, phone)
    return head
 def _build_ht(records):
    buckets = ht_new()
    for name, phone in records:
        ht_insert(buckets, name, phone)
    return buckets
 def _build_bst(records):
    root = None
    for name, phone in records:
        root = bst_insert(root, name, phone)
    return root
 def _time_insert(build_fn, records):
    start = time.perf_counter()
    structure = build_fn(records)
    end = time.perf_counter()
    elapsed = end - start
    return elapsed, structure
 def _time_find(find_fn, structure, names):
    start = time.perf_counter()
    for name in names:
        find_fn(structure, name)
    end = time.perf_counter()
    elapsed = end - start
    return elapsed
 def _time_delete(delete_fn, structure, names):
    start = time.perf_counter()
    for name in names:
        result = delete_fn(structure, name)
        if result is not None:
            structure = result
    end = time.perf_counter()
    elapsed = end - start
    return elapsed, structure
 def run_once(records, search_names, delete_names):
    results = []
    structures = {
        'LinkedList': (_build_ll, ll_find, ll_delete),
        'HashTable':  (_build_ht, ht_find, ht_delete),
        'BST':        (_build_bst, bst_find, bst_delete),
    }
    for label, (build_fn, find_fn, delete_fn) in structures.items():
        t_insert, structure = _time_insert(build_fn, records)
        t_find = _time_find(find_fn, structure, search_names)
        t_delete, structure = _time_delete(delete_fn, structure, delete_names)
        results.append((label, t_insert, t_find, t_delete))
    return results
--- a/lomakinae/docs/data/01/src/bst.py
+++ b/lomakinae/docs/data/01/src/bst.py
@ -0,0 +1,65 @@
 def _bst_new_node(name, phone):
    return {'name': name, 'phone': phone, 'left': None, 'right': None}
 def bst_insert(root, name, phone):
    if root is None:
        return _bst_new_node(name, phone)
    if name == root['name']:
        root['phone'] = phone
    elif name < root['name']:
        root['left'] = bst_insert(root['left'], name, phone)
    else:
        root['right'] = bst_insert(root['right'], name, phone)
    return root
 def bst_find(root, name):
    if root is None:
        return None
    if name == root['name']:
        return root['phone']
    elif name < root['name']:
        return bst_find(root['left'], name)
    else:
        return bst_find(root['right'], name)
 def _bst_min_node(root):
    node = root
    while node['left'] is not None:
        node = node['left']
    return node
 def bst_delete(root, name):
    if root is None:
        return None
    if name < root['name']:
        root['left'] = bst_delete(root['left'], name)
    elif name > root['name']:
        root['right'] = bst_delete(root['right'], name)
    else:
        # node found — three cases
        if root['left'] is None:
            return root['right']
        if root['right'] is None:
            return root['left']
        # two children: replace node with in-order successor
        successor = _bst_min_node(root['right'])
        root['name'] = successor['name']
        root['phone'] = successor['phone']
        root['right'] = bst_delete(root['right'], successor['name'])
    return root
 def bst_list_all(root):
    if root is None:
        return []
    return bst_list_all(root['left']) + [(root['name'], root['phone'])] + bst_list_all(root['right'])
--- a/lomakinae/docs/data/01/src/experiment.py
+++ b/lomakinae/docs/data/01/src/experiment.py
@ -0,0 +1,58 @@
 import csv
 import random
 import sys
 from pathlib import Path
 from .generator import generate_records, shuffle_records, sort_records, sample_existing, sample_nonexistent
 from .bench import run_once 
 N = 10000
 RUNS = 5
 SEARCH_K = 100
 SEARCH_MISSING_K = 10
 DELETE_K = 50
 sys.setrecursionlimit(15000)
 BASE_DIR = Path(__file__).resolve().parent.parent
 RESULT_PATH = BASE_DIR / "results.csv"
 def run_experiment(records, mode):
    search_names = sample_existing(records, SEARCH_K) + sample_nonexistent(SEARCH_MISSING_K)
    delete_names = sample_existing(records, DELETE_K)
    all_rows = []
    for run_i in range(1, RUNS + 1):
        print(f"  [{mode}] run {run_i}/{RUNS} ...")
        run_results = run_once(records, search_names, delete_names)
        for label, t_insert, t_find, t_delete in run_results:
            all_rows.append([label, mode, 'insert', run_i, round(t_insert, 6)])
            all_rows.append([label, mode, 'find',   run_i, round(t_find,   6)])
            all_rows.append([label, mode, 'delete', run_i, round(t_delete, 6)])
    return all_rows
 def main_experiment():
    random.seed(52)
    records_base = generate_records(N)
    records_shuffled = shuffle_records(records_base)
    records_sorted = sort_records(records_base)
    rows = []
    rows += run_experiment(records_shuffled, 'shuffled')
    rows += run_experiment(records_sorted,   'sorted')
    header = ['structure', 'mode', 'operation', 'run', 'time_sec']
    output_path = RESULT_PATH
    with open(output_path, 'w', newline='') as f:
        writer = csv.writer(f)
        writer.writerow(header)
        writer.writerows(rows)
    print(f"Done. Results saved to {output_path.name}")
    print(f"Total rows: {len(rows)}")
 if __name__ == "__main__":
    main_experiment()
--- a/lomakinae/docs/data/01/src/generator.py
+++ b/lomakinae/docs/data/01/src/generator.py
@ -0,0 +1,27 @@
 import random
 def generate_records(n):
    records = [(f"User_{i:05d}", f"252-{i:05d}") for i in range(n)]
    return records
 def shuffle_records(records):
    shuffled = records[:]
    random.shuffle(shuffled)
    return shuffled
 def sort_records(records):
    sorted_records = sorted(records)
    return sorted_records
 def sample_existing(records, k):
    names = [name for name, _ in random.sample(records, k)]
    return names
 def sample_nonexistent(k):
    ghosts = [f"None_{i:05d}" for i in range(k)]
    return ghosts
--- a/lomakinae/docs/data/01/src/ht.py
+++ b/lomakinae/docs/data/01/src/ht.py
@ -0,0 +1,34 @@
 from .ll import ll_insert, ll_find, ll_delete, ll_list_all
 DEFAULT_SIZE = 128
 def ht_new(size=DEFAULT_SIZE):
    return [None] * size
 def _ht_index(buckets, name):
    return hash(name) % len(buckets)
 def ht_insert(buckets, name, phone):
    i = _ht_index(buckets, name)
    buckets[i] = ll_insert(buckets[i], name, phone)
 def ht_find(buckets, name):
    i = _ht_index(buckets, name)
    return ll_find(buckets[i], name)
 def ht_delete(buckets, name):
    i = _ht_index(buckets, name)
    buckets[i] = ll_delete(buckets[i], name)
 def ht_list_all(buckets):
    records = []
    for head in buckets:
        records.extend(ll_list_all(head))
    return sorted(records)
--- a/lomakinae/docs/data/01/src/ll.py
+++ b/lomakinae/docs/data/01/src/ll.py
@ -0,0 +1,50 @@
 def _ll_new_node(name, phone):
    return {'name': name, 'phone': phone, 'next': None}
 def ll_insert(head, name, phone):
    node = head
    while node is not None:
        if node['name'] == name:
            node['phone'] = phone
            return head
        node = node['next']
    new_node = _ll_new_node(name, phone)
    new_node['next'] = head
    return new_node
 def ll_find(head, name):
    node = head
    while node is not None:
        if node['name'] == name:
            return node['phone']
        node = node['next']
    return None
 def ll_delete(head, name):
    if head is None:
        return None
    if head['name'] == name:
        return head['next']
    node = head
    while node['next'] is not None:
        if node['next']['name'] == name:
            node['next'] = node['next']['next']
            return head
        node = node['next']
    return head
 def ll_list_all(head):
    records = []
    node = head
    while node is not None:
        records.append((node['name'], node['phone']))
        node = node['next']
    return sorted(records)
--- a/lomakinae/docs/data/01/src/plot.py
+++ b/lomakinae/docs/data/01/src/plot.py
@ -0,0 +1,80 @@
 import pandas as pd
 import matplotlib.pyplot as plt
 from pathlib import Path
 BASE_DIR = Path(__file__).resolve().parent.parent
 DATA_PATH = BASE_DIR / "results.csv"
 ATTACHMENTS_DIR = BASE_DIR / "attachments"
 def shuffled_sorted_plots(structures, df):
    for mode in ['shuffled', 'sorted']:
        mode_title = 'перемешанные данные' if mode == 'shuffled' else 'отсортированные данные'
        fig, axes = plt.subplots(1, 3, figsize=(15, 6))
        fig.suptitle(f'Производительность — {mode_title}')
        for ax, op in zip(axes, ['insert', 'find', 'delete']):
            subset = df[(df['mode'] == mode) & (df['operation'] == op)]
            structures_average = subset.groupby('structure')['time_sec'].mean()
            means = [structures_average[s] for s in structures]
            bars = ax.bar(structures, means, color=['#4C72B0', '#55A868', '#C44E52'])
            ax.set_title(op)
            ax.set_ylabel('t (с)')
            ax.set_yscale('log')
            ax.grid(True, axis='y', alpha=0.3)
            for bar, val in zip(bars, means):
                label = f'{val:.5f}' if val > 0.0001 else f'{val:.1e}'
                ax.text(bar.get_x() + bar.get_width() / 2, bar.get_height(),
                        label, ha='center', va='bottom', fontsize=9)
        plt.tight_layout()
        save_path = ATTACHMENTS_DIR / f'plot_{mode}.png'
        plt.savefig(save_path, dpi=300)
        plt.close()
        print(f'Saved: {save_path.name}')
 def bst_shuffled_vs_sorted(df):
    fig, ax = plt.subplots(figsize=(7, 5))
    fig.suptitle('Производительность bst_insert(): перемешанные и упорядоченные данные')
    bst_insert = df[(df['structure'] == 'BST') & (df['operation'] == 'insert')]
    modes_average = bst_insert.groupby('mode')['time_sec'].mean()
    modes = ['shuffled', 'sorted']
    means = [modes_average[m] for m in modes]
    bars = ax.bar(modes, means, color=['#4C72B0', '#C44E52'])
    ax.set_ylabel('t (c)')
    ax.set_yscale('log')
    ax.grid(True, axis='y', alpha=0.3)
    for bar, val in zip(bars, means):
        label = f'{val:.5f}' if val > 0.0001 else f'{val:.1e}'
        ax.text(bar.get_x() + bar.get_width() / 2, bar.get_height(),
                label, ha='center', va='bottom', fontsize=10)
    plt.tight_layout()
    save_path = ATTACHMENTS_DIR / 'plot_bst_comparison.png'
    plt.savefig(save_path, dpi=300)
    plt.close()
    print(f'Saved: {save_path.name}')
 def build_plots():
    ATTACHMENTS_DIR.mkdir(exist_ok=True)
    if not DATA_PATH.exists():
            raise ValueError(f"File not found: {DATA_PATH}")
    df = pd.read_csv(DATA_PATH)
    STRUCTURES = ['LinkedList', 'HashTable', 'BST']
    shuffled_sorted_plots(STRUCTURES, df)
    bst_shuffled_vs_sorted(df)
 if __name__ == "__main__":
    build_plots()