January 26th, 2021

(no subject)

Читая бесконечные сообщения последнего времени про прививки и иммунитет, подумал вот о чем. Разных белковых и прочих антигенов существует бесчисленное множество. Но практически против любого организм вырабатывает иммунитет. Происходит это путем случайного перебора (клонально-селективная теория иммунитета).

В иммунных клетках есть специальный и довольно хитрый "генератор случайных антител" (V(D)J-рекомбинация), и как только антитела попадают против нужного антигена, там есть еще один механизм, который запускает выпуск именно этих антител. Все это крайне сложный и хитрый механизм со множеством деталей. Есть даже термин VDJ-ome и научная дисциполина VDJ-омика.

Собственно, я беспокоюсь, что если вдруг окажется вирус, против которого не будет иммунитета? Достаточно ли антител и иммунных клеток на все антигены? Пространство какой размерности они образуют (сколько параметров нужно, чтобы их охарактеризовать)?

Вроде бы репертуар антител состоит из 3×1011 комбинаций. Сколько существует белков в природе, я не смог сходу найти. На первый взгляд кажется, что значительно больше 1011. Скажем, при длине в 300 аминокислот возможно 20300 комбинаций. Но устойчивы и реально существует небольшая часть из них.

"By all-to-all sequence and structure comparisons, we grouped the protein complexes in the protein data bank (PDB) into 3,629 families and 1,761 folds. A statistical model was introduced to obtain the quantitative relation between the numbers of quaternary families and quaternary folds in nature. The total number of possible protein-protein interactions was estimated around 4,000, "
https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0038913

"According to Uniprot, there are 85,381,808 protein records, and with the UniRef90 filter (i.e removing records that can be represented by an entry with at least 90% sequence similarity), there are 42,424,511.
.... less than a trillion"
https://biology.stackexchange.com/questions/58868/how-many-proteins-are-in-the-earths-proteome

Ясно из соображений мировой гармонии, что вот это "42 миллиона .... less than a trillion" протеинов должно как-то соотносится с тем 3×1011 антител (которые тоже белки, кстати). Но на вопрос, а одинаковая ли у них размерность пространства данных, ответа что-то не просматривается. Наверняка разная и там какое-нибудь интересное топологическое преобразование одного в другое.

(Если что, я сварщик не настоящий - это я просто думаю вслух).

(no subject)

Думаю еще вот какую телегу о различии информации и сложности. Информационное содержание (количество бит) - формальная мера текста, чисто внешняя характеристика, которая может быть подсчитана без понимания содержания текста.

Сложность (в духе колмогоpовской сложности - длина наименьшей программы для создания текста) - не вычислима. На этот счет есть теорема, похожая на классический парадокс "Берри" самореференции: «Наименьшее натуральное число, которое нельзя описать менее чем одиннадцатью словами».

Если бы существовала программа, ставящая в соответствие тексту его сложность, то можно было бы взять текст, про который известно, будто он достаточно сложный (скажем, минимальная длина программы - не менее тысячи знаков), переназвать его другим именем "текст, требующий не менее тысячи знаков для генерации", и тогда его можно генерировать гораздо более короткой программой.

На мой взгляд, различие между информацией и сложностью здесь в том, что для парадокса Берри нужно знать русский (или английский, или еще какой-то) язык. Tо есть определение сложности здесь зависит от знания внешнего мира получателем строки. В отличие от определения информационного содержания в битах, которое может и робот тупо подсчитать и которое не требует понимания текста.

Другими словами, понятие сложности подразумевает понимание смысла текста! Сложность существует не сама по себе абстрактно, а в контексте нашего знания о мире. Потому что сложность мы определяем как нашу минимальную по длине программу. A для создания такой программы мы можем использовать любое наше знание, в частности, переназывать куски текста используя известные нам названия для разных вещей.

На первый взгляд кажется, что здесь ошибка. Сжатие файла не требует понимания того, что в файле. Сжатие осуществляет машина. Но это (по-моему) - лукавый пример, здесь нет ошибки, а сжатие файла по алгоритму вовсе не оптимально и к невычислимости не ведет. Вы можете переназвать распространенный длинный файл одной буквой и добавить его к вашему алгоритму, но для этого нужно знать, что тот файл является распространенным (и, значит, для кого-то осмысленным), а это уже будет знание о мире.

Еще раз: парадокс Берри - парадокс самореференции. Его выспренная форма - фраза из двух слов: "indescribable feeling" ("неописуемое чувство"). Если чувство неописуемое, то как же удалось его описать двумя словами? Благодаря самореференции, по аналогии с парадоксом брадобрея или с фразой "это предложение ложно". Самореференция подразумавает доступ к некоторому бесконечному циклу "если да, то нет, а если нет, то да".

Мысль, к которой я веду, состоит вот в чем. Сложность, симметрия и информация - понятия связанные, но в то же время очень разные. Пустая доска содержит нyлевую информацию и имеет нулевую сложность. Доска, испещренная случайными символами, тоже имеет нулевую сложность, но содержит большую, хоть и бессмысленную информацию. Симметрия или паттерн зачастую yменьшают информационное содержание, но увеличивают сложность. Окончательного описания этих понятий нет, видимо, потому, что легко описывать план выражения, а сложность имеет отношение к плану содержания или к осмысленности информации.

Другими словами, сложность ускользает от описания, потому что она определяется смыслом, а смысл трансцендентен по отношению к значениям. Это же касается и симметрии, которую мы понимаем как простоту программы для описания системы объектов.