April 20th, 2020

Как Большие Данные отменяют научный метод

Как Большие Данные отменяют научный метод:

"This is a world where massive amounts of data and applied mathematics replace every other tool that might be brought to bear. Out with every theory of human behavior, from linguistics to sociology. Forget taxonomy, ontology, and psychology. Who knows why people do what they do? The point is they do it, and we can track and measure it with unprecedented fidelity. With enough data, the numbers speak for themselves.

The big target here isn't advertising, though. It's science. The scientific method is built around testable hypotheses. These models, for the most part, are systems visualized in the minds of scientists. The models are then tested, and experiments confirm or falsify theoretical models of how the world works. This is the way science has worked for hundreds of years."

"There is now a better way. Petabytes allow us to say: "Correlation is enough." We can stop looking for models. We can analyze the data without hypotheses about what it might show. We can throw the numbers into the biggest computing clusters the world has ever seen and let statistical algorithms find patterns where science cannot.

The best practical example of this is the shotgun gene sequencing by J. Craig Venter. Enabled by high-speed sequencers and supercomputers that statistically analyze the data they produce, Venter went from sequencing individual organisms to sequencing entire ecosystems. In 2003, he started sequencing much of the ocean, retracing the voyage of Captain Cook. And in 2005 he started sequencing the air. In the process, he discovered thousands of previously unknown species of bacteria and other life-forms."

https://www.wired.com/2008/06/pb-theory/

Безумные корреляции (критика Больших Данных):
https://www.tylervigen.com/spurious-correlations

Есть в этом что-то специфически англоязычное, да? (Отсутствие метафизики за физикой, точнее, отсутствие сущностей за явлениями.)

Проблема ведь не в вычислительных методах, а в структуре реальности, которая продуцирует неупорядоченные нередуцируемые данные.

Big data

Вот что называют тензорами в data science:
"A cube can be considered a multi-dimensional generalization of a two- or three-dimensional spreadsheet."
https://en.wikipedia.org/wiki/OLAP_cube
https://en.wikipedia.org/wiki/Data_cube

Топологический анализ данных в прикладной математике:
"Основной метод топологического анализа данных:
1. Замена набора элементов данных некоторым семейством симплициальных комплексов в соответствии с параметром близости.
2. Анализ этих топологических комплексов с помощью алгебраической топологии, а конкретно новой теорией персистентных гомологий.
3. Перекодировка устойчивой гомологии набора данных в параметризованную версию чисел Бетти, далее называемую штрихкодом.
"
https://en.wikipedia.org/wiki/Topological_data_analysis
https://en.wikipedia.org/wiki/Persistent_homology

Для справки: "Числа Бетти — последовательность инвариантов топологического пространства... В топологической теории графов первое число Бетти графа G с n вершинами, m ребрами и k компонентами связности равно \beta _{1}(G)=m-n+k"

Чего только ни придумали! Я так понимаю, что в вычислительной математике берут некие классические понятия и заменяют их вычислительными аналогами? (А начал я со знакомства с лагранжевыми когерентными структурами, да и то лишь из-за того, что темнокожая бывшая танцевальная партнерша Шерри оказалась специалистом по динамическим системам.)

Это я задумался, как бы применить идеи Биг Дата к трению. Там тоже есть понижение размерностей. :)

(no subject)

Оказывается, в иммунологии уже существуют понятия иммуном и иммуномика. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4184245/

Хотя оно не так раскручено, как коннектом. Заодно я узнал из статьи по ссылке, что такое flow cytometry, у нас на кафедре есть молодой коллега, занимающийся этим методом микроскопии. Я не мог понять, важный это метод или нет (нужно было решить, голосовать ли за его теньюр, или против).

(no subject)

Политический кризис в Израиле наконец разрешился. Натаньягу, как и ожидалось, всех переиграл (и слава богу).
http://newsru.co.il/israel/20apr2020/coalition_0010.html

С короновирусом у них тоже все более-менее благополучно (возможно, сказывается, что юг и тепло), правда, карантин уж слишком жесткий.

(no subject)

Говорят цена на нефть минус 40 долларов за баррель. То есть тем, кто покупает нефть, доплачивают. Но никому не надо.

Процент по кредиту тоже отрицательный, то есть банки скоро будут брать плату за хранение ваших денег.

Но никто уже ничему не удивляется.