В работе над продуктом часто можно услышать такую логику рассуждений от продакт-менеджера или продуктового аналитика: «Я проанализировал данные и увидел, что пользователи, которые делают Х, с большей вероятностью покупают премиум-версию или становятся успешными». На основе этого инсайта они решают инвестировать время и силы в то, чтобы большая доля пользователей делала X.

Проблема в том, что в этом случае корреляция выдается за причинно-следственную связь. Может быть, там и есть зависимость между переменными, а может быть, это частный случай корреляции, когда рост одной метрики сопровождается ростом другой.

В этом материале разберемся, почему легко упустить разницу между корреляцией и причинно-следственной связью, как доказать наличие причинно-следственной связи и почему это важно при работе над продуктом. 

Пройти симуляторы от GoPractice можно в группе с опытным ментором.

Что вы получите:

✅ Онлайн-встречи для обсуждения прогресса и разбора вопросов
✅ Общение в закрытом чате для постоянной обратной связи с ментором и одногруппниками
✅ Дополнительные кейсы от ментора

Поддержка ментора доступна при обучении:

→ в «Симуляторе управления продуктом на основе данных»
→ в «Симуляторе управления ростом продукта»
→ в «AI/ML-симуляторе для продакт-менеджеров»

На первый взгляд, выражение «корреляция не означает причинно-следственную связь» не требует дополнительных разъяснений: звучит как прописная истина. Но снова и снова люди с разным уровнем опыта приравнивают эти понятия. Иногда умышленно, а иногда по невнимательности.

Корреляция и причинно-следственная связь

Корреляция — это взаимосвязь между двумя переменными, при которой изменение одной из них сопровождается изменением в другой. Здесь важно подчеркнуть слово «сопровождается», поскольку при корреляции эти изменения могут происходить без прямого влияния одной переменной на другую. 

В ситуации же, когда такое прямое влияние доказано — можно говорить о причинно-следственной связи.

Пример корреляции может звучать так:

Рост потребления мороженого сопровождается ростом числа лесных пожаров.

Рост потребления мороженого сопровождается ростом числа лесных пожаров.

Другой пример:

Cнижение потребления маргарина сопровождается снижением количества разводов.

Cнижение потребления маргарина сопровождается снижением количества разводов.

Отличие корреляции от причинно-следственной связи

У корреляции может быть несколько причин. Например, на две переменные влияет некий третий фактор, как в случае с ростом продаж мороженого и лесными пожарами. Этот фактор — теплое время года и высокая интенсивность солнечного излучения.

В случае с корреляцией не всегда можно идентифицировать другие факторы, которые влияют на обе переменные, а иногда их может не быть вовсе. В таком случае уместно говорить о случайности. Одновременное снижение числа разводов и потребления маргарина — пример такой ложной корреляции (spurious correlation).

В чем отличие корреляции от причинно-следственной связи

Причинно-следственная связь всегда подразумевает наличие корреляции. Корреляция не обязательно означает наличие причинно-следственной связи. Корреляция может быть случайной, но причинно-следственная связь по определению не может быть случайностью.

Если корреляция есть, то для доказательства причинно-следственной связи должны соблюдаться еще два условия:

  • Отсутствие сторонних факторов, которые влияют на обе переменные;
  • Прямая временная последовательность между изменением первого и второго показателя, между событием A и событием B.

Хотя разница между корреляцией и причинно-следственной связью кажется очевидной, на практике принять одно за другое очень просто.