डेटा की बाढ़

सच को सूचना में डुबा देना

चतुर्वादी ढांचे का Level 2 (सूक्ष्म) आर्कटाइप. डेटा की बाढ़ इतने सारे संदर्भ दे देती है कि दर्शक उनको सच में जांच नहीं सकते. दो हजार साल पहले न्याय परंपरा ने इस चाल को प्रकरणच्युत कहा. युधिष्ठिर की याक्ष प्रश्न में सार (मूल बात) को समझने का तरीका ही इसका जवाब है. 2019 के अर्थशास्त्रियों का पत्र, अंग्रेजों की भारत-पढ़ाई की पहाड़-भर किताबें, और COVID की दवा की बहस इसी चाल के आज के उदाहरण हैं. जवाब यह है. सबसे मजबूत एक बात माँगो, भीड़ को मत मानो, जो वो कहते हैं उसे जोर से पढ़ो.

पत्र और जवाबी पत्र

14 मार्च 2019 को, भारत के चुनाव से दो महीने पहले, 108 अर्थशास्त्रियों और समाज-विज्ञानियों ने मिलकर एक पत्र निकाला. इस पत्र में कहा गया कि सरकार सांख्यिकी के डेटा को खराब कर रही है. पत्र पर जॉन ड्रेज, रीतिका खेड़ा, पुलप्रे बालकृष्णन और अभिजीत बनर्जी जैसे प्रसिद्ध अर्थशास्त्री हस्ताक्षर किए. (बनर्जी को उसी साल नोबेल पुरस्कार मिला.) पत्र बस चार पैराग्राफ लंबा था. लेकिन हस्ताक्षरकर्ताओं की सूची बारह पन्ने चलती थी.

The 108 and 131 economist letters facing off in print

सत्तर दो घंटों के बाद, 131 अर्थशास्त्रियों का एक जवाबी पत्र आया. इस पत्र में पहले पत्र का विरोध किया गया. नामों की सूची चौदह पन्ने थी. इसमें सुरजीत भल्ला, बिबेक देबरॉय (जो प्रधानमंत्री की आर्थिक सलाह देने वाली परिषद् में पहले काम कर चुके थे) और राष्ट्रीय सांख्यिकी विभाग के सदस्य शामिल थे.

फिर क्या हुआ यह दिलचस्प है. टीवी चैनलों ने न तो पहले पत्र की चार पैराग्राफें पढ़ीं न जवाबी पत्र को. उन्होंने केवल नामों की गिनती की. "भारत के 108 महान अर्थशास्त्री". "131 प्रसिद्ध अर्थशास्त्री जवाब देते हैं". दोनों पक्षों ने एक दूसरे के पत्र को यह कहने के लिए इस्तेमाल किया कि नामों की संख्या ही असली बात है. दर्शकों को डेटा की बहस नहीं, बल्कि किसके पास ज्यादा प्रसिद्ध नाम हैं इसकी दौड़ दिखाई गई.

यह रही डेटा की बाढ़. यह चतुर्वादी ढांचे के तीसरा आर्कटाइप है, जो भाग-निकालने वालों के समूह में आता है. कठिनाई. स्तर 2 (सूक्ष्म).

डेटा की बाढ़ क्या करती है

डेटा की बाढ़ वाला कोई विरोध नहीं करता. वह बस ढेर सारा सामान झलकाता है. इस चाल के तीन उप-चालें हैं, जो आमतौर पर एक साथ काम करती हैं.

सूचना का विकल्प. एक मजबूत सबूत की जगह चालीस कमजोर सबूत दे दो. दर्शक सूचना की संख्या को तर्क समझते हैं. "मेरे पास इस बात के 47 स्रोत हैं". संख्या वह काम करती है जो सबूत नहीं कर सका.
योग्यता की ढाल. नामों, विश्वविद्यालय के नाम, पत्रिकाओं का नाम देते हुए शुरुआत करो. "यह लांसेट की एक समीक्षा-की-गई बात है, जिस पर बारह डॉक्टरों के हस्ताक्षर हैं". योग्यता उस कागज के वास्तविक विचार की जगह ले लेती है, जिसे दर्शक के पास पढ़ने का समय नहीं है.
समय का टैक्स. विरोधी को हर स्रोत को पढ़ने के लिए घंटों घर में बैठाओ. "जब तक तुमने सभी 47 स्रोत नहीं पढ़ लिए, तब तक तुम असहमत नहीं हो सकते". विरोधी या तो समय लगाता है और चुप हो जाता है, या इंकार करता है और आलसी कहलाता है.

हर उप-चाल को अकेले काम में लाया जा सकता है. लेकिन जब तीनों एक साथ काम करें, तो तर्क की जगह शोध की दिखावट आ जाती है.

यह काम क्यों करती है

ज्यादातर दर्शक सीधे समय में 47 स्रोतों को जांच नहीं सकते. दिमाग का यह भारी होना ही तो पूरी चाल है. बहस खत्म होते होते, दर्शकों को संख्या की वजह से विश्वास हो जाता है. संख्या ही नतीजा बन जाती है.

Twitter में बीस तस्वीरें, किताब में दो सौ बातें, नीति पत्र में सत्तर संदर्भ, पैनल में कोई कहे "मेरे पास सौ स्रोत हैं" - सब एक ही तरीके से काम करते हैं. असली हथियार सबूत नहीं है. असली हथियार यह है कि दर्शक जल्दी से सबूत को जांच नहीं सकते.

प्रकरणच्युत. जब संदर्भ विषय से हट जाए

दो हजार साल पहले न्याय की परंपरा ने इस तरह की हार का नाम दिया था. प्रकरणच्युत मतलब "विषय से गिर जाना". गौतम ने न्याय सूत्रों में इसे बाईस हार की शर्तों में से एक माना है.

यह नियम बिल्कुल सटीक है. कोई भी सामान जो सवाल से सीधा संबंध न रखता हो, भले ही सच हो, भले ही अच्छे स्रोत से हो, भले ही बहुत हो, वह प्रकरणच्युत है. बहस में जिस व्यक्ति ने ऐसी बातें लाई हैं, वह अपना मामला मजबूत नहीं किया. वह मामले से ही भाग गया. पुरानी बहस की सभा में जज उसे हारा हुआ घोषित कर देता था.

आजकल की सार्वजनिक बहस इस नियम को भूल गई है. अगर कोई 20 संदर्भ लाता है जो मामले से कोई लेना-देना नहीं रखते, तो उसे तैयार समझा जाता है. यह नहीं कि हार गया. इस नियम को फिर से लानेके लिए हमें यह चाल के नाम पर पुकारना होगा जब वह आए.

भगवद् गीता 18.21 में कृष्ण ने इसी मानसिकता का नाम दिया है.

पृथक्त्वेन तु यज्ज्ञानं नानाभावान् पृथग्विधान्। वेत्ति सर्वेषु भूतेषु तज्ज्ञानं विद्धि राजसम्॥

pṛthaktvena tu yaj jñānaṃ nānā-bhāvān pṛthag-vidhān vetti sarveṣu bhūteṣu taj jñānaṃ viddhi rājasam

जो ज्ञान सब चीजों को अलग-अलग देखता है, एक-दूसरे से कोई नाता न देखता हो, उस ज्ञान को राजस (आवेगपूर्ण) कहते हैं.

भगवद् गीता 18.21

कृष्ण ने राजस ज्ञान को डेटा की बाढ़ वाले की सोच बताया है. बहुत सारी चीजें अलग-अलग, कोई सार (मूल बात) निकली नहीं. यह सोच सूचना तो ढेर लाती है, समझ नहीं.

जवाब. सबसे मजबूत एक बात माँगो

डेटा की बाढ़ का पुराना जवाब तीन कदमों में आता है.

सबसे मजबूत एक बात माँगो. "तुमने 47 स्रोत दिए. उसमें सबसे मजबूत कौन सा है? उसे हम दोनों मिलकर देखें". ज्यादातर लोग यह बता नहीं सकते. पूरी बाढ़ इसी पर निर्भर है कि दर्शक यह सवाल न पूछे.
भीड़ को मत मानो. असली तर्क देखो. यह वायदा न करो कि तुम 47 सब पढ़ोगे. इसके बजाय कहो कि जो सबसे मजबूत है वह पढ़ूँगा और देखूँगा कि उसमें क्या तर्क है. एक सावधानीपूर्वक पढ़ी गई बात ही इस बाढ़ को तोड़ सकती है.
जोर से वह पढ़ो जो वह कह रहे हैं. जब वह अपना सबसे मजबूत स्रोत बता दें, तो उसे खोल कर सामने उसका संक्षेप, फिर तरीका, फिर वह विशेष पैराग्राफ जोर से पढ़ो जो कथित तौर पर उनकी बात साबित करता है. ज्यादातर लोग जो कहते हैं कि "यह किताब यह सिद्ध करती है", असल में वह किताब कुछ और ही कहती है. जोर से पढ़ने की यह चाल ही पहले पैराग्राफ में ज्यादातर बाढ़ को खत्म कर देती है.

ये तीन तरीके न्याय के पाठ्यक्रम में सामान्य थे. महाभारत के वन पर्व में युधिष्ठिर ने यक्ष को जवाब दिया है. यही उदाहरण है. उसे बहुत सवाल पूछे गए, पर उसने जवाब में लंबी-लंबी सूचियाँ नहीं दीं. बस अपनी समझ की मूल बात कहा.

तर्कोऽप्रतिष्ठः श्रुतयो विभिन्ना नैको ऋषिर्यस्य मतं प्रमाणम्। धर्मस्य तत्त्वं निहितं गुहायां महाजनो येन गतः स पन्थाः॥

tarko'pratiṣṭhaḥ śrutayo vibhinnā naiko ṛṣir yasya mataṃ pramāṇam dharmasya tattvaṃ nihitaṃ guhāyāṃ mahājano yena gataḥ sa panthāḥ

तर्क न तो पक्का है, न शास्त्र एक जैसे हैं, कोई एक ऋषि की बात ही सच नहीं है. धर्म की सच्चाई दिल की गुफा में छिपी है. वह रास्ता ठीक है जो महान लोग चलते हैं.

महाभारत, वन पर्व (यक्ष प्रश्न)

युधिष्ठिर को मालूम था कि सामान्य बहुत है. लेकिन सच्चाई सामान्य की संख्या में नहीं, बल्कि बुद्धिमान लोग कैसे जीते हैं इसमें है.

Yudhishthira answers the Yaksha at the forest lake at twilight

एक ही चाल, तीन सदियों में

यह चाल हमेशा एक जैसी है. बस जगह और शब्द बदलते हैं.

British colonial scholars amid towering Indological citations

उन्नीसवीं और बीसवीं सदी में, बंगाल की एशियाटिक सोसाइटी (1784 में बनी) और रॉयल एशियाटिक सोसाइटी (1823) ने भारतीय किताबों पर लाखों पत्र छापे. हर नई किताब पुरानी किताबों का हवाला देती थी. समय के साथ यह ढेर ही सब कुछ हो गया. भले ही हर किताब संस्कृत, फारसी या तमिल के असल ग्रंथों को सही से समझती नहीं थी, फिर भी सब इसी पर विश्वास करने लगे. जब भारतीय विद्वान जवाब देने की कोशिश करने लगे, तो पहले उन्हें इस पूरी ढेर को जानना पड़ता था. यह समय का टैक्स था.

मार्च 2019 में, 108 और 131 अर्थशास्त्रियों ने यह खेल दोबारा खेला. बारह पन्ने नामों के, चार पैराग्राफ असली बात के. सार्वजनिक बहस नामों की गिनती पर हुई, डेटा की नहीं.

2020 से 2022 तक, COVID की दवा की बहस में यह चाल औद्योगिक स्तर पर खेली गई. दोनों पक्षों ने सैकड़ों पत्र, अध्ययन और कागज दिए. (कुछ तो गलत भी निकले बाद में.) लेकिन ज्यादातर लोग ने यह सब पढ़ा ही नहीं. केवल संख्या को देखा कि किसके पास ज्यादा है.

तीन सदियाँ. एक ही चाल. जवाब भी एक ही है.

आज की गूंज

अल्बर्टो ब्रांडोलिनी एक इतालवी सॉफ्टवेयर इंजीनियर थे. 2013 में उन्होंने कहा कि ब्रांडोलिनी का नियम: बकवास को खारिज करने के लिए जो ताकत चाहिए, बकवास बनाने के लिए उससे दस गुना कम चाहिए. यह असमानता ही डेटा की बाढ़ का हथियार है. 47 संदर्भ बनाने में मिनट लगते हैं. उन्हें खारिज करने में हफ्ते लगते हैं.

ब्रांडोलिनी की बात सच है. लेकिन संस्कृत की परंपरा का जवाब और भी पुराना और सीधा है. भीड़ से मत भागो. एक सबसे मजबूत माँगो. उसे जोर से पढ़ो. विरोधी को जवाब देने के लिए और ज्यादा संदर्भ नहीं, बल्कि असली तर्क के लिए मजबूर करो. यक्ष के सवाल बाढ़ की तरह थे. युधिष्ठिर के जवाब दिल की गुफा की तरह थे. यह नियम आज भी काम करता है.

उस पत्र की ओर लौटते हुए

जून 2019 तक, न तो पहला पत्र, न दूसरा पत्र. चुनाव किसी और से तय हुआ. डेटा की असली बहस कभी हुई ही नहीं. नामों की दौड़ भी भूल गई. अगला पाठ एक और आर्कटाइप लेता है, जो डेटा की बाढ़ का पड़ोसी है. जब संदर्भ खत्म होने लगें, तो शर्तें ही बदल दी जाती हैं.

Case studies

108 बनाम 131 अर्थशास्त्रियों के पत्र (मार्च 2019). योग्यता को तर्क के रूप में

14 मार्च 2019 को, भारत के चुनाव से दो महीने पहले, 108 अर्थशास्त्रियों ने एक खुला पत्र निकाला. इसमें कहा गया कि सरकार सांख्यिकी को गड़बड़ा रही है, खास तौर पर नौकरियों और GDP के आंकड़ों में. इस पत्र पर जॉन ड्रेज, रीतिका खेड़ा, पुलप्रे बालकृष्णन और अभिजीत बनर्जी जैसे विद्वान थे (बनर्जी को उसी साल नोबेल पुरस्कार मिला). पत्र बस चार पैराग्राफ का था. नामों की सूची बारह पन्ने थी. 72 घंटों में 131 अर्थशास्त्रियों का जवाबी पत्र आया, जिसमें सुरजीत भल्ला, बिबेक देबरॉय और राष्ट्रीय सांख्यिकी आयोग के सदस्य थे. टीवी चैनलों ने दोनों पत्रों की सूचना के नाम गिने, असली सवाल पर नहीं. "भारत के 108 महान अर्थशास्त्री" और "131 प्रसिद्ध अर्थशास्त्री जवाब देते हैं". नामों की दौड़ ही बहस बन गई. डेटा की बहस नहीं हुई.

यह प्रकरणच्युत है, पूरी सार्वजनिक बहस में. असली विषय था सांख्यिकी की सच्चाई. लेकिन बहस हट गई नामों की ओर. गौतम के न्याय सूत्रों में दोनों पक्ष हार जाते. युधिष्ठिर का जवाब यही सीखाता है. नामों की सूची भूलो, सार समझो, एक छोटा जवाब दो जो असली बात कहे. दोनों पत्रों ने यह नहीं किया.

सांख्यिकी का असली सवाल कभी हल नहीं हुआ. चुनाव अलग बातों से तय हुए. दोनों पत्र सिर्फ पढ़े जाने वाली बातें बन गए. बाद में कुछ लोगों ने खुद माना कि नामों की सूची ही काम कर गई, न कि चार पैराग्राफ. यह 'नामों की दौड़' का तरीका अब दूसरे पत्रों में भी दिखता है.

जब तुम्हें कोई पत्र मिले जिस पर प्रसिद्ध लोगों के हस्ताक्षर हों, तो पहला सवाल यही पूछो. इस पत्र का सबसे मजबूत सबूत क्या है? अगर जवाब "नाम" है, तो यह प्रकरणच्युत है. चार पैराग्राफ पढ़ो, बारह पन्ने नहीं. नामों की दौड़ को मना करो, भले ही तुम्हारी टीम जीत रही हो. यह गलत अनुशासन सिखाता है.

पहले पत्र में 600 शब्द की बातें थीं और बारह पन्ने नामों के. जवाबी पत्र भी ऐसा ही था. दोनों को मिलाएँ तो 1200 शब्द बातों के सामने 4800 शब्द नामों के. नाम का अनुपात 4 गुना ज्यादा था.

अंग्रेजों की भारत-पढ़ाई की किताबों का पहाड़ (1784 से 1947)

1784 में अंग्रेजों ने बंगाल में एशियाटिक सोसाइटी की स्थापना की. फिर 1823 में रॉयल एशियाटिक सोसाइटी. अगले 160 सालों में, इन संस्थाओं ने हजारों पत्र लिखे भारतीय ग्रंथों पर. हर नई किताब पुरानी किताब को उद्धृत करती थी. बीसवीं सदी तक, यह ढेर ही कानून बन गया. भारतीय विद्वान (तिलक, अरविंद, कूमारस्वामी) जब जवाब देने लगे, तो उन्हें एक समस्या का सामना करना पड़ा. संस्कृत किताब पढ़ने के लिए पहले अंग्रेजों की 30 किताबें पढ़नी पड़तीं. यह 'समय का टैक्स' था. भारतीय विद्वान धीमा हो गए.

न्याय परंपरा इसे अनवस्था कहती. चेन चेन चलती है, पर कोई मूल ग्रंथ को नहीं पढ़ता. संस्कृत या तमिल के असल ग्रंथों को खुद नहीं देखा जाता था. भीड़ के कारण प्रमाण का स्तर (कौन सा सबूत सच्चा) दब गया. यक्ष का तरीका यह होता. इस चेन को भूल जाओ, असली ग्रंथ को सीधे पढ़ो. जिन विद्वानों ने यह किया (तिलक, अरविंद, कूमारस्वामी), वे तेजी से आगे बढ़े. क्योंकि उन्होंने अंग्रेजों के टैक्स को नहीं माना.

आजादी तक (1947), अंग्रेजों की किताबें भारतीय विश्वविद्यालयों में भी कानून बन गई थीं. भारतीय छात्रों को अपनी संस्कृति अंग्रेजों की किताबों से सीखनी पड़ती थी. 2000 के बाद, हिंदू विद्वानों ने युधिष्ठिर का तरीका अपनाया. दूसरों की किताबों को छोड़ो, असली ग्रंथ पढ़ो, अपना पढ़ दो. अब अंग्रेजों की किताबों की शक्ति कम हो रही है.

जब तुम्हें दूसरों की बहुत सारी किताबें मिलें जो असली ग्रंथों को दबाती हों, तो पहले दूसरों की किताबें पूरी मत पढ़ो. सीधे असली ग्रंथ पढ़ो. तुम्हारा एक सीधा पढ़ाई दूसरों की सौ किताबों से ज्यादा मायने रखता है. दूसरों की किताबें रक्षा हैं. असली ग्रंथ हथियार है.

दोनों सोसाइटियों के पास 1,20,000 किताबें, पत्र और नोट हैं. लेकिन तिलक की दो किताबें (द ओरियन और आर्कटिक होम इन द वेदास) मिलाकर 900 पन्ने हैं. और आज भी तिलक को उद्धृत किया जाता है, जबकि अंग्रेजों की 1,20,000 किताबों को नहीं. भीड़ लंबे समय तक नहीं रहती.

COVID की दवा की बहस (2020-2022). बड़े पैमाने पर डेटा की बाढ़

2020 से 2022 तक, COVID की दवा की बहस में अकल्पनीय संख्या में पत्र आए. एक ओर 200 से ज्यादा अध्ययन, दूसरी ओर 200 से ज्यादा अलग अध्ययन. लांसेट की एक किताब बाद में गलत निकली, पर उसकी रिट्रैक्शन भी दोनों पक्षों की सूची में आ गई. दोनों ही इसे अपने पक्ष में सबूत बताते थे. परीक्षण इतनी तेजी से बढ़ रहे थे कि पढ़े नहीं जा सकते थे. 2021 तक, WHO के अध्ययन, फ्रांस, इटली के अध्ययन, और हजारों पत्र सब आ गए. पर ज्यादातर लोगों ने इन्हें पढ़ा नहीं था. बहस का फैसला इस बात से हुआ कि किसके पास ज्यादा संदर्भ हैं, न कि असली तर्क से.

गीता 18.21 यह नाम देती है. जो ज्ञान सब को अलग-अलग देखे, कोई सार न निकले, वह राजस है. COVID की बहस पूरी तरह राजस थी. कोई भी सात्विक सार नहीं था. युधिष्ठिर का तरीका होता कि हर पक्ष का एक सबसे मजबूत अध्ययन खोजा जाए, उसे पूरी तरह पढ़ा जाए, और सबसे छोटा सच्चा नतीजा दिया जाए. कोई भी ऐसा नहीं किया. इसकी कीमत चिकित्सकों के लाखों घंटे और जनता का विश्वास था.

2022 तक, सबसे मजबूत अध्ययन कह रहे थे कि यह दवा काम नहीं करती. लेकिन जनता के विचार नहीं बदले. दोनों पक्ष अपनी पुरानी बात पर ही रहे. संदर्भ बढ़ते रहे. असली सवाल मामूली हो गया. अगली बहस में भी ऐसा ही होगा क्योंकि यह सिस्टम नहीं बदला.

जब सार्वजनिक वैज्ञानिक बहस में कुछ महीनों में सैकड़ों पत्र आएँ, तो यह संकेत है कि कोई सहमति नहीं बन रही. भीड़ को भूल जाओ. हर पक्ष का एक सबसे मजबूत अध्ययन खोजो, उसे पूरी तरह पढ़ो, और अपना खुद का निर्णय लो. बाकी सबके साथ न गलत सहमति दो न गलत असहमति. भीड़ तो संरचनागत है. निर्णय तुम्हारा अपना होना चाहिए.

PubMed में 13,000 से ज्यादा पत्र हैं. लेकिन सबसे मजबूत चार अध्ययन (RECOVERY, Solidarity और दो अन्य) 1% से कम हैं. पर इन्हीं में 90% ज्ञान है. 100 में से 99 अनावश्यक हैं. यही डेटा की बाढ़ का राज है.

Reflection

पिछले महीने में ऐसा कोई समय याद करो जब किसी ने तुम्हें संदर्भों की सूची भेजी हो. असली सवाल क्या था? सबसे मजबूत एक कौन सा था? अगर तुम बता नहीं पाते, तो इसका मतलब क्या है?
आजकल डेटा की बाढ़ को पुरस्कार मिलता है, पर न्याय सभा में हार घोषित की जाती. क्या बदल गया? गौतम की सभा में एक जज होता था. आज Twitter पर कौन जज है? क्या खो गया है?
यक्ष के सवालों के सामने युधिष्ठिर ने छोटे जवाब दिए. क्या हर सवाल का छोटा जवाब हो सकता है? या कभी लंबे जवाब चाहिएँ? सच्चे छोटे जवाब और गलत छोटे जवाब में क्या अंतर है?