→ بازگشت به علم داده

معرفی مختصر آمار و احتمال

 یادداشت طراحی شده توسط (@sketchthedocs)
آمار و احتمال - یادداشت طراحی شده توسط @nitya

آمار و نظریه احتمال دو حوزه بسیار مرتبط از ریاضیات هستند که به شدت با علم داده مرتبط هستند. امکان کار با داده‌ها بدون دانش عمیق ریاضیات وجود دارد، اما همچنان بهتر است حداقل برخی از مفاهیم پایه را بدانید. در اینجا یک معرفی کوتاه ارائه می‌کنیم که به شما کمک می‌کند شروع کنید.

آزمون قبل از سخنرانی

احتمال و متغیرهای تصادفی

احتمال یک عدد بین 0 و 1 است که بیان می‌کند یک رویداد چقدر محتمل است. این عدد به عنوان تعداد نتایج مثبت (که منجر به رویداد می‌شوند)، تقسیم بر تعداد کل نتایج، با فرض اینکه همه نتایج به یک اندازه محتمل هستند، تعریف می‌شود. برای مثال، وقتی یک تاس می‌اندازیم، احتمال اینکه عدد زوج بیاوریم 3/6 = 0.5 است.

وقتی در مورد رویدادها صحبت می‌کنیم، از متغیرهای تصادفی استفاده می‌کنیم. برای مثال، متغیر تصادفی که عدد به دست آمده هنگام انداختن تاس را نشان می‌دهد، می‌تواند مقادیر 1 تا 6 را بگیرد. مجموعه اعداد از 1 تا 6 به عنوان فضای نمونه نامیده می‌شود. می‌توانیم در مورد احتمال اینکه یک متغیر تصادفی یک مقدار مشخص را بگیرد صحبت کنیم، برای مثال P(X=3)=1/6.

متغیر تصادفی در مثال قبلی گسسته نامیده می‌شود، زیرا یک فضای نمونه قابل شمارش دارد، یعنی مقادیر جداگانه‌ای وجود دارد که می‌توان آن‌ها را شمارش کرد. مواردی وجود دارد که فضای نمونه یک محدوده از اعداد واقعی یا کل مجموعه اعداد واقعی است. چنین متغیرهایی پیوسته نامیده می‌شوند. یک مثال خوب زمان رسیدن اتوبوس است.

توزیع احتمال

در مورد متغیرهای تصادفی گسسته، توصیف احتمال هر رویداد با یک تابع P(X) آسان است. برای هر مقدار s از فضای نمونه S، یک عدد از 0 تا 1 می‌دهد، به طوری که مجموع تمام مقادیر P(X=s) برای همه رویدادها 1 باشد.

معروف‌ترین توزیع گسسته، توزیع یکنواخت است، که در آن یک فضای نمونه از N عنصر با احتمال برابر 1/N برای هر یک از آن‌ها وجود دارد.

توصیف توزیع احتمال یک متغیر پیوسته، با مقادیر گرفته شده از یک بازه [a,b] یا مجموعه اعداد حقیقی ℝ، دشوارتر است. به عنوان مثال، زمان رسیدن اتوبوس را در نظر بگیرید. در واقع، برای هر زمان دقیق رسیدن t، احتمال رسیدن اتوبوس دقیقاً در آن زمان 0 است!

اکنون شما می‌دانید که رویدادهایی با احتمال 0 اتفاق می‌افتند و بسیار هم رایج هستند! حداقل هر بار که اتوبوس می‌رسد!

ما فقط می‌توانیم در مورد احتمال قرار گرفتن یک متغیر در یک بازه مشخص از مقادیر صحبت کنیم، به عنوان مثال P(t1 ≤X<t2). در این صورت، توزیع احتمال توسط یک تابع چگالی احتمال p(x) توصیف می‌شود، به طوری که

P(t_1\le X<t_2)=\int_{t_1}^{t_2}p(x)dx

یک آنالوگ پیوسته از توزیع یکنواخت، یکنواخت پیوسته نامیده می‌شود که در یک بازه محدود تعریف می‌شود. احتمال اینکه مقدار X در یک بازه به طول l قرار گیرد، با l متناسب است و تا 1 افزایش می‌یابد.

توزیع مهم دیگری که وجود دارد، توزیع نرمال است که در ادامه بیشتر در مورد آن صحبت خواهیم کرد.

میانگین، واریانس و انحراف معیار

فرض کنید ما یک دنباله از n نمونه از یک متغیر تصادفی X را می‌کشیم: x1, x2, ..., xn. ما می‌توانیم میانگین (یا میانگین حسابی) دنباله را به روش سنتی به صورت (x1+x2+xn)/n تعریف کنیم. با افزایش اندازه نمونه (یعنی گرفتن حد با n→∞)، میانگین (که به آن انتظار نیز گفته می‌شود) توزیع را به دست می‌آوریم. ما انتظار را با E(x) نشان می‌دهیم.

می‌توان نشان داد که برای هر توزیع گسسته با مقادیر {x1, x2, ..., xN} و احتمال‌های متناظر p1, p2, ..., pN، انتظار برابر با E(X)=x1p1+x2 p2+...+xNpN خواهد بود.

برای شناسایی میزان پراکندگی مقادیر، می‌توانیم واریانس σ2 = ∑(xi - μ)2/n را محاسبه کنیم، جایی که μ میانگین دنباله است. مقدار σ به عنوان انحراف معیار نامیده می‌شود و σ 2 به عنوان واریانس شناخته می‌شود.

مد، میانه و چارک‌ها

گاهی اوقات، میانگین به طور مناسب "مقدار معمول" را برای داده‌ها نشان نمی‌دهد. به عنوان مثال، هنگامی که چند مقدار شدید وجود دارد که کاملاً خارج از محدوده هستند، می‌توانند بر میانگین تأثیر بگذارند. شاخص خوب دیگر میانه است، مقداری که نیمی از نقاط داده کمتر از آن و نیمی دیگر بیشتر از آن هستند.

برای کمک به درک توزیع داده‌ها، صحبت در مورد چارک‌ها مفید است:

  • چارک اول، یا Q1، مقداری است که 25٪ از داده‌ها زیر آن قرار می‌گیرند
  • چارک سوم، یا Q3، مقداری است که 75٪ از داده‌ها زیر آن قرار می‌گیرند

به صورت گرافیکی می‌توانیم رابطه بین میانه و چارک‌ها را در یک نمودار به نام جعبه نمودار نشان دهیم:

در اینجا ما همچنین محدوده بین چارکی IQR=Q3-Q1 و به اصطلاح دور افتاده‌ها - مقادیری که خارج از مرزهای [Q1-1.5 IQR,Q3+1.5IQR] قرار دارند را محاسبه می‌کنیم.

برای توزیع محدود که حاوی تعداد کمی از مقادیر ممکن است، یک "مقدار معمول" خوب مقداری است که بیشتر از همه ظاهر می‌شود، که به آن مد می‌گویند. اغلب برای داده‌های دسته‌ای، مانند رنگ‌ها، اعمال می‌شود. به عنوان مثال، وقتی دو گروه از افراد داریم - برخی که قرمز را ترجیح می‌دهند و برخی دیگر که آبی را ترجیح می‌دهند. اگر رنگ‌ها را با اعداد کد کنیم، مقدار میانگین برای رنگ مورد علاقه در طیف نارنجی-سبز خواهد بود، که نشان دهنده ترجیح واقعی در هیچ یک از گروه‌ها نیست. با این حال، مد یکی از رنگ‌ها یا هر دو رنگ خواهد بود، اگر تعداد افرادی که به آنها رأی می‌دهند برابر باشد (در این صورت نمونه را چند مدی می‌نامیم).

داده‌های دنیای واقعی

هنگامی که ما داده‌های دنیای واقعی را تحلیل می‌کنیم، اغلب آن‌ها متغیرهای تصادفی به معنای واقعی نیستند، به این معنا که ما آزمایش‌هایی با نتیجه نامعلوم انجام نمی‌دهیم. برای مثال، یک تیم از بازیکنان بیسبال و داده‌های بدنی آن‌ها مانند قد، وزن و سن را در نظر بگیرید. این اعداد دقیقاً تصادفی نیستند، اما همچنان می‌توانیم همان مفاهیم ریاضی را اعمال کنیم. برای مثال، یک دنباله از وزن افراد را می‌توان به عنوان یک دنباله از مقادیر گرفته شده از برخی متغیرهای تصادفی در نظر گرفت. در زیر دنباله‌ای از وزن بازیکنان بیسبال واقعی از Major League Baseball است که از این مجموعه داده گرفته شده است (برای راحتی شما، فقط ۲۰ مقدار اول نشان داده شده است):

[180.0, 215.0, 210.0, 210.0, 188.0, 176.0, 209.0, 200.0, 231.0, 180.0, 188.0, 180.0, 185.0, 160.0, 180.0, 185.0, 197.0, 189.0, 185.0, 219.0]

توجه: برای مشاهده مثال کار با این مجموعه داده، به دفترچه همراه نگاهی بیندازید. همچنین در طول این درس تعدادی چالش وجود دارد و می‌توانید با افزودن مقداری کد به آن دفترچه، آن‌ها را تکمیل کنید. اگر مطمئن نیستید که چگونه با داده‌ها کار کنید، نگران نباشید - ما بعداً به کار با داده‌ها با استفاده از پایتون باز خواهیم گشت. اگر نمی‌دانید چگونه کد را در Jupyter Notebook اجرا کنید، به این مقاله نگاهی بیندازید.

در اینجا نمودار جعبه‌ای نشان‌دهنده میانگین، میانه و چارک برای داده‌های ما است:

Weight Box Plot

از آنجایی که داده‌های ما حاوی اطلاعاتی در مورد نقش‌های مختلف بازیکن است، می‌توانیم نمودار جعبه‌ای را بر اساس نقش نیز انجام دهیم - این به ما امکان می‌دهد ایده‌هایی در مورد نحوه تفاوت مقادیر پارامترها در نقش‌ها به دست آوریم. این بار قد را در نظر می‌گیریم:

Box plot by role

این نمودار نشان می‌دهد که به طور میانگین، قد اولین بازیکنان پایه از قد دومین بازیکنان پایه بالاتر است. بعداً در این درس یاد خواهیم گرفت که چگونه این فرضیه را به طور رسمی‌تر آزمایش کنیم و چگونه نشان دهیم که داده‌های ما از نظر آماری معنی‌دار هستند تا این موضوع را نشان دهند.

هنگام کار با داده‌های دنیای واقعی، فرض می‌کنیم که همه نقاط داده نمونه‌ای از برخی توزیع‌های احتمالی هستند. این فرض به ما امکان می‌دهد تکنیک‌های یادگیری ماشین را اعمال کنیم و مدل‌های پیش‌بینی‌کننده کارآمد بسازیم.

برای دیدن توزیع داده‌هایمان، می‌توانیم نموداری به نام هیستوگرام رسم کنیم. محور X حاوی تعدادی از فواصل وزن مختلف (به اصطلاح بین) خواهد بود و محور عمودی تعداد دفعاتی را که نمونه متغیر تصادفی ما در یک فاصله معین قرار داشت نشان می‌دهد.

Histogram of real world data

از این هیستوگرام می‌توانید ببینید که تمام مقادیر حول میانگین وزن مشخصی متمرکز هستند و هرچه از آن وزن دورتر شویم، وزن‌های کمتری با آن مقدار مواجه می‌شوند. یعنی، بسیار بعید است که وزن یک بازیکن بیسبال بسیار متفاوت از میانگین وزن باشد. واریانس وزن‌ها نشان می‌دهد که وزن‌ها تا چه حد احتمال دارد از میانگین متفاوت باشند.

اگر وزن افراد دیگر را در نظر بگیریم، نه از لیگ بیسبال، توزیع احتمالاً متفاوت خواهد بود. با این حال، شکل توزیع یکسان خواهد بود، اما میانگین و واریانس تغییر خواهند کرد. بنابراین، اگر مدل خود را روی بازیکنان بیسبال آموزش دهیم، احتمالاً هنگام اعمال روی دانشجویان یک دانشگاه، نتایج نادرستی می‌دهد، زیرا توزیع زیربنایی متفاوت است.

توزیع نرمال

توزیع وزن‌هایی که در بالا دیدیم بسیار معمول است و بسیاری از اندازه‌گیری‌ها از دنیای واقعی از همان نوع توزیع پیروی می‌کنند، اما با میانگین و واریانس متفاوت. این توزیع به نام توزیع نرمال نامیده می‌شود و در آمار نقش بسیار مهمی دارد.

استفاده از توزیع نرمال یک راه صحیح برای تولید وزن‌های تصادفی بازیکنان بیسبال بالقوه است. هنگامی که میانگین وزن mean و انحراف استاندارد std را می‌دانیم، می‌توانیم 1000 نمونه وزن را به روش زیر تولید کنیم:

samples = np.random.normal(mean,std,1000)

اگر هیستوگرام نمونه‌های تولید شده را رسم کنیم، تصویری بسیار شبیه به تصویر بالا را خواهیم دید. و اگر تعداد نمونه‌ها و تعداد bins را افزایش دهیم، می‌توانیم تصویری از یک توزیع نرمال که به ایده‌آل نزدیک‌تر است، تولید کنیم:

توزیع نرمال با میانگین=0 و انحراف استاندارد=1

توزیع نرمال با میانگین=0 و انحراف استاندارد=1

فاصله اطمینان

هنگامی که در مورد وزن بازیکنان بیسبال صحبت می‌کنیم، فرض می‌کنیم که یک متغیر تصادفی W وجود دارد که به توزیع احتمال ایده‌آل وزن همه بازیکنان بیسبال (به اصطلاح جمعیت) مربوط می‌شود. توالی وزن‌های ما مربوط به زیرمجموعه‌ای از همه بازیکنان بیسبال است که ما آن را نمونه می‌نامیم. یک سوال جالب این است که آیا می‌توانیم پارامترهای توزیع W، یعنی میانگین و واریانس جمعیت را بدانیم؟

ساده‌ترین پاسخ این است که میانگین و واریانس نمونه خود را محاسبه کنیم. با این حال، ممکن است نمونه تصادفی ما جمعیت کامل را به دقت نشان ندهد. بنابراین صحبت در مورد فاصله اطمینان معنا دارد.

فاصله اطمینان تخمینی از میانگین واقعی جمعیت با توجه به نمونه ما است، که با احتمال خاصی (یا سطح اطمینان) دقیق است.

فرض کنید ما یک نمونه X1, ..., Xn از توزیع خود داریم. هر بار که یک نمونه از توزیع خود می‌گیریم، با مقدار میانگین متفاوت μ مواجه می‌شویم. بنابراین μ را می‌توان یک متغیر تصادفی در نظر گرفت. یک فاصله اطمینان با اطمینان p یک جفت مقدار (Lp,Rp) است، به طوری که P(Lp≤μ≤Rp) = p، یعنی احتمال اینکه مقدار میانگین اندازه‌گیری شده در فاصله قرار گیرد برابر با p است.

بحث دقیق در مورد نحوه محاسبه این فواصل اطمینان از حوصله این مقدمه کوتاه خارج است. برخی از جزئیات بیشتر را می‌توانید در ویکی‌پدیا بیابید. به طور خلاصه، ما توزیع میانگین نمونه محاسبه شده نسبت به میانگین واقعی جمعیت را تعریف می‌کنیم، که به نام توزیع استیودنت نامیده می‌شود.

واقعیت جالب: توزیع استیودنت به نام ریاضی‌دان ویلیام سیل گوست نامگذاری شده است، که مقاله خود را تحت نام مستعار " استیودنت" منتشر کرد. او در کارخانه گینس کار می‌کرد و طبق یکی از نسخه‌ها، کارفرمای او نمی‌خواست عموم مردم بدانند که آنها از آزمون‌های آماری برای تعیین کیفیت مواد خام استفاده می‌کنند.

اگر بخواهیم میانگین μ جمعیت خود را با اطمینان p تخمین بزنیم، باید (1-p)/2-امین صدک توزیع استیودنت A را بگیریم، که می‌توان آن را از جداول یا با استفاده از برخی توابع داخلی نرم‌افزار آماری (مانند پایتون، R و غیره) محاسبه کرد. سپس فاصله برای μ با X±A*D/√n داده می‌شود، که X میانگین به دست آمده از نمونه، D انحراف استاندارد است.

توجه: ما همچنین بحث در مورد یک مفهوم مهم درجه آزادی را که در رابطه با توزیع استیودنت مهم است، حذف می‌کنیم. می‌توانید برای درک عمیق‌تر این مفهوم به کتاب‌های کامل‌تری در مورد آمار مراجعه کنید.

یک مثال از محاسبه فاصله اطمینان برای وزن‌ها و قدها در دفترچه‌های همراه ارائه شده است.

pمیانگین وزن
0.85201.73±0.94
0.90201.73±1.08
0.95201.73±1.28

توجه داشته باشید که هرچه احتمال اطمینان بیشتر باشد، فاصله اطمینان گسترده‌تر است.

آزمون فرضیه

در مجموعه داده بازیکنان بیسبال ما، نقش‌های مختلفی برای بازیکنان وجود دارد که می‌توان آن‌ها را به صورت زیر خلاصه کرد ( به دفترچه همراه نگاه کنید تا ببینید چگونه این جدول محاسبه شده است):

نقشقدوزنتعداد
گیرنده72.723684204.32894776
ضربه زن تعیین شده74.222222220.88888918
اولین بازیکن پایه74.000000213.10909155
بازیکن خارجی73.010309199.113402194
پرتاب کننده کمکی74.374603203.517460315
دومین بازیکن پایه71.362069184.34482858
shortstop71.903846182.92307752
پرتاب کننده شروع کننده74.719457205.163636221
سومین بازیکن پایه73.044444200.95555645

ما می‌توانیم متوجه شویم که میانگین قد اولین بازیکنان پایه از میانگین قد دومین بازیکنان پایه بیشتر است. بنابراین، ممکن است وسوسه شویم که نتیجه بگیریم اولین بازیکنان پایه از دومین بازیکنان پایه بلندتر هستند.

این جمله یک فرضیه نامیده می‌شود، زیرا ما نمی‌دانیم که آیا این واقعیت واقعاً درست است یا نه.

با این حال، همیشه واضح نیست که آیا می‌توانیم این نتیجه‌گیری را انجام دهیم یا نه. از بحث بالا می‌دانیم که هر میانگین یک فاصله اطمینان مرتبط دارد و بنابراین این تفاوت می‌تواند فقط یک خطای آماری باشد. ما به راهی رسمی‌تر برای آزمایش فرضیه خود نیاز داریم.

بیایید فاصله‌های اطمینان را جداگانه برای قد اولین و دومین بازیکنان پایه محاسبه کنیم:

اطمیناناولین بازیکنان پایهدومین بازیکنان پایه
0.8573.62..74.3871.04..71.69
0.9073.56..74.4470.99..71.73
0.9573.47..74.5370.92..71.81

ما می‌توانیم ببینیم که تحت هیچ اطمینانی فاصله‌ها همپوشانی ندارند. این فرضیه ما را ثابت می‌کند که اولین بازیکنان پایه از دومین بازیکنان پایه بلندتر هستند.

به طور رسمی‌تر، مسئله‌ای که ما در حال حل آن هستیم این است که ببینیم آیا دو توزیع احتمال یکسان هستند، یا حداقل پارامترهای یکسانی دارند. بسته به توزیع، ما نیاز داریم که از آزمون‌های مختلفی برای آن استفاده کنیم. اگر ما می‌دانیم که توزیع‌های ما نرمال هستند، می‌توانیم آزمون تی استیودنت را اعمال کنیم.

در آزمون تی استیودنت، ما به اصطلاح t-value را محاسبه می‌کنیم، که نشان دهنده تفاوت بین میانگین‌ها با در نظر گرفتن واریانس است. نشان داده شده است که t-value از توزیع استیودنت پیروی می‌کند، که به ما اجازه می‌دهد تا مقدار آستانه را برای یک سطح اطمینان داده شده p به دست آوریم (این می‌تواند محاسبه شود، یا در جداول عددی جستجو شود). سپس ما t-value را با این آستانه مقایسه می‌کنیم تا فرضیه را تایید یا رد کنیم.

در پایتون، ما می‌توانیم از بسته SciPy استفاده کنیم، که شامل تابع ttest_ind (علاوه بر بسیاری از توابع آماری مفید دیگر!) است. این تابع t-value را برای ما محاسبه می‌کند، و همچنین جستجوی معکوس مقدار اطمینان p-value را انجام می‌دهد، به طوری که ما می‌توانیم فقط به اطمینان نگاه کنیم تا نتیجه‌گیری کنیم.

برای مثال، مقایسه ما بین قد اولین و دومین بازیکنان پایه نتایج زیر را به ما می‌دهد:

from scipy.stats import ttest_ind

tval, pval = ttest_ind(df.loc[df['Role']=='First_Baseman',['Height']], df.loc[df['Role']=='Designated_Hitter',['Height']],equal_var=False)
print(f"T-value = {tval[0]:.2f}\nP-value: {pval[0]}")
T-value = 7.65
P-value: 9.137321189738925e-12

در مورد ما، p-value بسیار پایین است، به این معنی که شواهد قوی وجود دارد که نشان می‌دهد اولین بازیکنان پایه بلندتر هستند.

همچنین انواع دیگری از فرضیه‌هایی وجود دارند که ممکن است بخواهیم آزمایش کنیم، برای مثال:

  • برای اثبات اینکه یک نمونه داده شده از یک توزیع پیروی می‌کند. در مورد ما، ما فرض کرده‌ایم که قدها به صورت نرمال توزیع شده‌اند، اما این نیاز به تأیید آماری رسمی دارد.
  • برای اثبات اینکه یک میانگین نمونه با یک مقدار از پیش تعریف شده مطابقت دارد.
  • برای مقایسه میانگین‌های تعدادی از نمونه‌ها (به عنوان مثال، تفاوت در سطوح شادی در بین گروه‌های سنی مختلف چیست).

قانون اعداد بزرگ و قضیه حد مرکزی

یکی از دلایلی که توزیع نرمال بسیار مهم است، به اصطلاح قضیه حد مرکزی است. فرض کنید ما یک نمونه بزرگ از مقادیر مستقل N به صورت X1, ..., XN داریم که از هر توزیعی با میانگین μ و واریانس σ2 نمونه‌گیری شده‌اند. سپس، برای N به اندازه کافی بزرگ (به عبارت دیگر، وقتی N→∞)، میانگین ΣiXi به صورت نرمال توزیع می‌شود، با میانگین μ و واریانس σ2/N.

راه دیگر برای تفسیر قضیه حد مرکزی این است که بگوییم صرف نظر از توزیع، هنگامی که میانگین مجموع هر مقدار متغیر تصادفی را محاسبه می‌کنید، در نهایت با توزیع نرمال مواجه می‌شوید.

از قضیه حد مرکزی همچنین نتیجه می‌شود که، وقتی N→∞، احتمال اینکه میانگین نمونه برابر با μ باشد، 1 می‌شود. این به عنوان قانون اعداد بزرگ شناخته می‌شود.

کوواریانس و همبستگی

یکی از کارهایی که علم داده انجام می‌دهد، پیدا کردن روابط بین داده‌ها است. ما می‌گوییم که دو دنباله همبستگی دارند، هنگامی که آن‌ها رفتار مشابهی را در یک زمان نشان می‌دهند، یعنی آن‌ها یا همزمان افزایش/کاهش می‌یابند، یا یک دنباله افزایش می‌یابد در حالی که دیگری کاهش می‌یابد و برعکس. به عبارت دیگر، به نظر می‌رسد که بین دو دنباله یک رابطه وجود دارد.

همبستگی لزوماً نشان دهنده رابطه علی بین دو دنباله نیست؛ گاهی اوقات هر دو متغیر می‌توانند به یک علت خارجی وابسته باشند، یا ممکن است کاملاً تصادفی باشد که دو دنباله همبستگی دارند. با این حال، همبستگی ریاضی قوی نشان دهنده خوبی است که دو متغیر به نوعی به هم مرتبط هستند.

از نظر ریاضی، مفهوم اصلی که رابطه بین دو متغیر تصادفی را نشان می‌دهد، کوواریانس است که به این صورت محاسبه می‌شود: Cov(X,Y) = E$$(X-E(X))(Y-E(Y))$$. ما انحراف هر دو متغیر از مقادیر میانگین آن‌ها را محاسبه می‌کنیم، و سپس حاصلضرب آن انحرافات را به دست می‌آوریم. اگر هر دو متغیر با هم انحراف پیدا کنند، حاصلضرب همیشه یک مقدار مثبت خواهد بود که به کوواریانس مثبت اضافه می‌شود. اگر هر دو متغیر خارج از همگام‌سازی انحراف پیدا کنند (یعنی یکی زیر میانگین کاهش می‌یابد در حالی که دیگری بالای میانگین افزایش می‌یابد)، همیشه اعداد منفی به دست می‌آوریم که به کوواریانس منفی اضافه می‌شوند. اگر انحرافات وابسته نباشند، آن‌ها تقریباً به صفر اضافه می‌شوند.

مقدار مطلق کوواریانس به ما نمی‌گوید که همبستگی چقدر بزرگ است، زیرا به بزرگی مقادیر واقعی بستگی دارد. برای نرمال‌سازی آن، می‌توانیم کوواریانس را بر انحراف معیار هر دو متغیر تقسیم کنیم تا همبستگی را به دست آوریم. نکته خوب این است که همبستگی همیشه در محدوده [-1,1] قرار دارد، جایی که 1 نشان دهنده همبستگی مثبت قوی بین مقادیر، -1 - همبستگی منفی قوی و 0 - هیچ همبستگی (متغیرها مستقل هستند) است.

مثال: ما می‌توانیم همبستگی بین وزن‌ها و قدهای بازیکنان بیسبال را از مجموعه داده‌های ذکر شده در بالا محاسبه کنیم:

print(np.corrcoef(weights,heights))

در نتیجه، ما ماتریس همبستگی مانند این را به دست می‌آوریم:

array([[1.        , 0.52959196],
       [0.52959196, 1.        ]])

ماتریس همبستگی C را می‌توان برای هر تعداد دنباله ورودی S1، ...، Sn محاسبه کرد. مقدار C ij همبستگی بین Si و Sj است و عناصر قطر اصلی همیشه 1 هستند (که همچنین خودهمبستگی S i است).

در مورد ما، مقدار 0.53 نشان می‌دهد که بین وزن و قد یک شخص همبستگی وجود دارد. ما همچنین می‌توانیم نمودار پراکندگی یک مقدار در برابر دیگری را برای مشاهده بصری رابطه ایجاد کنیم:

رابطه بین وزن و قد

نمونه‌های بیشتری از همبستگی و کوواریانس را می‌توانید در دفترچه همراه بیابید.

نتیجه‌گیری

در این بخش، ما آموختیم:

  • خواص آماری پایه داده‌ها، مانند میانگین، واریانس، مد و چارک‌ها
  • توزیع‌های مختلف متغیرهای تصادفی، از جمله توزیع نرمال
  • چگونه همبستگی بین خواص مختلف را پیدا کنیم
  • چگونه از دستگاه صوتی ریاضی و آمار برای اثبات برخی فرضیات استفاده کنیم،
  • چگونه فاصله اطمینان برای متغیر تصادفی با توجه به نمونه داده را محاسبه کنیم

در حالی که این قطعاً لیست کاملی از موضوعات موجود در احتمال و آمار نیست، باید برای شروع خوب در این دوره کافی باشد.

🚀 چالش

از نمونه کد در دفترچه برای آزمایش سایر فرضیه‌هایی که استفاده کنید:

  1. اولین بازیکنان پایه از دومین بازیکنان پایه مسن‌تر هستند
  2. اولین بازیکنان پایه از سومین بازیکنان پایه بلندتر هستند
  3. شورت‌استاپ‌ها از دومین بازیکنان پایه بلندتر هستند

آزمون پس از سخنرانی

مرور و خودآموزی

آمار و احتمال موضوعی بسیار گسترده است که شایسته دوره خاص خود است. اگر علاقه مند به مطالعه عمیق تر در تئوری هستید، ممکن است بخواهید به خواندن برخی از کتاب های زیر ادامه دهید:

  1. کارلوس فرناندز-گراندا از دانشگاه نیویورک دارای یادداشت های سخنرانی عالی احتمال و آمار برای علم داده (به صورت آنلاین در دسترس است)
  2. پیتر و اندرو بروس. آمار عملی برای دانشمندان داده. [نمونه کد در R].
  3. جیمز دی. میلر. آمار برای علم داده [نمونه کد در R]

تکلیف

مطالعه کوچک دیابت

اعتبارات

این درس با ♥️ توسط دیمیتری سوشنیکوف تألیف شده است.