تعریف داده
داده ها، حقایق، اطلاعات، مشاهدات و اندازه گیری هایی هستند که برای کشف و پشتیبانی از تصمیمات آگاهانه استفاده می شوند. یک نقطه داده، یک واحد منفرد از داده در یک مجموعه داده است که خود مجموعه ای از نقاط داده است. مجموعه داده ها ممکن است در قالب ها و ساختارهای مختلف ارائه شوند و معمولاً بر اساس منبع یا جایی که داده ها از آن آمده اند، پایه گذاری می شوند. برای مثال، درآمد ماهانه یک شرکت ممکن است در یک صفحه وب باشد، اما داده های ساعتی ضربان قلب از یک ساعت هوشمند ممکن است در قالب JSON باشد. معمول است که دانشمندان داده با انواع مختلف داده ها در یک مجموعه داده کار کنند.
این بخش بر شناسایی و طبقه بندی داده ها بر اساس ویژگی ها و منابع آن تمرکز دارد.
نحوه توصیف داده ها
داده های خام داده هایی هستند که از منبع خود در حالت اولیه آمده اند و تجزیه و تحلیل یا سازماندهی نشده اند. برای درک آنچه در یک مجموعه داده اتفاق می افتد، باید آن را در قالبی سازماندهی کرد که هم برای انسان ها و هم برای فناوری هایی که ممکن است برای تجزیه و تحلیل بیشتر استفاده کنند، قابل درک باشد. ساختار یک مجموعه داده توصیف می کند که چگونه سازماندهی شده است و می تواند به عنوان ساختار یافته، بدون ساختار و نیمه ساختاری طبقه بندی شود. این انواع ساختارها بسته به منبع متفاوت خواهند بود، اما در نهایت در این سه دسته قرار می گیرند.
۱. داده های کمی
داده های کمی مشاهدات عددی در یک مجموعه داده هستند و معمولاً می توانند به صورت ریاضی تجزیه و تحلیل، اندازه گیری و استفاده شوند. برخی از نمونه های داده های کمی عبارتند از جمعیت یک کشور، قد یک شخص یا درآمد سه ماهه یک شرکت. با برخی تحلیل های اضافی، داده های کمی را می توان برای کشف روندهای فصلی شاخص کیفیت هوا (AQI) یا تخمین احتمال ترافیک ساعت شلوغی در یک روز کاری معمولی استفاده کرد.
۲. داده های کیفی
داده های کیفی، که به عنوان داده های طبقه بندی شده نیز شناخته می شوند، داده هایی هستند که نمی توان آنها را به صورت عینی مانند مشاهدات داده های کمی اندازه گیری کرد. این معمولاً قالب های مختلفی از داده های ذهنی است که کیفیت چیزی مانند یک محصول یا فرآیند را ثبت می کند. گاهی اوقات، داده های کیفی عددی هستند و معمولاً از نظر ریاضی استفاده نمی شوند، مانند شماره تلفن یا مهرهای زمانی. برخی از نمونه های داده های کیفی عبارتند از نظرات ویدیویی، مارک و مدل یک ماشین، یا رنگ مورد علاقه دوستان نزدیک شما. داده های کیفی را می توان برای درک اینکه مصرف کنندگان کدام محصولات را بیشتر دوست دارند یا برای شناسایی کلمات کلیدی محبوب در رزومه های شغلی استفاده کرد.
۳. داده های ساختاریافته
داده های ساختاریافته داده هایی هستند که در ردیف ها و ستون ها سازماندهی می شوند، جایی که هر ردیف دارای مجموعه ای از ستون های یکسان خواهد بود. ستون ها یک مقدار از یک نوع خاص را نشان می دهند و با نامی که نشان دهنده مقدار است شناسایی می شوند، در حالی که ردیف ها حاوی مقادیر واقعی هستند. ستون ها اغلب دارای مجموعه ای خاص از قوانین یا محدودیت ها در مورد مقادیر هستند تا اطمینان حاصل شود که مقادیر به درستی ستون را نشان می دهند. به عنوان مثال، تصور کنید یک صفحه وب از مشتریان که در آن هر ردیف باید یک شماره تلفن داشته باشد و شماره تلفن ها هرگز حاوی کاراکترهای الفبایی نیستند. ممکن است قوانینی برای ستون شماره تلفن اعمال شود تا اطمینان حاصل شود که هرگز خالی نیست و فقط حاوی اعداد است.
یک مزیت داده های ساختاریافته این است که می توان آن را به گونه ای سازماندهی کرد که با سایر داده های ساختاریافته مرتبط باشد. با این حال، از آنجایی که داده ها برای سازماندهی به روشی خاص طراحی شده اند، ایجاد تغییرات در ساختار کلی آن ممکن است زمان زیادی ببرد. به عنوان مثال، افزودن یک ستون ایمیل به صفحه وب مشتری که نمی تواند خالی باشد، به این معنی است که باید بفهمید چگونه این مقادیر را به ردیف های موجود مشتریان در مجموعه داده اضافه کنید.
نمونه هایی از داده های ساختاریافته: صفحات وب، پایگاه های داده رابطه ای، شماره تلفن، صورتحساب های بانکی
۴. داده های بدون ساختار
داده های بدون ساختار معمولاً نمی توانند در ردیف ها یا ستون ها طبقه بندی شوند و حاوی قالب یا مجموعه ای از قوانین برای پیروی نیستند. از آنجایی که داده های بدون ساختار محدودیت های کمتری در ساختار خود دارند، افزودن اطلاعات جدید در مقایسه با یک مجموعه داده ساختاریافته آسان تر است. اگر حسگری که هر 2 دقیقه داده های فشار هوا را ثبت می کند، به روزرسانی دریافت کرده است که اکنون به آن اجازه می دهد دما را اندازه گیری و ثبت کند، نیازی به تغییر داده های موجود ندارد، اگر بدون ساختار باشد. با این حال، این ممکن است باعث شود تجزیه و تحلیل یا بررسی این نوع داده ها بیشتر طول بکشد. به عنوان مثال، یک دانشمند که می خواهد میانگین دمای ماه گذشته را از داده های سنسور پیدا کند، اما متوجه می شود که سنسور در برخی از داده های ثبت شده خود یک "e" را ثبت کرده است تا نشان دهد که خراب است به جای یک عدد معمولی، که به این معنی است که داده ها ناقص هستند.
نمونه هایی از داده های بدون ساختار: فایل های متنی، پیام های متنی، فایل های ویدیویی
۵. دادههای نیمه ساختیافته
دادههای نیمه ساختیافته ویژگیهایی دارند که آنها را به ترکیبی از دادههای ساختیافته و غیرساختیافته تبدیل میکند. این دادهها معمولاً با قالب ردیفها و ستونها مطابقت ندارند، اما به روشی سازماندهی میشوند که ساختیافته در نظر گرفته میشود و ممکن است از یک قالب ثابت یا مجموعهای از قوانین پیروی کنند. ساختار بین منابع متفاوت خواهد بود، مانند یک سلسله مراتب کاملاً تعریفشده تا چیزی انعطافپذیرتر که امکان ادغام آسان اطلاعات جدید را فراهم میکند. فرادادهها شاخصهایی هستند که به تصمیمگیری در مورد نحوه سازماندهی و ذخیره دادهها کمک میکنند و بسته به نوع داده، نامهای مختلفی خواهند داشت. برخی از نامهای رایج برای فرادادهها عبارتند از برچسبها، عناصر، موجودیتها و ویژگیها. برای مثال، یک پیام ایمیل معمولی دارای یک موضوع، بدنه و مجموعهای از گیرندهها است و میتوان آن را بر اساس اینکه توسط چه کسی یا چه زمانی ارسال شده است، سازماندهی کرد.
نمونههایی از دادههای نیمه ساختیافته: HTML، فایلهای CSV، نشانهگذاری شیء جاوا اسکریپت (JSON)
منابع داده
منبع داده مکان اولیه تولید داده یا جایی است که دادهها "زندگی میکنند" و بسته به نحوه و زمان جمعآوری آن متفاوت است. دادههای تولید شده توسط کاربر(ها) به عنوان دادههای اولیه شناخته میشوند، در حالی که دادههای ثانویه از منبعی میآیند که دادهها را برای استفاده عمومی جمعآوری کرده است. برای مثال، گروهی از دانشمندان که مشاهداتی را در جنگلهای بارانی جمعآوری میکنند، اولیه در نظر گرفته میشوند و اگر تصمیم بگیرند آن را با سایر دانشمندان به اشتراک بگذارند، برای کسانی که از آن استفاده میکنند ثانویه در نظر گرفته میشود.
پایگاههای داده یک منبع رایج هستند و به یک سیستم مدیریت پایگاه داده برای میزبانی و نگهداری دادهها متکی هستند، جایی که کاربران از دستوراتی به نام پرسوجو برای کاوش در دادهها استفاده میکنند. فایلها به عنوان منابع داده میتوانند فایلهای صوتی، تصویری و ویدیویی و همچنین صفحات وب مانند اکسل باشند. منابع اینترنتی یک مکان رایج برای میزبانی دادهها هستند، جایی که پایگاههای داده و همچنین فایلها را میتوان یافت. رابطهای برنامهنویسی کاربردی، همچنین به عنوان API شناخته میشوند، به برنامهنویسان اجازه میدهند تا راههایی برای اشتراکگذاری دادهها با کاربران خارجی از طریق اینترنت ایجاد کنند، در حالی که فرآیند استخراج دادهها را از یک صفحه وب انجام میدهد. بخشهای کار با دادهها بر نحوه استفاده از منابع مختلف داده تمرکز دارد.
نوبت شماست! 🚀
وظیفه ۱
Kaggle یک منبع عالی از مجموعه دادههای باز است. از ابزار جستجوی مجموعه داده برای یافتن برخی از مجموعه دادههای جالب استفاده کنید و ۳-۵ مجموعه داده را با این معیارها طبقهبندی کنید:
- آیا دادهها کمی یا کیفی هستند؟
- آیا دادهها ساختیافته، غیرساختیافته یا نیمه ساختیافته هستند؟
خودآموزی
این واحد آموزشی مایکروسافت لرن با عنوان دادههای خود را طبقهبندی کنید دارای یک تجزیه و تحلیل دقیق از دادههای ساختیافته، نیمه ساختیافته و غیرساختیافته است.
قدردانی
از مایکروسافت برای ایجاد دوره منبع باز علوم داده برای مبتدیان تشکر میکنیم. این دوره الهامبخش بیشتر محتوای این فصل بوده است.