آنالیز اطلاعات

فرایند فهمیدن، پاک‌سازی، آماده‌سازی و تحلیل داده‌هاست که به منظور استخراج اطلاعات سودمند برای تصمیم‌گیری انجام می‌شود. تحلیل داده‌ها امروزه در اغلب شاخه‌های علوم و صنعت از جمله اقتصاد، رشته‌های مهندسی، بازاریابی، پزشکی و غیره کاربرد دارد.ویا منظور از تحلیل داده به فرایند ارزیابی داده با استفاده از ابزارهای آماری و تحلیلی است. هدف از این مهارت تعیین اطلاعات مفید و همچنین کمک به فرایند گرفتن تصمیمات مهم در کسب‌و‌کار است.

خدمات

با خدمات ما بیشتر آشنا شوید

شما میتوانید کاتالوگ خدمات شرکت داده پی جوی خیام را به صورت فایل دریافت کنین

دریافت کاتالوگ خدمات شرکت داده پی جوی خیام

مراحل تحلیل داده

تجزیه‌وتحلیل به معنای شکستن کل به اجزاء جداگانه است. تحلیل داده روند به دست آوردن دادهٔ جدید و تبدیل آن به اطلاعاتی مفید در جهت تصمیم‌گیری کاربران است. داده جمع‌آوری و تحلیل می‌شود تا پاسخگوی سوالات، آزمایش فرضیه‌ها یا تکذیب نظریه‌ها باشد.

آمارگر جان توکی در سال ۱۹۶۱ تحلیل داده‌ها را به صورت زیر تعریف کرد: «روش‌هایی برای تجزیه‌وتحلیل داده‌ها، تکنیک‌هایی برای تفسیر کردن نتایج حاصل از چنین روش‌هایی، روش‌های برنامه‌ریزی جمع‌آوری داده‌ها برای آسان‌تر ساختن تجزیه‌وتحلیل دقیق‌تر و صحیح‌تر و تمام ماشین‌آلات و نتایج حاصل از آمار که برای تحلیل کردن داده‌ها به کار بسته می‌شود.»

چندین مرحله قابل تشخیص وجود دارد که در زیر توضیح داده می‌شود.

آنالیز اطلاعات

1. الزامات داده

دادهٔ لازم به عنوان ورودی جهت تحلیل، بر اساس پیش‌نیازهای جهت‌دار یا مشتریانی که از محصول نهایی تحلیل استفاده می‌کنند، مشخص شده‌اند. ماهیت کلی که بر مبنای آن داده جمع‌آوری خواهد شد، واحد آزمایشی نامیده می‌شود (به‌طور مثال، یک فرد یا جمعیت). متغیرهای خاص در رابطه با یک جمعیت (به‌طور مثال سن یا درآمد) می‌تواند مشخص شود و به دست آید. داده‌ها ممکن است عددی یا مطلق (مثلاً اعداد یا یک متن) باشند

2. جمع‌آوری داده

داده از منابع گوناگون جمع‌آوری می‌شود. پیش‌نیازها می‌تواند توسط تحلیل‌گران و متولیان داده وسیله ارتباطی باشد. مثلاً تجهیزات فناوری اطلاعات که در یک سازمان است. همچنین داده می‌تواند از سنسورهای داخل محیط مانند دوربین‌های ترافیک، ماهواره، وسایل ثبت و غیره جمع‌آوری شود. همچنین می‌تواند از طریق مصاحبه‌ها، دانلود از منابع آنلاین یا خواندن اسناد به دست آید.

3. پردازش داده

داده اولیه باید برای تحلیل، فرآوری یا سازماندهی شود. به‌طور مثال آن‌ها در فرمت ستونی یا ردیفی در یک جدول قرار می‌گیرند (یعنی داده ساختاری) که برای تحلیل بیشتر از نرم‌افزارهای آماری یا صفحه گسترده استفاده می‌کنند.

4. تجزیه‌وتحلیل داده اکتشافی

زمانی که داده پاک‌سازی شد، می‌تواند تحلیل شود. برای داده اکتشافی، تحلیل‌گر ممکن است چندین روش را به کار ببندد تا پیام موجود در داده را بتواند درک کند. خود این بخش می‌تواند شامل پاک‌سازی دیگری شود. بنابراین این فعالیت‌ها در ذات خود ممکن است تکرار داشته باشند. آمار توصیفی مانند معدل و میانه ممکن است برای کمک به فهم آن داده تولید شود. مصورسازی داده نیز به فرمت گرافیکی به کار می‌رود تا دید بیشتری نسبت به پیام‌های درون داده حاصل آید.

5. مدل‌سازی و الگوریتم

مدل‌ها یا فرمول‌های ریاضی که به آن‌ها الگوریتم گفته می‌شود، ممکن است بر روی داده به کار بسته شود تا روابط بین متغیرها مانند همبستگی یا نسبت میان علت و معمول شناسایی شود. به‌طور کلی، مدل‌ها برای ارزیابی به متغیری مشخص در داده که بر مبنای دیگر متغیرها است، توسعه می‌یابد که در آن چند خطای باقی‌مانده بسته به دقت مدل وجود دارد (داد ه= مدل + خطا). آمار استنتاجی، شامل روش‌های اندازه‌گیری روابط بین متغیرهای مشخص می‌باشد. برای مثال، تحلیل رگرسیون ممکن است برای مدل استفاده شود که تغییر در تبلیغ (متغیر مستقل X) و تغییر در فروش (متغیر وابسته Y) را توضیح می‌دهد. از لحاظ ریاضی، Y (فروش) تابعی از X (تبلیغات) است. ممکن است به صورت Y = aX + b + error توضیح داده شود که در آن مدل به گونه‌ای طراحی شده که a و b زمانی که مدل Y را برای طیفی از مقادیر X پیش‌بینی می‌کند، خطا را کاهش دهند. ممکن است تحلیل‌گران سعی کنند تا مدل‌هایی بسازند که توصیفی هستند تا تحلیل ساده و نتایج قابل فهم شود.

سوالات متداول

بله، تفاوتی ندارد داده شما از چه نوعی باشد ( تصویر ، ویدئو ، صدا ، داده های رمزنگاری شده و …) همگی قابل آنالیز و پی جویی دارند.

اپلیکیشن های شبکه های اجتماعی از روش های متفاوت و پیچیده ای برای رمزنگاری داده های خود انجام می دهند تا امنیت کابران خود را تا حد امکان تامین کنند.

این از مواردی است که داده پی جوی خیام را متفاوت میکند. 

نویسنده جاناتان کومی چند سری از بهترین تمرین‌ها را برای فهم بهتر دادهٔ کمی توصیه می‌کند که عبارتند از:

  • دادهٔ خام را قبل از اجرای تحلیل‌تان بررسی کنید؛
  • محاسبات مهم، مانند بررسی ستون داده که از فرمول به دست آمده را مجدداً اجرا کنید؛
  • کلیات را که حاصل زیرمجموعه‌ها هستند، تأیید کنید؛
  • روابط بین اعدادی را که می‌بایست مربوط به حالتی قابل پیش‌بینی باشند، مانند نرخ‌ها در طول زمان، چک کنید؛
  • به منظور ساده‌سازی مقایسه، بخش‌هایی چون تحلیل مقادیر را در هر نفر یا نسبت به تولید ناخالصی داخلی (GDP) یا به عنوان شاخص نسبی در یک سال پایه را به صورت قاعده درآورید؛
  • مشکلات را به عوامل تحلیلی که منجر به نتیجه می‌شوند، بشکنید.

برای متغیرهای تحت بررسی، تحلیل‌گران معمولاً آمار توصیفی به دست می‌آورند (مانند معدل، میانه و انحراف معیار). آن‌ها هم‌چنین ممکن است که توزیع متغیرهای کلیدی را تحلیل کنند تا چگونگی مقادیر مشخص حول میانه را ببینند.

مشاوران در مکنزی اند کامپنی، روش شکستن مشکلات کمی به اجزاء آن را اصل MECE نام‌گذاری کردند. هر لایه می‌تواند به اجزایش شکسته شود. هر جزء باید منحصر به دیگری باشد و به صورت تجمعی به لایه بالایی‌اش اضافه شود. این رابطه به نام «متقابلاً منحصر به فرد و تجمعی کامل» یا MECE خوانده می‌شود. به‌طور مثال، سود طبق تعریف می‌تواند به درآمد کل و هزینه کل شکسته شود. به نوبه خود، درآمد کل می‌تواند توسط اجزای آن تحلیل شود؛ از جمله درآمد حاصل از بخش B, A و C (متقابلاً منحصر به فرداند) که باید به درآمد کل (تجمعی کامل) اضافه شوند.

تحلیل‌گران ممکن است اندازه‌گیری‌های آماری قوی برای حل مشکلات تحلیلی خاص به کار ببرند. آزمون فرضیه زمانی استفاده می‌شود که فرضیه خاصی دربارهٔ حالت واقعی امور توسط تحلیل‌گر ساخته می‌شود و داده برای تعیین اینکه آیا آن حالت درست است یا غلط، به کار می‌رود. برای مثال، ممکن است فرضیه این باشد که «بیکاران اثری بر تورم ندارند» که مربوط به مفهومی اقتصادی است. آزمون فرضیه شامل در نظر گرفتن احتمال نوع I و نوع II است و مرتبط است به اینکه آیا داده فرضیه را رد می‌کند یا می‌پذیرد.

تحلیل رگرسیون زمانی به کار می‌رود که تحلیل‌گر سعی دارد تعیین کند که تا چه میزان متغیرهای مستقل X بر متغیرهای وابسته Y تأثیر می‌گذارند (مثلاً تا چه حد تغییرات نرخ بیکاری X در نرخ تورم Y تأثیر دارد؟). این تلاشی برای مدل‌سازی یا برقراری خط تساوی یا منحنی داده در تابع Y به X است.

تحلیل شرطی لازم (NCA) در حالتی به‌کار می‌رود که تحلیل‌گر سعی دارد تعیین کند که تا چه میزان متغیر مستقل X, متغیر Y را می‌پذیرد (به‌طور مثال، تا چه میزان نرخ مشخصی از بیکاری (X) برای نرخ تورم (Y) ضروری است). درحالی‌که تحلیل (چند) رگرسیونی منطق افزایشی دارد که در آن هر متغیر X می‌تواند نتیجه‌ای تولید کند و Xها برای یکدیگر جبران می‌کنند (کافی هستند ولی غیر ضروری) و تحلیل شرطی لازم (NCA) منطق ضرورت را به‌کار می‌برد که در آن ممکن است یک یا چند متغیر X نتیجه را بپذیرد ولی شاید موجب تولید آن نباشد (ضروری هستند ولی کافی نیستند). هر شرط لازم باید وجود داشته باشد و جبران خسارت امکان‌پذیر نیست.

برای دریافت خدمات