كل مجال له مصطلحاته الخاصة (الكلمات أو التعبيرات الخاصة المستخدمة بشكل متكرر في مهنة معينة والتي قد تكون صعبة للآخرين فهمها).
على سبيل المثال،
Biopsy (الخزعة)، prognosis (التوقعات الطبية)، embolism (الجلطة)، وvaccine (اللقاح) هي جميعًا مصطلحات طبية شائعة.
Affidavit (إفادة)، Justice of the peace (قاضي السلام)، verdict (الحكم)، وlitigation (المرافعة القانونية) هي مصطلحات قانونية معروفة جيدًا.
لذلك، كما يمكنك أن تتخيل، علم البيانات مثل كل مجال آخر لديه قائمة خاصة به من المصطلحات.
أدرك أن الأمر قد يبدو مُبالغًا، لكن مع مزيد من القراءة، ستدرك أن الغالبية في الواقع مفاهيم سمعتها من قبل.
كعالم بيانات / متطلع ليصبح عالم بيانات، يقوم هذا المدونة بثلاثة أشياء رئيسية بالنسبة لك:
1. ينعش ذاكرتك بالأشياء التي تعرفها بالفعل.
2. يجلب إلى انتباهك الأشياء التي يجب / ينبغي عليك معرفتها.
3. يعطيك فهمًا بديهيًا نوعًا ما للمفاهيم التي قد تكون كانت مربكةً في البداية بالنسبة لك.
جعلت هذا الأمر سهلًا بالنسبة لك.
فقد قمت بترتيب جميع المصطلحات ترتيباً أبجدياً حتى تتمكن من حفظ هذه المدونة كمرجع صغير لك لعلم البيانات.
وقد تكون تفكيرًا في 130 مصطلح في علم البيانات؟
معظم مصطلحات علم البيانات مشروحة باللغة العربية
A
1-اختبار A/B: طريقة إحصائية تُستخدم لمقارنة نسختين من منتج أو صفحة ويب أو نموذج لتحديد أيهما يؤدي بشكل أفضل.
2-لدقة (Accuracy): مقياس مدى تكرار نموذج التصنيف بشكل صحيح للنتائج بين جميع الحالات التي يقيمها.
3-أدابوست (Adaboost): خوارزمية تعلم مجموعة تجمع بين المصنفات الضعيفة لإنشاء مصنف قوي.
4-الخوارزمية (Algorithm): مجموعة من التعليمات أو القواعد خطوة بخطوة يتبعها الكمبيوتر لحل مشكلة أو أداء مهمة.
5-التحليل (Analysis): عملية تفسير وفحص البيانات لاستخراج رؤى ذات معنى.
6-كشف الشذوذ (Anomaly Detection): تحديد الأنماط أو القيم المتطرفة غير العادية في البيانات.
7-تحليل التباين (ANOVA):طريقة إحصائية مستخدمة لتحليل الاختلافات بين متوسطات المجموعات في عينة.
8-واجهة برمجة التطبيقات (API): مجموعة من القواعد التي تسمح لتطبيق برمجي واحد بالتفاعل مع تطبيق آخر.
9-مساحة تحت منحنى ROC (AUC-ROC):مقياس يخبرنا عن مدى جودة نموذج التصنيف بشكل عام، مع مراعاة الطرق المختلفة لتحديد ما يعتبر تنبؤًا إيجابيًا أو سلبيًا.
B
10-Batch Gradient Descent (تدرج الانحدار دفعة): خوارزمية تحسين تحديث معلمات النموذج باستخدام مجموعة البيانات التدريبية بأكملها (تختلف عن تدرج الانحدار المصغر).
11-Bayesian Statistics (الإحصاءات البايزية): نهج إحصائي يجمع بين المعرفة السابقة مع البيانات المراقبة.
BI (Business Intelligence)-12 (الذكاء التجاري): التقنيات والعمليات والأدوات التي تساعد المؤسسات على اتخاذ قرارات تجارية مستنيرة.
13-Bias (الانحياز): خطأ في النموذج يتسبب في توقع قيم بعيدة بشكل مستمر عن القيم الحقيقية.
14-Bias-Variance Tradeoff (تجارب الانحياز والتباين): التوازن بين الخطأ الناتج عن الانحياز والتباين في النموذج.
15-Big Data (البيانات الضخمة): مجموعات بيانات كبيرة ومعقدة لا يمكن معالجتها بسهولة باستخدام الطرق التقليدية لمعالجة البيانات.
16-Binary Classification (التصنيف الثنائي): تصنيف البيانات إلى مجموعتين، مثل الرسائل العشوائية أو غير العشوائية.
17-Bootstrap Sampling (عينات البدء المضاعف): تقنية إعادة العينات حيث يتم اختيار عينات عشوائية مع الاستبدال من مجموعة بيانات.
C
18. Categorical data (البيانات التصنيفية): المتغيرات التي تمثل فئات أو مجموعات ويمكن أن تأخذ على عدد محدود وثابت من القيم المتميزة.
19. Chi-Square Test (اختبار كاي-مربع): اختبار إحصائي يستخدم لتحديد ما إذا كان هناك ترابط معنوي بين متغيرين تصنيفيين.
20. Classification (التصنيف): تصنيف نقاط البيانات إلى فئات أو مجموعات محددة مسبقًا.
21. Clustering (التجميع): تجميع نقاط البيانات المتشابهة معًا استنادًا إلى معايير معينة.
22. Confidence Interval (فاصل الثقة): مجموعة من القيم تُستخدم لتقدير القيمة الحقيقية لمعلمة معينة بمستوى معين من الثقة.
23. Confusion Matrix (مصفوفة الالتباس): جدول يُستخدم لتقييم أداء خوارزمية التصنيف.
24. Correlation (الترابط): قياس إحصائي يصف درجة الارتباط بين متغيرين.
25. Covariance (التباين المشترك): قياس لمدى تغير متغيرين عشوائيين معًا.
26. Cross-Entropy Loss (فقدان الانحراف المتقاطع): وظيفة فقدان تُستخدم عادة في مشاكل التصنيف.
27. Cross-Validation (التقييم المتقاطع): تقنية لتقييم أداء نموذج عن طريق تقسيم البيانات إلى مجموعات فرعية للتدريب والاختبار.
D
28. Data Cleaning (تنظيف البيانات): عملية تحديد الأخطاء أو التناقضات وتصحيحها في مجموعات البيانات.
29. Data Mining (تنقيب البيانات): استخراج أنماط قيمة أو معلومات من مجموعات بيانات كبيرة.
30. Data Preprocessing (معالجة البيانات الأولية): تنظيف وتحويل البيانات الخام إلى شكل مناسب للتحليل.
31. Data Visualization (تصور البيانات): عرض البيانات في صيغ رسومية أو بصرية لمساعدة الفهم.
32. Decision Boundary (حد القرار): الخط الفاصل الذي يفصل بين الفئات المختلفة في مشكلة التصنيف.
33. Decision Tree (شجرة القرار): نموذج شبيه بالشجرة يتخذ القرارات استنادًا إلى مجموعة من القواعد.
34. Dimensionality Reduction (تقليل الأبعاد): تقليل عدد الميزات في مجموعة البيانات مع الاحتفاظ بالمعلومات الهامة.
E
35. Eigenvalue and Eigenvector (القيمة الذاتية والمتجه الذاتي): مفاهيم تستخدم في الجبر الخطي، وغالبًا ما يتم استخدامها في تقليل الأبعاد لتحويل وتبسيط مجموعات البيانات المعقدة.
36. Elastic Net (الشبكة المرنة): تقنية تنظيم تجمع بين عقوبات L1 و L2.
37. Ensemble Learning (تعلم التجميع): دمج عدة نماذج لتحسين الأداء العام والدقة.
38. Exploratory Data Analysis (EDA) (تحليل البيانات التفسيري): تحليل وتصور البيانات لفهم خصائصها والعلاقات البينية.
F
39. F1 Score (نقاط F1): مقياس يجمع بين الدقة والاسترجاع في نماذج التصنيف.
40. False Positive and False Negative (الإيجابيات الخاطئة والسلبيات الخاطئة): التنبؤات الخاطئة في التصنيف الثنائي.
41. Feature (الميزة): عمود البيانات الذي يستخدم كمدخل لنماذج التعلم الآلي للتنبؤ.
42. Feature Engineering (هندسة الميزات): إنشاء ميزات جديدة من الميزات الحالية لتحسين أداء النموذج.
43. Feature Extraction (استخراج الميزات): تقليل بعد البيانات عن طريق اختيار الميزات المهمة.
44. Feature Importance (أهمية الميزات): تقييم مساهمة كل ميزة في تنبؤات النموذج.
45. Feature Selection (اختيار الميزات): اختيار الميزات الأكثر صلة لنموذج.
G
46. Gaussian Distribution (التوزيع الجاوسي): نوع من توزيع الاحتمالات يستخدم غالبًا في النمذجة الإحصائية.
47. Geospatial Analysis (تحليل المعلومات الجغرافية): تحليل وتفسير الأنماط والعلاقات داخل البيانات الجغرافية.
48. Gradient Boosting (تعزيز التدرج): تقنية تعلم تجميعي حيث يتم تدريب النماذج الضعيفة بتسلسل، حيث يصحح كل منها أخطاء السابق.
49. Gradient Descent (الانحدار التدريجي): خوارزمية تحسين تُستخدم لتقليل الخطأ في النموذج عن طريق ضبط معلماته.
50. Grid Search (البحث الشبكي): طريقة لضبط المعلمات الفائقة من خلال تقييم النماذج في جميع التركيبات الممكنة.
H
51. Heteroscedasticity (التباين غير المتجانس): عدم تساوي تباين الأخطاء في نموذج الانحدار.
52. Hierarchical Clustering (التجميع الهرمي): طريقة تحليل تجميع تنظم البيانات في هيكل شبيه بالشجرة من التجميعات، حيث يُظهر كل مستوى في الشجرة العلاقات والتشابهات بين مجموعات مختلفة من نقاط البيانات.
53. Hyperparameter (المعلمة الفائقة): معلمة يُعين قيمتها قبل بدء عملية التدريب.
54. Hypothesis Testing (اختبار الفرضية): طريقة إحصائية لاختبار فرضية حول معلمة معينة في السكان بناءً على بيانات العينة.
I
55. Imputation (التعويض): ملء القيم المفقودة في مجموعة البيانات باستخدام تقنيات مختلفة.
56. Inferential Statistics (الإحصاء التستخدمي): فرع من الإحصاء يتضمن استخلاص الاستنتاجات حول السكان بناءً على عينة من البيانات.
57. Information Gain (الربح المعلوماتي): مقياس يستخدم في شجرة القرار لتقييم فعالية ميزة في تصنيف البيانات.
58. Interquartile Range (IQR) (نطاق الربع الدرجي): مقياس لانتشار البيانات الإحصائي، يمثل النطاق بين الربع الأول والربع الثالث.
J
59. Joint Plot (الرسم البياني المشترك): نوع من تصور البيانات في Seaborn يُستخدم لاستكشاف العلاقات بين متغيرين وتوزيعاتهما الفردية.
60. Joint Probability (الاحتمال المشترك): احتمالية حدوث حدثين أو أكثر في نفس الوقت، وغالبًا ما يُستخدم في التحليل الإحصائي.
61. Jupyter Notebook (دفتر Jupyter): تطبيق ويب مفتوح المصدر لإنشاء ومشاركة وثائق تحتوي على رمز حي، ومعادلات، وتصورات، ونصوص سردية.
K
62. K-Means Clustering (تجميع القيم المتوسطة): خوارزمية شهيرة لتقسيم مجموعة بيانات إلى مجموعات متميزة وغير متداخلة.
63. K-Nearest Neighbors (KNN) (أقرب الجيران K): خوارزمية تصنيف بسيطة ومستخدمة على نطاق واسع تعتمد على مدى قرب نقطة بيانات جديدة من نقاط البيانات الأخرى.
L
64. L1 Regularization (التنظيم L1): إضافة قيم المعاملات المطلقة كعبء إضافي إلى وظيفة الخسارة.
65. L2 Regularization (التنظيم L2) (التجعيد): إضافة قيم المعاملات المربعة كعبء إضافي إلى وظيفة الخسارة.
66. Linear Regression (الانحدار الخطي): طريقة إحصائية لنمذجة العلاقة بين متغير معتمد ومتغير مستقل واحد أو أكثر.
67. Log Likelihood (المسجل الإمكاني): لوغاريتم وظيفة الإمكانية، يُستخدم غالبًا في تقدير الاحتمال الأقصى.
68. Logistic Function (الدالة اللوجستية): دالة سيغمويدية تُستخدم في الانحدار اللوجستي لنمذجة احتمال نتيجة ثنائية.
69. Logistic Regression (الانحدار اللوجستي): طريقة إحصائية لتوقع احتمال نتيجة ثنائية.
M
70. Machine Learning (تعلم الآلة): جزء من الذكاء الاصطناعي يمكن أنظمة التعلم منها وتوقعاتها من البيانات.
71. Mean Absolute Error (MAE) (الخطأ المطلق المتوسط): مقياس للفروق المطلقة المتوسطة بين القيم المتوقعة والفعلية.
72. Mean Squared Error (MSE) (الخطأ المربع المتوسط): مقياس للفروق المربعة المتوسطة بين القيم المتوقعة والفعلية.
73. Mean (المتوسط): القيمة المتوسطة لمجموعة من الأرقام.
74. Median (الوسيط): القيمة المتوسطة في مجموعة من الأرقام المرتبة.
75. Metrics (المقاييس): المعايير المستخدمة لتقييم أداء نموذج تعلم الآلة، مثل الدقة، والدقة، والاسترجاع، ونقاط F1.
76. Model Evaluation (تقييم النموذج): تقييم أداء نموذج تعلم الآلة باستخدام مقاييس مختلفة.
77. Multicollinearity (التعددية المتعددة): وجود ترابط عالي بين المتغيرات المستقلة في نموذج الانحدار.
78. Multi-Label Classification (التصنيف متعدد العلامات): تعيين علامات متعددة لإدخال، بدلاً من واحد فقط.
79. Multivariate Analysis (التحليل متعدد المتغيرات): تحليل البيانات ذات المتغيرات المتعددة لفهم العلاقات بينها.
N
80. Naive Bayes (بايز الساذج): خوارزمية احتمالية تعتمد على نظرية بايز المستخدمة في التصنيف.
81. Normalization (التطبيع): تحجيم المتغيرات العددية إلى نطاق قياسي.
82. Null Hypothesis (الفرضية الصفرية): فرضية إحصائية تفترض عدم وجود فرق معنوي بين النتائج المرصودة والمتوقعة.
O
83. One-Hot Encoding (الترميز الثنائي المتعدد): تقنية لتحويل المتغيرات الفئوية إلى مصفوفة ثنائية لنماذج تعلم الآلة.
84. Ordinal Variable (المتغير الترتيبي): متغير فئوي بترتيب معنوي ولكن ليس بالضرورة بفوارق متساوية.
85. Outlier (القيمة المتطرفة): ملاحظة تنحرف بشكل كبير عن ملاحظات أخرى في مجموعة بيانات.
86. Overfitting (التجاوز): نموذج يؤدي جيدًا على بيانات التدريب ولكن بشكل سيء على بيانات جديدة وغير مرئية.
P
87. Pandas (بانداس): مكتبة تلاعب بالبيانات القياسية لـ Python للعمل مع البيانات المنظمة.
88. Pearson Correlation Coefficient (معامل ارتباط بيرسون): مقياس للعلاقة الخطية بين متغيرين.
89. Poisson Distribution (التوزيع البواسوني): توزيع احتمالات م diskcrethe يعبر عن احتمالية حدوث عدد معين من الأحداث في فترة زمنية أو مساحية محددة.
90. Precision (الدقة): نسبة التنبؤات الإيجابية الصحيحة إلى إجمالي عدد التنبؤات الإيجابية التي تقوم بها نموذج التصنيف.
91. Predictive Analytics (التحليل التنبؤي): استخدام البيانات والخوارزميات الإحصائية وتقنيات تعلم الآلة لتحديد احتمال حدوث نتائج مستقبلية.
92. Principal Component Analysis (PCA) (تحليل المكونات الرئيسية): تقنية لتقليل الأبعاد تحول البيانات إلى إطار جديد من الميزات، مبسطًا المعلومات وفي الوقت نفسه الحفاظ على الأنماط الأساسية.
93. Principal Component (المكون الرئيسي): المحور الذي يلتقط أكبر قدر من التباين في مجموعة البيانات في تحليل المكونات الرئيسية.
94. P-value (قيمة P): احتمالية الحصول على نتيجة مثل النتيجة الملاحظة أو أكثر تطرفًا منها خلال اختبار الفرضية.
Q
95. Q-Q Plot (الرسم الكمي-الكمي): أداة رسومية لتقييم ما إذا كانت مجموعة بيانات تتبع توزيع نظري معين.
96. Quantile (الكمي): نقطة بيانات أو مجموعة من نقاط البيانات التي تقسم مجموعة البيانات إلى أجزاء متساوية.
R
97. Random Forest (الغابة العشوائية): طريقة تعلم متعددة تنشئ مجموعة كبيرة من الأشجار القرارية وتدمجها معًا لتوقعات أكثر دقة وثباتًا.
98. Random Sample (عينة عشوائية): عينة حيث لكل فرد في السكان فرصة متساوية للانتخاب.
99. Random Variable (المتغير العشوائي): متغير قيمه المحتملة هي نتائج لظاهرة عشوائية.
100. Recall (الاستدعاء): نسبة التنبؤات الإيجابية الصحيحة إلى إجمالي عدد الحالات الإيجابية الفعلية في نموذج التصنيف.
101. Regression Analysis (تحليل الانحدار): طريقة إحصائية تستخدم لنمذجة العلاقة بين متغير تابع ومتغير مستقل واحد أو أكثر.
102. Regularization (التنظيم): إضافة عبء إضافي إلى وظيفة التكلفة لمنع التجاوز في نماذج تعلم الآلة.
103. Resampling (إعادة العينات): تقنيات مثل التجريد أو التقييم المتقاطع لتقييم أداء النموذج.
104. ROC Curve (منحنى ROC): تمثيل رسومي للتضاد بين معدل التنبؤ الإيجابي الصحيح ومعدل التنبؤ الإيجابي الخاطئ لعتبات مختلفة في نموذج التصنيف.
105. Root Mean Square Error (RMSE) (جذر متوسط الخطأ المربعي): مقياس لفرق القيم المتوقعة والفعلية.
106. R-squared (مربع R): مقياس إحصائي يمثل نسبة التباين في المتغير التابع تفسيرها بالمتغيرات المستقلة في نموذج الانحدار.
S
107. Sampling Bias (الانحياز في العينة): انحياز في اختيار المشاركين أو نقاط البيانات قد يؤثر على قابلية التعميم للنتائج.
108. Sampling (العينة): عملية اختيار مجموعة فرعية من نقاط البيانات من مجموعة بيانات أكبر.
109. Scalability (قابلية التوسع): قدرة النظام على التعامل مع كميات زيادة من البيانات أو العبء العملي.
110. Sigmoid Function (الدالة السيغمويدية): دالة رياضية تستخدم في مشكلات التصنيف الثنائي.
111. Silhouette Score (نقطة الظل): مقياس يستخدم لحساب جودة تقنية التجميع.
112. Singular Value Decomposition (تحليل القيم الفرديّة): تقنية تفكيك للمصفوفة تستخدم في تقليل الأبعاد.
113. Spearman Rank Correlation (انحدار سبيرمان للترتيب): مقياس غير معلمي للارتباط بين متغيرين.
114. Standard Deviation (الانحراف المعياري): مقياس لكمية التباين أو الانتشار في مجموعة من القيم.
115. Stationarity (الثبات): خاصية لبيانات السلسلة الزمنية حيث تبقى الخصائص الإحصائية ثابتة مع مرور الوقت.
116. Stratified Sampling (العينة المتدرجة): طريقة عينة تضمن التمثيل التناسبي للفئات الفرعية ضمن السكان.
117. Supervised Learning (التعلم التوجيهي): التعلم من البيانات الموسومة حيث يتم تدريب الخوارزمية على مجموعة من الأزواج المدخل-الإخراج.
118. Support Vector Machine (SVM) (آلة الدعم النوعي): خوارزمية تعلم آلي موجهة للتصنيف وتحليل التراجع.
T
119. t-Distribution (التوزيع t): توزيع احتمالات يستخدم في اختبار الفرضيات عندما يكون حجم العينة صغيرًا أو انحراف المعيار للسكان غير معروف.
120. Time Series Analysis (تحليل السلاسل الزمنية): تحليل البيانات المجمعة عبر الوقت لتحديد الأنماط والاتجاهات.
121. t-test (اختبار t): اختبار إحصائي يستخدم لتحديد ما إذا كان هناك فرق معنوي بين متوسطي مجموعتين.
122. Two-sample t-test (اختبار t لعينتين): اختبار إحصائي يستخدم لمقارنة متوسطين لعينتين مستقلتين.
U
123. Underfitting (التحت ملائمة): نموذج بسيط جدًا لالتقاط الأنماط الأساسية في البيانات.
124. Univariate Analysis (التحليل الأحادي المتغير): تحليل تباين متغير واحد في مجموعة البيانات.
125. Unsupervised Learning (التعلم غير الموجه): التعلم من البيانات غير الموسومة حيث تحدد الخوارزمية الأنماط والعلاقات بمفردها.
V
126. Validation Set (مجموعة التحقق): مجموعة فرعية من البيانات تستخدم لتقييم أداء النموذج أثناء التدريب.
127. Variance (التباين): درجة الانتشار أو التشتت لمجموعة من القيم، وكذلك تغيرات توقعات النموذج.
X
128. XGBoost (إكس جي بوست): مكتبة مفتوحة المصدر لأشجار القرار المعززة بالتدرجات مصممة للسرعة والأداء.
Z
129. Zero-shot Learning (التعلم بدون عينات): تدريب النموذج على أداء مهمة دون أمثلة صريحة.
130. Z-Score (النقطة الموحدة Z): نقطة موحدة تمثل عدد انحرافات المعيار التي يبعد فيها نقطة البيانات عن المتوسط.
إرسال تعليق