התקשרו אלינו: 052-2928949
ימים א'-ה' בין השעות 9:00-17:00

התקשרו אלינו: 052-2928949 א-ה 9:00-17:00

טעינת נתונים מ PDF לאקסל

Power Query

טעינת נתונים מ PDF לאקסל

Power Query

טעינת נתונים מקובץ PDF לאקסל, באמצעות Power Query

אחד החידושים המרעישים ב Power Query הוא האפשרות לטעון נתונים מקובץ PDF.
חשוב לציין שהאפשרות הזאת קיימת רק בגרסאות המתקדמות,
ואם היא לא קיימת אצלכם, לא תוכלו לטעון קבצי PDF באמצעות PQ.

כמה דגשים לפני שמתחילים:

לפני שאסביר את התהליך, חשוב להבין שמה שיטען הן רק הטבלאות שנמצאות בקובץ.
תמונות או טקסטים שאינם טבלאיים, לא יטענו.
אם ה PDF שלכם מכיל צילום של טבלה ולא טבלה אמיתית, גם היא לא תיטען
(לצערי, אני לא בטוחה שיש לכם דרך פרקטית לדעת את זה מראש, קובץ PDF נראה כתמונה ותצטרכו לנסות לטעון ולבדוק שה PQ מזהה את הטבלאות.
לפעמים אפשר לנסות לסמן את ה PDF, ולראות אם הטבלה סומנה כראוי, אני לא בטוחה עד כמה אני באופן אישי הייתי טורחת לעשות את זה)
חשוב גם לדעת שאם במסמך מספר טבלאות נפרדות, הן יטענו כשאילתות נפרדות – שאילתה לכל טבלה.

מבט אל ה PDF

ראשית, בואו נראה איך נראה ה PDF שלנו
מדובר ב PDF אקראי שהורדתי מהאתר של הלשכה המרכזית לסטטיסטיקה.
PDF לאקסל

אנחנו יכולים לראות שיש כאן לוגו (שלא יטען), טקסטים (שלא יטענו) וטבלה, שאותה נרצה לטעון אל ה Power Query.

שלב ראשון – טעינת הקובץ

בשלב הראשון ננווט אל ה PDF:
בכרטיסיית 'נתונים' נבחר ב'יבא נתונים' > 'מקובץ' > 'מ PDF':

טעינת נתונים מ PDF

יפתח החלון הבא:

Power Query

נסמן את הטבלה או העמוד שנרצה לטעון (תמיד כדאי לבדוק קודם איזו אפשרות תיתן לכם את מה שאתם צריכים, בפחות פעולות טיוב…)
במקרה שלנו – בחרתי בטבלה.

הערת ביניים – סוג הנתונים

שימו לב לשלבים שהוחלו. האם נוסף שם שלב אוטומטי של 'סוג שהשתנה'?
אם כן, ההמלצה היא למחוק את השלב הזה, ולקבוע את סוג הנתונים רק בסוף, אחרי כל המניפולציות. למה? תראו בהמשך המאמר…
אפשר כמובן לשנות את האפשרות לזיהוי אוטומטי של סוג הנתונים, מכיוון שהיא מעמיסה על העורך שלבים, שעדיין לא הגיע זמנם…
איך?
בתוך העורך של ה PQ, בחרו ב'קובץ'> 'אפשרויות והגדרות' > 'אפשרויות שאילתה'

סוג הנתונים ב Power Query

בחלונית שתיפתח בחרו ב'טעינת נתונים' ואת האפשרות הנוחה לכם תחת 'גילוי סוג':

גילוי סוג הנתונים - Power Query פאואר קוורי

מכיוון שאני מלמדת, השארתי את הגדרות ברירת המחדל של המערכת, כך שההגדרות שלי יהיו זהות להגדרות ברירת המחדל של התלמידים,
אך כאשר אני מפתחת עבור ארגונים, בדרך כלל אשנה את ההגדרה ל'לעולם אל תזהה סוגי עמודות...'

ועכשיו, נחזור לעבודה…

מכיוון שברור שצריך לתקן את הנתונים, לחצתי על 'המרת נתונים' לפתיחת העורך:

Power Query

עכשיו מתחילה עבודת הטיוב, שתלויה בקובץ עצמו.
בדוגמה הזאת – הסרתי מעמודה A את כל השורות שמכילות NULL או תאים ריקים:

טיוב טבלה

וזו התוצאה שהתקבלה (שימו לב ל Column1 שמוגדר כטקסט):

טבלת נתונים

בשלב השני מחקתי את השורה הראשונה
שימו לב שכתוב שם [image], שמציין שהיתה שם תמונה שלא נטענה. במקרה שלנו – הלוגו של הלשכה המרכזית לססטיסטיקה, באמצעות 'הסר שורות'
בשלב השלישי סימנתי לאקסל שהשורה הראשונה היא שורת כותרת, והטבלה כבר מתחילה לראות כמו משהו שאפשר לעבוד איתו:

טיוב נתונים

שימו לב שלמרות שבנתונים המקוריים מוצגים חודש ושנה בפורמט הבא:

חודש ושנה

הזיהוי האוטומטי של מידע כתאריך הפך את המידע לתאריך תקני:

תאריך מלא

האם צריך למחוק את השלב הזה ולקבוע את העמודה כטקסט, כך שתציג את הנתונים כמו נתוני המקור או לשנות את הסוג לתאריך?
התשובה, כמו תמיד – תלוי מהו הצורך הספציפי שלכם (:
אני אישית מעדיפה לעבוד עם תאריכים, מכיוון שהם מאפשרים לי בהמשך לערוך מניפולציות ולשלוף מהן מידע כמו יום, חודש, שנה, רבעון וכו',
אבל אם הצורך שלכם הוא שהנתונים יראו בדיוק כפי שמוצגים ב PDF, תוכלו למחוק את שלב זיהוי סוג המידע.
בשלב הבא, אמחק את העמודות המיותרות על ידי סימון שתי העמודות הרלוונטיות,
קליק ימני ובחירה ב'הסר עמודות אחרות', ואשנה את הכותרות לכותרות שמתאימות יותר לצרכיי
וזהו, אפשר לטעון את המידע אל האקסל שלנו.

דילוג לתוכן