טעינת נתונים מ PDF לאקסל

Power Query

טעינת נתונים מ PDF לאקסל

Power Query

טעינת נתונים מקובץ PDF לאקסל, באמצעות Power Query

אחד החידושים המרעישים ב Power Query הוא האפשרות לטעון נתונים מקובץ PDF.
חשוב לציין שהאפשרות הזאת קיימת רק בגרסאות המתקדמות,
ואם היא לא קיימת אצלכם, לא תוכלו לטעון קבצי PDF באמצעות PQ.

כמה דגשים לפני שמתחילים:

לפני שאסביר את התהליך, חשוב להבין שמה שיטען הן רק הטבלאות שנמצאות בקובץ.
תמונות או טקסטים שאינם טבלאיים, לא יטענו.
אם ה PDF שלכם מכיל צילום של טבלה ולא טבלה אמיתית, גם היא לא תיטען
(לצערי, אני לא בטוחה שיש לכם דרך פרקטית לדעת את זה מראש, קובץ PDF נראה כתמונה ותצטרכו לנסות לטעון ולבדוק שה PQ מזהה את הטבלאות.
לפעמים אפשר לנסות לסמן את ה PDF, ולראות אם הטבלה סומנה כראוי, אני לא בטוחה עד כמה אני באופן אישי הייתי טורחת לעשות את זה)
חשוב גם לדעת שאם במסמך מספר טבלאות נפרדות, הן יטענו כשאילתות נפרדות – שאילתה לכל טבלה.

מבט אל ה PDF

ראשית, בואו נראה איך נראה ה PDF שלנו
מדובר ב PDF אקראי שהורדתי מהאתר של הלשכה המרכזית לסטטיסטיקה.

אנחנו יכולים לראות שיש כאן לוגו (שלא יטען), טקסטים (שלא יטענו) וטבלה, שאותה נרצה לטעון אל ה Power Query.

שלב ראשון – טעינת הקובץ

בשלב הראשון ננווט אל ה PDF:
בכרטיסיית 'נתונים' נבחר ב'יבא נתונים' > 'מקובץ' > 'מ PDF':

יפתח החלון הבא:

נסמן את הטבלה או העמוד שנרצה לטעון (תמיד כדאי לבדוק קודם איזו אפשרות תיתן לכם את מה שאתם צריכים, בפחות פעולות טיוב…)
במקרה שלנו – בחרתי בטבלה.

הערת ביניים – סוג הנתונים

שימו לב לשלבים שהוחלו. האם נוסף שם שלב אוטומטי של 'סוג שהשתנה'?
אם כן, ההמלצה היא למחוק את השלב הזה, ולקבוע את סוג הנתונים רק בסוף, אחרי כל המניפולציות. למה? תראו בהמשך המאמר…
אפשר כמובן לשנות את האפשרות לזיהוי אוטומטי של סוג הנתונים, מכיוון שהיא מעמיסה על העורך שלבים, שעדיין לא הגיע זמנם…
איך?
בתוך העורך של ה PQ, בחרו ב'קובץ'> 'אפשרויות והגדרות' > 'אפשרויות שאילתה'

בחלונית שתיפתח בחרו ב'טעינת נתונים' ואת האפשרות הנוחה לכם תחת 'גילוי סוג':

מכיוון שאני מלמדת, השארתי את הגדרות ברירת המחדל של המערכת, כך שההגדרות שלי יהיו זהות להגדרות ברירת המחדל של התלמידים,
אך כאשר אני מפתחת עבור ארגונים, בדרך כלל אשנה את ההגדרה ל'לעולם אל תזהה סוגי עמודות...'

ועכשיו, נחזור לעבודה…

מכיוון שברור שצריך לתקן את הנתונים, לחצתי על 'המרת נתונים' לפתיחת העורך:

עכשיו מתחילה עבודת הטיוב, שתלויה בקובץ עצמו.
בדוגמה הזאת – הסרתי מעמודה A את כל השורות שמכילות NULL או תאים ריקים:

וזו התוצאה שהתקבלה (שימו לב ל Column1 שמוגדר כטקסט):

בשלב השני מחקתי את השורה הראשונה
שימו לב שכתוב שם [image], שמציין שהיתה שם תמונה שלא נטענה. במקרה שלנו – הלוגו של הלשכה המרכזית לססטיסטיקה, באמצעות 'הסר שורות'
בשלב השלישי סימנתי לאקסל שהשורה הראשונה היא שורת כותרת, והטבלה כבר מתחילה לראות כמו משהו שאפשר לעבוד איתו:

שימו לב שלמרות שבנתונים המקוריים מוצגים חודש ושנה בפורמט הבא:

הזיהוי האוטומטי של מידע כתאריך הפך את המידע לתאריך תקני:

האם צריך למחוק את השלב הזה ולקבוע את העמודה כטקסט, כך שתציג את הנתונים כמו נתוני המקור או לשנות את הסוג לתאריך?
התשובה, כמו תמיד – תלוי מהו הצורך הספציפי שלכם (:
אני אישית מעדיפה לעבוד עם תאריכים, מכיוון שהם מאפשרים לי בהמשך לערוך מניפולציות ולשלוף מהן מידע כמו יום, חודש, שנה, רבעון וכו',
אבל אם הצורך שלכם הוא שהנתונים יראו בדיוק כפי שמוצגים ב PDF, תוכלו למחוק את שלב זיהוי סוג המידע.
בשלב הבא, אמחק את העמודות המיותרות על ידי סימון שתי העמודות הרלוונטיות,
קליק ימני ובחירה ב'הסר עמודות אחרות', ואשנה את הכותרות לכותרות שמתאימות יותר לצרכיי
וזהו, אפשר לטעון את המידע אל האקסל שלנו.

רוצים להיות תותחי אקסל?

חבילה הכוללת 4 ספרים מתקדמים - מודפסים ודיגיטליים,
כתובים בשפה פשוטה, שיהפכו אתכם למומחים

לחצו כאן למבצע

מבצע

טעינת נתונים מ PDF לאקסל

Power Query

טעינת נתונים מ PDF לאקסל

Power Query

טעינת נתונים מקובץ PDF לאקסל, באמצעות Power Query

כמה דגשים לפני שמתחילים:

מבט אל ה PDF

שלב ראשון – טעינת הקובץ

הערת ביניים – סוג הנתונים

ועכשיו, נחזור לעבודה…

רוצים להיות תותחי אקסל?

עגלת קניות