جدید آموزش پردازش داده با pandas در پایتون قسمت 1
برای کار با داده ها در پایتون راه های مختلفی وجود دارد که یکی از بهترین آنها کتابخانه pandas است. در این قسمت قصد داریم به صورت پایه ای کاربا این کتابخانه را آموزش بدهیم. قبل از هر کاری لازم است کتابخانه های زیر را نصب کنیم.
Pandas
xlrd
برای شروع بد نیست فایلهای اکسل و csv که برای دانلود گذاشته شده را دانلود کنید تا بتوانید روی آن تمرین کنید. این فایلها شامل اطلاعاتی فرضی درباره 10 کارمند خیالی در یک شرکت خیالی هستند که شامل نام و حقوق ماهانه و درصد مالیات و سابقه کار و رتبه شغلی می شود.
برای شروع لازم است که این فایل را در فولدری که برنامه پایتون را ذخیره می کنید قرار دهید. سپس برای مشاهده محتویات فایل ابتدا آن را به شکل یک دیتافریم در می آوریم و سپس آن را نمایش می دهیم. برای باز کردن این فایل csv به صورت یک دیتافریم pandas از قطعه کد زیر استفاده می کنیم:
import pandas as pd myfile = 'Salaries.csv' mydata=pd.read_csv(myfile) print(mydata)
نتیجه به صورت زیر نمایش داده می شود:
Name Salary Tax % Experience Level 0 Ayda 12 10 10 5 1 Peyman 5 5 3 3 2 Farzad 4 5 2 2 3 Behrooz 11 10 7 4 4 Simin 7 5 5 3 5 Mona 5 5 2 3 6 Kaveh 3 5 5 2 7 Sara 30 10 14 6 8 Ehsan 2 5 1 1 9 Shiva 3 5 5 2
حال اگر فایلی با همان اطلاعات اما با فرمت xlsx که در واقع همان فرمت اکسل است در اختیار داشته باشیم با قطعه کد زیر می توانیم آن را به صورت یک دیتافریم pandas استخراج کنیم:
import pandas as pd myfile = 'Salaries.xlsx' mydata=pd.read_excel(myfile) print(mydata)
البته لازم است که قبل از این کار کتابخانه xlrd را نصب کنید تا با خطا مواجه نشوید.
گاهی اوقات اندازه دیتافریم بزرگ است و برای بررسی اینکه فرمت مناسبی دارد یا نه کافی است که چند ردیف اول یا آخر آن را نمایش دهیم. برای این کار می توانیم از دستور head() یا tail() استفاده کنیم. در صورتی که درون پرانتز این دستورات هیچ عددی قرار ندهیم 5 سطر را نمایش می دهد. همچنین می توانیم با استفاده از دستور shape ابعاد دیتا فریم را مشاهده کنیم و به کمک دستور info() مشخصات مربوط به دیتافریم را ببینیم. در زیر کدی که این اطلاعات را نمایش می دهد قابل مشاهده است:
import pandas as pd myfile = 'Salaries.xlsx' mydata=pd.read_excel(myfile) print(mydata.head(2)) print(mydata.tail(2)) print(mydata.shape) print(mydata.info())
خروجی حاصل از اجرای این کد به شکل زیر خواهد بود:
Name Salary Tax % Experience Level 0 Ayda 12 10 10 5 1 Peyman 5 5 3 3 Name Salary Tax % Experience Level 8 Ehsan 2 5 1 1 9 Shiva 3 5 5 2 (10, 5) <class 'pandas.core.frame.DataFrame'> RangeIndex: 10 entries, 0 to 9 Data columns (total 5 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 Name 10 non-null object 1 Salary 10 non-null int64 2 Tax % 10 non-null int64 3 Experience 10 non-null int64 4 Level 10 non-null int64 dtypes: int64(4), object(1) memory usage: 424.0+ bytes None
در قسمت دوم خواهیم دید که چطور می توانیم این داده ها را برش بزنیم و فیلترکنیم.
سارا صادقی
سلام.قسمت های بعدی رو پیدا نمیکنم میشه راهنمایی کنید لطفا
karakit
هنوز قسمت های بعدی این آموزش منتشر نشده