برای کار با داده ها در پایتون راه های مختلفی وجود دارد که یکی از بهترین آنها کتابخانه pandas است. در این قسمت قصد داریم به صورت پایه ای کاربا این کتابخانه را آموزش بدهیم. قبل از هر کاری لازم است کتابخانه های زیر را نصب کنیم.

Pandas

xlrd

برای شروع بد نیست فایلهای اکسل و csv که برای دانلود گذاشته شده را دانلود کنید تا بتوانید روی آن تمرین کنید. این فایلها شامل اطلاعاتی فرضی درباره 10 کارمند خیالی در یک شرکت خیالی هستند که شامل نام و حقوق ماهانه و درصد مالیات و سابقه کار و رتبه شغلی می شود.

برای شروع لازم است که این فایل را در فولدری که برنامه پایتون را ذخیره می کنید قرار دهید. سپس برای مشاهده محتویات فایل ابتدا آن را به شکل یک دیتافریم در می آوریم و سپس آن را نمایش می دهیم. برای باز کردن این فایل csv به صورت یک دیتافریم pandas از قطعه کد زیر استفاده می کنیم:

import pandas as pd
myfile = 'Salaries.csv'
mydata=pd.read_csv(myfile)
print(mydata)

نتیجه به صورت زیر نمایش داده می شود:

      Name  Salary  Tax %  Experience  Level
0     Ayda      12     10          10      5
1   Peyman       5      5           3      3
2   Farzad       4      5           2      2
3  Behrooz      11     10           7      4
4    Simin       7      5           5      3
5     Mona       5      5           2      3
6    Kaveh       3      5           5      2
7     Sara      30     10          14      6
8    Ehsan       2      5           1      1
9    Shiva       3      5           5      2 

حال اگر فایلی با همان اطلاعات اما با فرمت xlsx که در واقع همان فرمت اکسل است در اختیار داشته باشیم با قطعه کد زیر می توانیم آن را به صورت یک دیتافریم pandas استخراج کنیم:

import pandas as pd
myfile = 'Salaries.xlsx'
mydata=pd.read_excel(myfile)
print(mydata)

البته لازم است که قبل از این کار کتابخانه xlrd را نصب کنید تا با خطا مواجه نشوید.

گاهی اوقات اندازه دیتافریم بزرگ است و برای بررسی اینکه فرمت مناسبی دارد یا نه  کافی است که چند ردیف اول یا آخر آن را نمایش دهیم. برای این کار می توانیم از دستور head() یا tail() استفاده کنیم. در صورتی که درون پرانتز این دستورات هیچ عددی قرار ندهیم 5 سطر را نمایش می دهد. همچنین می توانیم با استفاده از دستور shape ابعاد دیتا فریم را مشاهده کنیم و به کمک دستور info() مشخصات مربوط به دیتافریم را ببینیم. در زیر کدی که این اطلاعات را نمایش می دهد قابل مشاهده است:

import pandas as pd
myfile = 'Salaries.xlsx'
mydata=pd.read_excel(myfile)
print(mydata.head(2))
print(mydata.tail(2))
print(mydata.shape)
print(mydata.info())

خروجی حاصل از اجرای این کد به شکل زیر خواهد بود:

     Name  Salary  Tax %  Experience  Level
0    Ayda      12     10          10      5
1  Peyman       5      5           3      3
    Name  Salary  Tax %  Experience  Level
8  Ehsan       2      5           1      1
9  Shiva       3      5           5      2
(10, 5)
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   Name        10 non-null     object
 1   Salary      10 non-null     int64 
 2   Tax %       10 non-null     int64 
 3   Experience  10 non-null     int64 
 4   Level       10 non-null     int64 
dtypes: int64(4), object(1)
memory usage: 424.0+ bytes
None

در قسمت دوم خواهیم دید که چطور می توانیم این داده ها را برش بزنیم و فیلترکنیم.