Pandas로 쉽게 배우는 데이터 테이블 관리 팁

Notice

Recent Posts

Recent Comments

Link

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

yhimsdokdo

Pandas로 쉽게 배우는 데이터 테이블 관리 팁 본문

카테고리 없음

Pandas로 쉽게 배우는 데이터 테이블 관리 팁

yhimsdokdo 2025. 3. 18. 10:36

Pandas로 손쉽게 데이터 테이블 다루는 방법

데이터 분석의 세계에서 Pandas는 매우 중요한 역할을 합니다. Python 프로그래밍 언어에서 데이터를 처리하고 분석하기 위한 강력한 라이브러리인 Pandas는 사용자가 데이터 테이블을 더 쉽게 다룰 수 있도록 설계되었습니다. 본 글에서는 Pandas의 기본 개념, 설치 방법, 데이터 구조, 데이터 조작과 변형, 그리고 데이터 시각화의 기본에 대해 알아보겠습니다.

Pandas란 무엇인가?

Pandas는 "Python Data Analysis Library"의 줄임말로, 데이터 분석을 위한 기본적인 데이터 구조와 함수를 제공합니다. Pandas는 NumPy 위에 구축되어 있어, 더 복잡한 데이터 조작을 가능하게 합니다. 주로 데이터フ레임(DataFrame)과 시리즈(Series)라는 두 가지 주요 구조체를 사용하여 데이터를 깔끔하고 직관적으로 다룰 수 있습니다.

데이터프레임과 시리즈

데이터프레임(DataFrame): 표 형태의 데이터 구조로, 행과 열로 이루어져 있습니다. 각 열은 서로 다른 데이터 타입을 가질 수 있습니다.
시리즈(Series): 단일 열로 구성된 데이터 구조로, 1차원 배열 형식의 데이터를 저장합니다. 인덱스를 통해 각 데이터에 접근할 수 있습니다.

Pandas 설치하기

Pandas를 사용하기 위해서는 Python이 설치되어 있어야 하며, 그 후에 Pandas 라이브러리를 설치할 수 있습니다. 다음은 Pandas 설치 방법입니다.

Python이 설치되어 있는지 확인합니다. 커맨드 라인 또는 터미널에서 아래의 명령어를 입력하여 확인할 수 있습니다.

python --version

Pandas를 설치합니다. 아래의 명령어를 커맨드 라인 또는 터미널에 입력하여 Pandas를 설치합니다.

pip install pandas

기본적인 데이터 다루기

데이터프레임 생성하기

앞서 설명한 데이터프레임을 생성하는 방법은 여러 가지가 있습니다. 가장 간단한 방법은 직접 데이터를 입력하여 생성하는 것입니다.

import pandas as pd

data = {
    '이름': ['홍길동', '김철수', '이영희'],
    '나이': [25, 30, 22],
    '직업': ['개발자', '디자이너', 'PM']
}

df = pd.DataFrame(data)
print(df)

CSV 파일에서 데이터 로드하기

Pandas는 CSV 파일 같은 외부 데이터 소스를 쉽게 로드할 수 있습니다. 다음의 방법을 통해 CSV 파일을 읽어 올 수 있습니다.

df = pd.read_csv('파일경로.csv')
print(df)

데이터프레임 탐색하기

데이터프레임을 생성한 후, 데이터를 탐색하는 방법은 다음과 같습니다.

첫 5행 조회하기:
```
df.head()
```
마지막 5행 조회하기:
```
df.tail()
```
개별 열 접근하기:
```
df['이름']
```
특정 행 접근하기:
```
df.iloc[0]
```

데이터 조작 및 변형

열 추가 및 삭제

데이터프레임에 열을 추가하거나 삭제하는 방법은 다음과 같습니다.

열 추가하기:
```
df['새로운 열'] = 값
```

열 삭제하기:

df.drop('열 이름', axis=1, inplace=True)

행 필터링

특정 조건에 따른 행을 필터링할 수 있습니다. 예를 들어, 나이가 25세 이상인 사람만 선택하고 싶다면 다음과 같이 작성할 수 있습니다.

filtered_df = df[df['나이'] >= 25]
print(filtered_df)

데이터 정렬하기

Pandas에서는 데이터를 특정 열을 기준으로 정렬할 수 있습니다. 다음의 예제를 통해 데이터를 정렬할 수 있습니다.

sorteddf = df.sortvalues(by='나이')
print(sorted_df)

데이터 시각화의 기본

Pandas는 Matplotlib와 통합되어 데이터 시각화를 지원합니다. 데이터프레임의 데이터로 간단한 시각화를 수행할 수 있습니다.

기본 차트 생성하기

데이터프레임을 기반으로 간단한 선 그래프를 생성하려면 다음과 같이 합니다.

import matplotlib.pyplot as plt

df.plot(x='이름', y='나이', kind='line')
plt.show()

히스토그램 그리기

데이터의 분포를 시각적으로 나타내기 위해 히스토그램을 그릴 수 있습니다.

df['나이'].hist()
plt.show()

결론

Pandas는 데이터 분석과 처리의 강력한 도구로, 특히 데이터프레임과 시리즈를 통해 사용자가 데이터에 더 쉽게 접근하고 조작할 수 있게 해줍니다. 이 글에서는 Pandas의 설치 방법, 데이터프레임 생성, 기본적인 데이터 탐색 및 조작 방법, 그리고 데이터 시각화의 기초에 대해 학습하였습니다. 앞으로 Pandas를 활용하여 더욱 깊이 있는 데이터 분석 및 시각화를 시도해보시기 바랍니다.