Pandas 개요
Pandas
Pandas 개요
pandas는 Python의 데이터 패키지 중 하나로 빠르고 유연하며 데이터의 구조를 잘 보여준다.
pandas는 모든 언어에서 사용할 수 있는 가장 강력하고 유연한 오픈 소스 데이터 분석/조작 도구가 되는 것을 목표로 만들어졌다.
Pandas 쓰임새
pandas는 다양하고 많은 양의 데이터를 다루는 데에 적합하다
사용 가능한 데이터의 종류는 다음과 같다.
-
SQL Table, Excel sheet 와 같이 열이 균일 하지 않은 테이블 형식 데이터
-
정렬 및 정렬되지 않은 시계열 데이터
-
행 및 열 label이 있는 임의의 행렬 데이터
-
기타 모든 관찰/통계 데이터 세트
Pandas의 강력한 기능들
-
데이터에서 누락된 데이터(NaN)을 쉽게 처리
-
크기 가변성 : DataFrame 및 더 높은 차원의 개체에서 열을 삽입 및 삭제 가능
-
자동 or 명시적 데이터 정렬
-
데이터 집계 및 변환을 위해 데이터 세트에 대해 분할-적용-결합 작업을 수행 하는 강력하고 유연한 기능별 그룹화
-
다른 Python 및 NumPy 데이터 구조에서 비정형적이고 다르게 인덱스된 데이터를 DataFrame 객체 로 쉽게 변환
-
지능적인 레이블 기반 슬라이싱 , 멋진 인덱싱 및 대규모 데이터 세트의 하위 집합
-
직관적인 데이터 세트 병합 및 결합
-
데이터 세트의 유연한 재구성 및 피벗
-
축의 계층적 레이블 지정
-
시계열 관련 기능: 날짜 범위 생성 및 빈도 변환, 창 통계 이동, 날짜 이동 및 지연
-
플랫 파일 (CSV 및 구분 기호), Excel 파일, 데이터베이스에서 데이터를 로드하고 초고속 HDF5 형식 에서 데이터를 저장/로드 하기 위한 강력한 IO 도구
데이터 구조
Pandas는 Serise(1차원), Data Frame(2차원) 두 가지 종류의 데이터 구조를 지원한다.
차원 | 이름 | 설명 |
---|---|---|
1 | Serise | index-value |
2 | Data Frame | index-column-value |
pandas 데이터 구조에 대해 생각하는 가장 좋은 방법은 저차원 데이터를 위한 유연한 컨테이너이다.
DataFrame은 Series의 컨테이너이고 Series는 스칼라의 컨테이너이다.
pandas는 딕셔너리와 같은 방식으로 이러한 컨테이너에서 개체를 삽입하고 제거할 수 있다.
Import
import pandas as pd
# 별칭은 자유롭게 지정 가능하나 관례상 pd로 지정하는 것이 일반적이다.
출처 : pandas 홈페이지
댓글남기기