1 분 소요

Pandas

Pandas 개요

pandas는 Python의 데이터 패키지 중 하나로 빠르고 유연하며 데이터의 구조를 잘 보여준다.

pandas는 모든 언어에서 사용할 수 있는 가장 강력하고 유연한 오픈 소스 데이터 분석/조작 도구가 되는 것을 목표로 만들어졌다.

Pandas 쓰임새

pandas는 다양하고 많은 양의 데이터를 다루는 데에 적합하다

사용 가능한 데이터의 종류는 다음과 같다.

  • SQL Table, Excel sheet 와 같이 열이 균일 하지 않은 테이블 형식 데이터

  • 정렬 및 정렬되지 않은 시계열 데이터

  • 행 및 열 label이 있는 임의의 행렬 데이터

  • 기타 모든 관찰/통계 데이터 세트

Pandas의 강력한 기능들

  • 데이터에서 누락된 데이터(NaN)을 쉽게 처리

  • 크기 가변성 : DataFrame 및 더 높은 차원의 개체에서 열을 삽입 및 삭제 가능

  • 자동 or 명시적 데이터 정렬

  • 데이터 집계 및 변환을 위해 데이터 세트에 대해 분할-적용-결합 작업을 수행 하는 강력하고 유연한 기능별 그룹화

  • 다른 Python 및 NumPy 데이터 구조에서 비정형적이고 다르게 인덱스된 데이터를 DataFrame 객체 로 쉽게 변환

  • 지능적인 레이블 기반 슬라이싱 , 멋진 인덱싱 및 대규모 데이터 세트의 하위 집합

  • 직관적인 데이터 세트 병합 및 결합

  • 데이터 세트의 유연한 재구성 및 피벗

  • 축의 계층적 레이블 지정

  • 시계열 관련 기능: 날짜 범위 생성 및 빈도 변환, 창 통계 이동, 날짜 이동 및 지연

  • 플랫 파일 (CSV 및 구분 기호), Excel 파일, 데이터베이스에서 데이터를 로드하고 초고속 HDF5 형식 에서 데이터를 저장/로드 하기 위한 강력한 IO 도구

데이터 구조

Pandas는 Serise(1차원), Data Frame(2차원) 두 가지 종류의 데이터 구조를 지원한다.

차원 이름 설명
1 Serise index-value
2 Data Frame index-column-value

pandas 데이터 구조에 대해 생각하는 가장 좋은 방법은 저차원 데이터를 위한 유연한 컨테이너이다.

DataFrame은 Series의 컨테이너이고 Series는 스칼라의 컨테이너이다.

pandas는 딕셔너리와 같은 방식으로 이러한 컨테이너에서 개체를 삽입하고 제거할 수 있다.

Import

import pandas as pd

# 별칭은 자유롭게 지정 가능하나 관례상 pd로 지정하는 것이 일반적이다.

출처 : pandas 홈페이지

댓글남기기