판다스
- 행과 열로 되어 있는 데이터를 컨트롤 할 때 사용되는 라이브러리
- 행단위 데이터 취합, 또는 열단위 데이터 취합시 사용
- 데이터 필터링(검색) 시 사용
- 라이브러리 설치를 통해 사용할 수 있음
- 주로 Database 및 File기반의 엑셀, CSV, Json 등의 데이터 전처리에 사용됨
데이터 불러오기
라이브러리를 먼저 불러들이고 "as"로 별칭을 작성
import pandas as pd
엑셀 파일 읽어 들이기
- 외부 파일을 읽어들일때 사용하는 함수 : read_xxx()
- header : 컬럼명이 있는 위치 지정
- skipfooter : 마지막 행부터 제외시킬 갯수 지정
- usecols : 추출할 컬럼(열)을 지정
- 파이썬에서는 모든 시작번호는 0부터
sample_1 = pd.read_excel("./files_sample/sample_1.xlsx",
header = 1,
skipfooter = 2,
usecols = "A:C")
코드와 같은 폴더 안에있는 files_sample폴더에 있는 sample_1.xlsx파일을 불러들이기
두번째줄에 컬럼명이 있기 때문에 header = 0이 아닌 1을 지정한다
총 합계와 전년동기는 제외하고 불러오고 싶기 때문에
skipfooter = 2
=> 마지막 두 행을 제외시킨다
추출할 컬럼은 국적코드, 성별, 입국객수로 할 것이기 때문에
A열 부터 C열 까지
usecols = "A:C"로 지정한다
sample_1
불러들인 파일은 위와 같다.
데이터 정보 확인하기
- 행렬로 구성된 데이터의 형태 확인가능
- 결측치가 있는지 확인 가능
- 데이터의 갯수 확인 가능
sample_1.info()
결측치는 없는것으로 보인다
데이터프레임의 상위 2개 추출
sample_1.head()
디폴트값은 5이고, 괄호안에 숫자를 변경하면 해당 값으로 적용된다
데이터프레임 가장 마지막행부터 조회
- 디폴트 5개
sample_1.tail(1)
기초통계함수
- 데이터프레임의 컬럼들 중에 숫자(정수 또는 소숫점을 가지는)에 대한
count, 평균(mean), 표준편차(std), min(최소값), max(최대값)
- 사분위수값(25%, 50%, 75%) : 이상치 처리시 사용됨
- 데이터의 성격을 기준으로 min과 max값을 통해 이상치 데이터 확인가능(이상한 데이터)
sample_1.describe()
'머신러닝 > 파이썬 기본 문법' 카테고리의 다른 글
머신러닝 가상환경 생성 (0) | 2023.07.25 |
---|---|
데이터 저장하기 (0) | 2023.07.25 |
데이터 통합하기 (0) | 2023.07.25 |
데이터 처리하기(행단위) (2) | 2023.07.25 |
데이터 선택하기(컬럼기준) (0) | 2023.07.25 |