본문 바로가기

머신러닝/파이썬 기본 문법

판다스(Pandas)_데이터 불러오기

판다스


 - 행과 열로 되어 있는 데이터를 컨트롤 할 때 사용되는 라이브러리
 - 행단위 데이터 취합, 또는 열단위 데이터 취합시 사용
 - 데이터 필터링(검색) 시 사용
 - 라이브러리 설치를 통해 사용할 수 있음
 - 주로 Database 및 File기반의 엑셀, CSV, Json 등의 데이터 전처리에 사용됨

 

 

데이터 불러오기

라이브러리를 먼저 불러들이고 "as"로 별칭을 작성

import pandas as pd

엑셀 파일 읽어 들이기


- 외부 파일을 읽어들일때 사용하는 함수 : read_xxx()
- header : 컬럼명이 있는 위치 지정
- skipfooter : 마지막 행부터 제외시킬 갯수 지정
- usecols : 추출할 컬럼(열)을 지정
- 파이썬에서는 모든 시작번호는 0부터

sample_1 = pd.read_excel("./files_sample/sample_1.xlsx",
                          header = 1,
                          skipfooter = 2,
                          usecols = "A:C")

코드와 같은 폴더 안에있는 files_sample폴더에 있는 sample_1.xlsx파일을 불러들이기

 

sample_1.xlsx

두번째줄에 컬럼명이 있기 때문에 header = 0이 아닌 1을 지정한다

 

총 합계와 전년동기는 제외하고 불러오고 싶기 때문에

skipfooter = 2

=> 마지막 두 행을 제외시킨다

 

추출할 컬럼은 국적코드, 성별, 입국객수로 할 것이기 때문에

A열 부터 C열 까지 

usecols = "A:C"로 지정한다

 

sample_1

불러들인 파일은 위와 같다.


 

 

데이터 정보 확인하기


- 행렬로 구성된 데이터의 형태 확인가능
- 결측치가 있는지 확인 가능
- 데이터의 갯수 확인 가능

sample_1.info()

결측치는 없는것으로 보인다

 

 

데이터프레임의 상위 2개 추출

sample_1.head()

디폴트값은 5이고, 괄호안에 숫자를 변경하면 해당 값으로 적용된다

 

데이터프레임 가장 마지막행부터 조회
- 디폴트 5개

sample_1.tail(1)

 

 

기초통계함수

 - 데이터프레임의 컬럼들 중에 숫자(정수 또는 소숫점을 가지는)에  대한

    count, 평균(mean), 표준편차(std), min(최소값), max(최대값)
 - 사분위수값(25%, 50%, 75%) : 이상치 처리시 사용됨
 - 데이터의 성격을 기준으로 min과 max값을 통해 이상치 데이터  확인가능(이상한 데이터)

sample_1.describe()

'머신러닝 > 파이썬 기본 문법' 카테고리의 다른 글

머신러닝 가상환경 생성  (0) 2023.07.25
데이터 저장하기  (0) 2023.07.25
데이터 통합하기  (0) 2023.07.25
데이터 처리하기(행단위)  (2) 2023.07.25
데이터 선택하기(컬럼기준)  (0) 2023.07.25