Python

[PANDAS] csv 파일 읽어 오는법

월미 2021. 9. 30. 12:23

Pandas란?

  • 데이터를 효과적으로 처리하고, 보여줄 수 있도록 도와주는 라이브러리
  • Numpy와 함께 사용되어 다양한 연계적인 기능을 제공
  • 인덱스에 따라 데이터를 나열하므로 사전(Dictionary) 자료형에 가까움
  • 시리즈(Series)를 기본적인 자료형으로 사용

# Series: 시리즈는 인덱스와 값으로 구성됨 (칼럼이 하나)

# DataFrame: 다수의 Series를 모아 처리하기 위한 목적으로 사용 (칼럼이 여러개)

 표 형태로 데이터를 손쉽게 출력하고자 할 때 사용 가능

 

 

파일 읽어오기

다양한 포맷으로 된 파일을 DataFrame으로 로딩할 수 있다.

  read_csv( )  /  read_table( )  /  read_fwf( )  

read_csv와 read_table의 차이는 필드 구분 문자(delimiter)가 콤마( , )인지, 탭( \t ) 인지 차이다. (큰차이x)

read_csv는 csv뿐만 아니라 다른 구분 문자 기반의 파일 포맷도 DataFrame으로 변환 가능하다. 

read_csv의 인자인 sep에 해당 구분 문자를 입력하면 된다. 

ex) 탭으로 구분: read_csv('파일경로, 파일명', sep='\t')

* encoding = ('utf-8' , 'euc-kr', 'cp949') 가끔 불러올 때 써줘야하는 경우가 있다.(특히 한글파일 읽을때)
  read_csv('c:/ex.csv', encoding='utf-8') 이런 식으로 뒤에 붙여 써주면 된다. 

sep인자 생략시 자동으로 콤마로 할당된다. 가끔 콤마로 구분이 아닌 ';' 세미콜론 등으로 구분된 파일 들이 있다.