Python
[PANDAS] csv 파일 읽어 오는법
월미
2021. 9. 30. 12:23
Pandas란?
- 데이터를 효과적으로 처리하고, 보여줄 수 있도록 도와주는 라이브러리
- Numpy와 함께 사용되어 다양한 연계적인 기능을 제공
- 인덱스에 따라 데이터를 나열하므로 사전(Dictionary) 자료형에 가까움
- 시리즈(Series)를 기본적인 자료형으로 사용
# Series: 시리즈는 인덱스와 값으로 구성됨 (칼럼이 하나)
# DataFrame: 다수의 Series를 모아 처리하기 위한 목적으로 사용 (칼럼이 여러개)
표 형태로 데이터를 손쉽게 출력하고자 할 때 사용 가능
파일 읽어오기
다양한 포맷으로 된 파일을 DataFrame으로 로딩할 수 있다.
read_csv( ) / read_table( ) / read_fwf( )
read_csv와 read_table의 차이는 필드 구분 문자(delimiter)가 콤마( , )인지, 탭( \t ) 인지 차이다. (큰차이x)
read_csv는 csv뿐만 아니라 다른 구분 문자 기반의 파일 포맷도 DataFrame으로 변환 가능하다.
read_csv의 인자인 sep에 해당 구분 문자를 입력하면 된다.
ex) 탭으로 구분: read_csv('파일경로, 파일명', sep='\t')
* encoding = ('utf-8' , 'euc-kr', 'cp949') 가끔 불러올 때 써줘야하는 경우가 있다.(특히 한글파일 읽을때)
read_csv('c:/ex.csv', encoding='utf-8') 이런 식으로 뒤에 붙여 써주면 된다.
sep인자 생략시 자동으로 콤마로 할당된다. 가끔 콤마로 구분이 아닌 ';' 세미콜론 등으로 구분된 파일 들이 있다.