판다스 데이터 저장 방법 및 파일 종류와 그 차이

판다스 데이터를 가지고 분석하고 있었는데 다루는 파일의 크기가 커지고와 수 많아지다보니 좀 더 효율적으로 작업을 하고자 읽고 쓰는 방식에 대해 조사했다. 아래는 내가 필요한 부분만 요약. 출처는 하단 표기

 

판다스 데이터 pandas data 저장 방법의 종류 및 장단점

 

 

  • csv 
컴마(,)로 구분하며 범용성이 뛰어나다
  • pickle 
파이썬 인터프리터 python interpreter로 열어야 하는 단점이 있지만 파이썬에서 작업할 때는 빠른 속도를 보인다. 아래의 feather, parquet 보다는 느리지만 쓰기에 간편하다는 장점이 있다
  • hdf5 
대량 데이터를 보관하는 데 용이하다
  • feather 
제일 빠르다
  • parquet 
패더 feather와 속도는 비슷한데 용량이 현격히 작다

이 외에도 message pack 등이 있으나 데이터 분석에서는 위 5가지 형식을 널리 쓴다고 한다.

 

출처: https://towardsdatascience.com/the-best-format-to-save-pandas-data-414dca023e0d#bypass