판다스 데이터를 가지고 분석하고 있었는데 다루는 파일의 크기가 커지고와 수 많아지다보니 좀 더 효율적으로 작업을 하고자 읽고 쓰는 방식에 대해 조사했다. 아래는 내가 필요한 부분만 요약. 출처는 하단 표기
판다스 데이터 pandas data 저장 방법의 종류 및 장단점
|
컴마(,)로 구분하며 범용성이 뛰어나다 |
|
파이썬 인터프리터 python interpreter로 열어야 하는 단점이 있지만 파이썬에서 작업할 때는 빠른 속도를 보인다. 아래의 feather, parquet 보다는 느리지만 쓰기에 간편하다는 장점이 있다 |
|
대량 데이터를 보관하는 데 용이하다 |
|
제일 빠르다 |
|
패더 feather와 속도는 비슷한데 용량이 현격히 작다 |
이 외에도 message pack 등이 있으나 데이터 분석에서는 위 5가지 형식을 널리 쓴다고 한다.
출처: https://towardsdatascience.com/the-best-format-to-save-pandas-data-414dca023e0d#bypass
'아카이브' 카테고리의 다른 글
리스트 순서 섞기 random.shuffle (0) | 2023.11.14 |
---|---|
os와 pathlib으로 길찾기 파일경로 알려주기 (0) | 2023.11.14 |
데이터를 날려먹었다 (0) | 2023.11.10 |
블로그를 다시 쓰기로 했다 (0) | 2023.11.09 |
연방준비제도 빅스텝 인상 이슈 (0) | 2022.03.24 |