RAG Project

[RAG Project] GlobalMacro QA chatbot - Data Preprocessing - excel 파일 (4)

hibyeys 2024. 9. 10. 22:52

2024.09.10 - [RAG Project] - [RAG Project] GlobalMacro QA chatbot - Data Preprocessing - audio파일 (3)

 

[RAG Project] GlobalMacro QA chatbot - Data Preprocessing - audio파일 (3)

2024.09.10 - [RAG Project] - [RAG Project] GlobalMacro QA chatbot - Data Preprocessing - md 파일 (2) [RAG Project] GlobalMacro QA chatbot - Data Preprocessing - md 파일 (2)2024.09.09 - [RAG Project] - [RAG Project] GlobalMacro QA chatbot - 데이터

hibyeys.tistory.com

지난 포스팅에 이어서 표 형식의 각종 지표들을 처리하는 과정을 적어 보겠다.

데이터 유형

  1. MD (마크다운) 파일
  2. Audio 파일
  3. 표 형식의 각종 지표 (csv or xlsx)

이번 데이터는 크롤링 데이터 1에 해당하는 각종 경기지표이다. 

이 데이터를 크롤링하는게 까다로웠지 RAG를 위해 Preprocessing 하는 과정은 간단했다.

※ (크롤링 포스팅 때 언급은 안했었지만 데이터를 가져오기 위해 OCR을 사용하는등 삽질을 많이 했다.)

 

아래와 같이 Row 별로 XML 태그로 감싸서 LLM이 잘 인식할 수 있게 만들었다. (참 쉽죠?)