Train data 정답셋 오류 관련


#1

같은 상품에 대해서 다른 label을 가지고 있는 dataset이 존재하는 것 같습니다.

가령
train01 데이터 셋 안에서

소니)블루투스스피커(SRS-XB20/화이트) SRS-XB20[일반] J4593995818 -1 25>36>154>-1
소니)블루투스스피커(SRS-XB20/화이트) I4562318174 -1 25>36>154>-1
소니)블루투스스피커(SRS-XB20/화이트) SRS-XB20[일반] I4563560088 -1 25>36>154>-1
소니)블루투스스피커(SRS-XB20/화이트) H4525180725 25>36>154>-1
소니)블루투스스피커(SRS-XB20/화이트) S4671171782 25>36>154>-1
소니)블루투스스피커(SRS-XB20/화이트) SRS-XB20[일반] O4751750991 25>36>236>-1
소니)블루투스스피커(SRS-XB20/화이트) U4712092010 -1 25>36>154>-1
소니)블루투스스피커(SRS-XB20/화이트) 전산용품 헤드 소니 블루투스스피커 SRS-XB20 K4712977026 25>36>236>-1
[신한 6% 청구할인]소니)블루투스스피커(SRS-XB20/화이트) X4585916576 25>36>236>-1
[삼성 5% 청구할인]소니)블루투스스피커(SRS-XB20/화이트) Q4563630226 25>36>236>-1

하나의 상품을 가지고 2가지 class로 나뉘어져 있습니다. (맨 앞부분은 product, 가운데는 id, 마지막은 class 입니다)

이 부분은 데이터셋을 분류할 때에 나온 human 오류인가요?
아니면 실제로 저 상품이 2개의 class로 나누어 지는게 맞는 오류인가요?

위 상품은 dev와 test에도 포함이 되어 있어서 문제의 여지가 될 거 같네요


#2

@ksy 안녕하세요. 데이터는 꼼꼼히 보셨네요. 위 예제는 아래 두 카테고리로 나뉘어 있고,
25>36>236, 25>36>154

소 카테고리가 236(블루투스 스피커) 혹은 154(포터블 스피커)로 나뉘었는데, 일종의 휴먼 오류라고 보시면 됩니다. 236, 154의 경우 처럼 유사한 카테고리가 존재할 경우에 동일 상품이더라도 다른 카테고리로 매핑되었을 수 있습니다.