티스토리 뷰

스크래핑해서 db 에 insert를 해야할때 이상한문자가 insert 될 수도 있고 문장에 ' 가 있으면 insert 오류가 날 수도 있다.


언제 어디서 오류가 날 수 있고 오류가 안나다가 갑자기 날 수도 있기 때문에


아래 4개 php 함수를 그냥 디폴트로 쓰는게 좋을듯...


html을 벗겨내고 싶을때 strip_tags

 가 나올때 str_replace

&lt 등이 나올때 htmlspecialchars_decode

'가 있어서 쿼리문 오류 날때 addslashes


$title=strip_tags($title);

$title=str_replace(" "," ",$title);

$title=htmlspecialchars_decode($title);

$title=addslashes($title);

'스크래핑,파싱' 카테고리의 다른 글

php 한글깨질때  (0) 2018.05.08
php 숫자만 정규식  (0) 2018.05.03
php mysql 스크래핑 시 한글깨짐  (0) 2018.04.26
php snoopy가 안될때 octoparse 스크래핑  (0) 2018.04.26
아마존 스크래핑 octoparse  (2) 2018.04.20
댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/05   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함