티스토리 뷰
파싱시 해당 페이지를 다시 한번 호출할 경우 동일한 글이 다시 한번 db에 들어가는 경우가 있다.
이런것을 싫어 해서 중복일 경우에는 제외하는 방법이다.
여러가지 방법이 있겠지만 가장 간단하게 제목으로 중복으로 체크하는 방법이다.
echo "i=".$i."\n\n";
echo "title=".$title."\n\n";
echo "s_url=".$s_url."\n\n";
$q= " select title from $db_prefix"."documents where title='$title' ";
$query = $oDB->_query($q);
$result = $oDB->_fetch($query);
$dbTitle=$result->title;
print_r($result);
print_r($result->title);
if($title==$dbTitle){
echo "\n이미 db에 있음\n\n";
continue;
}
'스크래핑,파싱' 카테고리의 다른 글
댓글 파싱 (0) | 2017.11.05 |
---|---|
파싱,스크래핑,크롤링 의뢰시 좋은 예 (0) | 2017.06.15 |
유닉스/리눅스 웹 페이지 호출 - curl 사용방법 (0) | 2017.04.23 |
[php] html 태그를 없애고 싶을때 - strip_tags (0) | 2017.01.30 |
[php,mysql] 쌍따옴표,홑따옴표 insert 하는 방법 addslashes - double, single quotation insert (1) | 2017.01.29 |
댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- 오라클
- xe애드온
- webix
- php
- ocajp
- 포인터
- Python
- 프로씨
- 스크래핑
- proc
- esql
- ocpjp
- 자바 smtp
- C언어
- EC
- 자바
- MySQL
- XE3
- 이클립스
- KG
- 인포믹스
- C
- 플러터
- XE
- JDBC
- 문자열
- ocjap
- 파이썬
- xe addon
- 파싱
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
글 보관함