티스토리 뷰
파싱을 하다보면 html 태그안의 내용만 뽑고 싶을때가 있다.
아래 태그처럼 선수번호와 이름을 추출하고 싶은데 선수번호는 그대로 추출되나 선수이름은 span 태그에 감싸져 있다.
정규식을 사용할 수 있으나 복잡하고 시간도 많이 걸리니 이럴때 간단하게 해결하는 방법이 있다.
바로 strip_tags를 사용하는 것이다.
foreach($match_num as &$value){
$value=strip_tags($value);
}
print_r($match_num);
이런식으로 하면
[0] => 6
[1] => A. 크라이스비크
[2] => A. 자한바크쉬
[3] => 7
[4] => 10
[5] => A. 티하두이니
[6] => B. 리엔스트라 (C)
[7] => 6
[8] => 1
[9] => E. 룸 (G)
[10] => D. 도스 산토스
이렇게 간단하게 내용만 뽑을 수 있다.
php 매뉴얼의 내용
http://php.net/manual/kr/function.strip-tags.php
예제 ¶
Example #1 strip_tags() 예제
<?php
$text = '<p>테스트 문단.</p><!-- 주석 --> <a
href="#fragment">다른 텍스트</a>';
echo strip_tags($text);
echo "\n";
// <p>와 <a>를 허용
echo strip_tags($text, '<p><a>');
?>
위 예제의 출력:
테스트 문단. 다른 텍스트 <p>테스트 문단.</p> <a href="#fragment">다른 텍스트</a>
'스크래핑,파싱' 카테고리의 다른 글
댓글 파싱 (0) | 2017.11.05 |
---|---|
파싱,스크래핑,크롤링 의뢰시 좋은 예 (0) | 2017.06.15 |
유닉스/리눅스 웹 페이지 호출 - curl 사용방법 (0) | 2017.04.23 |
xe 파싱시 제목으로 중복 체크 하는 방법 (0) | 2017.04.23 |
[php,mysql] 쌍따옴표,홑따옴표 insert 하는 방법 addslashes - double, single quotation insert (1) | 2017.01.29 |
댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- webix
- XE
- esql
- 파이썬
- 자바
- php
- C
- MySQL
- C언어
- 인포믹스
- 플러터
- 이클립스
- 문자열
- Python
- EC
- ocajp
- XE3
- 스크래핑
- ocjap
- JDBC
- 포인터
- proc
- ocpjp
- 자바 smtp
- xe addon
- 오라클
- KG
- 프로씨
- xe애드온
- 파싱
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
글 보관함