core/parcer/deznet/desnet_html.php

113 lines
4.0 KiB
PHP
Raw Permalink Normal View History

2023-02-08 16:59:59 +05:00
<?php
2023-08-14 09:15:58 +05:00
$_SERVER['SERVER_NAME'] = 'tk-ligat.ru';
2023-02-08 16:59:59 +05:00
require_once('/home/cloud/core/set/tk-ligat.ru.php');
require_once('/home/cloud/core/api/php/db.php');
require_once('/home/cloud/core/api/php/json.php');
2023-08-14 09:15:58 +05:00
function leopak($text)
{
2023-02-08 16:59:59 +05:00
$old1 = array("\\");
2023-08-14 09:15:58 +05:00
$new1 = array("/");
2023-02-08 16:59:59 +05:00
$text = str_replace($old1, $new1, $text);
return $text;
}
/* ищет str в txt если находит, возвращает единичку */
2023-08-14 09:15:58 +05:00
function findtxt($txt, $str)
{
2023-02-08 16:59:59 +05:00
$pos1 = stripos($txt, $str);
if ($pos1 === false)
return 0;
else
return 1;
}
2023-08-14 09:15:58 +05:00
function add_link($html)
{
2023-02-08 16:59:59 +05:00
preg_match_all("/<[Aa][\s]{1}[^>]*[Hh][Rr][Ee][Ff][^=]*=[ '\"\s]*([^ \"'>\s#]+)[^>]*>/", $html, $matches);
$urls = $matches[1]; // Берём то место, где сама ссылка (благодаря группирующим скобкам в регулярном выражении)
/* Выводим все ссылки */
2023-08-14 09:15:58 +05:00
for ($j = 0; $j < count($urls); $j++) {
$link = $urls[$j];
if (findtxt($link, 'https://www.deznet.ru') == 0)
$link = 'https://www.deznet.ru' . leopak($link);
$id = DB::getValue("SELECT `id` FROM `sm2` WHERE `link` LIKE '%" . $link . "' LIMIT 1");
if (!$id)
DB::add("INSERT INTO `sm2` (`link`, `status`) VALUES (?, ?)", array($link, 1));
2023-02-08 16:59:59 +05:00
}
}
2023-08-14 09:15:58 +05:00
function get_page($link)
{
$agent = 'Mozilla/5.0 (compatible; YandexBot/3.0)';
2023-02-08 16:59:59 +05:00
$ch = curl_init($link);
2023-08-14 09:15:58 +05:00
curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, 20);
2023-02-08 16:59:59 +05:00
curl_setopt($ch, CURLOPT_TIMEOUT, 20); //timeout in seconds
curl_setopt($ch, CURLOPT_USERAGENT, $agent);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
$dir = dirname(__FILE__);
$config['cookie_file'] = $dir . '/cookies/' . md5(@$_SERVER['REMOTE_ADDR']) . '.txt';
curl_setopt($ch, CURLOPT_COOKIEFILE, $config['cookie_file']);
curl_setopt($ch, CURLOPT_COOKIEJAR, $config['cookie_file']);
curl_setopt($ch, CURLOPT_COOKIE, "PMBC=96152e8e9a0168a731539c5e52c6b39a; PHPSESSID=jl0i13pn3157qca807jgp0jqa7; ServerName=WoW+Circle+3.3.5a+x5; serverId=1");
2023-08-14 09:15:58 +05:00
// curl_setopt($ch, CURLOPT_PROXY, 'localhost:9050'); // Use if proxy have username and password
// curl_setopt($ch, CURLOPT_PROXYTYPE, CURLPROXY_SOCKS5);
2023-02-08 16:59:59 +05:00
$response_data = curl_exec($ch);
2023-08-14 09:15:58 +05:00
if (curl_errno($ch) > 0)
echo ('Ошибка curl: ' . curl_error($ch));
2023-02-08 16:59:59 +05:00
curl_close($ch);
return $response_data;
}
2023-08-14 09:15:58 +05:00
$LinkList = DB::getAll("SELECT * FROM `sm2` WHERE `html` IS NULL AND `status`=1 ORDER BY RAND() LIMIT 200");
2023-02-08 16:59:59 +05:00
2023-08-14 09:15:58 +05:00
for ($i = 0; $i < count($LinkList); $i++) {
//if (findtxt($LinkList[$i]['link'], 'https://www.deznet.ru')==0) $LinkList[$i]['link']= 'https://www.deznet.ru' . $LinkList[$i]['link'];
$html = get_page($LinkList[$i]['link']);
//echo $LinkList[$i]['html'];
//echo $html;
2023-02-08 16:59:59 +05:00
if ($html) {
add_link($html);
2023-08-14 09:15:58 +05:00
$html = base64_encode(gzcompress($html, 9));
// echo $html;
$md5 = md5($html);
2023-02-08 16:59:59 +05:00
DB::set("UPDATE `sm2` SET `status`=0, `html`=?, `md5`=? WHERE `id`=?", array($html, $md5, $LinkList[$i]['id']));
}
2023-08-14 09:15:58 +05:00
unset($html);
2023-02-08 16:59:59 +05:00
}
//ищем дубли....
/*
unset($LinkList);
$LinkList = DB::getAll( 'SELECT * FROM `sm2` WHERE `md5` IS NULL');
for ($i=0; $i<count( $LinkList ); $i++){
DB::set("DELETE FROM `sm2` WHERE `link`=?", $LinkList[$i]['link']);
$link=leopak( $LinkList[$i]['link'] );
DB::add("INSERT INTO `sm2` (`link`, `status`) VALUES (?, ?)", array($LinkList[$i]['link'], 1));
}
2023-07-12 20:02:20 +05:00
AND (
`link` LIKE 'https://www.deznet.ru/catalog/%0/' OR
`link` LIKE 'https://www.deznet.ru/catalog/%1/' OR
`link` LIKE 'https://www.deznet.ru/catalog/%2/' OR
`link` LIKE 'https://www.deznet.ru/catalog/%3/' OR
`link` LIKE 'https://www.deznet.ru/catalog/%4/' OR
`link` LIKE 'https://www.deznet.ru/catalog/%5/' OR
`link` LIKE 'https://www.deznet.ru/catalog/%6/' OR
`link` LIKE 'https://www.deznet.ru/catalog/%7/' OR
`link` LIKE 'https://www.deznet.ru/catalog/%8/' OR
`link` LIKE 'https://www.deznet.ru/catalog/%9/'
)
2023-02-08 16:59:59 +05:00
*/
?>