c語言讀取網頁內容-ag真人国际官网

發布時間: 2024-07-15 01:48:27

㈠如何利用c語言分析網頁

首先，你這個想法還是很不錯的，我以前也想這么做過。不過，學習html語言在這里肯定是次要的，主要的還是要學會分析的方法，而不是掌握被分析的內容，你說是吧？

如果要用程序抓取網頁自動保存到本地，就要會用socket編程，或者學習使用libcurl庫，這些都比學html語言有用的多，不做網頁抓取的時候，這些知識依然非常有用。而且，不同的網頁，內容不同，規律可能也不同。比如你給的那個例子網址，我右鍵查看了源代碼，裡面就根本沒有所謂的、標簽，即它的表格不是通過這些標簽來實現的。所以，讓你去看這些標簽，就是南轅北轍了。

網頁分析，說到底還是字元串處理和分析。所以，你如果真的想學，不如好好學一下正則表達式和字元串處理相關的函數，以及函數庫，比如tidy庫等。正則表達式是用來匹配一類字元串的，方便找規律，也方便處理，你稍微學習一點點就知道有多麼的強大，多麼的有用了。而且，正則表達式跟語言無關，什麼語言都能用得到，學這個不虧的。

標准c庫中沒有正則表達式相關的函數，一般來說c中使用兩種正則表達式庫，一為posix c正則庫，二為perl正則庫pcre。相比較而言pcre要強大些，posix c正則庫就足夠使用。

下面，這幾個鏈接裡面有網頁分析的一些例子，雖然不都是c語言來處理的。但是，思路都是一致的。所以，說到底，還是正則表達式、正則函數庫、字元串處理函數這些才是根本。先說這些，希望對你有所幫助。如果你在學習過程中還有什麼問題，歡迎隨時交流:)

c#的: http://www.jb51.net/article/16618.htm
c#的: http://mytiu.blog.163.com/blog/static/1059718452009127112226478/

這里還有一段c語言的代碼, 是將下載下來的網頁源代碼處理成沒有標簽的純文字文本
#include
#include
#include
#include
int main(int argc, char **argv )
{
const char* input = "foo

foo!";
tidybuffer output = {0};
tidybuffer errbuf = {0};
int rc = -1;
bool ok;

tidydoc tdoc = tidycreate(); // initialize "document"
printf( "tidying:\t%s\n", input );

ok = tidyoptsetbool( tdoc, tidyxhtmlout, yes ); // convert to xhtml
if ( ok )
rc = tidyseterrorbuffer( tdoc, &errbuf ); // capture diagnostics
if ( rc >= 0 )
rc = tidyparsestring( tdoc, input ); // parse the input
if ( rc >= 0 )
rc = tidycleanandrepair( tdoc ); // tidy it up!
if ( rc >= 0 )
rc = tidyrundiagnostics( tdoc ); // kvetch
if ( rc > 1 ) // if error, force output.
rc = ( tidyoptsetbool(tdoc, tidyforceoutput, yes) ? rc : -1 );
if ( rc >= 0 )
rc = tidysavebuffer( tdoc, &output ); // pretty print

if ( rc >= 0 )
{
if ( rc > 0 )
printf( "\ndiagnostics:\n\n%s", errbuf.bp );
printf( "\nand here is the result:\n\n%s", output.bp );
}
else
printf( "a severe error (%d) occurred.\n", rc );

tidybuffree( &output );
tidybuffree( &errbuf );
tidyrelease( tdoc );
return rc;
}

㈡ linux中怎麼用c語言打開網頁

給你一個哈，我自己調試好的，並且加了詳細注釋~~記得給分啊，我沒分問問題了~

#include
#include
#include
#include
#include
#include
#include
#include
#include
#include
#include
#include
#include
#include
#include
#include

/*gethostbyname 超時返回
這里使用的辦法是設置一個時鍾，如果gethostbyname在指定的時間內尚未返回，
時鍾會強制其返回，得到的返回值顯然是空指針，等價於告訴用戶主機未連如互聯網或者該域名無法解析。*/
static sigjmp_buf jmpbuf;
static void alarm_func() //該函數執行之後會執行跳轉
{
siglongjmp(jmpbuf, 1);
}

static struct hostent *gngethostbyname(char *hostname, int timeout)
{
struct hostent *lphostent;

signal(sigalrm, alarm_func); //接受alarm信號，然後調用函數
if(sigsetjmp(jmpbuf, 1) != 0)//跳轉目的地
{
alarm(0);//timout
signal(sigalrm, sig_ign);
return null;
}
alarm(timeout);//setting alarm
printf("\nwill gethost!\n");
lphostent = gethostbyname(hostname);
signal(sigalrm, sig_ign);

return lphostent;
}

/*(linux socket編程實現connect超時的一種方法
創建套接字，將其設置成非阻塞狀態。
調用connect連接對端主機，如果失敗，判斷當時的errno是否為einprogress，也就是說是不是連接正在進行中，如果是，轉到步驟3，如果不是，返回錯誤。
用select在指定的超時時間內監聽套接字的寫就緒事件，如果select有監聽到，證明連接成功，否則連接失敗。*/

int main(int argc, char *argv[])
{
//最好檢查一下參數，要求傳入3個參數 url port timeout(connect && send && recv 3個參數的超時)
int fd, retval,res,error;
struct sockaddr_in addr;
struct timeval timeo = {15, 0}; //time ou struct
struct hostent *site;
socklen_t len = sizeof(timeo);
fd_set set;
fd = socket(af_inet, sock_stream, 0);
if (argc == 4)
timeo.tv_sec = atoi(argv[3]);
site=gngethostbyname(argv[1],3); //解析域名的超時設置,測試域名超時，可以寫一個可以ping的通但是沒有辦法解析域名
//的ip地址到resolv.conf裡面，然後加上一個默認路由，直接ping一個網路，就能發現如果不加超時機制就會一直卡在那裡
if(null == site)
{
printf("\ncan not find the site!\n");
return -2;
}
fcntl(fd, f_setfl, fcntl(fd, f_getfl) | o_nonblock); //設置為非阻塞模式
addr.sin_family = af_inet;
//addr.sin_addr.s_addr = inet_addr(argv[1]);
memcpy(&addr.sin_addr, site->h_addr_list[0], site->h_length);
addr.sin_port = htons(atoi(argv[2]));
printf("%d\n", time(null));
/*if (connect(fd, (struct sockaddr*)&addr, sizeof(addr)) == 0) {
printf("connected1\n");
// return 0;
}*/
//res=connect(fd, (struct sockaddr*)&addr, sizeof(addr));
//printf("\nconnect result:[%d]\n",res);
if (connect(fd, (struct sockaddr*)&addr, sizeof(addr)) != 0)
{
//調用一次系統函數失敗後直接看errno,確定是什麼問題，下面的代碼可以實現在沒有默認路由的情況下直接返回失敗.
if (errno != einprogress) {
printf("connect:normal network unreach!!");
return -1;
}
printf("\nwill select\n");
fd_zero(&set);/*將set清零使集合中不含任何fd*/
fd_set(fd,&set); /*將一個給定的文件描述符加入集合之中*/
retval = select(fd 1, null, &set, null, &timeo);
if (retval == -1) {
printf("select");
return -1;
} else if(retval == 0) {
printf("timeout\n"); //這樣的select等於是變成了再timeout時間內是阻塞模式，超過timeout就直接返回
printf("%d\n", time(null));
return 0;
}
else
{
printf("connected--->:[%d]\n",retval);
getsockopt(fd, sol_socket, so_error, &error, (socklen_t *)&len); //判斷在connected成功之後，獲取套介面目前的一些信息來判斷是否真的是連接上了，返回0表示真的連上了
printf("error--->:[%d]\n",error);

if(0!=error)
return -1;
}
}

int ul = 0;
ioctl(fd, fionbio, &ul); //設置為阻塞模式
//return 0;
setsockopt(fd,sol_socket,so_sndtimeo,(char *)&timeo,sizeof(timeo));
setsockopt(fd,sol_socket,so_rcvtimeo,(char *)&timeo,sizeof(timeo));
printf("\nbefore\n");
sleep(5); //在sleep 5的時候，拔掉網線就可以測試出recv超時的功能，如果不加recv 的超時功能，拔掉網線後就會一直卡在那裡，當然你在實際應用的時候沒必要加這個
printf("\nafter\n");
char *msg="get / http/1.0\r\n\r\n";
if( send(fd, msg, strlen(msg), 0)<0 )
{
printf("error in send msg\n");
exit(1);
}
int i=0;
char buf[1000];

while((recv(fd,buf,1000,msg_waitall))>0)
{
printf("[%d]:[%s]",i,buf);
i ;
}
printf("\n------end---------\n");
close(fd);
return;
}

㈢ c語言打開一個網頁，用指定瀏覽器

shellexecute 第三個參數指定瀏覽器的執行文件全名；第四個參數指定網址。例如用ie打開www..com:

shellexecute(0, "open", "c:\\program files\\internet explorer\\iexplore.exe", "http://www..com", null, sw_show);

一般瀏覽器都支持網址參數。如果某瀏覽器顯示默認主頁，說明該瀏覽器不支持網址參數。

㈣ c語言如何使用libcurl訪問一個網頁，得到源碼後返回給一個字元串變數

#include
#include
#include
#include

structstring{
char*ptr;
size_tlen;
};

voidinit_string(structstring*s){
s->len=0;
s->ptr=malloc(s->len 1);
if(s->ptr==null){
fprintf(stderr,"malloc()failed
");
exit(exit_failure);
}
s->ptr[0]='';
}

size_twritefunc(void*ptr,size_tsize,size_tnmemb,structstring*s)
{
size_tnew_len=s->len size*nmemb;
s->ptr=realloc(s->ptr,new_len 1);
if(s->ptr==null){
fprintf(stderr,"realloc()failed
");
exit(exit_failure);
}
memcpy(s->ptr s->len,ptr,size*nmemb);
s->ptr[new_len]='';
s->len=new_len;

returnsize*nmemb;
}

intmain(void)
{
curl*curl;
curlcoderes;

curl=curl_easy_init();
if(curl){
structstrings;
init_string(&s);

curl_easy_setopt(curl,curlopt_url,"curl.haxx.se");
curl_easy_setopt(curl,curlopt_writefunction,writefunc);
curl_easy_setopt(curl,curlopt_writedata,&s);
res=curl_easy_perform(curl);

printf("%s
",s.ptr);
free(s.ptr);

/*alwayscleanup*/
curl_easy_cleanup(curl);
}
return0;
}

㈤用c如何讀取一個網頁內容

首先，用c讀取已知文件名的本機文件不是問題吧？那問題實質是在獲取url表示的文件，特別是獲取遠程www伺服器以url表示的文件，把它存放到本機。
有一個api函數叫 urldownloadtofile(), 用起來特簡單。只要一句：
urldownloadtofile(null, url, filename, 0, null);
其中url是你需要的文件，filename是下載到本機後的本地文件名。例如：
urldownloadtofile(null, "http://127.0.0.1/1.txt", "c:\\temp\\1.txt", 0, null);
下面處理c:\temp\1.txt就可以了。
這個函數在urlmon.h中有說明；需使用urlmon.lib. 有關參數意義請自己查。好像最後一個參數是指定回調函數，可以檢查下載狀態。但我從來沒指定過。從遠程站點一次下載很多文件時特別好用。我曾經用它循環起來，一次下載兩千多個swf文件。
但要注意：較大的文件不一定下載完全；有些站點可能檢查鏈接源，限制下載。

㈥怎麼通過c語言讀取網頁裡面的數據

簡單的請求格式

get /index.php http/1.0
host:www.zixue7.com

當我們和伺服器連接上之後，發送上面的數據過去，伺服器就會返回 index.php 這個頁面給我們。

get 這個是表示以什麼方式請求，http中還有很多其他的請求方式，常用的就 get post （更詳細的可以點開上面 http協議那個鏈接）

get 後面緊跟一個空格然後給出，要獲取的資源的名稱， /index.php 就表示獲取網站伺服器根目錄下 index.php 執行後所產生的內容，我們也可以改成 get / http/1.0 這就表示獲取默認首頁的內容。 get /1.html http/1.0 就是獲取伺服器根目錄下 1.html的內容，很容易理解吧。

接下來隔一個空格跟上 http/1.0 表示 http協議的版本，這個是固定的。

第二行 host:www.zixue7.com 用來指定訪問哪個主機。大家都知道，一個伺服器可以放很多個網站，每個網站有不同的域名，所以我們需要用這個host來指定我們要訪問的是哪個網站，這樣才能正確得訪問到我們想訪問的網站。

第一步，連接伺服器。
第二步，按照http協議，發送請求數據，然後就是接受返回的內容。

沒錯，就這么簡單。

在編寫程序之前，我們先用一個小工具來模擬一下這個過程，好讓我們對http協議了解更深入一些。

telnet工具如果是 win7下的朋友猛戳這里-->win7開啟telnet功能

到此為止，我假設大家電腦上已經開啟了 telnet功能，正題開始。

telnet 他是一個基於tcp/ip 協議的程序，為我們用戶提供一個與其他電腦通信的工具，我們可以使用他來和其他電腦進行連接通信。

開始->運行->輸入telnet回車, 出現一個黑框如下。

我們這時就可以輸入命令，來連接遠程主機，比如我們這次是要連接我們自學去論壇的伺服器，
那麼我們就輸入 open www.zixue7.com 80 然後回車。

open 是打開的意思後面跟上要打開那個主機然後後面跟上埠， web伺服器默認使用的是80埠，所以要加上80埠（不加埠 telnet默認是23埠）。

然後會出現下圖的情況，這時候我們就可以輸入命令了，輸入的命令都將被發送到自學去論壇的伺服器上面。大家注意一下下圖紅色箭頭所指出的部分，那裡就是一個輸入游標，不用管其他的字。

這就代表我們已經和遠程主機連接上了，就相當於我們上節課中客戶端執行到 connect 函數之後就是要調用 send函數發送數據了，在這里我們只需要按鍵盤輸入到黑色窗口中就會發送到服務端。

我們依次輸入以下內容，（注意，不能按退格，輸入錯誤了，就重新打開telnet，重新操作。）

熱點內容

matlab命令窗口和新建腳本發布：2024-07-17 15:51:26 瀏覽：374

建ftp文件夾發布：2024-07-17 15:51:26 瀏覽：954

魔獸撿物腳本發布：2024-07-17 15:27:56 瀏覽：129

開發ip伺服器發布：2024-07-17 15:24:42 瀏覽：387

安卓系統視頻製作哪個好用發布：2024-07-17 15:10:47 瀏覽：210

androidapk結構發布：2024-07-17 15:10:43 瀏覽：945

c語言指針的例子發布：2024-07-17 15:08:01 瀏覽：768

linuxzcat 發布：2024-07-17 15:02:09 瀏覽：901

賓士編程嗎發布：2024-07-17 14:57:08 瀏覽：853

硬碟加密硬體發布：2024-07-17 14:51:05 瀏覽：836

c語言讀取網頁內容-ag真人国际官网

與c語言讀取網頁內容相關的資訊