c語言讀取網頁內容-ag真人国际官网
㈠ 如何利用c語言分析網頁
首先,你這個想法還是很不錯的,我以前也想這么做過。不過,學習html語言在這里肯定是次要的,主要的還是要學會分析的方法,而不是掌握被分析的內容,你說是吧?
如果要用程序抓取網頁自動保存到本地,就要會用socket編程,或者學習使用libcurl庫,這些都比學html語言有用的多,不做網頁抓取的時候,這些知識依然非常有用。而且,不同的網頁,內容不同,規律可能也不同。比如你給的那個例子網址,我右鍵查看了源代碼,裡面就根本沒有所謂的、標簽,即它的表格不是通過這些標簽來實現的。所以,讓你去看這些標簽,就是南轅北轍了。
網頁分析,說到底還是字元串處理和分析。所以,你如果真的想學,不如好好學一下正則表達式和字元串處理相關的函數,以及函數庫,比如tidy庫等。正則表達式是用來匹配一類字元串的,方便找規律,也方便處理,你稍微學習一點點就知道有多麼的強大,多麼的有用了。而且,正則表達式跟語言無關,什麼語言都能用得到,學這個不虧的。
標准c庫中沒有正則表達式相關的函數,一般來說c中使用兩種正則表達式庫,一為posix c正則庫,二為perl正則庫pcre。相比較而言pcre要強大些,posix c正則庫就足夠使用。
下面,這幾個鏈接裡面有網頁分析的一些例子,雖然不都是c語言來處理的。但是,思路都是一致的。 所以,說到底,還是正則表達式、正則函數庫、字元串處理函數這些才是根本。先說這些,希望對你有所幫助。如果你在學習過程中還有什麼問題,歡迎隨時交流:)
c#的: http://www.jb51.net/article/16618.htm
c#的: http://mytiu.blog.163.com/blog/static/1059718452009127112226478/
這里還有一段c語言的代碼, 是將下載下來的網頁源代碼處理成沒有標簽的純文字文本
#include
#include
#include
#include
int main(int argc, char **argv )
{
const char* input = "
foo!";
tidybuffer output = {0};
tidybuffer errbuf = {0};
int rc = -1;
bool ok;
tidydoc tdoc = tidycreate(); // initialize "document"
printf( "tidying:\t%s\n", input );
ok = tidyoptsetbool( tdoc, tidyxhtmlout, yes ); // convert to xhtml
if ( ok )
rc = tidyseterrorbuffer( tdoc, &errbuf ); // capture diagnostics
if ( rc >= 0 )
rc = tidyparsestring( tdoc, input ); // parse the input
if ( rc >= 0 )
rc = tidycleanandrepair( tdoc ); // tidy it up!
if ( rc >= 0 )
rc = tidyrundiagnostics( tdoc ); // kvetch
if ( rc > 1 ) // if error, force output.
rc = ( tidyoptsetbool(tdoc, tidyforceoutput, yes) ? rc : -1 );
if ( rc >= 0 )
rc = tidysavebuffer( tdoc, &output ); // pretty print
if ( rc >= 0 )
{
if ( rc > 0 )
printf( "\ndiagnostics:\n\n%s", errbuf.bp );
printf( "\nand here is the result:\n\n%s", output.bp );
}
else
printf( "a severe error (%d) occurred.\n", rc );
tidybuffree( &output );
tidybuffree( &errbuf );
tidyrelease( tdoc );
return rc;
}
㈡ linux中怎麼用c語言打開網頁
給你一個哈,我自己調試好的,並且加了詳細注釋~~記得給分啊,我沒分問問題了~
#include
#include
#include
#include
#include
#include
#include
#include
#include
#include
#include
#include
#include
#include
#include
#include
/*gethostbyname 超時返回
這里使用的辦法是設置一個時鍾,如果gethostbyname在指定的時間內尚未返回,
時鍾會強制其返回,得到的返回值顯然是空指針,等價於告訴用戶主機未連如互聯網或者該域名無法解析。*/
static sigjmp_buf jmpbuf;
static void alarm_func() //該函數執行之後會執行跳轉
{
siglongjmp(jmpbuf, 1);
}
static struct hostent *gngethostbyname(char *hostname, int timeout)
{
struct hostent *lphostent;
signal(sigalrm, alarm_func); //接受alarm信號,然後調用函數
if(sigsetjmp(jmpbuf, 1) != 0)//跳轉目的地
{
alarm(0);//timout
signal(sigalrm, sig_ign);
return null;
}
alarm(timeout);//setting alarm
printf("\nwill gethost!\n");
lphostent = gethostbyname(hostname);
signal(sigalrm, sig_ign);
return lphostent;
}
/*(linux socket編程實現connect超時的一種方法
創建套接字,將其設置成非阻塞狀態。
調用connect連接對端主機,如果失敗,判斷當時的errno是否為einprogress,也就是說是不是連接正在進行中,如果是,轉到步驟3,如果不是,返回錯誤。
用select在指定的超時時間內監聽套接字的寫就緒事件,如果select有監聽到,證明連接成功,否則連接失敗。*/
int main(int argc, char *argv[])
{
//最好檢查一下參數,要求傳入3個參數 url port timeout(connect && send && recv 3個參數的超時)
int fd, retval,res,error;
struct sockaddr_in addr;
struct timeval timeo = {15, 0}; //time ou struct
struct hostent *site;
socklen_t len = sizeof(timeo);
fd_set set;
fd = socket(af_inet, sock_stream, 0);
if (argc == 4)
timeo.tv_sec = atoi(argv[3]);
site=gngethostbyname(argv[1],3); //解析域名的超時設置,測試域名超時,可以寫一個可以ping的通但是沒有辦法解析域名
//的ip地址到resolv.conf裡面,然後加上一個默認路由,直接ping一個網路,就能發現如果不加超時機制就會一直卡在那裡
if(null == site)
{
printf("\ncan not find the site!\n");
return -2;
}
fcntl(fd, f_setfl, fcntl(fd, f_getfl) | o_nonblock); //設置為非阻塞模式
addr.sin_family = af_inet;
//addr.sin_addr.s_addr = inet_addr(argv[1]);
memcpy(&addr.sin_addr, site->h_addr_list[0], site->h_length);
addr.sin_port = htons(atoi(argv[2]));
printf("%d\n", time(null));
/*if (connect(fd, (struct sockaddr*)&addr, sizeof(addr)) == 0) {
printf("connected1\n");
// return 0;
}*/
//res=connect(fd, (struct sockaddr*)&addr, sizeof(addr));
//printf("\nconnect result:[%d]\n",res);
if (connect(fd, (struct sockaddr*)&addr, sizeof(addr)) != 0)
{
//調用一次系統函數失敗後直接看errno,確定是什麼問題,下面的代碼可以實現在沒有默認路由的情況下直接返回失敗.
if (errno != einprogress) {
printf("connect:normal network unreach!!");
return -1;
}
printf("\nwill select\n");
fd_zero(&set);/*將set清零使集合中不含任何fd*/
fd_set(fd,&set); /*將一個給定的文件描述符加入集合之中*/
retval = select(fd 1, null, &set, null, &timeo);
if (retval == -1) {
printf("select");
return -1;
} else if(retval == 0) {
printf("timeout\n"); //這樣的select等於是變成了再timeout時間內是阻塞模式,超過timeout就直接返回
printf("%d\n", time(null));
return 0;
}
else
{
printf("connected--->:[%d]\n",retval);
getsockopt(fd, sol_socket, so_error, &error, (socklen_t *)&len); //判斷在connected成功之後,獲取套介面目前的一些信息來判斷是否真的是連接上了,返回0表示真的連上了
printf("error--->:[%d]\n",error);
if(0!=error)
return -1;
}
}
int ul = 0;
ioctl(fd, fionbio, &ul); //設置為阻塞模式
//return 0;
setsockopt(fd,sol_socket,so_sndtimeo,(char *)&timeo,sizeof(timeo));
setsockopt(fd,sol_socket,so_rcvtimeo,(char *)&timeo,sizeof(timeo));
printf("\nbefore\n");
sleep(5); //在sleep 5的時候,拔掉網線就可以測試出recv超時的功能,如果不加recv 的超時功能,拔掉網線後就會一直卡在那裡,當然你在實際應用的時候沒必要加這個
printf("\nafter\n");
char *msg="get / http/1.0\r\n\r\n";
if( send(fd, msg, strlen(msg), 0)<0 )
{
printf("error in send msg\n");
exit(1);
}
int i=0;
char buf[1000];
while((recv(fd,buf,1000,msg_waitall))>0)
{
printf("[%d]:[%s]",i,buf);
i ;
}
printf("\n------end---------\n");
close(fd);
return;
}
㈢ c語言打開一個網頁,用指定瀏覽器
shellexecute 第三個參數指定瀏覽器的執行文件全名;第四個參數指定網址。例如用ie打開www..com:
shellexecute(0, "open", "c:\\program files\\internet explorer\\iexplore.exe", "http://www..com", null, sw_show);
一般瀏覽器都支持網址參數。如果某瀏覽器顯示默認主頁,說明該瀏覽器不支持網址參數。
㈣ c語言如何使用libcurl訪問一個網頁,得到源碼後返回給一個字元串變數
#include
#include
#include
#include
structstring{
char*ptr;
size_tlen;
};
voidinit_string(structstring*s){
s->len=0;
s->ptr=malloc(s->len 1);
if(s->ptr==null){
fprintf(stderr,"malloc()failed ");
exit(exit_failure);
}
s->ptr[0]='';
}
size_twritefunc(void*ptr,size_tsize,size_tnmemb,structstring*s)
{
size_tnew_len=s->len size*nmemb;
s->ptr=realloc(s->ptr,new_len 1);
if(s->ptr==null){
fprintf(stderr,"realloc()failed ");
exit(exit_failure);
}
memcpy(s->ptr s->len,ptr,size*nmemb);
s->ptr[new_len]='';
s->len=new_len;
returnsize*nmemb;
}
intmain(void)
{
curl*curl;
curlcoderes;
curl=curl_easy_init();
if(curl){
structstrings;
init_string(&s);
curl_easy_setopt(curl,curlopt_url,"curl.haxx.se");
curl_easy_setopt(curl,curlopt_writefunction,writefunc);
curl_easy_setopt(curl,curlopt_writedata,&s);
res=curl_easy_perform(curl);
printf("%s ",s.ptr);
free(s.ptr);
/*alwayscleanup*/
curl_easy_cleanup(curl);
}
return0;
}
㈤ 用c如何讀取一個網頁內容
首先,用c讀取已知文件名的本機文件不是問題吧?那問題實質是在獲取url表示的文件,特別是獲取遠程www伺服器以url表示的文件,把它存放到本機。
有一個api函數叫 urldownloadtofile(), 用起來特簡單。只要一句:
urldownloadtofile(null, url, filename, 0, null);
其中url是你需要的文件,filename是下載到本機後的本地文件名。例如:
urldownloadtofile(null, "http://127.0.0.1/1.txt", "c:\\temp\\1.txt", 0, null);
下面處理c:\temp\1.txt就可以了。
這個函數在urlmon.h中有說明;需使用urlmon.lib. 有關參數意義請自己查。好像最後一個參數是指定回調函數,可以檢查下載狀態。但我從來沒指定過。從遠程站點一次下載很多文件時特別好用。我曾經用它循環起來,一次下載兩千多個swf文件。
但要注意:較大的文件不一定下載完全;有些站點可能檢查鏈接源,限制下載。
㈥ 怎麼通過c語言讀取網頁裡面的數據
簡單的請求格式
get /index.php http/1.0
host:www.zixue7.com
當我們和伺服器連接上之後,發送上面的數據過去,伺服器就會返回 index.php 這個頁面給我們。
get 這個 是表示 以什麼方式請求,http中還有很多其他的請求方式,常用的就 get post (更詳細的 可以點開上面 http協議 那個鏈接)
get 後面緊跟一個空格 然後 給出,要獲取的資源的名稱, /index.php 就表示獲取網站伺服器根目錄下 index.php 執行後所產生的內容,我們也可以改成 get / http/1.0 這就表示獲取默認首頁的內容 。 get /1.html http/1.0 就是獲取 伺服器根目錄下 1.html的內容,很容易理解吧。
接下來隔一個空格 跟上 http/1.0 表示 http協議的版本,這個是固定的 。
第二行 host:www.zixue7.com 用來指定 訪問哪個主機。 大家都知道,一個伺服器可以放很多個網站,每個網站有不同的域名,所以我們需要用這個host來指定 我們要訪問的是哪個網站,這樣 才能正確得訪問到我們想訪問的網站。
第一步,連接伺服器。
第二步,按照http協議,發送請求數據,然後就是接受返回的內容。
沒錯,就這么簡單。
在編寫程序之前,我們先用一個小工具來模擬一下這個過程,好讓我們對http協議了解更深入一些。
telnet工具 如果是 win7下的朋友 猛戳這里-->win7開啟telnet功能
到此為止,我假設大家電腦上已經開啟了 telnet功能,正題開始。
telnet 他是一個基於tcp/ip 協議的程序,為我們用戶提供一個 與其他電腦通信的工具,我們可以使用他來和其他電腦進行連接通信。
開始->運行->輸入telnet回車, 出現一個黑框如下。
我們這時就可以輸入命令,來連接遠程主機,比如我們這次是要連接我們自學去論壇 的伺服器,
那麼我們就輸入 open www.zixue7.com 80 然後回車。
open 是打開的意思 後面跟上 要打開那個主機 然後 後面跟上埠, web伺服器默認使用的是80埠,所以 要加上80埠(不加埠 telnet默認是23埠)。
然後會出現下圖的情況,這時候 我們就可以輸入命令了,輸入的命令都將被發送到自學去論壇的伺服器上面。大家注意一下 下圖紅色箭頭所指出的部分,那裡就是一個輸入游標,不用管其他的字。
這就代表 我們已經和遠程主機連接上了,就相當於我們上節課中 客戶端執行到 connect 函數 之後 就是要調用 send函數發送數據了,在這里 我們只需要按鍵盤輸入到黑色窗口中 就會發送到服務端。
我們依次輸入以下內容,(注意,不能按退格,輸入錯誤了,就重新打開telnet,重新操作。)