怎么判断字符串里的中文字符

怎么判断字符串里的中文字符

思考:解决问题之前,我们需要了解的是,在GB2312字符集的编码中汉字占2个字节,字母和其他字符占一个字节,而在utf-8中汉字占3,或者4个字节,字母占2个字节,由于utf一下占2个3个字节,一下占4个字节,不好拆分出指定的汉字加字母,所以才用GB2312的编码格式,汉字占2个字节,字母一个字节。 GB2312规定对收录的每个字符采用两个字节表示,第一个字节为“高字节”,对应94个区;第二个字节为“低字节”,对应94个位。所以它的区位码范围是:0101-9494。区号和位号分别加上0xA0就是GB2312编码。例如最后一个码位是9494,区号和位号分别转换成十六进制是5E5E,0x5E+0xA0=0xFE,所以该码位的GB2312编码是FEFE。 GB2312编码范围:A1A1-FEFE,其中汉字的编码范围为B0A1-F7FE,第一字节0xB0-0xF7(对应区号:16-87),第二个字节0xA1-0xFE(对应位号:01-94)。A-F的二进制最高位都为1 所以:在把汉字转换成字节的时候,输出的字节的值小于0,字母转换成字节的时候,输出的值就是其对应的数字。

编写一个截取字符串的函数,输入为一个字符串和字节数,输出为按字节截取的字符串。 但是要保证汉字不被截半个。

如“我ABC”4,应该截为“我AB”,输入“我ABC汉DEF”,6,应该输出为“我ABC”而不是“我ABC+汉的半个”。

public static String splitString(String str, int byteLength)

throws Exception {

//如果字符串为空,直接返回

if(str == null || "".equals(str)) {

return str;

}

//用于统计这个字符串中有几个中文字符

int wordCount = 0;

//统一按照gbk编码来得到他的字节数组,因为不同的编码字节数组是不一样的。

byte[] strBytes = str.getBytes("GB2312");

//如果只截取一位,而且第一位是中文字符时的处理

if (byteLength == 1) {

if (strBytes[0] < 0) {

return str.substring(0, 1);

}

}

//字符串中的一个中文会使得wordCount 加两次

//如果你这个字节取出来的是一个汉字也就是两个字节当中的一个的话val的值为负数

for (int i = 0; i < byteLength; i++) {

int val = strBytes[i];

if (val < 0) {

wordCount++;

}

}

//如果传递的这个截取的位数没有截到半个中文上面,那么就按照byteLength - (wordCount / 2)个长度进行截取

if (wordCount % 2 == 0) {

return str.substring(0, (byteLength - (wordCount / 2)));

}

//否则,我们就舍弃多出来的这一位 所以 -1

return str.substring(0, (byteLength - (wordCount / 2) - 1));

}

第二种方式是用正则表达式、Unicode 编码来判断

https://blog.csdn.net/yspxiaopanni/article/details/93624871

Java用的是Unicode 编码char 型变量的范围是0-65535 无符号的值,可以表示 65536个字符。 unicode编码范围: 汉字:[0x4e00,0x9fa5](或十进制[19968,40869]) 数字:[0x30,0x39](或十进制[48, 57]) 小写字母:[0x61,0x7a](或十进制[97, 122]) 大写字母:[0x41,0x5a](或十进制[65, 90])

汉字编码范围:\u4e00-\u9FA5

双字节字符编码范围:\u0391-\uFFE5

第一步:判断是否存在汉字

public boolean generateJudgment(String countname)

{

Pattern p = Pattern.compile("[\u4e00-\u9fa5]");

Matcher isNum = p.matcher(countname);

if (isNum.find()) {

return true;

}

return false;

}

JAVA正则表达式:Pattern类与Matcher类

待补充

getBytes()方法详解

https://blog.csdn.net/ljheee/article/details/51476125

在Java中,String的getBytes()方法是得到一个操作系统默认的编码格式的字节数组。这表示在不同的操作系统下,返回的东西不一样!

1、 str.getBytes(); 如果括号中不写charset,则采用的是Sytem.getProperty("file.encoding"),即当前文件的编码方式,

2、 str.getBytes("charset");//指定charset,即将底层存储的Unicode码解析为charset编码格式的字节数组方式

3、String str=new String(str.getBytes("utf-8"),"gbk")); //

将已经解析出来的字节数据转化为gbk编码格式的字符串,在内存中即为gbk格式的字节数组转为Unicode去交互传递

Java Web项目中解决中文乱码方法总结

https://www.cnblogs.com/maohuidong/p/8044564.html

相关推荐

鹿晗是怎么火起来的?
下载365app

鹿晗是怎么火起来的?

📅 06-27 🔥 756
王者荣耀上官婉儿梁祝新皮肤什么时候上线-王者荣耀上官婉儿梁祝新皮肤即将上线
还记得S6的王者战衣吗, 现在已经出现在某宝上了
御泥坊和贝佳斯的泥浆面膜哪种更好
365bet亚洲真人

御泥坊和贝佳斯的泥浆面膜哪种更好

📅 06-28 🔥 218
放眼望去
beat365网址大全

放眼望去

📅 06-28 🔥 504
红米Note2电池续航表现如何?(测试结果揭晓!)