List去除重复数据的几种方式-筱晶IT知识库

在Java开发中，可能我们需要对List中的某些数据进行去重操作，这里介绍几种方法。

几种实现

使用LinkedHashSet删除arraylist中的重复数据

LinkedHashSet是在一个ArrayList删除重复数据的极佳方法。LinkedHashSet在内部完成两件事：

删除重复数据
保持添加到其中的数据的顺序

Java示例使用LinkedHashSet删除arraylist中的重复项。

import java.util.ArrayList;
import java.util.Arrays;
import java.util.LinkedHashSet;

public class ArrayListExample{
    public static void main(String[] args)
    {
        ArrayList<Integer> numbersList = new ArrayList<>(Arrays.asList(1, 1, 2, 3, 3, 3, 4, 5, 6, 6, 6, 7, 8));
        System.out.println(numbersList);
        LinkedHashSet<Integer> hashSet = new LinkedHashSet<>(numbersList);
        ArrayList<Integer> listWithoutDuplicates = new ArrayList<>(hashSet);
        System.out.println(listWithoutDuplicates);
    }
}

输出结果

[1, 1, 2, 3, 3, 3, 4, 5, 6, 6, 6, 7, 8]
 
[1, 2, 3, 4, 5, 6, 7, 8]

使用Java8新特性stream进行List去重

要从arraylist中删除重复项，也可以使用java 8 stream api。

使用steam的distinct()方法返回一个由不同数据组成的流，通过对象的equals()方法进行比较。

收集所有区域数据List使用Collectors.toList()。

Java程序，用于在不使用Set的情况下从java中的arraylist中删除重复项。

import java.util.ArrayList;
import java.util.Arrays;
import java.util.List;
import java.util.stream.Collectors;

public class ArrayListExample{
    public static void main(String[] args){
        ArrayList<Integer> numbersList = new ArrayList<>(Arrays.asList(1, 1, 2, 3, 3, 3, 4, 5, 6, 6, 6, 7, 8));
        System.out.println(numbersList);
        List<Integer> listWithoutDuplicates = numbersList.stream().distinct().collect(Collectors.toList());
        System.out.println(listWithoutDuplicates);
    }
}

输出结果

[1, 1, 2, 3, 3, 3, 4, 5, 6, 6, 6, 7, 8]
 
[1, 2, 3, 4, 5, 6, 7, 8]

利用HashSet不能添加重复数据的特性

由于HashSet不能保证添加顺序，所以只能作为判断条件保证顺序：

private static void removeDuplicate(List<String> list) {
    HashSet<String> set = new HashSet<String>(list.size());
    List<String> result = new ArrayList<String>(list.size());
    for (String str : list) {
        if (set.add(str)) {
            result.add(str);
        }
    }
    list.clear();
    list.addAll(result);
}

利用List的contains方法循环遍历

重新排序，只添加一次数据，避免重复

private static void removeDuplicate(List<String> list) {
    List<String> result = new ArrayList<String>(list.size());
    for (String str : list) {
        if (!result.contains(str)) {
            result.add(str);
        }
    }
    list.clear();
    list.addAll(result);
}

双重for循环去重

for (int i = 0; i < list.size(); i++) { 
    for (int j = 0; j < list.size(); j++) { 
        if(i!=j&&list.get(i)==list.get(j)) { 
            list.remove(list.get(j)); 
        } 
    }
}

顺序性

前置知识

正式开始之前，先来搞懂两组概念：无序集合和有序集合 & 无序和有序。因为接下来的方法实现中，会反复提及这两组概念，所以有必要在正式开始之前，先把它们搞清楚。

无序集合

无序集合是指，数据读取的顺序和数据插入的顺序是不一致的。

例如，插入集合的顺序是：1、5、3、7，而集合的读取顺序竟然是：1、3、5、7。

有序集合

有序集合的概念和无序集合的概念正好相反，它是指集合的读取顺序和插入顺序是一致的。

例如，插入数据的顺序是：1、5、3、7，那么读取的顺序也是：1、5、3、7。

有序和无序

通过上面的无序集合和有序集合，可以得出有序和无序的概念。有序指的是数据的排列顺序和读取顺序符合预期就叫做有序。而无序指的是数据的排列顺序和读取顺序不符合预期就叫做无序。

PS：如果对于有序和无序的概念不是很清楚也没关系，通过下面的事例，可以进一步的理解它们的含义。

方法1：contains判断去重(有序)

要进行数据去重，首先想到的是新建一个集合，然后循环原来的集合，每次循环判断原集合中的循环项，如果当前循环的数据，没有在新集合中存在就插入，已经存在了就舍弃，这样当循环执行完，就得到了一个没有重复元素的集合了，实现代码如下：

public class ListDistinctExample {
    public static void main(String[] args) {
        List<Integer> list = new ArrayList<Integer>() {{
            add(1);
            add(3);
            add(5);
            add(2);
            add(1);
            add(3);
            add(7);
            add(2);
        }};
        System.out.println("原集合:" + list);
        method(list);
    }

    /**
     * 自定义去重
     * @param list
     */
    public static void method(List<Integer> list) {
        // 新集合
        List<Integer> newList = new ArrayList<>(list.size());
        list.forEach(i -> {
            if (!newList.contains(i)) { // 如果新集合中不存在则插入
                newList.add(i);
            }
        });
        System.out.println("去重集合:" + newList);
    }
}

以上程序执行的结果，如下所示：此方法的优点的：理解起来比较简单，并且最终得到的集合也是有序的，这里的有序指的是新集合的排列顺序和原集合的顺序是一致的；但缺点是实现代码有点多，不够简洁优雅。

方法2：迭代器去重(无序)

自定义 List 去重，除了上面的新建集合之外，也可以使用迭代器循环判断每一项数据，如果当前循环的数据，在集合中存在两份或两份以上，就将当前的元素删除掉，这样循环完之后，也可以得到一个没有重复数据的集合，实现代码如下：

public class ListDistinctExample {
    public static void main(String[] args) {
        List<Integer> list = new ArrayList<Integer>() {{
            add(1);
            add(3);
            add(5);
            add(2);
            add(1);
            add(3);
            add(7);
            add(2);
        }};
        System.out.println("原集合:" + list);
        method_1(list);
    }

    /**
     * 使用迭代器去重
     * @param list
     */
    public static void method_1(List<Integer> list) {
        Iterator<Integer> iterator = list.iterator();
        while (iterator.hasNext()) {
            // 获取循环的值
            Integer item = iterator.next();
            // 如果存在两个相同的值
            if (list.indexOf(item) != list.lastIndexOf(item)) {
                // 移除最后那个相同的值
                iterator.remove();
            }
        }
        System.out.println("去重集合:" + list);
    }
}

以上程序执行的结果，如下所示：此方法的实现比上一种方法的实现代码要少一些，并且不需要新建集合，但此方法得到的新集合是无序的，也就是新集合的排列顺序和原集合不一致，因此也不是最优的解决方案。

方法3：HashSet去重(无序)

知道 HashSet 天生具备“去重”的特性，那只需要将 List 集合转换成 HashSet 集合就可以了，实现代码如下：

public class ListDistinctExample {
    public static void main(String[] args) {
        List<Integer> list = new ArrayList<Integer>() {{
            add(1);
            add(3);
            add(5);
            add(2);
            add(1);
            add(3);
            add(7);
            add(2);
        }};
        System.out.println("原集合:" + list);
        method_2(list);
    }

    /**
     * 使用 HashSet 去重
     * @param list
     */
    public static void method_2(List<Integer> list) {
        HashSet<Integer> set = new HashSet<>(list);
        System.out.println("去重集合:" + set);
    }
}

以上程序执行的结果，如下所示：此方法的实现代码较为简洁，但缺点是 HashSet 会自动排序，这样新集合的数据排序就和原集合不一致了，如果对集合的顺序有要求，那么此方法也不能满足当前需求。

方法4：LinkedHashSet去重(有序)

既然 HashSet 会自动排序不能满足需求，那就使用 LinkedHashSet，它既能去重又能保证集合的顺序，实现代码如下：

public class ListDistinctExample {
    public static void main(String[] args) {
        List<Integer> list = new ArrayList<Integer>() {{
            add(1);
            add(3);
            add(5);
            add(2);
            add(1);
            add(3);
            add(7);
            add(2);
        }};
        System.out.println("原集合:" + list);
        method_3(list);
    }

    /**
     * 使用 LinkedHashSet 去重
     * @param list
     */
    public static void method_3(List<Integer> list) {
        LinkedHashSet<Integer> set = new LinkedHashSet<>(list);
        System.out.println("去重集合:" + set);
    }
}

以上程序执行的结果，如下所示：从上述代码和执行结果可以看出，LinkedHashSet 是到目前为止，实现比较简单，且最终生成的新集合与原集合顺序保持一致的实现方法，是可以考虑使用的一种去重方法。

方法5：TreeSet去重(无序)

除了以上的 Set 集合之外，还可以使用 TreeSet 集合来实现去重功能，实现代码如下：

public class ListDistinctExample {
    public static void main(String[] args) {
        List<Integer> list = new ArrayList<Integer>() {{
            add(1);
            add(3);
            add(5);
            add(2);
            add(1);
            add(3);
            add(7);
            add(2);
        }};
        System.out.println("原集合:" + list);
        method_4(list);
    }

    /**
     * 使用 TreeSet 去重(无序)
     * @param list
     */
    public static void method_4(List<Integer> list) {
        TreeSet<Integer> set = new TreeSet<>(list);
        System.out.println("去重集合:" + set);
    }
}

以上程序执行的结果，如下所示：比较遗憾的是，TreeSet 虽然实现起来也比较简单，但它有着和 HashSet 一样的问题，会自动排序，因此也不能满足需求。

方法6：Stream去重(有序)

JDK 8 带来了一个非常实用的方法 Stream，使用它可以实现很多功能，比如下面的去重功能：

public class ListDistinctExample {
    public static void main(String[] args) {
        List<Integer> list = new ArrayList<Integer>() {{
            add(1);
            add(3);
            add(5);
            add(2);
            add(1);
            add(3);
            add(7);
            add(2);
        }};
        System.out.println("原集合:" + list);
        method_5(list);
    }

    /**
     * 使用 Stream 去重
     * @param list
     */
    public static void method_5(List<Integer> list) {
        list = list.stream().distinct().collect(Collectors.toList());
        System.out.println("去重集合:" + list);
    }
}

以上程序执行的结果，如下所示：Stream 实现去重功能和其他方法不同的是，它不用新创建集合，使用自身接收一个去重的结果就可以了，并且实现代码也很简洁，并且去重后的集合顺序也和原集合的顺序保持一致，是最优先考虑的去重方法。

总结

这里介绍了 6 种集合去重的方法，其中实现最简洁，且去重之后的顺序能和原集合保持一致的实现方法，只有两种：LinkedHashSet 去重和 Stream 去重，而后一种去重方法无需借助新集合，是优先考虑的去重方法。

List 根据对象的属性去重

去除List中重复的String

public List<String> removeStringListDupli(List<String> stringList) {
    Set<String> set = new LinkedHashSet<>();
    set.addAll(stringList);

    stringList.clear();

    stringList.addAll(set);
    return stringList;
}

或使用Java8的写法：

List<String> unique = list.stream().distinct().collect(Collectors.toList());

List中对象去重

比如现在有一个 Person类:

public class Person {
	private Long id;
	
	private String name;
	
	public Person(Long id, String name) {
		this.id = id;
		this.name = name;
	}
	
	public Long getId() {
		return id;
	}
	
	public void setId(Long id) {
		this.id = id;
	}
	
	public String getName() {
		return name;
	}
	
	public void setName(String name) {
		this.name = name;
	}
	
	@Override
	public String toString() {
		return "Person{" +
			"id=" + id +
			", name='" + name + '\'' +
			'}';
	}
}

重写Person对象的equals()方法和hashCode()方法:

@Override
public boolean equals(Object o) {
    if (this == o) return true;
    if (o == null || getClass() != o.getClass()) return false;

    Person person = (Person) o;

    if (!id.equals(person.id)) return false;
    return name.equals(person.name);

}

@Override
public int hashCode() {
    int result = id.hashCode();
    result = 31 * result + name.hashCode();
    return result;
}

下面对象去重的代码：

Person p1 = new Person(1l, "jack");
Person p2 = new Person(3l, "jack chou");
Person p3 = new Person(2l, "tom");
Person p4 = new Person(4l, "hanson");
Person p5 = new Person(5l, "胶布虫");

List<Person> persons = Arrays.asList(p1, p2, p3, p4, p5, p5, p1, p2, p2);

List<Person> personList = new ArrayList<>();
// 去重
persons.stream().forEach(
	p -> {
		if (!personList.contains(p)) {
			personList.add(p);
		}
	}
);
System.out.println(personList);

List 的contains()方法底层实现使用对象的equals方法去比较的，其实重写equals()就好，但重写了equals最好将hashCode也重写了。

根据对象的属性去重

下面要根据Person对象的id去重，那该怎么做呢？

写一个方法吧:

public static List<Person> removeDupliById(List<Person> persons) {
    Set<Person> personSet = new TreeSet<>((o1, o2) -> o1.getId().compareTo(o2.getId()));
    personSet.addAll(persons);

    return new ArrayList<>(personSet);
}

通过Comparator比较器，比较对象属性，相同就返回0，达到过滤的目的。

再来看比较炫酷的Java8写法:

import static java.util.Comparator.comparingLong;
import static java.util.stream.Collectors.collectingAndThen;
import static java.util.stream.Collectors.toCollection;

 // 根据id去重
 List<Person> unique = persons.stream().collect(
            collectingAndThen(
                    toCollection(() -> new TreeSet<>(comparingLong(Person::getId))), ArrayList::new)
    );

还有一种写法:

public static <T> Predicate<T> distinctByKey(Function<? super T, Object> keyExtractor) {
    Map<Object, Boolean> map = new ConcurrentHashMap<>();
    return t -> map.putIfAbsent(keyExtractor.apply(t), Boolean.TRUE) == null;
}

	// remove duplicate
    persons.stream().filter(distinctByKey(p -> p.getId())).forEach(p -> System.out.println(p));

Java数组转List的几种方式

最常见方式（未必最佳）

通过 Arrays.asList(strArray) 方式,将数组转换List后，不能对List增删，只能查改，否则抛异常。

关键代码：List list = Arrays.asList(strArray);

private void testArrayCastToListError() {
    String[] strArray = new String[2];
    List list = Arrays.asList(strArray);
    // 对转换后的list插入一条数据
    list.add("1");
    System.out.println(list);
}

执行结果：

Exception in thread "main" java.lang.UnsupportedOperationException
 at java.util.AbstractList.add(AbstractList.java:148)
 at java.util.AbstractList.add(AbstractList.java:108)
 at com.darwin.junit.Calculator.testArrayCastToList(Calculator.java:19)
 at com.darwin.junit.Calculator.main(Calculator.java:44)

程序在list.add("1")处，抛出异常：UnsupportedOperationException。

原因解析：

Arrays.asList(strArray)返回值是java.util.Arrays类中一个私有静态内部类java.util.Arrays.ArrayList，它并非java.util.ArrayList类。java.util.Arrays.ArrayList类具有 set()，get()，contains()等方法，但是不具有添加add()或删除remove()方法,所以调用add()方法会报错。

使用场景：Arrays.asList(strArray)方式仅能用在将数组转换为List后，不需要增删其中的值，仅作为数据源读取使用。

数组转为List后，支持增删改查的方式

通过ArrayList的构造器，将Arrays.asList(strArray)的返回值由java.util.Arrays.ArrayList转为java.util.ArrayList。

关键代码：ArrayList<String> list = new ArrayList<String>(Arrays.asList(strArray)) ;

private void testArrayCastToListRight() {
    String[] strArray = new String[2];
    ArrayList<String> list = new ArrayList<String>(Arrays.asList(strArray)) ;
    list.add("1");
    System.out.println(list);
}

执行结果：成功追加一个元素“1”。

[null, null, 1]

使用场景：需要在将数组转换为List后，对List进行增删改查操作，在List的数据量不大的情况下，可以使用。

通过集合工具类Collections.addAll()方法(最高效)

通过Collections.addAll(arrayList, strArray)方式转换，根据数组的长度创建一个长度相同的List，然后通过Collections.addAll()方法，将数组中的元素转为二进制，然后添加到List中，这是最高效的方法。

关键代码：

ArrayList< String> arrayList = new ArrayList<String>(strArray.length);
Collections.addAll(arrayList, strArray);

测试：

private void testArrayCastToListEfficient(){
    String[] strArray = new String[2];
    ArrayList< String> arrayList = new ArrayList<String>(strArray.length);
    Collections.addAll(arrayList, strArray);
    arrayList.add("1");
    System.out.println(arrayList);
}

执行结果：同样成功追加一个元素“1”。

[null, null, 1]

使用场景：需要在将数组转换为List后，对List进行增删改查操作，在List的数据量巨大的情况下，优先使用，可以提高操作速度。

注：附上Collections.addAll()方法源码：

public static <T> boolean addAll(Collection<? super T> c, T... elements) {
    boolean result = false;
    for (T element : elements)
        result |= c.add(element);//result和c.add(element)按位或运算,然后赋值给result
    return result;
}

数组类型如果是整型数组，转为List时，会报错？

答案：在JDK1.8环境中测试，这三种转换方式是没有问题的。对于Integer[]整型数组转List的方法和测试结果如下：

方式一：不支持增删

Integer[] intArray1 = new Integer[2];
List<Integer> list1 = Arrays.asList(intArray1);
System.out.println(list1);

运行结果：

[null, null]

方式二：支持增删

Integer[] intArray2 = new Integer[2];
List<Integer> list2 = new ArrayList<Integer>(Arrays.asList(intArray2)) ;
list2.add(2);
System.out.println(list2);

运行结果：

[null, null, 2]

方式三：支持增删，且数据量大最高效

Integer[] intArray3 = new Integer[2];
List<Integer> list3 = new ArrayList<Integer>(intArray3.length);
Collections.addAll(list3, intArray3);
list3.add(3);
System.out.println(list3);

运行结果：

[null, null, 3]

综上，整型Integer[]数组转List<Integer>的正确方式应该是这样的。

易错点：可能出现的错误可能是这样转换的：

int[] intArray1 = new int[2];
List<Integer> list1 = Arrays.asList(intArray1);//此处报错！！！

报错原因：等号两边类型不一致，编译不通过。

那么在声明数组时，用int[] 还是Integer[]，哪种声明方式才能正确的转为List呢？
答案：只能用Integer[]转List<Integer>，即只能用基本数据类型的包装类型，才能直接转为List。

原因分析如下：

来看List在Java源码中的定义：

public interface List<E> extends Collection<E> {省略…}

再来看Arrays.asList()的在Java源码定义：

public static <T> List<T> asList(T... a) {
    return new ArrayList<>(a);
}

从上述源码中可以看出，List声明时，需要传递一个泛型<E>作为形参，asList()参数类型也是泛型中的通配类型<T>。Java中所有的泛型必须是引用类型。
什么是引用类型？Integer是引用类型， int是基本数据类型，不是引用类型。这就是为什么java中没有List<int>，而只有List<Integer>。
举一反三：其他8种基本数据类型byte、short、int、long、float、double、char也都不是引用类型，所以8种基本数据类型都不能作为List的形参。但String、数组、class、interface是引用类型，都可以作为List的形参，所以存在List<Runnable>接口类型的集合、List<int[]>数组类型的集合、List<String>类的集合。但不存在list<byte>、list<short> 等基本类型的集合。

有了上述基础知识后，再来看为什么下面两行代码第二行能编译通过，第三行却编译报错？

int[] intArray1 = new int[1]; 
Arrays.asList(intArray1);//编译不报错
List<Integer> list1 = Arrays.asList(intArray1);//编译报错

答案：

第二行代码，Arrays.asList()方法的入参是个引用类型的int[],那么返回值类型一定是List<int[]> ,其完整代码是：List<int[]> intsArray = Arrays.asList(intArray1);，所以编译通过，没问题。
第三行报错，因为等号两边的类型不一致，左边：List<Integer>,右边List<int[]>，所以编译时就报错。

总结

现在应该明白，为什么int[]不能直接转换为List<Integer>，而Integer[]就可以转换为List<Integer>了吧。

因为List中的泛型必须是引用类型，int是基本数据类型，不是引用类型，但int的包装类型Integer是class类型，属于引用类型，所以Integer可以作为List形参，List<Integer>在java中是可以存在的，但不存在List<int>类型。

目录CONTENT

List去除重复数据的几种方式

几种实现

使用LinkedHashSet删除arraylist中的重复数据

使用Java8新特性stream进行List去重

利用HashSet不能添加重复数据的特性

利用List的contains方法循环遍历

双重for循环去重

顺序性

前置知识

无序集合

有序集合

有序和无序

方法1：contains判断去重(有序)

方法2：迭代器去重(无序)

方法3：HashSet去重(无序)

方法4：LinkedHashSet去重(有序)

方法5：TreeSet去重(无序)

方法6：Stream去重(有序)

总结

List 根据对象的属性去重

去除List中重复的String

List中对象去重

根据对象的属性去重

Java数组转List的几种方式

最常见方式（未必最佳）

数组转为List后，支持增删改查的方式

通过集合工具类Collections.addAll()方法(最高效)

数组类型如果是整型数组，转为List时，会报错？

总结

评论区