본문 바로가기

PYTHON

PANDAS WordCloud 만들기

반응형

Python용 워드 클라우드 라이브러리가 여러개 있지만, wordcloud를 사용해보겠습니다.

 

이 라이브러리로 PANDAS DATAFRAME에 들어 있는 데이터를 워드 클라우드로 표시해 보겠습니다.

 

라이브러리 관련 문서와 소스코드 링크는 아래와 같습니다.

 

 WordCloud for Python documentation

 The code of the project is on Github: word_cloud

 

 

1. 라이브러리 설치

 

pip를 사용해서 wordcloud 라이브러리를 설치합니다.

 

pip install wordcloud

 

2. WordCloud를 만들기 위한 샘플 데이터 만들기

 

먼저, jupyter notebook을 하나 만들고 아래와 같이 샘플 데이터를 만들겠습니다.

 

샘플 데이터 만들기

 

 

 

 

3. 간단한 워드 클라우드 출력

 

[Minimal Example]

 

예제를 참고하여, 최소 설정값만 사용해서 샘플 데이터 단어를 워드 클라우드로 출력해보겠습니다.

 

한글을 출력하려면, font_path를 꼭 설정해야합니다.

 

간단한 워드 클라우드 출력

 

위 코드를 실행하면 워드 클라우드 이미지를 얻을 수 있습니다.

 

워드 클라우드

 

generate 함수를 호출할 때 입력된 단어의 순서대로 워드 클라우드가 출력됩니다.

 

맨 처음에 있는 항목이 제일 크고, 맨 마지막 단어가 제일 작습니다.

 

 

4. 단어의 빈도를 반영한 워드 클라우드 출력

 

단어의 빈도 데이터를 함께 사용하면, 빈도 순서대로 단어의 크기를 조절해 줍니다.

 

단어와 단어의 빈도를 사용한 워드 클라우드

 

위 코드를 실행하면 워드 클라우드 이미지를 얻을 수 있습니다.

 

워드 클라우드

 

generate_from_frequencies 함수를 호출할 때 사용하는 데이터는 단어와 그 빈도를 딕셔너리 타입으로 만들어야 합니다.

 

그러면, 빈도가 큰 단어가 제일 크게 표시됩니다.

 

word_cloud.zip
0.15MB

반응형