통계 전문가의 데이터 활용 방법

2020. 11. 9. 20:21Excel 을 가지고 놀자

반응형

어떤 데이터를 만났을 때 어떻게 활용을 해야 할까?라는 질문을 들었습니다.

실제로 우리는 많은 데이터를 접하고 살아갑니다.

인터넷만 보아도 엄청나게 많은 데이터가 흘러다니고 있습니다.

그중에 한두가지를 가지고 내가 알고 싶은 데이터를 만드는 방법을 쓰기로 했습니다.

오늘의 주제는 여의도에서 제일 맛집이 어디인가? 가 주제입니다.

이런 주제를 잡고 데이터를 모으려고 하면 굉장히 방대한 양의 데이터를 모을 수 있습니다.

하지만 그 데이터가 진실에 가깝다고 생각하기는 어려운 부분이 많이습니다.

 

단순히 인터넷 검색창에만 여의도 맛집이라고 찾아본다고 해도

어마어마한 정보가 쏟아지지만 실제로 대부분은 광고에 가깝습니다.

그래서 접근방법을 조금 달리해봤습니다.

여의도에서 근무하시는 직장인들 중에 제일 많이 이용하는 단골 식당을 찾아보면 어떨까 하는 것입니다.

그러려면 직장인들 중에 여러분을 추려야 하고 식사내용을 제공받아야 합니다.

그래서 범위를 좁히려다 오히려 특정 대상을 선택하기로 했습니다.

 

그리고 몇 가지 해당사항이 있습니다.

식사시간에 자유로운 사람이어야 합니다.

식대를 사용함에 있어서 부담이 없어야 합니다.

먹고 싶은 것을 먹기 위해 조금 먼 거리도 돌아다닐 수 있어야 합니다.

이왕이면 임원급이 좋겠습니다.

법인카드를 사용하시는 분들은 자료를 뽑기에 좋습니다.

그리고 본인 돈이 아니기 때문에 먹고 싶은 것을 선별하여 먹으러 다닐 수 있습니다.

식사시간에 크게 부담이 없기에 시간이 조금 걸리는 요리 종류도 편하게 먹을 수 있습니다.

 

아무튼 그런 사람들을 고르다가 아주 좋은 자료를 발견했습니다.

바로 열린 장관실의 업무추진비 내역입니다.

우리나라 장관들은 인터넷에 업무추진비라고 하여 식대비로 사용한 카드내역을 공개합니다.

장관도 여러 장관이 있습니다. 

법무부 장관, 여성가족부, 문화체육관광부...

 

하지만 역시 맛집은 문화라고 생각되어 문화체육관광부로 들어가 보았습니다. 

역시나 업무추진비로 매월 착실히 데이터를 올려주고 계시네요.

아마도 제 생각이지만 어떤 장관실은 안 올리시는 곳이 있을 겁니다...

뭐 찾아보진 않았지만 꼭 한두 명은 삐딱선을 타니까요. 여담입니다.

일단 데이터를 모아 보겠습니다.

 

출처:문화체육관광부 열린장관실 업무추친비

업무추진비+사용내역(9월분).xlsx
0.02MB
업무추진비+사용내역(8월분).xlsx
0.01MB
업무추진비+사용내역(7월분).xlsx
0.02MB
업무추진비+사용내역(6월분).xlsx
0.01MB
업무추진비+사용내역(5월분).xlsx
0.01MB
업무추진비+사용내역(4월분).xlsx
0.01MB
업무추진비+사용내역(3월분).xlsx
0.02MB
장차관+업무추진비+사용내역(2월분).xlsx
0.01MB
장차관+업무추진비+집행내역(1월분).xlsx
0.01MB
장차관+업무추진비+집행내역(12월분).xlsx
0.01MB
장차관+업무추진비+집행내역(11월분).xlsx
0.01MB
장차관+업무추진비+집행내역(10월분).xlsx
0.01MB

2019년 10월분부터 2020년 9월 분까지 1년 치 데이터를 다운로드하였습니다.

하지만 바로 이 데이터를 병합하면 안 됩니다.

데이터를 병합하기 위한 제일 중요한 부분 중 하나가 기준입니다.

이 기준이 변경되면 안 되기 때문에 우선 현 장관님의 취임일부터 확인하겠습니다. 

만약에 2월에 장관이 변경되었다고 하면 2명의 데이터가 다르기 때문에 정확한 데이터가 아닙니다.

 

현재 장관이신 방양우님의 약력 또한 같은 곳에 있습니다.

약력을 보니 제가 대상을 제대로 잡았습니다. 여의도에서 굉장히 오랜 시간 일하신 분입니다.

2019년 4월부터 장관이 되셨기 때문에 데이터도 문제없을 것 같습니다.

그럼 이제부터 위의 정보를 열어보도록 하겠습니다.

아 이런~~ 장관의 정보만 있는 것이 아니라 장관과 1 차관 2 차관의 정보가 같이 있습니다.

이러면 데이터 범위가 조금 더 커지지만 다시 한번 확인해야 할 것이 있습니다.

바로 1 차관과 2 차관이 언제부터 일했는지 봐야겠죠

우선 1 차관은 2020년 3월부터 근무했습니다. 그렇다면 4월 자료부터 사용해야겠네요.

2 차관은 2019년 12월부터 근무를 했습니다.

2020년 1월 데이터부터 사용하면 될 것 같습니다.

엑셀을 사용해서 2019년 10월 자료부터 열겠습니다.

우선 1 차관과 2 차관을 지우겠습니다. 

11월분을 붙여 넣겠습니다.

이런 식으로 해서 1 차관은 2020년 4월부터

2 차관은 2020년 1월부터의 데이터만 남기고 편집하도록 하겠습니다.

2월부터 담당자가 변경되었는지 양식이 변경이 되었습니다.

훨씬 좋은 자료 내요 사용금액뿐 아니라 인원도 적혀 있습니다.

그러면 인원 데이터를 사용하기 위해 1월까지의 데이터는 그냥 날려 버리고 여기부터 다시 사용하기로 했습니다.

마찬가지로 1 차관 데이터는 지웁니다.

2020년 3월부터는 정책보좌관도 들어오네요, 제이터가 풍족해지는 느낌입니다.

이제는 불필요한 셀을 모두 걷어내고 모든 내용을 합치겠습니다.

이제 270건의 데이터를 확보했습니다.

그리고 이제 정렬을 하면서 하나씩 확인해 보면 됩니다.

우선 사용장소를 오름차순으로 선택하고 동일한 식당을 노란색으로 체크해 보겠습니다.

 

'ㅁ' 에서부터 대상자가 나타납니다. 메밀꽃필 무렵, 메콩타이 엄청 많이 가는 곳이네요

2번 이상 방문 기록이 있는 경우 노란색을 칠했습니다.

나머지는 불필요한 데이터이니 지우겠습니다.

불필요한 데이터는 확실히 지우는 것 도 데이터를 추출하기 위해 중요한 부분 중 하나입니다.

다 모았습니다.

이제부터 그 데이터를 공개하겠습니다.

문체부 정책보좌관이 여의도에서 가장 좋아하는 식당 3곳입니다.

사육황토기러기칼국수, 언덕집, 이모분식

문체부 장관님이 여의도에서 가장 좋아하는 식당입니다.

메밀꽃필무렵, 바우정원, 봉피양, 상상낙지

문체부 2 차관이 여의도에서 가장 좋아하는 식당입니다.

메밀꽃필무렵, 밥상차려주는집, 본죽, 석기정, 언덕집

문체부 1 차관이 여의도에서 가장 좋아하는 식당입니다.

노이, 메콩타이, 아리울, 언덕집, 워낭

그리고 장관, 1 차관, 2 차관 정책보좌관 모두 합쳐서 제일 많이 이용하는 식당은

언 덕 집 입니다.

 

그렇다면 언덕집은 어디에 있을까요?

아..... 이런 언덕집이 여의도에 없네...

강남에서 드시는 건가 서울역에서 드시는 건가...??

 

그렇다면 다음은 메밀꽃필무렵입니다.

헐..... 이것도 경복궁 쪽이네요...

아니구나 이건 세종시네요. 세종청사에서 먹은 듯

그렇다면 다음 1 차관이 좋아하는 메콩타이

메콩타이도 세종시인가요?? 여의도에는 없네요

 

그렇다면 바우정원

에라이~ 이것도 세종입니다.

 

주제를 바꿔야겠습니다. 여의도의 맛집이 아니라...

세종시의 맛집이네요....

언덕집은 어디일까요....ㅋㅋ 에라이 망했네..

 

아무튼 원하는 데이터를 추출하기 위한 과정에 대해 써봤습니다.

그냥 넘어가기는 뭐하니까.

오늘 자료를 가지고 추출할 수 있는 내용을 일단 정리해 보겠습니다.


오늘의 자료를 가지고 추출할 수 있는 것

장관의 카드 한도는 일회 50만 원입니다.

전체 사용금액 중 가장 높은 금액은 49만 원이고 단 한 번도 50만 원을 넘은 적 없습니다.

그리고 1 차관, 2 차관 정책보좌관의 카드 한도는 일회 30만 원 인 것 같습니다.

 

그리고 1 차관은 고기를 잘 드심.

 

2 차관은 본죽, 본도시락, 본죽&비빔밥을 엄청 좋아하심

대체적으로 빨리나 오는 음식 가벼운 음식을 주로 드심.

 

정책보좌관은 

분식류를 좋아함.

 

장관님은 생선류를 좋아하고 대체로 아무거나 다 먹음

 

업무 중 가장 비싼 음식을 먹은 것은 2 차관으로 

밥상 차려주는 집에서 2명이 138,000원어치를 먹음

 

제일 싼 음식을 먹은 것은 정책보좌관으로

생고기 통 집에서 3명이 12,000원을 사용했다.

 

장관, 1 차관, 2 차관, 정책보좌관의 식대는 평균 1인 19,132원이다.

 

 

 

반응형