통계 전문가의 데이터 활용 방법

2020. 11. 9. 20:21가벼운 정보, 시사 그리고 이야기

반응형

어떤 데이터를 만났을 때 어떻게 활용을 해야 할까? 라는 질문을 들었습니다.

실제로 우리는 많은 데이터를 접하고 살아갑니다.

인터넷만 보아도 엄청나게 많은 데이터가 흘러다니고 있습니다.

그중에 한두가지를 가지고 내가 알고 싶은 데이터를 만드는 방법을 쓰기로 했습니다.

오늘의 주제는 여의도에서 제일 맛집이 어디인가? 가 주제 입니다.

이런 주제를 잡고 데이터를 모으려고하면 굉장히 방대한 양의 데이터를 모을 수 있습니다.

하지만 그 데이터가 진실에 가깝다고생각하기는 어려운 부분이 많이습니다.

 

단순히 인터넷 검색창에만 여의도 맛집이라고 찾아본다고 해도

어마어마한 정보가 쏟아지지만 실제로 대부분은 광고에 가깝습니다.

그래서 접근방법을 조금 달리해봤습니다.

여의도에서 근무하시는 직장인들중에 제일 많이 이용하는 단골 식당을 찾아보면 어떨까 하는 것 입니다.

그러려면 직장인들중에 여러분을 추려야하고 식사내용을 제공받아야 합니다.

그래서 범위를 좁히려다 오히려 특정 대상을 선택하기로 했습니다.

 

그리고 몇가지 해당사항이 있습니다.

식사시간에 자유로운 사람이어야 합니다.

식대를 사용함에 있어서 부담이 없어야 합니다.

먹고 싶은 것을 먹기 위해 조금 먼거리도 돌아다닐 수 있어야 합니다.

이왕이면 임원급이 좋겠습니다.

법인카드를 사용하시는 분들은 자료를 뽑기에 좋습니다.

그리고 본인 돈이 아니기 때문에 먹고 싶은것을 선별하여 먹으로 다닐 수 있습니다.

식사시간에 크게 부담이 없기에 시간이 조금 걸리는 요리종류도 편하게 먹을 수 있습니다.

 

아무튼 그런 사람들을 고르다가 아주 좋은 자료를 발견했습니다.

바로 열린장관실의 업무추진비 내역입니다.

우리나라 장관들은 인터넷에 업무추진비라고 하여 식대비로 사용한 카드내역을 공개합니다.

장관도 여러장관이 있습니다. 

법무부장관, 여성가족부, 문화체육관광부...

 

하지만 역시 맛집은 문화라고 생각되어 문화체육관광부로 들어가 보았습니다. 

역시나 업무추진비로 매월 착실히 데이터를 올려주고 계시네요.

아마도 제생각이지만 어떤 장관실은 안올리시는 곳이 있을겁니다...

뭐 찾아보진 않았지만 꼭 한두명은 삐딱선을 타니까요. 여담입니다.

일단 데이터를 모아 보겠습니다.

 

출처:문화체육관광부 열린장관실 업무추친비

업무추진비+사용내역(9월분).xlsx
0.02MB
업무추진비+사용내역(8월분).xlsx
0.01MB
업무추진비+사용내역(7월분).xlsx
0.02MB
업무추진비+사용내역(6월분).xlsx
0.01MB
업무추진비+사용내역(5월분).xlsx
0.01MB
업무추진비+사용내역(4월분).xlsx
0.01MB
업무추진비+사용내역(3월분).xlsx
0.02MB
장차관+업무추진비+사용내역(2월분).xlsx
0.01MB
장차관+업무추진비+집행내역(1월분).xlsx
0.01MB
장차관+업무추진비+집행내역(12월분).xlsx
0.01MB
장차관+업무추진비+집행내역(11월분).xlsx
0.01MB
장차관+업무추진비+집행내역(10월분).xlsx
0.01MB

2019년 10월 분부터 2020년 9월 분까지 1년치 데이터를 다운 받았습니다.

하지만 바로 이데이터를 병합하면 안됩니다.

데이터를 병합하기 위한 제일 중요한 부분중 하나가 기준입니다.

이 기준이 변경되면 안되기 때문에 우선 현장관님의 취임일 부터 확인하겠습니다. 

만약에 2월에 장관이 변경되었다고 하면 2명의 데이터가 다르기 때문에 정확한데이터가 아닙니다.

 

현재 장관이신 방양우님의 약력또한 같은곳에 있습니다.

약력을 보니 제가 대상을 제대로 잡았습니다. 여의도에서 굉장히 오랜시간 일하신 분입니다.

2019년4월 부터 장관이 되셨기때문에 데이터도 문제 없을 것 같습니다.

그럼 이제부터 위의 정보를 열어보도록 하겠습니다.

아 이런~~장관의 정보만 있는 것이 아니라 장관과 1차관 2차관의 정보가 같이 있습니다.

이러면 데이터 범위가 조금더 커지지만 다시 한번 확인해야할 것이 있습니다.

바로 1차관과 2차관이 언제부터 일했는지 봐야겠죠

우선 1차관은 2020년 3월부터 근무했습니다. 그렇다면 4월 자료부터 사용해야겠네요.

2차관은 2019년 12월 부터 근무를 했습니다.

2020년 1월 데이터부터 사용하면 될것 같습니다.

엑셀을 사용해서 2019년 10월 자료부터 열겠습니다.

우선 1차관과 2차관을 지우겠습니다. 

11월분을 붙여 넣겠습니다.

이런식으로 해서 1차관은 2020년 4월부터

2차관은 2020년 1월부터의 데이터만 남기고 편집하도록 하겠습니다.

2월부터 담당자가 변경 되었는지 양식이 변경이 되었습니다.

훨씬 좋은 자료내요 사용금액 뿐아니라 인원도 적혀 있습니다.

그러면 인원데이터를 사용하기위해 1월까지의 데이터는 그냥 날려 버리고 여기부터 다시 사용하기로 했습니다.

마찬가지로 1차관데이터는 지웁니다.

2020년 3월부터는 정책보좌관도 들어오네요, 제이터가 풍족해지는 느낌입니다.

이제는 불필요한 셀을 모두 걷어내고 모든 내용을 합치겠습니다.

이제 270건의 데이터를 확보 했습니다.

그리고 이제 정렬을 하면서 하나씩 확인해 보면 됩니다.

우선 사용장소를 오름차순으로 선택하고 동일한 식당을 노란색으로 체크해 보겠습니다.

 

'ㅁ' 에서부터 대상자가 나타납니다. 메밀꽃필무렵, 메콩타이 엄청 많이 가는 곳이네요

2번이상 방문기록이 있는 경우 노란색을 칠했습니다.

나머지는 불필요한 데이터이니 지우겠습니다.

불필요한 데이터는 확실히 지우는 것 도 데이터를 추출하기 위해 중요한 부분중 하나 입니다.

다 모았습니다.

이제부터 그 데이터를 공개 하겠습니다.

문체부 정책보좌관이 여의도에서 가장 좋아하는 식당 3곳입니다.

사육황토기러기칼국수, 언덕집, 이모분식

문체부 장관님이 여의도에서 가장 좋아하는 식당 입니다.

메밀꽃필무렵, 바우정원, 봉피양, 상상낙지

문체부 2차관이 여의도에서 가장 좋아하는 식당입니다.

메밀꽃필무렵, 밥상차려주는집, 본죽, 석기정, 언덕집

문체부 1차관이 여의도에서 가장 좋아하는 식당입니다.

노이, 메콩타이, 아리울, 언덕집, 워낭

그리고 장관, 1차관, 2차관 정책보좌관 모두 합쳐서 제일 많이 이용하는 식당은

언 덕 집 입니다.

 

그렇다면 언덕집은 어디에 있을까요?

아..... 이런 언덕집이 여의도에 없네...

강남에서 드시는건가 서울역에서 드시는 건가...??

 

그렇다면 다음은 메밀꽃필무렵입니다.

헐.....이것도 경복궁쪽이네요...

아니구나 이건 세종시네요. 세종청사에서 먹은 듯

그렇다면 다음 1차관이 좋아하는 메콩타이

메콩타이도 세종시인가요?? 여의도에는 없네요

 

그렇다면 바우정원

에라이~ 이것도 세종입니다.

 

주제를 바꿔야겠습니다. 여의도의 맛집이 아니라...

세종시의 맛집이네요....

언덕집은 어디일까요....ㅋㅋ 에라이 망했네..

 

아무튼 원하는 데이터를 추출하기 위한 과정에 대해 써봤습니다.

그냥 넘어가기는 뭐하니까.

오늘 자료를 가지고 추출할 수 있는 내용을 일단 정리해 보겠습니다.


오늘의 자료를 가지고 추출할 수 있는 것

장관의 카드 한도는 일회 50만원입니다.

전체 사용금액중 가장 높은 금액은 49만원이고 단 한번도 50만원을 넘은 적 없습니다.

그리고 1차관, 2차관 정책보좌관의 카드 한도는 일회 30만원 인것 같습니다.

 

그리고 1차관은 고기를 잘드심.

 

2차관은 본죽,본도시락,본죽&비빔밥을 엄청 좋아하심

대체적으로 빨리나오는 음식 가벼운음식 을 주로 드심.

 

정책보좌관은 

분식류를 좋아함.

 

장관님은 생선류를 좋아하고 대체로 아무거나 다 먹음

 

업무중 가장 비싼음식을 먹은 것은 2차관으로 

밥상차려주는집에서 2명이 138,000원어치를 먹음

 

제일 싼음식을 먹은 것은 정책보좌관으로

생고기통집에서 3명이 12,000원을 사용했다.

 

장관, 1차관, 2차관, 정책보좌관의 식대는 평균 1인 19,132원이다.

 

 

 

반응형