본문 바로가기
국비교육기관/수업

01일차_엑셀 활용 빅데이터 맛보기

by 밀키스 2021. 3. 17.

@21.03.15

 

Kaggle: <세계적인 "데이터 예측 분석 경연 대회">라고 소개할 수 있다.

 

- 머신러닝 입문자가 초기에 실력을 쌓을 수 있는 수단 중 하나.

- 교육 후반에 '데이터 경진 대회' 또한 진행한다고 한다.

 

Kaggle 사이트에 들어가 titanic을 검색하고 맨 위에 있는 Data를 다운, 3개의 파일이 있다. 그치마안.. 로그인이 안된ㄷ... (train, test, gender_submission)

 

 

@train 파일

 

Train파일의 1행을 보면 이름.. 그냥 승객 아이디, 생존여부, Pclass는 몇등급실인지를 나타냄. 무튼 1행에는 정보가 있음 이란 말을 수업에서 하더라

 

<*결측실: Age열을 보면 나이가 표기가 되어있지 않는 경우가 있다. 이처럼 데이터가 누락되어있는 경우를 말함.>

 

무튼 각 행에 대한 내용은

--------------------------------------------------------------------------------

survival -> 살아남았는가에 대한 지표입니다. 1 이 생존, 0 이 사망 입니다.

 

pclass -> 사회경제적 지표입니다. 1 부터 3까지 Upper/Middle/Lower class 입니다.

 

Sex -> 성별 입니다. male = 남자, female = 여자 입니다.

 

Age -> 나이 입니다.

 

sibsp -> 본인을 제외하고 배에 탑승한 형제자매 및 배우자의 인원수 입니다.

sibling: 형제, 자매 / spouse: 배우자 --> Siblings / Spouses aboard the Titanic

parch -> 본인을 제외하고 배에 탑승한 부모/자식의 총 인원수 입니다.

Parents / Children aboard the Titanic

ticket -> 이 사람이 보유한 탑승권의 식별자를 의미합니다.

 

fare -> 이 사람이 탑승하기 위해 지불한 금액을 의미합니다.

 

cabin -> 배정받은 숙소를 의미합니다.

 

embarked ->이 사람이 탑승한 항구를 의미합니다.

--------------------------------------------------------------------------------

와 같다.

 

@Pivot chart 만들기 (생존율)

 

모든 데이터 table을 드래그하여 새로운 워크시트에 피벗 차트를 만듬

 

Pclass는 축(범주)에 드래그하고 Survived는 값에 두번 드래그한다.

 

이때 Survived의 값 중 하나를 개수로 설정(값 필드 설정). 그렇게하면 각 객실 층의 수와, 생존자의 여부를 볼 수 있다.

 

그리고 Table오른쪽에 생존 여부를 나타내고 싶다면 해당 셀을 선택하고 =이라고 적은뒤 컨트롤 버튼을 누르면서 < 합계 / 개수 * 100>으로 생존 여부를 나타낼 수 있다.

 

 

@그룹화하기 ( 나이에 따른 피벗차트)

 

나이에 따른 피벗차트를 만든다.

 

왼쪽에 있는 테이블 부분에서 나이부분의 한 셀을 클릭, 그룹화른 진행한다.

시작은 0 끝은 80으로 단위는 10씩 하면 아래와 같은 결과를 볼 수 있다.

 

 

@엑셀에서 if문 쓰기

 

test 파일을 사용하였다. test파일은 Survived 부분이 없는데 이를 우리가 작성하는 것. 작성 요령은 < =IF(a=b,1,0) > 과 같다. ab와 같다면 1, 안되면 0이 나온다.

 

 

@Kaggle 사이트에서 Competetion 참가하고 Submit하기

 

Kaggle에 로그인 하고 내가 만든 결과물을 제출할 수 있다. gender_mission파일에서 Survived의 경우 단순하게 남자면 죽고 여자는 살았다고 가정하고 제출하면 다음과 같은 결과의 정확도가 나온다.

 

All_set.xlsx
0.28MB
gender_submission.csv
0.00MB
test.csv
0.03MB
train.csv
0.06MB

반응형

댓글