Python 데이터 전처리

2023. 10. 2. 11:36· # Coding/데이터 분석을 위한 Python

Python 데이터 전처리

상단으로

	survived	pclass	sex	age	sibsp	parch	fare	embarked	class	who	adult_male	deck	embark_town	alive	alone
0	0	3	male	22.0	1	0	7.2500	S	Third	man	True	NaN	Southampton	no	False
1	1	1	female	38.0	1	0	71.2833	C	First	woman	False	C	Cherbourg	yes	False
2	1	3	female	26.0	0	0	7.9250	S	Third	woman	False	NaN	Southampton	yes	True
3	1	1	female	35.0	1	0	53.1000	S	First	woman	False	C	Southampton	yes	False
4	0	3	male	35.0	0	0	8.0500	S	Third	man	True	NaN	Southampton	no	True
5	0	3	male	NaN	0	0	8.4583	Q	Third	man	True	NaN	Queenstown	no	True
6	0	1	male	54.0	0	0	51.8625	S	First	man	True	E	Southampton	no	True
7	0	3	male	2.0	3	1	21.0750	S	Third	child	False	NaN	Southampton	no	False
8	1	3	female	27.0	0	2	11.1333	S	Third	woman	False	NaN	Southampton	yes	False
9	1	2	female	14.0	1	0	30.0708	C	Second	child	False	NaN	Cherbourg	yes	False

	survived	pclass	sex	age	sibsp	parch	fare	embarked	class	who	adult_male	deck	embark_town	alive	alone
0	False	False	False	False	False	False	False	False	False	False	False	True	False	False	False
1	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False
2	False	False	False	False	False	False	False	False	False	False	False	True	False	False	False
3	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False
4	False	False	False	False	False	False	False	False	False	False	False	True	False	False	False
5	False	False	False	True	False	False	False	False	False	False	False	True	False	False	False
6	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False
7	False	False	False	False	False	False	False	False	False	False	False	True	False	False	False
8	False	False	False	False	False	False	False	False	False	False	False	True	False	False	False
9	False	False	False	False	False	False	False	False	False	False	False	True	False	False	False

	survived	pclass	sex	age	sibsp	parch	fare	embarked	class	who	adult_male	deck	embark_town	alive	alone
0	True	True	True	True	True	True	True	True	True	True	True	False	True	True	True
1	True	True	True	True	True	True	True	True	True	True	True	True	True	True	True
2	True	True	True	True	True	True	True	True	True	True	True	False	True	True	True
3	True	True	True	True	True	True	True	True	True	True	True	True	True	True	True
4	True	True	True	True	True	True	True	True	True	True	True	False	True	True	True
5	True	True	True	False	True	True	True	True	True	True	True	False	True	True	True
6	True	True	True	True	True	True	True	True	True	True	True	True	True	True	True
7	True	True	True	True	True	True	True	True	True	True	True	False	True	True	True
8	True	True	True	True	True	True	True	True	True	True	True	False	True	True	True
9	True	True	True	True	True	True	True	True	True	True	True	False	True	True	True

	survived	pclass	sex	age	sibsp	fare	embarked	class	who	adult_male	deck	embark_town	alive	alone
0	0	3	male	22.0	1	7.2500	S	Third	man	True	NaN	Southampton	no	False
1	1	1	female	38.0	1	71.2833	C	First	woman	False	C	Cherbourg	yes	False
2	1	3	female	26.0	0	7.9250	S	Third	woman	False	NaN	Southampton	yes	True

	survived	pclass	sex	age	sibsp	parch	fare	embarked	class	who	adult_male	deck	embark_town	alive	alone
9	1	2	female	14.0	1	0	30.0708	C	Second	child	False	NaN	Cherbourg	yes	False
14	0	3	female	14.0	0	0	7.8542	S	Third	child	False	NaN	Southampton	no	True
22	1	3	female	15.0	0	0	8.0292	Q	Third	child	False	NaN	Queenstown	yes	True
27	0	1	male	19.0	3	2	263.0000	S	First	man	True	C	Southampton	no	False
38	0	3	female	18.0	2	0	18.0000	S	Third	woman	False	NaN	Southampton	no	False

	survived	pclass	sex	age	sibsp	parch	fare	embarked	class	who	adult_male	deck	embark_town	alive	alone
10	1	3	female	4.0	1	1	16.7000	S	Third	child	False	G	Southampton	yes	False
24	0	3	female	8.0	3	1	21.0750	S	Third	child	False	NaN	Southampton	no	False
43	1	2	female	3.0	1	2	41.5792	C	Second	child	False	NaN	Cherbourg	yes	False
58	1	2	female	5.0	1	2	27.7500	S	Second	child	False	NaN	Southampton	yes	False
119	0	3	female	2.0	4	2	31.2750	S	Third	child	False	NaN	Southampton	no	False

	Name	Gender	Age
0	송태섭	남자	21
1	최유정	여자	23
2	이한나	여자	20
3	김소혜	여자	23

	Name	Gender	Height	Weight
0	송태섭	남자	179.1	63.9
1	최유정	여자	177.1	54.9
2	이한나	여자	167.9	50.2
3	김소혜	여자	176.1	53.5

	age	fare	survived
class
First	38.233441	84.154687	0.629630
Second	29.877630	20.662183	0.472826
Third	25.140620	13.675550	0.242363

	age		fare		survived
	mean	std	mean	std	mean	std
class
First	38.233441	14.802856	84.154687	78.380373	0.629630	0.484026
Second	29.877630	14.001077	20.662183	13.417399	0.472826	0.500623
Third	25.140620	12.495398	13.675550	11.778142	0.242363	0.428949

	age	sex	class	fare
884	25.0	male	Third	7.050
885	39.0	female	Third	29.125
886	27.0	male	Second	13.000
888	NaN	female	Third	23.450
890	32.0	male	Third	7.750

sex	female	male
class
First	34.611765	41.281386
Second	28.722973	30.740707
Third	21.750000	26.507589

	Header	age				fare
	Function	mean		std		max		min
	Survived	0	1	0	1	0	1	0	1
class	sex
First	female	25.666667	34.939024	24.006943	13.223014	151.55	512.3292	28.7125	25.9292
First	male	44.581967	36.248000	14.457749	14.936744	263.00	512.3292	0.0000	26.2875
Second	female	36.000000	28.080882	12.915107	12.764693	26.00	65.0000	10.5000	10.5000
Second	male	33.369048	16.022000	12.158125	19.547122	73.50	39.0000	0.0000	10.5000
Third	female	23.818182	19.329787	12.833465	12.303246	69.55	31.3875	6.7500	7.2250
Third	male	27.255814	22.274211	12.135707	11.555786	69.55	56.4958	0.0000	0.0000

	Header	age
	Survived	Dead	Alive
class	sex
First	female	25.666667	34.939024
First	male	44.581967	36.248000
Second	female	36.000000	28.080882
Second	male	33.369048	16.022000
Third	female	23.818182	19.329787
Third	male	27.255814	22.274211

Python 기술 통계 (0)	2023.10.02
Python 씨본 (0)	2023.10.02
Python 판다스 (0)	2023.10.02
Python 넘파이 (0)	2023.10.02
Python 클래스 & 패키지 (0)	2023.10.02

	Grade	Picture
0	3	무
1	1	유
2	1	무
3	3	무

		age		fare		survived
		mean	std	mean	std	mean	std
class	sex
First	female	34.611765	13.612052	106.125798	74.259988	0.968085	0.176716
First	male	41.281386	15.139570	67.226127	77.548021	0.368852	0.484484
Second	female	28.722973	12.872702	21.970121	10.891796	0.921053	0.271448
Second	male	30.740707	14.793894	19.741782	14.922235	0.157407	0.365882
Third	female	21.750000	12.729964	16.118810	11.690314	0.500000	0.501745
Third	male	26.507589	12.159514	12.661633	11.681696	0.135447	0.342694

Data Preprocessing¶

I. Missing Value¶

1) 실습용 'titanic' 데이터셋¶

2) 결측치 확인¶

(1) 결측치 막대 그래프 (missing number 패키지 이용)¶

(2) 결측치 Matrix - Data sheet 어느 부분에 결측치 있는지 보여줌¶

3) 결측치 삭제¶

4) 결측치 치환¶

II. Filtering¶

1) 실습용 'titanic' 데이터셋¶

2) 'age'가 10살 이상이면서 20살 미만¶

3) 'age'가 10살 미만이면서 'sex'이 여자¶

4) 'age'가 10살 미만 또는 60살 이상¶

5) 'sibsp'에 3 또는 4 또는 5를 포함¶

III. 데이터프레임 합치기¶

1) 데이터프레임 TB1, TB2, TB3, TB4 생성¶

2) .concat( )¶

3) merge( )¶

IV. 그룹 연산¶

1) 실습용 'titanic' 데이터셋¶

2) groupby( ) - 'class' 기준¶

3) groupby( ) - 'class' & 'sex' 기준¶

4) agg( )¶

5) filter( )¶

V. pivot_table( )¶

1) 실습용 'titanic' 데이터셋¶

2) pivot_table( ) 구성요소¶

3) 두개의 적용 함수¶

4) 다중 인덱스, 다중 데이터, 다중 함수¶

VI. Multi-Index¶

1) 행 멀티인덱스¶

2) 열 멀티인덱스¶

VII. etc¶

1) 실습용 'titanic' 데이터셋¶

2) .value_counts( )¶

3) .nunique( ) / .unique()¶

4) .replace( )¶

The End¶

'# Coding > 데이터 분석을 위한 Python' 카테고리의 다른 글

티스토리툴바