교육과정/KOSMO(79)
-
Day72
키워드 : 파이썬 스크래핑 (엄밀한 의미에서의 크롤링은 아님) / Requests 라이브러리와 urllib 라이브러리 / 파이썬 API / HTML 크롤링 / 이미지 크롤링 / **** 1. 스크랩핑과 크롤링 크롤링 ( crawling ) 조직적, 자동화된 방법으로 탐색하는 컴퓨터 프로그램으로, 여러 인터넷 사이트 페이지(문서, html 등)를 수집하여 분류한다. 대체로 찾아낸 데이터를 저장한 뒤, 쉽게 찾을 수 있도록 인덱싱한다. 스크래핑 ( scraping ) HTTP 를 통해 웹 사이트의 내용을 가져온 뒤, 원하는 형태로 가공하며 웹 사이트의 데이터를 수집하는 모든 작업을 뜻하는 포괄적인 의미를 갖는다. 크롤링도 스크래핑 기술의 일부이다. 파싱 ( parsing ) 어떤 페이지(문서, html 등)..
2021.01.25 -
Day71
키워드 : 스파크 설치 ( Spark ) / 스파크를 로컬 및 클러스터로 구동하기 / **** 1. 스파크 설치 (1) 스파크 다운로드 ① dn01 노드에서 root 계정으로 로그인한다. ( 설치 후 사용 권한을 hadoop 계정으로 변경할 예정 ) [hadoop@dn01 ~]$ su - root Password: Last login: Thu Jan 21 11:45:04 UTC 2021 on pts/1 ② tmp 디렉토리로 이동 후 wget 명령어로 spark 패키지를 다운받는다. [root@dn01 ~]# cd /tmp [root@dn01 tmp]# wget http://apache.mirror.cdnetworks.com/spark/spark-2.4.7/spark-2.4.7-bin-hadoop2.7.t..
2021.01.22 -
Day70
키워드 : 공개 데이터셋 다운로드 / 하이브로 데이터셋 확인하기 / 스쿱 설치 / SQOOP 을 사용하여 RDBMS와 HDFS 간 데이터 전송하기 ( import , export ) / 제플린 설치 ( zeppelin ) **** - hive : 하둡의 분산환경 처리를 이용하되, SQL 비슷하게 쿼리를 실행하면 하둡의 파일을 쉽게 처리할 수 있다. : RDBMS 의 테이블인 것처럼 쉽게 접근할 수 있다. - spark : java + python + scalar : java는 거의 쓰지 않는다. : python 으로도 할 수는 있으나 속도 문제 때문에 scalar 를 다시 배우는 경우가 많다. - sqoop : RDBMS의 데이터를 하이브로 옮길 수 있다. ※ 오늘의 목표 : http://www.grou..
2021.01.21 -
Day69
키워드 : 하둡 실행 방법 / 하이브 ( Hive ) / 데이터노드에 mariaDB 설치 / 하이브 설치 / 하이브 실행 / 비라인 실행 **** 0. 하이브 (hive) : 하둡의 분산환경 처리를 이용하되, SQL 비슷하게 쿼리를 실행하면 하둡의 파일을 쉽게 처리할 수 있다. : RDBMS 의 테이블인 것처럼 쉽게 접근할 수 있다. 1. 하둡 및 하이브 실행 방법 (1) 서버 실행 ( VM - Virtual Box ) - 서버 3대 실행 중이어야 함 (2) 하둡 실행 ( 분산 처리가 가능하도록 환경 구축 ) - 마스터 역할을 하는 NameNode ( nn01 ) 에서 > start-all.sh (3) MobaXterm 에서 nn01 노드 hadoop 계정으로 로그인 - 각 노드에서 하둡 실행 확인 > ..
2021.01.20 -
Day68
키워드 : 하둡 설치 (2) / 하둡 사용자 추가 / 하둡 환경변수 설정 / 하둡과 자바 버전 확인하기 / 하둡 계정에서 자바 사용해보기 / 모든 파일에서 set nu 설정하기 / 노드 간 공개 키 공유하기 (SSH) / xml 파일로 하둡 환경설정 하기 / 네임노드와 데이터노드 생성하기 / 하둡 실행 하기 / 워드카운트 / **** 1. 하둡 설치 (1) 사용자 계정 추가 및 su 명령어로 계정 스위칭 가능하게 하기 ① tmp 디렉토리에서 이어서 작업한다. ② 하둡 사용자를 추가하고 비밀번호를 등록한다. [root@nn01 ~]# useradd hadoop [root@nn01 ~]# passwd hadoop # 비밀번호 입력시 타이핑이 보이지 않음 ③ 루트에서 만든 파일의 권한을 hadoop 계정으로 ..
2021.01.19 -
Day67
키워드 : 데이터 과학 / 하둡 / HDFS / Virtual Box 설치 / PuTTy 에서 Virtual Box 접속 / MobaXterm 설치 / 하둡설치(1) **** 1. 데이터 과학 - 데이터란? : 과거의 추상적인 개념 -> 기술적이고 사실적인 의미로 변화 : 데이터를 단순한 객체로서 가치 + 다른 객체와의 상호관계 속에서 가치 : 객관적 사실이라는 존재적 특성 + 추론/예측/전망/추정을 위한 근거 - data : 데이터 자체로는 의미가 중요하지 않은 객관적인 사실 - information : 데이터 간 연관 관계 속에서 의미 도출된 것 - knowledge : 정보를 구조화하여 유의미한 정보로 분류 + 개인 경험 결합 - wisdom : 지식의 축적 + 아이디어 - 데이터 과학자(Data ..
2021.01.18