본문 바로가기

IT/HADOOP5

[26일차] hadoop eco system/hive 설치/HiveQL사용하기 💙2022-07-26💙 하둡 에코 시스템 hadoop eco system 개념상 맨 하단에 하둡파일 시스템 위에 얀이 올라감. yarn이 올라가서 수많은 애플리케이션이 탄생함. HDFS를 사용한 noSQL 대용량 hdfs 를 사용 hbase.. HDFS를 머신러닝에 입력으로 사용 PIG 자바를 모르는 사람들을 위한 파이썬 비슷한 스크립트 언어 mapreduce할 수 있게.. 거의 안씀 사라졌다고 봐도 됨 이유가 다른 애플리케이션 SQL로 SQL 하둡 mapreduce 작업을 해서 결과를 나타냄.. cloudera .. HIVE 완벽한 ANSI표준 지원 X .. TAJO 고려대 대학교 DB팀이 만들어냈다. 쿼리문을 이용 각종 프로세스들 통신// 통신이 필요할 경우 재구성 zookeeper 동물원 관리 주키.. 2022. 7. 26.
[25일차] DelayCountWithMultipleOutputs.java 🤍 2022-07-25 🤍 DelayCountMapperWithMultipleOutputs.java package com.gyuone.mapper; import java.io.IOException; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Mapper; import com.gyuone.common.AirlinePerformanceParser; import com.gyuone.common.DelayCounters; public class DelayCountMapperWithMul.. 2022. 7. 25.
[24일차] driver 패키지에 ArrivalDelayCount/ DelayCount/ DelayCounterWithCounter/ DelayCountWithCounterTwo 작성하기 어제 한건 출발지연시간 오늘은 도착지연시간을 출력해보자. ArrivalDelayCountMapper.java ArrivalDelayCountMapper; package com.gyuone.driver; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; import org.apache.hadoop.mapr.. 2022. 7. 21.
[23일차] Hadoop WordCount . DepartureDelayCount 🚀2022-07-20 🚀 하둡파일 시스템 루트 밑에 tmp.. ls 하면 no such file이 나오는 이유는 ls 하면 없는 이유는 사용자계정이 없어서 루트로 접근하니깐,, ls가 사용자 계정으로 접근하게 되어서 계정을 직접 만들어줘야한다. 기본적으로 하둡이랑 linux명령어가 비슷.. 유사하다 ubuntu22 로그인 mapred historyserver start& 서버 실행 2번째 창으로 들어가기 jps제외한 7개 뜨는 거 확인 linux-> firefox -> localhost:50070 jps 개수확인 start-yarn.sh 시작 vi . ~/.bashrc 수정 hdfs dfs -ls / -> 안나오니깐 hdfs dfs -mkdir /user 유저를 따로 만들어서 설정해준다. hdfs dfs.. 2022. 7. 20.
[22일차] Hadoop 하둡 개념정리, 설치 하둡 Big Data 1. physical => 수십 Terabyte~ Petabyte 데이터를 갖고 있는 것 2. 소프트웨어 측면에서 보면, 본체 하나의 데이터를 빅데이터를 처리하는 프로세스를 의미 결국 데이터를 수집하는 것 규모가 크니 가공이 필요하다. 가공을 해서 어느 정도 집계를 하는데, 그 다음에 분석이 들어간다. 분석을 해서 시각화 이러한 일련의 과정을 빅데이터라고 한다. 수집 => 가공 => 분석(통계,AI) => 시각화 하둡 수업은 가공을 하는 것이다. 서기 2000년에 인터넷 사용이 활발하게 이용 여러가지 플랫폼이 많아지는데 위기 의식을 느낀 ... 처음에는 좋았는데 수집하는 데이터양이 어마어마한 통계를 내어도 예측이 불가능한 시점.. 급한 사람이 우물판다 => 구글 입장에서 제일 급함... 2022. 7. 19.