HadoopHadoop은 대규모 데이터를 처리하고 분석하기 위한 분산 컴퓨팅 프레임워크입니다. 아파치 소프트웨어 재단에서 개발되었으며, 오픈 소스로 제공됩니다. Hadoop은 빅데이터 처리를 위한 주요 도구들을 포함하고 있으며, 여러 대의 서버 또는 노드를 클러스터로 구성하여 데이터를 저장하고 처리할 수 있습니다.Hadoop의 주요 구성 요소는 다음과 같습니다:Hadoop Distributed File System (HDFS): 대용량 데이터를 분산하여 저장하는 파일 시스템으로, 데이터를 여러 노드에 분산하여 저장하고 고가용성을 제공합니다.MapReduce: 데이터 처리를 위한 분산 프로그래밍 모델로, 대규모 데이터를 작은 작업으로 분할하여 병렬 처리를 수행합니다.YARN (Yet Another Reso..
1. 데이터베이스 모델링이란? 데이터 모델링 데이터를 "어떻게 저장할지"를 정한다. (1) 개념적 구조를 정하는 것 : 논리적 모델링 (2) 데이터베이스 구축에 필요한 걸 정하는 것 : 물리적 모델링 데이터 모델 데이터 모델은 데이터를 사용하려는 목적에 맞게 정리하고 체계화 해놓은 모형을 뜻한다. Entity (개체) 저장하고 싶은 데이터의 대상 학생, 수업, 교수 Entity: 실제 대상 하나하나 (로우) Entity Type: 일반화한 Entity 종류 (테이블) Attribute (속성) Entity에 대하여 저장하려는 내용 학번, 이름, 성별, 입학년도 ... column Relationship (관계) Entity들 사이 연결점 Constraint (제약 조건) 학번 겹치면 안된다. 최소 한 명..
1. 데이터베이스 기본 개념 데이터베이스와 테이블 데이터베이스는 일정한 체계 속에 저장된 데이터의 집합이다. 테이블 단위로 저장되고, 하나의 데이터베이스 안에는 여러 개의 테이블로 저장된다. 테이블의 row와 column row(행): 객체 column(열): 객체의 속성 DBMS와 SQL DataBaseManagementSystem: 사용자와 데이터베이스 사이의 매개 예시: Mysql, Oracle, MariaDB, SQLServer, SQLite 등 Structured Query Language: DBMS에 명령을 내리기 위해 사용하는 언어 표준SQL을 사용하되 DBMS마다 조금씩 다르다. DBMS 구조 client를 통해 server에 접속하는 구조 실행되고 있는 server에 client를 이용해..
MySQL은 SQL을 사용하는 대표적인 데이터베이스이다. 몽고디비는 SQL을 사용하지 않는, NoSQL(Not only SQL) 데이버테이스의 대표이다. SQL과 NoSQL의 차이는 다음과 같다. (여기서 NoSQL의 특징은 몽고디비의 특징이다.) SQL(MySQL) NoSQL(몽고디비) 규칙에 맞는 데이터 입력 자유로운 데이터 입력 테이블 간 JOIN 지원 컬렉션 간 JOIN 미지원 트랜잭션 지원 트랜잭션 미지원 안정성, 일관성 확장성, 가용성 용어(테이블,로우,컬럼) 용어(컬렉션, 다큐먼트, 필드) NoSQL에는 고정된 테이블이 없다. 컬렉션이라는 개념이 있지만, 컬럼을 따로 정의하지는 않는다. 몽고디비에는 JOIN 기능이 없어서 하나의 쿼리로 여러 테이블을 합치는 작업이 항상 가능하지는 않다. 트랙..