728x90
넷플릭스의 다큐영화, '거대한 해킹'을 보고 데이터권리라는 부분을 더 알고싶어져서 작성하게 된 글입니다. IT공간의 데이터? 우리 개개인의 정보는 인터넷상에서 얼만큼 데이터화되어있을까요? 처리된 나의 데이터는 몇 개의 플롯폼및 기업에게 전송되어 있을까요? 전송된 데이터는 얼마만큼이나 공유되고 사용되어왔는지 우리는 유추할 수 있을까요? 한 명의 데이터의 길이를 유추하기도 어려우나 이미 이 가상공간에는 몇 십억명의 데이터가 다루어져오고 있습니다. 이 데이터는 이제 일반적인 숫자체계로 셀 수 없습니다. 너무 많이(Voulme), 너무 빠르게(Velocity), 너무 다양한(Variety)형태로 증가하고 있으니까요. 이 세 가지요소가 빅데이터의 3대요소기도 하지요. 그 데이터의 소유자? 나와 관련된 정보가 내 ..
#크롤링, 스크래핑, 파싱 스크래핑(Scraping): HTTP를 이용하여 웹 사이트의 데이터를 수집, 가공하는 행위 크롤링(Crawling): 스크래핑의 일종, 특정 웹 페이지에 대한 데이터를 추출해 내는 행위 파싱(parsing): 어떤 페이지에서 원하는 데이터를 가공하는 행위(토큰 분해, 트리생성) 연관 키워드: 스파이더(spider), 봇(bot), 지능 에이전트 #어떻게 크롤링을 하는가 사용하는 언어: (주로)Python 사용하는 Python 라이브러리: beautifulsoup, selenium 연관 키워드: webdriver(headless), httrck, wget-curl, WebZip #무엇이 문제인가 형법상 크롤링에 대해 명시적으로 언급하지는 않으나, 사이트의 데이터를 수집하고 가공하..
Q. 지역변수, 전역변수가 누구야? 코드를 작성할 때, 우리는 변수를 전역적으로 하느냐 지역적으로 하느냐의 선택이 가능합니다. 전역이라고 하면 함수 밖에서 정의되어 보통 전범위에서 사용 가능한 변수가 됩니다. 지역 변수는 반대로 함수 안에서 정의되었으니, 해당 함수에서만 사용이 가능해집니다. Q. 어떤 건진 알겠는데, 각각 어떻게 쓰려고 할 때 사용해? 전역 변수는 어느 함수에서나 쓸 수 있습니다. 따라서 모든 함수에서 읽고 사용하고 공유하려 할 때 씁니다. 지역변수는 해당 함수 안에서만 쓰일 때 쓰면 됩니다. Q. 그럼 매번 따로 작성하는 지역변수보다는 한 번만 적으면 되는 전역 변수를 쓰는 게 간편한 거 아니야? 아닙니다. '공유'되는 변수이기 때문에 한 곳에서 오류가 발생시 전체프로그램이 망가질 수..
Google, Ging 등의 검색엔진에서 자신이 작성한 블로그 게시글이 잘 나타나려면 어떻게 해야할까요? 우선 검색 엔진 최적화 (SEO)에 대한 이해가 필요합니다. SEO가 무엇인가? 검색엔진 최적화(Serch Engine Optimization, SEO)의 정의 : 검색엔진 결과 페이지에서 자신의 웹사이트 혹은 웹페이지의 노출순위를 높여 트래픽의 야과 질을 높이는 최적화 작업. 상업적으로 지불하여 나타내는 키워드 결과(Paid Search)가 아닌 자연검색어(Organic Search)결과에 중점을 둡니다. 검색결과의 상위페이지, 첫 페이지느냐 아니냐로 유입률은 90% 이상의 확보가 이루어지기 때문에 검색 노출순위를 높이는 것은 필수적입니다. 1. SEO: 블로그 설정 검색엔진에 내 블로그를 표시 1..
프로그래머들에게 가장 인기있는 언어로 유명한 파이썬. 왜 파이썬일까? 이 파이썬으로 무엇을 제작하는 게 좋을까? 1. PYTHON의 특징 인터프리터 언어 객체지향 기능을 지원하는 대화형 인터프리터 언어라고 흔히들 말한다. 일반적인 어느 타 언어처럼 '컴파일 → 실행 →에러수정'의 과정이 아닌, 작성 한 다음 바로 테스트를 할 수 있는 언어다. 플랫폼이 독립적인 언어 운영체제의 영향을 적게 받는다. 예를 들어 리눅스든, 유닉스든, 윈도우든 도스든 대부분의 운영체제에서 동자기 가능한 언어다. 플랫폼에 독립적이라는 것은 컴파일 하지 않고도 내부적으로 자동 수행을 하기 때문에 편이하다는 뜻이다. 파이썬은 JAVA와 같이 byte code를 생성하는데 이 덕분에 소스 코드 없이도 다른 컴퓨터에서 즉시 수행할 수 ..