선형대수 (1)

반응형

 

  • 수열 (sequence) : N 개의 숫자 또는 변수가 순서대로 나열된 것
  • 집합 : 순서와 중복이 없는 숫자들의 집합(set)
  • 수열의 합 :

  • 수열의 곱 :

  • 스칼라 : 하나의 숫자만으로 이루어진 데이터로 보통 소문자 x로 표기한다. 실수(real number)인 숫자 중의 하나이므로 실수 집합 R 의 ****원소라는 의미에서 다음 같이 표현한다

  • 백터 (Vector) : 스칼라를 여러개 모아놓은 것
    • 열(column)백터 : 여러개의 타겟에서 한 종류의 데이터를 나열한 것

    • 행(row)백터 : 한 개의 타켓에 대하여 여러 종류의 데이터를 나열한 것

  • 행렬(Matrix) : 복수의 차원을 가지는 데이터 레코드가 다시 여러 개 있는 경우의 데이터를 합쳐서 표기한 것이다.

 

⁜ 스칼라와 벡터도 수학적으로는 행렬에 속한다. 스칼라는 열과 행의 수가 각각 1인 행렬이고 벡터는 열의 수가 1인 행렬이다. 그래서 스칼라나 벡터의 크기를 표시할 때 다음처럼 쓸 수도 있다.

  • 텐서(Tensor) : 3차원 이상의 배열 (데이터 사이언스 분야에서)

엄격한 수학적 정의로는 텐서는 다차원 배열로 표현되는 사상(mapping)으로 다차원 배열 자체를 뜻하지 않는다. 하지만 데이터 사이언스 분야에서는 흔히 다차원 배열을 텐서라고 부르므로 여기에서는 이러한 정의를 따르도록 한다.

  • 전치(transpose) 연산 : 행렬에서 가장 기본이 되는 연산으로 행렬의 행과 열을 바꾸는 연산을 말한다.

  • 영백터 & 일백터 : 모든 원소가 0인 N 차원 백터와 모든 원소가 1인 N 차원 백터를 각 각 영백터, 일백터라고 한다.

  • 벡터와 벡터의 곱셈 : 벡터끼리 곱셈하는 방법은 여러 가지가 있지만 여기서는 내적(inner product) 에 대해서만 다룬다. 벡터 x 와 벡터 y의 곱은 다음과 같이 표기한다.

  • 가중합(weighted sum) : 벡터의 내적은 가중합을 계산할 때도 사용된다.

데이터의 벡터 = x / 가중치 벡터 = w 이면 데이터 벡터 가중합은 다음과 같다

  • 가중평균(weighted average) : 가중합의 가중치값을 전체 가중치값의 합으로 나눈다. 일반 적인 가중평균 사용 예로 대학교의 평균계산에 사용된다. (학점에 따라 총점수의 평균이 달라짐)

 

  • 선형회귀 모형 : 독립변수 x 에서 종속변수 y 를 예측하는 방법의 하나로 독립변수 벡터 x 와 가중치 벡터 w와의 가중합으로 y에 대한 예측값을 계산하는 수식을 말한다

  • ⁂ 선형회귀 모형의 단점 : 선형회귀 모형은 비 선형적인 현실 세계의 데이터를 잘 예측 하지 못 할 수 있다는 단점이 있습니다. 예를 들어 집값은 면적에 단순비례하지 않는다 / 소형 면적의 집과 대형 면적의 집값의 면적당 집값 상승률은 다를 수 있다 등등 현실 세계의 데이터와 선형회귀 모형과 괴리가 있습니다.
  • 이러한 괴리를 줄이기 위해 선형회귀 모형이 아닌 완전히 다른 모형을 사용하기 보다는 선형회귀 모형을 기반으로 여러 기법을 사용하여 수정한 모형을 사용하는 것이 일반적입니다.

 

반응형