Probability and Statistics_Khan [Unit 1~8] Probability

2024. 1. 19. 23:13·Mathematics and Statistics

UNIT 1 : Analyzing categorical data

UNIT 2 : Displaying and comparing quantitative data


UNIT 3 : Summarizing quantitative data

Lesson2 : Variance and standard deviation of a population - Mean, standard deviation vs median, IQR

when you have data points that would skew the mean, median is much more robust

특정 데이터가 평균으로부터 크게 왜곡되어 있으면 'mean'과 'standard deviation'도 데이터를 잘 나타내지 못하게 된다.

이 경우에는 'median'과 'IQR'이 더 적절한 통계이다.

집중경향성(center tendency)과 집중경향성 주위의 분포(spread around that center tendency)

Lesson5 : Variance and standard deviation of a sample

If the data is being considered a population on its own, we divide by the number of data points, n
If the data is a sample from a larger population, we divide by one fewer than the number of data points in the sample, n-1

Lesson 7 : Box and whisker plots  - Judging outliers in a dataset

데이터셋에서 이상치를 발견해 그것을 제외하고 상자그림을 그릴 수 있다.

이상치를 찾는 규칙은 '1.5 x IQR' 이다.

Lesson 8 : Mean absolute deviation (MAD)


UNIT 4 : Modeling Data Distributions

Lesson 3 : Effects of linear transformations - How parameters change as data is shifted and scaled

mean and median follow the change when the data is shifted or scaled.

standarad deviation and IQR also doesn't change when the data is shifted.

But, when the data is scaled, standard deviation and IQR change.

Lesson 4  : Density Curves

막대그래프를 계속 잘게 쪼개면 결국 곡선으로 만들 수 있다. 이것이 density curves 밀도 곡선이다.

left-skewed 이면 mean이 median 보다 왼쪽에 있는 것을 알 수 있다.

Lesson 5 : Normal Distributions and the empircal rule


UNIT 5 : Exploring bivariate numerical data

Lesson 1 : Introduction to scatterplots - Bivariate relationship linearity, strength and direction

Lesson 2 : correlation coffeicient 'r'

Lesson 4 : Least-squares regression equations (최소제곱회귀 방정식)

A residual (잔차) is a measure of how well a line fits an individual data point.

calculating the equation of a regression line

Lesson 5 : Assesing the fit in least-squares regression 

전체 변동값 중 얼만큼의 퍼센트가 직선으로 설명되는지가 나온다. x의 변동값으로 설명된다.

이 수를 결정계수 r^2 (coefficient of determination) 라고 한다.

직선의 제곱오차가 작다면 y 직선에 가까운 것이기 때문에 빼는 값이 적어서 직선이 데이터들에 good fit 하다는 것을 의미한다. r^2 가 1에 가깝게 나오게 된다. y 변동값 중 많은 양이 x의 변동으로 설명된다.

직선의 제곱오차가 크다면 y 직선과 멀리 떨어진 것이기 때문에 점들과 직선 사이의 오차가 크기 때문에 r^2 가 0에 가깝게 나오게 된다. y의 변동값 중 적은 양이 x의 변동 또는 직선으로 설명된다는 뜻이다.

Standard deviation of residuals(잔차의 표준편차)  / Root-mean-square error (RMSD) (평균 제곱근 오차)

평균 잔차 측 잔차의 표준편차 값이 작을수록 직선이 데이터들에 fit 하다는 것을 말해준다.

Lesson 6 : More on regression - Squared error of regression line


UNIT 6 : Study Design

Lesson 4 : Types of studies

Sample study : estimate population parameter (모집단의 모수를 예측한다)

Observation study : seeing if there is a correlation between two things (상관관계). be careful not to say one is causing the other cause you could have confounding variable (인과관계 X 혼재변수가 있을 수 있다.)

Experiment study : estable or show causality (인과관계) taking group randomly assigned to a control or treatment. (대조군과 실험군) That should evenly distribute the confounding variables. (혼재변수를 분산) change how much of one of these variables they get and you see if it drives the other variable (특정 변수를 조절해서 그것이 다른 변수를 조절하는지를 본다)


UNIT 7 : Probability

Lesson 4: theoretical and experimental probability

Probability tells us how likely something is to happen in the long run.

We can calculate probability by looking at the outcomes of an experiment or by reasoning about the possible outcomes.

Lesson 9 : Conditional probability and independence

Dependent probability

Conditional probability and tree diagram

조건부 확률을 나무 구조도로 그리면 쉽게 이해할 수 있다.

아래 문제에서 보듯, 거짓으로 양성이 도출되는 확률 2%, 거짓으로 음성이 도출되는 확률 1%는 굉장히 작아 보이지만

양성이 나오는 것들 중 제대로 도출하는 조건부확률이 72%밖에 안 되는 것을 계산해 보면, 무려 28%나 오차가 발생함을 알 수 있다.

Conditional probability and independence

열차가 지연될 확률 P(delayed) 와 눈 오는 날 열차가 지연될 확률 P(delayed|snowy) 이 동일하다면 둘은 독립적이다.(independent)

눈 오는 날이라고 해서 다른 확률이 나오지 않기 때문에 영향을 주지 않는다고 볼 수 있는 것이다.

둘의 값이 동일하지 않다면 둘은 종속적이다. (dependent)


UNIT 8 Counting, Permutations, and Combinations

Lesson 2 : Permutations

n 개를 r 개에 배치하는 경우의 수
0! = 1

Lesson 3 : Combinations

조합은 순서가 상관이 없다.

순열(permutations)을 계산한 값에서 배치를 하는 경우의 수를 나눈다.

 

'Mathematics and Statistics' 카테고리의 다른 글

Probability and Statistics_Khan [Unit 11~16] Statistics  (2) 2024.01.25
Probability and Statistics_Khan [Unit 9~10] Random Variable, Sampling Distribution  (1) 2024.01.22
Review >> Essence of Linear Algebra_3Blue1Brown  (1) 2024.01.14
Essence of Linear Algebra_3Blue1Brown  (2) 2024.01.14
Review >> Linear Algebra_Khan  (2) 2024.01.09
'Mathematics and Statistics' 카테고리의 다른 글
  • Probability and Statistics_Khan [Unit 11~16] Statistics
  • Probability and Statistics_Khan [Unit 9~10] Random Variable, Sampling Distribution
  • Review >> Essence of Linear Algebra_3Blue1Brown
  • Essence of Linear Algebra_3Blue1Brown
Ctrl_engineer
Ctrl_engineer
Ctrl 키는 혼자일 때보다 다른 키와 함께할 때 진짜 힘을 발휘합니다. 데이터도, 사람도 마찬가지입니다. 연결되고 흐를 때, 세상은 더 나은 방향으로 움직입니다. 저는 데이터의 흐름을 설계하고, 신뢰를 심는 엔지니어가 되고자 합니다. 이곳은, 그 여정의 작은 흔적들을 기록하는 공간입니다.
  • Ctrl_engineer
    Ctrl the flow
    Ctrl_engineer
  • 전체
    오늘
    어제
    • 분류 전체보기 (60)
      • Research (8)
        • Raspberry Pi (8)
      • Data Enginnering (24)
        • Cloud (3)
        • Elastic (6)
        • Database (9)
        • Pipeline (3)
      • CS STUDY (0)
        • Computer Science (0)
        • DataStructure & Algorithm (0)
      • Programming (13)
        • Python (13)
      • Mathematics and Statistics (10)
      • Data Science (3)
        • Data Insight (2)
        • Learning (0)
        • ML & DL (0)
      • DIARY (0)
      • TIL (Today I Learned) (2)
  • 블로그 메뉴

    • 홈
    • 태그
    • 방명록
  • 링크

  • 공지사항

  • 인기 글

  • 태그

    라즈베리파이 네트워크 설정
    proxyjump 설정
    SQL
    오블완
    티스토리챌린지
    Khan
    heap size
    spark
    climb-mates
    점프투파이썬
    Statistics and Probability
    라즈베리파이5
    py4e
    Khan Academy
    ssh 비밀번호 없이 접속
    부스트코스
    indexing
    elasticSearch
    3blue1brown
    linear algebra
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.1
Ctrl_engineer
Probability and Statistics_Khan [Unit 1~8] Probability
상단으로

티스토리툴바