# Estadística Descriptiva y Pandas

El objetivo del siguiente notebook es, además de repasar conceptos de estadística, que sigas aprendiendo a operar con Numpy y que, además, incorpores Pandas a tu caja de herramientas.

## 1. Estadística Descriptiva

La Estadística Descriptiva nos sirve para comenzar a analizar y entender un conjunto de datos. En el caso de datos numéricos, lo hace obteniendo *valores estadísticos* que, de alguna forma, reemplazan a nuestros datos. Por ejemplo, es muy difícil leer y *entender* la edad de 1000 personas. Pero con un grupo reducido de valores estadísticos (mínimo, máximo, media y desviación estándar, etc.) podemos aproximarnos a ese conjunto de una manera mucho más comprensible. Veamos dos medidas muy importantes:

**Promedio**

Dados $n$ números $x_1,x_2,...,x_n$, el promedio o media es 

$$\overline{x} = \frac{1}{n}\sum_{i=1}^{n} x_i = \frac{x_1 + x_2 + ... + x_n}{n}$$

**Desviación Estándar**

La varianza y la desviación estándar nos dan una idea de cuán "dispersos" están los valores con respecto a su promedio.

$$ Var = \frac{\sum_{i=1}^{n} (x_i -\overline{x})^2}{n - 1}$$

La desviación estándar es la raiz cuadrada de la varianza. En general se usa la letra griega $\sigma$ para representarla o las siglas $SD$:

$$ SD = \sqrt{\frac{\sum_{i=1}^{n} (x_i -\overline{x})^2}{n - 1}}$$

$$ SD = \sqrt{Var}$$


**Comentarios**:
1. Dado un conjunto de números, el promedio suele ser considerado el número más representativo de ese conjunto. Esto no siempre es así. Pensá o googleá por qué.
2. Al conjunto de números $x_1,...,x_n$ los pueden encontrar por el nombre de *población* o *muestra* (¡Ojo que no estamos diciendo que *población* y *muestra* sean lo mismo!).

### Challenge:

Vamos a utilizar de excusa la estadística descriptiva para hacer un desafío de programación:

Dadas la siguiente lista de números, escribir una rutina que calcule su promedio, su varianza y desviación estándar. **Pistas:**
* Probablemente te sea muy útil usar lo que hiciste para ejercicios anteriores.
* Para calcular la varianza y la desviación estándar, usa el resultado que obtuviste al calcular el promedio.

In [2]:
x_s = [1,2,3,1,2,2,3,4,1,2,3,4,1,2,4]
# COMPLETAR

In [3]:
#importamos numpy
import numpy as np

In [9]:
# Promedio 
promedio = sum(x_s) / len(x_s)
promedio, np.mean(x_s)

(2.3333333333333335, 2.3333333333333335)

In [15]:
# Varianza
varianza = sum((x_i - promedio) ** 2 for x_i in x_s) / (len(x_s) -1)
varianza, np.var(x_s,ddof=1)

(1.2380952380952384, 1.238095238095238)

In [16]:
# Varianza v2
varianza2 = sum((x_i - promedio) ** 2 for x_i in x_s) / (len(x_s))
varianza2, np.var(x_s)

(1.1555555555555557, 1.1555555555555554)

In [20]:
# Desviación estandard
ds = np.sqrt(varianza)
ds, np.std(x_s, ddof=1)

(1.1126972805283737, 1.1126972805283735)

¿Cómo te fue con el Challenge? Si no pudiste resolverlo, no te preocupes. ¡NumPy tiene funciones ya incorporadas que calcula algunos estadísticos sobre un arreglo!

### 1.2 Estadística con NumPy

Veamos cómo se calculan, en NumPy, el promedio, varianza y desviación estándar sobre un arreglo.

In [21]:
import numpy as np

x_s = np.array([1,2,3,1,2,2,3,4,1,2,3,4,1,2,4])

# Promedio
print(x_s.mean())

# Varianza
print(x_s.var(ddof = 1))

# Desviación estándar
print(x_s.std(ddof = 1))

2.3333333333333335
1.238095238095238
1.1126972805283735


**Para investigar**: ¿qué es el parámetro `ddof` de esa función?¿Qué pasa si no lo usas? Esta pregunta es **difícil** y requiere cierto conocimiento previo. Pero intenta, de todas formas, averiguarlo.

**La función NumPy np.std toma un parámetro opcional ddof: ´Delta Grados de Libertad´. Por defecto, esto es 0. 
Para agregar un poco más de contexto, en el cálculo de la varianza (de la cual la desviación estándar es la raíz cuadrada), normalmente dividimos por el número de valores que tenemos.**

**Pero si seleccionamos una muestra aleatoria de N elementos de una distribución más grande y calculamos la varianza, la división por N puede llevar a una subestimación de la varianza real. Para solucionar esto, podemos reducir el número que dividimos por ( los grados de libertad ) a un número menor que N (generalmente N-1). El parámetro ddof nos permite cambiar el divisor en la cantidad que especifiquemos.**

**A menos que se indique lo contrario, NumPy calculará el estimador sesgado para la varianza (ddof=0, dividido por N). Esto es lo que desea si está trabajando con la distribución completa (y no con un subconjunto de valores que se han seleccionado al azar de una distribución más amplia). Si se da el parámetro ddof, NumPy se divide por N - ddof en su lugar
**

NumPy también puede calcular percentilos (¡googlear!), cuantilos, mínimos y máximos:

In [22]:
print(np.percentile(x_s,75))
print(np.quantile(x_s,0.5))
print(np.min(x_s))
print(np.max(x_s))

3.0
2.0
1
4


**Para investigar**: ¿Cuál es la diferencia entre `np.percentile()` y `np.quantile()`?¿Cómo obtendrías los cuartiles a partir de ellos?

### 1.3 Generación de muestras al azar

Una cosa sumamente útil que podemos hacer con NumPy es generar muestras al azar. Esto no permite simular situaciones. Por ejemplo, las tiradas de dados que aparecen en el GIF de la bitácora. Estas funciones las encontramos dentro del paquete `random` de NumPy, cuya documentación pueden encontrar [aquí](https://docs.scipy.org/doc/numpy-1.15.0/reference/routines.random.html). Veamos cómo lo podemos hacer:

In [29]:
muestras_dado = np.random.randint(1,7, size = 15)
print(muestras_dado)

### También se puede
muestras_dado = np.random.choice([1,2,3,4,5,6], size = 15)
print(muestras_dado)

[6 3 4 5 5 1 5 5 4 4 5 4 6 5 5]
[2 5 2 3 4 2 2 6 5 6 2 1 6 2 2]


### Ejercitación

**Ejercicio 1:** ¿Cuál será el promedio de los valores obtenidos al tirar muchas veces un dado?¿Te animás a averiguar - o calcular - cuánto *debería dar* antes de hacerlo? Vamos a tratar de responder esta pregunta **simulando** un dado. Para ello:
* Obtener muestras al azar de un dado usando lo que vimos anteriormente.
* Calcular su promedio y desviación estándar.

¿A partir de qué cantidad de muestras el promedio se "estabiliza"?
**500??**

In [36]:
t_muestras = [10, 50, 100, 200, 500, 1000, 5000, 10000, 20000]
resultados = []
for t_muestra in t_muestras:
    muestra_dado = np.random.choice([1,2,3,4,5,6], size = t_muestra)
    resultados.append([t_muestra,np.mean(muestra_dado),np.std(muestra_dado)])
resultados

[[10, 3.0, 1.6733200530681511],
 [50, 3.68, 1.678570820668583],
 [100, 3.5, 1.835755975068582],
 [200, 3.38, 1.8043281298034457],
 [500, 3.346, 1.7164742934282469],
 [1000, 3.516, 1.709310972292637],
 [5000, 3.5144, 1.7018203900529574],
 [10000, 3.4886, 1.711978399396441],
 [20000, 3.49155, 1.710125316314568]]

**Ejercicio 2:** Simular un dado cargado para favorecer un valor de su elección. Por ejemplo, el seis. Para ello, consultar la ayuda de la función `np.random.choice`. ¿Cómo se modifica el promedio y la desviación estándar?

In [39]:
t_muestras = [10, 50, 100, 200, 500, 1000, 5000, 10000, 20000]
resultados = []
for t_muestra in t_muestras:
    muestra_dado = np.random.choice([1,2,3,4,5,6], size = t_muestra,p=[0.05, 0.05, 0.05, 0.05, 0.05, 0.75])
    resultados.append([t_muestra,np.mean(muestra_dado),np.std(muestra_dado)])
resultados

[[10, 5.7, 0.6403124237432849],
 [50, 4.98, 1.7028211884986633],
 [100, 5.44, 1.4235167719419397],
 [200, 5.42, 1.2139192724394814],
 [500, 5.28, 1.4770240350109407],
 [1000, 5.272, 1.4872847743455184],
 [5000, 5.2574, 1.4687223154837676],
 [10000, 5.2442, 1.491095691094304],
 [20000, 5.252, 1.4798635072195]]

## 2. Pandas 

Pandas es la librería más conocida de Python para manipular y analizar datos. Está montada sobre NumPy, por lo cual muchas funcionalidades son similares. Utilizaremos Pandas para trabajar con datasets estructurados (y bueno, ¡bastante más!). 

Así como NumPy nos proveé de los *arreglos* y con ellos accedemos a muchas nuevas funcionalidades, Pandas nos provee de los *Data Frames* y las *Series*. Por lejos, el objeto más utilizados es el primero, los Data Frames. 


En esta sección empezaremos a:

1. Familiarizarnos con los Data Frames de Pandas, manipular sus funciones básicas y entender la lógica de las mismas (¡para después googlearlas!).
2. Empezar a trabajar con Datasets.

**¡Manos a la obra!**

### 2.1 Primeros pasos

Importamos la librería.

In [40]:
import pandas as pd

Vamos a crear nuestro propio dataset. Es decir, agarrar a mano los datos poblacionales de http://www.ign.gob.ar/nuestrasactividades/geografia/datosargentina/divisionpolitica y guardarlos en una variable `data_dic`.¿Qué tipo de variable es, desde el punto de vista de la programación?

**Nota**: la población está en número de habitantes y la superficie en km2.

In [58]:
data_dic = {"Jurisdiccion":["CABA","Buenos Aires","Catamarca","Chaco","Chubut","Córdoba","Jujuy","Mendoza","Misiones","Río Negro","Santa Cruz",
                           "Santa Fe"],"Poblacion":[2890151,15625084,367828,1055259,509108,3308876,673307,1738929,
                                                   1101593,638645,273964,3194537],"Superficie":
           [200,307521,102606,99633,509108,165321,53219,148827,29801,203013,243943,133007]}

In [42]:
type(data_dic)

dict

Así como podemos crear arreglos a partir de listas, podemos crear Data Frames a partir de diccionarios.

In [61]:
# Creamos el DataFrame
data_pandas = pd.DataFrame(data_dic)
data_pandas

Unnamed: 0,Jurisdiccion,Poblacion,Superficie
0,CABA,2890151,200
1,Buenos Aires,15625084,307521
2,Catamarca,367828,102606
3,Chaco,1055259,99633
4,Chubut,509108,509108
5,Córdoba,3308876,165321
6,Jujuy,673307,53219
7,Mendoza,1738929,148827
8,Misiones,1101593,29801
9,Río Negro,638645,203013


**Ejercicio 1:** investigar las funciones que se implementan en la próxima celda. ¿Qué hacen? ¿Para qué piensan que pueden ser útiles?

In [45]:
# data_pandas.head()
# data_pandas.tail()
# data_pandas.count()
# data_pandas.shape

In [49]:
data_pandas.head(3) #Primeros

Unnamed: 0,Jurisdiccion,Poblacion,Superficie
0,CABA,2890151,200
1,Buenos Aires,15625084,307521
2,Catamarca,367828,102606


In [50]:
data_pandas.tail(3) #Utimos

Unnamed: 0,Jurisdiccion,Poblacion,Superficie
9,Río Negro,638645,203013
10,Santa Cruz,273964,243943
11,Santa Fe,3194537,133007


In [51]:
data_pandas.count() # cuenta 

Jurisdiccion    12
Poblacion       12
Superficie      12
dtype: int64

In [53]:
data_pandas.shape # forma

(12, 3)

**Ejercicio 2:** agregar al Dataset la información correspondiente a alguna jurisdicción faltante. Recuerden que, al tratarse de una nueva instancia, corresponde a una fila. Pista: googlear "add row to pandas dataframe" o similar. No hay una única forma de hacerlo.

In [64]:
data_pandas = data_pandas.append(
    {"Jurisdiccion":'San Juan',
     "Poblacion":738959,
     "Superficie":89651}, ignore_index=True)

In [65]:
data_pandas

Unnamed: 0,Jurisdiccion,Poblacion,Superficie
0,CABA,2890151,200
1,Buenos Aires,15625084,307521
2,Catamarca,367828,102606
3,Chaco,1055259,99633
4,Chubut,509108,509108
5,Córdoba,3308876,165321
6,Jujuy,673307,53219
7,Mendoza,1738929,148827
8,Misiones,1101593,29801
9,Río Negro,638645,203013


**Ejercicio 3:** Investigar las funciones columns e index. ¿Qué hacen? ¿Qué tipo de dato es su salida?¿A qué tipo de dato conocido se parecen?

In [66]:
# data_pandas.columns
# data_pandas.index

In [67]:
data_pandas.columns

Index(['Jurisdiccion', 'Poblacion', 'Superficie'], dtype='object')

In [68]:
type(data_pandas.columns)

pandas.core.indexes.base.Index

In [69]:
# Parece un array
data_pandas.columns[1]

'Poblacion'

In [71]:
data_pandas.index
# un rango

RangeIndex(start=0, stop=13, step=1)

Ejercicio 4: ¿Qué hacen las siguientes operaciones?

In [72]:
# data_pandas['Jurisdiccion']
# data_pandas[['Jurisdiccion','Poblacion']]
# data_pandas.Jurisdiccion
# 'Poblacion' in data_pandas

In [74]:
data_pandas['Jurisdiccion']
# devuelve una columna 

0             CABA
1     Buenos Aires
2        Catamarca
3            Chaco
4           Chubut
5          Córdoba
6            Jujuy
7          Mendoza
8         Misiones
9        Río Negro
10      Santa Cruz
11        Santa Fe
12        San Juan
Name: Jurisdiccion, dtype: object

In [75]:
data_pandas[['Jurisdiccion','Poblacion']]
# devuelve 2 columnas

Unnamed: 0,Jurisdiccion,Poblacion
0,CABA,2890151
1,Buenos Aires,15625084
2,Catamarca,367828
3,Chaco,1055259
4,Chubut,509108
5,Córdoba,3308876
6,Jujuy,673307
7,Mendoza,1738929
8,Misiones,1101593
9,Río Negro,638645


In [76]:
data_pandas.Jurisdiccion
# los mismo que el primero

0             CABA
1     Buenos Aires
2        Catamarca
3            Chaco
4           Chubut
5          Córdoba
6            Jujuy
7          Mendoza
8         Misiones
9        Río Negro
10      Santa Cruz
11        Santa Fe
12        San Juan
Name: Jurisdiccion, dtype: object

In [78]:
'Poblacion' in data_pandas
# nos indica que existe una columna en el df

True

**Ejercicio 5:** Agregar una columna al dataframe que corresponda a la densidad de cada jurisdicción. Usar la información que **ya está** en el dataset.

In [80]:
data_pandas['Densidad'] = data_pandas['Poblacion'] / data_pandas['Superficie']
data_pandas

Unnamed: 0,Jurisdiccion,Poblacion,Superficie,Densidad
0,CABA,2890151,200,14450.755
1,Buenos Aires,15625084,307521,50.809811
2,Catamarca,367828,102606,3.584859
3,Chaco,1055259,99633,10.591461
4,Chubut,509108,509108,1.0
5,Córdoba,3308876,165321,20.014856
6,Jujuy,673307,53219,12.651628
7,Mendoza,1738929,148827,11.684231
8,Misiones,1101593,29801,36.964968
9,Río Negro,638645,203013,3.145833


### 2.2 Filtrado por máscara.

Lo que veremos a continuación es **muy importante**, ya que es una operación que haremos muchas veces. Su implementación es muy parecida tanto en NumPy como en Pandas, por lo que veremos cómo hacerlo primero en NumPy luego en Pandas.

Supongamos que hacemos 50 tiradas de un dado, como hicimos en la sección anterior, pero queremos seleccionar solamente aquellas tiradas que fueron menores que cuatro. ¿Cómo podemos hacerlo?

In [81]:
muestras_dado = np.random.randint(1,7, size = 50)
print(muestras_dado)

[1 3 4 1 3 2 2 2 2 6 5 2 3 4 5 5 1 1 4 1 4 2 4 4 1 4 1 6 4 5 3 5 1 6 6 4 5
 4 4 6 4 2 1 2 6 3 6 5 3 2]


Lo que podemos hacer es crear una máscara:

In [82]:
mascara = muestras_dado < 4
print(mascara)
print(type(mascara))

[ True  True False  True  True  True  True  True  True False False  True
  True False False False  True  True False  True False  True False False
  True False  True False False False  True False  True False False False
 False False False False False  True  True  True False  True False False
  True  True]
<class 'numpy.ndarray'>


Notar que `mascara` es un arreglo de booleanos, con `True` en los valores que cumplen la condición y `False` donde no. Una vez que creamos la máscara, podemos usarla para seleccionar de nuestro arreglo aquellos elementos que queríamos:

In [83]:
print(muestras_dado[mascara])

[1 3 1 3 2 2 2 2 2 3 1 1 1 2 1 1 3 1 2 1 2 3 3 2]


Notar que con `mascara.sum()` podemos contar cuántas veces se cumple la condición que pedimos.

In [84]:
print(mascara.sum())

24


A veces, podemos hacerlo en una sola línea. Supongamos que queremos aquellas tiradas donde salió seis:

In [85]:
print(muestras_dado[muestras_dado == 6])

[6 6 6 6 6 6 6]


**En Pandas**

Supongamos que queremos seleccionar aquellas jurisdicciones cuya población sea mayor a un millón de habitantes. Podemos hacerlo de la siguiente forma:

In [86]:
data_pandas[data_pandas.Poblacion > 1000000]

Unnamed: 0,Jurisdiccion,Poblacion,Superficie,Densidad
0,CABA,2890151,200,14450.755
1,Buenos Aires,15625084,307521,50.809811
3,Chaco,1055259,99633,10.591461
5,Córdoba,3308876,165321,20.014856
7,Mendoza,1738929,148827,11.684231
8,Misiones,1101593,29801,36.964968
11,Santa Fe,3194537,133007,24.017811


¿Y si queremos seleccionar aquellas jurisdicciones cuya población sea mayor a un millón de habitantes **y** su superficie menor a cien mil km2?

In [87]:
mascara = np.logical_and(data_pandas.Poblacion > 1000000, data_pandas.Superficie < 100000)
data_pandas[mascara]

### Es equivalente
# data_pandas[(data_pandas.Poblacion > 1000000) & (data_pandas.Superficie < 100000)]

Unnamed: 0,Jurisdiccion,Poblacion,Superficie,Densidad
0,CABA,2890151,200,14450.755
3,Chaco,1055259,99633,10.591461
8,Misiones,1101593,29801,36.964968


**Ejercicio:** seleccionar aquellas jurisdicciones cuya población sea menor a 500 mil habitantes **o** su superficie mayor a cien mil km2.

In [90]:
mascara = np.logical_or(data_pandas.Poblacion < 500000, data_pandas.Superficie > 100000)
data_pandas[mascara]

Unnamed: 0,Jurisdiccion,Poblacion,Superficie,Densidad
1,Buenos Aires,15625084,307521,50.809811
2,Catamarca,367828,102606,3.584859
4,Chubut,509108,509108,1.0
5,Córdoba,3308876,165321,20.014856
7,Mendoza,1738929,148827,11.684231
9,Río Negro,638645,203013,3.145833
10,Santa Cruz,273964,243943,1.123066
11,Santa Fe,3194537,133007,24.017811


In [91]:
data_pandas[(data_pandas.Poblacion < 500000) | (data_pandas.Superficie > 100000)]

Unnamed: 0,Jurisdiccion,Poblacion,Superficie,Densidad
1,Buenos Aires,15625084,307521,50.809811
2,Catamarca,367828,102606,3.584859
4,Chubut,509108,509108,1.0
5,Córdoba,3308876,165321,20.014856
7,Mendoza,1738929,148827,11.684231
9,Río Negro,638645,203013,3.145833
10,Santa Cruz,273964,243943,1.123066
11,Santa Fe,3194537,133007,24.017811


## 2.3 Iris dataset

¿Pero siempre vamos a tener que crear un diccionario y luego pasarlo a un Data Frame? Evidentemente, esta opción no parece muy cómoda, en particular para conjuntos de datos de gran volumen. Veamos cómo trabajamos con un conjunto de datos preexistente.


**Aviso**: Esta sección es, en realidad, un ejercicio. Para hacerlo, debes ir googleando y consultando la documentación que consideres apropiada. Obviamente, también puedes consultar a tu mentor/a.

Vamos a trabajar con el Iris Dataset, probablemente uno de los conjuntos de datos más famosos, ya que muchos ejemplos se realizan con él. Es un dataset sencillo pero ilustrativo.


1. Abrir con Pandas el archivo 'DS_Bitácora_04_iris.csv' (¿Qué tipo de archivo es?) e imprimir sus primeros cinco elementos. Pista: `pd.read...()`.

In [4]:
df = pd.read_csv('DS_Bitácora_04_Iris.csv')

In [5]:
df.head(5)

Unnamed: 0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
0,1,5.1,3.5,1.4,0.2,Iris-setosa
1,2,4.9,3.0,1.4,0.2,Iris-setosa
2,3,4.7,3.2,1.3,0.2,Iris-setosa
3,4,4.6,3.1,1.5,0.2,Iris-setosa
4,5,5.0,3.6,1.4,0.2,Iris-setosa


2. ¿Cuántas columnas (features) tiene?¿Cuáles son sus nombres?¿Y cuántas filas (instancias)? Pistas: `shape`, `columns`.

In [98]:
df.shape

(150, 5)

In [99]:
df.columns.to_list()

['SepalLengthCm', 'SepalWidthCm', 'PetalLengthCm', 'PetalWidthCm', 'Species']

3. Obtener el valor medio y desviación estándar de cada columna. ¿Hay alguna función de Pandas que nos dé aún más estadísticos? Pistas: `describe`.

In [100]:
df.describe()

Unnamed: 0,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm
count,150.0,150.0,150.0,150.0
mean,5.843333,3.054,3.758667,1.198667
std,0.828066,0.433594,1.76442,0.763161
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


In [101]:
df.mean()

SepalLengthCm    5.843333
SepalWidthCm     3.054000
PetalLengthCm    3.758667
PetalWidthCm     1.198667
dtype: float64

In [102]:
df.std()

SepalLengthCm    0.828066
SepalWidthCm     0.433594
PetalLengthCm    1.764420
PetalWidthCm     0.763161
dtype: float64

4. ¿Creen que todas las columnas tienen información? *Tirar* la columna que crean que está demás. Dependiendo de la función que uses - hay más de una opción -, tal vez tengas que prestar **mucha** atención al argumento `inplace`. Pista: `drop`, `del`.

In [103]:
df.drop('Id', inplace=True, axis=1)

5. ¿Para qué sirven `loc` e `iloc`? Crea algunos ejemplos.

In [111]:
df.loc[1]

SepalLengthCm            4.9
SepalWidthCm               3
PetalLengthCm            1.4
PetalWidthCm             0.2
Species          Iris-setosa
Name: 1, dtype: object

In [112]:
df.loc[0:1]

Unnamed: 0,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa


In [113]:
df.iloc[0]

SepalLengthCm            5.1
SepalWidthCm             3.5
PetalLengthCm            1.4
PetalWidthCm             0.2
Species          Iris-setosa
Name: 0, dtype: object

In [115]:
df.iloc[0:2]

Unnamed: 0,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa


In [10]:
df.loc[:,['SepalLengthCm']]

Unnamed: 0,SepalLengthCm
0,5.1
1,4.9
2,4.7
3,4.6
4,5.0
...,...
145,6.7
146,6.3
147,6.5
148,6.2
