# Estadistica basica con Numpy a partir de datos en formato CSV

## 1. Extraer los datos a caracterizar

In [1]:
import pandas as pd
import numpy as np

frame = pd.read_csv('datasets/MLB-baseball.csv')
print(frame)

                 Name Team        Position  Height  Weight    Age PosCategory
0       Adam_Donachie  BAL         Catcher      74     180  22.99     Catcher
1           Paul_Bako  BAL         Catcher      74     215  34.69     Catcher
2     Ramon_Hernandez  BAL         Catcher      72     210  30.78     Catcher
3        Kevin_Millar  BAL   First_Baseman      72     210  35.43   Infielder
4         Chris_Gomez  BAL   First_Baseman      73     188  35.71   Infielder
...               ...  ...             ...     ...     ...    ...         ...
1010    Brad_Thompson  STL  Relief_Pitcher      73     190  25.08     Pitcher
1011    Tyler_Johnson  STL  Relief_Pitcher      74     180  25.73     Pitcher
1012   Chris_Narveson  STL  Relief_Pitcher      75     205  25.19     Pitcher
1013    Randy_Keisler  STL  Relief_Pitcher      75     190  31.01     Pitcher
1014      Josh_Kinney  STL  Relief_Pitcher      73     195  27.92     Pitcher

[1015 rows x 7 columns]


selecccionar los datos de interes y crear una estructura numpy para aprovechar la eficiencia y funcionalidades de la libreria para exploracion y manipulacion de datos numericos

In [2]:
#Select only Heigth, Weight and Age, then create a 2D numpy array
players_height = np.array(frame.Height)
players_weight = np.array(frame.Weight) 
players_age = np.array(frame.Age)
np_data = np.array([players_height,players_weight, players_age])
print(np_data)
num_players = len(np_data[0])
print('Number of players:', num_players)

[[ 74.    74.    72.   ...  75.    75.    73.  ]
 [180.   215.   210.   ... 205.   190.   195.  ]
 [ 22.99  34.69  30.78 ...  25.19  31.01  27.92]]
Number of players: 1015


tambien se pueden crear tuplas para que los tres valores distintos sean una sublistas, una para cada jugador.

Se crea una lista que se le añadiran sublistas: 3-tuplas con [altura, peso, edad], para esto se puede usar un objeto tipo `list` de python y usar la funcion `.append(<list>)` 

In [3]:
lista = []
for i in range(0, num_players):
    lista.append([ players_height[i], players_weight[i] ,players_age[i]])
np_tuplas = np.array(lista)
print(np_tuplas)


[[ 74.   180.    22.99]
 [ 74.   215.    34.69]
 [ 72.   210.    30.78]
 ...
 [ 75.   205.    25.19]
 [ 75.   190.    31.01]
 [ 73.   195.    27.92]]


tenemos dos conjuntos de datos con las mismas entradas pero ordenadados o dispuestos de maneras distintas. 

`np_data` contiene 3 filas, una para cada atributo del conjunto de datos, por lo tanto cada columna del arreglo 2D equivale a la altura, peso y edad de un jugador en particular

Por otra parte, `np_tuplas` contiene tantas filas como numero de jugadores, por lo tanto cada fila contiene los datos de altura, peso y edad de un jugador en cuestion

tambien pudimos haber logrado el resultado que se obtuvo en la celda de codigo anterior, al rotar la matriz `np_data` 90 grados en el sentido horario. esto se logra mediante la funcion `numpy.rot90(<nd.array>, #veces_a_rotar)`

<img src="https://www.w3resource.com/w3r_images/numpy-manipulation-rot90-function-image-1.png" alt="drawing" height="400"/>

si rotamos 1 vez , se creara una lista de tuplas pero en orden reverso con respecto al orden original de los datos como se ve en la imagen, por lo que si recorremos el array en orden reverso con `<lista o numpy array>[::-1]` obtenemos lo mismo que agregado tupla <altura, peso, edad> una por una



In [4]:
np_tuplas = np.rot90(np_data, 1)[::-1]
print(np_tuplas)

[[ 74.   180.    22.99]
 [ 74.   215.    34.69]
 [ 72.   210.    30.78]
 ...
 [ 75.   205.    25.19]
 [ 75.   190.    31.01]
 [ 73.   195.    27.92]]


Tambien se puede lograr el mimo resultado al juntar dos listas y pegarlas en columnas aparte en un objeto array de numpy con la funcion `numpy.column_stack((list_row1, list_row2, ..., list_rown))`. *Notar que los parentesis dentro de los argumentos de la función son importantes

In [5]:
np_tuplas = np.column_stack((np_data[0], np_data[1], np_data[2]))
print(np_tuplas)

[[ 74.   180.    22.99]
 [ 74.   215.    34.69]
 [ 72.   210.    30.78]
 ...
 [ 75.   205.    25.19]
 [ 75.   190.    31.01]
 [ 73.   195.    27.92]]


Ahora que tenemos los datos de una forma comoda de accederlos, podemos convertirlos en unidades con las que vayamos a trabajar. La columna Height viene con valores en pulgadas (Inches), la columna Weight tiene valores en libras (Pounds) por lo tanto podemos multiplicar toda la matriz por un vector que convierta todos los valores en las unidades que queremos: metros para las alturas y kilogramos para los pesos

dicho vector es `coversion = np.array[0.0254, 0.453592, 1 ]`

esto se debe a que 1 metro equivale a 0.0254 pulgadas, 1 kilo equivale a 0.453592 libras y los años estan bien con esas unidades

In [6]:
coversion = np.array([0.0254, 0.453592, 1 ])
np_tuplas_std = np_tuplas*coversion # unidades estandas
print(np_tuplas)

[[ 74.   180.    22.99]
 [ 74.   215.    34.69]
 [ 72.   210.    30.78]
 ...
 [ 75.   205.    25.19]
 [ 75.   190.    31.01]
 [ 73.   195.    27.92]]


## 2. Aplicar estadistica basica con Numpy
### Promedio
¿en promedio cual es la altura de un jugador de la MLB? esto se puede saber con `numpy.mean(<ndarray>)`

In [7]:
# find the mean or average value of one specific row or column

## Height Average: first row
height_avg_inches = np.mean(np_data[0]) # toda la primera fila son las alturas en Inches
height_avg_meters = np.mean(np_tuplas_std[:,0]) # todas las filas(jugadores) y solo la columan 0 (altura) y tod 
print('altura promedio:', round(height_avg_meters,2), 'meters =', round(height_avg_inches,2), 'inches' )

altura promedio: 1.87 meters = 73.69 inches


### Mediana
si se ordenaran las alturas de menor a mayor, ¿cual seria el valor justo en el medio? ese valor es la mediana y puede usar `numpy.median(<ndarray)`


In [8]:
height_median_meter = np.median(np_tuplas_std[:,0])
print('La mediana de la altura es',round(height_median_meter,2),'metros')

La mediana de la altura es 1.88 metros


### Coeficiente de correlación
si se quiere dos variables estan relcionadas. ¿el peso de un jugador en general esta relacionado con cuanto puede llegar a pesar?¿o viceversa? para esto se puede usar `numpy.corrcoef(<ndarray)`

la cual retorna una matriz de coeficientes entre variables, el coeficiente de relacion tambien se conoce como: The Pearson product-moment correlation coefficient "(or Pearson correlation coefficient, for short) is a measure of the strength of a linear association between two variables"

el coeficiente varia entre -1 y 1
- +1.00 significa correlacion lineal positiva perfecta
- 0.00 significa que no hay correlacion lineal
- -1.00 significa correlacion lienal negatica perfecta

`numpy.corrcoef()` retorna una matriz de coeficientes de correlación lineal 

In [9]:
correlation_matrix = np.corrcoef([np_data[0], np_data[1],np_data[2]])
print('\tAltura \t     Peso  \t  Edad')
print('Altura',correlation_matrix[0])
print('Peso  ',correlation_matrix[1])
print('Edad  ',correlation_matrix[2])

	Altura 	     Peso  	  Edad
Altura [ 1.          0.53153932 -0.08252974]
Peso   [0.53153932 1.         0.14371113]
Edad   [-0.08252974  0.14371113  1.        ]


### Desviacion estandar

esto se puede saber con la desviacion estandar usando `numpy.std(<ndarray>)`

In [10]:
std = np.std(np_tuplas_std[:,0])
print(std)


0.05874491377858227


## Generar datos aleatorio a partir de una distribución
esto se puede lograr con la funcion `numpy.random.normal()`, la cual recibe tres parametros:
- valor promedio para la distribucion
- desviacion estandar
- numero de muestras o samples  

In [11]:
alturas_aleatorias = np.round(np.random.normal(1.75, 0.15, 5000), 2)
print(alturas_aleatorias)

[1.86 1.77 1.7  ... 1.84 1.93 2.09]
