# Proyecto: Aprendiendo Python con estadística descriptiva

## Objetivo:
<font size="3">El proyecto consiste en elaborar tablas y gráficas estadísticas a partir de alturas y pesos de deportistas de baloncesto, fútbol, fútbol americano y sumo. Calcularás índices de masas corporales para determinar condiciones de salud y descargarás archivos con datos de promedios de índices de masas corporales de hombres y mujeres para mostrar tendencias mundiales y por países. Durante el proceso aprenderás a usar Jupyter Notebook para editar y ejecutar programas de Python; procesar números en listas, arreglos y tablas; controlar la secuencia de ejecución de los programas; definir tus propias funciones, y utilizar funciones y módulos de las bibliotecas pandas, matplotlib.pyplot y NumPy. Al completar este proyecto podrás comenzar a tabular y graficar datos y estadísticas descriptivas de muestras y poblaciones.

</font>
<a id='inicio'></a>

<font size="3">Tarea</font> | <font size="3">Título</font> | <font size="3">Objetivo</font>
:-----: | ------- | -------
<font size="3">[1](#tarea1)</font> | <font size="3">**Procesando datos numéricos**</font>| <font size="3">Procesar listas de datos numéricos con objetos y funciones de Python.</font>
<font size="3">[2](#tarea2)</font> | <font size="3">**Tabulando datos**</font> | <font size="3">Elaborar tablas de frecuencias.</font>
<font size="3">[3](#tarea3)</font> | <font size="3">**Graficando datos**</font> | <font size="3">Mostrar histogramas y gráficos de dos variables.</font>
<font size="3">[4](#tarea4)</font> | <font size="3">**Calculando tendencias centrales: medias, medianas y modas**</font> | <font size="3">Calcular promedios, medianas y modas; mostrar barras.</font>
<font size="3">[5](#tarea5)</font> | <font size="3">**Calculando dispersiones: rangos, varianzas y desviaciones estándares**</font> | <font size="3">Calcular rangos, rangos intercuartiles, varianzas y desviaciones estándares.</font>
<font size="3">[6](#tarea6)</font> | <font size="3">**Comparando índices de masas corporales**</font> | <font size="3">Comparar las condiciones de salud entre deportistas.</font>
<font size="3">[7](#tarea7)</font> | <font size="3">**Almacenando y leyendo archivos**</font> | <font size="3">Almacenar y leer archivos de datos; descargar datos de Internet.</font>

<a id='tarea1'></a>
<br><img src="linea.png">
# [Tarea 1](#inicio)
# Procesando datos numéricos
<br><img src="linea.png"><br>

## 1.1 Objetos y operaciones
### Asignación y visualización

In [5]:
a = 10
print(a)

10


In [6]:
type(a)     # retorna el tipo del objeto

int

### Expresiones numéricas

In [7]:
a = 10                  # a es el objeto entero 10
b = 3 + 4               # b es el objeto entero 7, la suma de 3 y 4
c = 7 * 2               # c es el objeto entero 14, la multiplicación de 7 y 2
d = 20 / a              # d es el objeto decimal 2.0, la división decimal de 20 entre 10

print(a, b, c, d)       # muestra los valores de los objetos separados por espacios

10 7 14 2.0


In [8]:
e = 20 // a             # e es el objeto entero 2, la división de 20 entre 10
f = 20 % b              # f es el objeto entero 6, el residuo de 20 entre 7
g = 5**3                # g es el objeto entero 125, 5 al cubo
h = 36 ** 0.5           # h es el objeto decimal 6.0, la raíz cuadrada de 36

print(e, f, g, h)       

2 6 125 6.0


In [9]:
a, b, c, d      # muestra una tupla: valores entre paréntesis y separados por comas

(10, 7, 14, 2.0)

### Aproximaciones decimales y la función round

In [10]:
round(10.456, 2)    # aproximación a dos cifras decimales

10.46

In [11]:
round(10.8)     # aproximación a entero

11

In [12]:
0.8 + 0.4       # no resulta en 1.2

1.2000000000000002

In [13]:
round(0.8 + 0.4, 1)     # redondeo a una cifra decimal

1.2

In [14]:
round(10.45, 1)    # el resultado es correcto (utiliza otro método de redondeo)

10.4

### Consiguiendo ayuda

In [15]:
help(round)     # información sobre round

Help on built-in function round in module builtins:

round(number, ndigits=None)
    Round a number to a given precision in decimal digits.
    
    The return value is an integer if ndigits is omitted or None.  Otherwise
    the return value has the same type as the number.  ndigits may be negative.



In [16]:
# información sobre print en ventana aparte
print?

## 1.2 Listas

In [17]:
lista = [10, b, 'treinta', c + d]   # una lista de cuatro elementos
print(lista)                        # muestra la lista

[10, 7, 'treinta', 16.0]


In [18]:
lista[0], lista[1], lista[2], lista[3]   # muestra los elementos

(10, 7, 'treinta', 16.0)

In [19]:
lista[-1]       # último elemento

16.0

In [20]:
lista[2] = 30   # el elemento en la posición 2 (tercer elemento) es 30
lista

[10, 7, 30, 16.0]

### Método append

In [21]:
lista.append(1.72)      # agrega el objeto decimal 1.72 a lista
lista.append(0)         # agrega el objeto entero 0 a lista
lista

[10, 7, 30, 16.0, 1.72, 0]

### Funciones sum y len

In [22]:
sum(lista)  # suma de los números en lista

64.72

In [23]:
len(lista)  # número de elementos de lista

6

### Funciones sorted, min y max

In [24]:
sorted(lista)   # una lista con valores ordenados de menor a mayor

[0, 1.72, 7, 10, 16.0, 30]

In [25]:
min(lista), max(lista)  # mínimo y máximo valor de la lista

(0, 30)

## 1.3 Biblioteca NumPy
Procesamiento de vectores y matrices.

In [26]:
import numpy as np

In [27]:
arreglo = np.array([1, 2, 3, 4])   # arreglo o vector de números
arreglo

array([1, 2, 3, 4])

In [28]:
np.arange(0, 2.1, 0.4)  # un arreglo de números mayores o iguales que 0, 
                        # menores que 2.1 e incrementando en 0.4

array([0. , 0.4, 0.8, 1.2, 1.6, 2. ])

## 1.4 Sentencia for

In [29]:
for i in [1, 2.0, '3', 'cuatro']:   # cada objeto de la lista es asignado consecutivamente al objeto i
    print(i)                            # muestra el valor del objeto (la sentencia comienza con sangría)

1
2.0
3
cuatro


### Objeto range

In [30]:
for i in range(-5, 6):  # para cada valor entero de i entre -5 y 5 (el mayor entero menor que 6)
    print(i, end=' ')     
    # muestra el valor del objeto i seguido de un espacio

-5 -4 -3 -2 -1 0 1 2 3 4 5 

## 1.5 Sentencia if

In [31]:
a = 10      # a es 1
b = 5       # b es 5

# si a es mayor que b
    # mostrar que a es mayor que b
# sino, si los valores son iguales
    # mostrar que a y b son iguales
# sino
    # mostrar que a es menor que b

if a > b:       
    print(a, "es mayor que", b)             # las instrucciones de cada bloque comienzan con sangrías
elif a == b:
    print("Los números son iguales a", a)
else:
    print(a, "es menor que", b)

10 es mayor que 5


## 1.6 Creación de funciones

In [32]:
def promedio(lista):        # def nombre(parámetros):
    """
    Toma una secuencia de números y retorna el promedio.    
    """
    suma = sum(lista)           # suma de los números en la lista
    casos = len(lista)          # número de elementos de la lista
    media = suma / casos        # promedio
    
    return media                # retorna el promedio

In [33]:
p = promedio(lista)
print(p)

10.786666666666667


In [34]:
casos

NameError: name 'casos' is not defined

In [35]:
help(promedio)

Help on function promedio in module __main__:

promedio(lista)
    Toma una secuencia de números y retorna el promedio.



## Más información
Para cada función y método puedes conseguir ayuda en inglés utilizando **nombre?** o **help(nombre)**
```python
print, round, list, sum, len, list.append, sorted, min, max, range, dir, type
```
Para las sentencias **if** y **for**:
```python
help('for'), help('if')
```

Para **NumPy** después de ejecutar **import numpy as np**:
```python
np.*?, dir(np)
```
También **nombre?** o **help(nombre)** para:
```python
np.arange, np.array
```
La función [round](https://docs.python.org/es/3/library/functions.html#round) y [aritmética de punto flotante](https://docs.python.org/es/3/tutorial/floatingpoint.html#tut-fp-issues)

<a id='tarea2'></a>
<br><img src="linea.png">
# [Tarea 2](#inicio)
# Tabulando datos
<br><img src="linea.png"><br>

## 2.1 La biblioteca o módulo Pandas
Procesamiento de tablas de datos numéricos y categóricos.

In [36]:
import pandas as pd

In [39]:
# crea una tabla llamada tabla
tabla = pd.DataFrame() 

# crea una columna numeros 
tabla['numeros'] = [1, 2, 3, 4]         

# columna letras
tabla['letras'] = ['a', 'b', 'c', 'd']  

tabla

Unnamed: 0,numeros,letras
0,1,a
1,2,b
2,3,c
3,4,d


In [40]:
# muestra la columna numeros
tabla['numeros']

0    1
1    2
2    3
3    4
Name: numeros, dtype: int64

In [41]:
# Dataframe: tabla de datos
# Series: serie de datos
type(tabla), type(tabla['numeros'])

(pandas.core.frame.DataFrame, pandas.core.series.Series)

In [42]:
# crea una columna cuadrados con los 
# valores de la columna numeros al cuadrado
tabla['cuadrados'] = tabla['numeros'] ** 2

tabla

Unnamed: 0,numeros,letras,cuadrados
0,1,a,1
1,2,b,4
2,3,c,9
3,4,d,16


### Lista de valores acumulados

In [43]:
acumulados = []     # una lista vacía
suma = 0            # una suma en cero

for i in tabla['numeros']:  # para cada dato i en la columna de números
    suma = suma + i             # suma e i se adicionan y el resultado va a suma
    acumulados.append(suma)     # agrega suma a la lista

acumulados          # visualiza la lista de números acumulados

[1, 3, 6, 10]

In [44]:
# método cumsum de pd.Series
tabla['numeros'].cumsum()

0     1
1     3
2     6
3    10
Name: numeros, dtype: int64

In [46]:
# conversión a lista
tabla['numeros'].cumsum().tolist()

[1, 3, 6, 10]

In [47]:
# nueva columna de tabla con el nombre acumulados
tabla['acumulados'] = tabla['numeros'].cumsum()

tabla

Unnamed: 0,numeros,letras,cuadrados,acumulados
0,1,a,1,1
1,2,b,4,3
2,3,c,9,6
3,4,d,16,10


### Alturas y pesos de jugadores de baloncesto
Datos extraídos de las páginas de los equipos.

In [None]:
# tabla de alturas y pesos de cuatro equipos de baloncesto
bucks = pd.DataFrame()
bucks['alturas'] = [2.11, 2.06, 2.13, 1.85, 1.96, 1.96, 1.93, 1.91, 2.06, 2.01,
                    2.13, 2.13, 1.8, 1.93, 2.01, 2.01, 2.03, 2.08]
bucks['pesos'] = [110, 98, 113, 97, 99, 95, 92, 85, 107, 96,
                  128, 127, 86, 100, 101, 102, 108, 105]
bucks.index.name = "Bucks"

clippers = pd.DataFrame()
clippers['alturas'] = [1.85, 2.01, 2.03, 2.03, 2.01, 1.91, 2.06, 2.01, 1.96, 1.93,
                       2.03, 2.03, 2.03, 1.93, 1.85, 2.13]
clippers['pesos'] = [82, 95, 100, 103, 109, 94, 113, 102, 98, 93,
                     99, 104, 107, 86, 79, 109]
clippers.index.name = "Clippers"

lakers = pd.DataFrame()
lakers['alturas'] = [2.08, 1.91, 2.01, 1.96, 1.96, 1.88, 2.08, 2.01, 1.98, 1.93,
                     2.11, 2.03, 2.06, 2.13, 2.03, 1.85, 1.98, 1.91]
lakers['pesos'] = [91, 82, 109, 93, 84, 81, 115, 108, 97, 107,
                   120, 113, 100, 122, 111, 84, 102, 95]
lakers.index.name = "Lakers"

raptors = pd.DataFrame()
raptors['alturas'] = [2.01, 2.06, 2.01, 1.93, 2.11, 2.08, 1.98, 2.13, 1.98, 1.83,
                      2.01, 2.01, 1.83, 1.91, 2.06, 1.93, 1.85]
raptors['pesos'] = [105, 91, 95, 91, 116, 107, 98, 107, 110, 89,
                    82, 95, 79, 98, 104, 86, 89]
raptors.index.name = "Raptors"

In [None]:
bucks   # tabla de los Bucks

## 2.2 Tabla de frecuencias por valores

In [None]:
lakers['pesos'].count()     # número de datos de la columna de pesos

In [None]:
tabla = lakers.groupby('pesos').count()     # cuenta las ocurrencias de los pesos
tabla

In [None]:
tabla = lakers.groupby('alturas').count()   # cuenta las ocurrencias de las alturas
tabla

## 2.3 Tabla de frecuencias por intervalos

In [None]:
print(sorted(lakers['pesos']))      # muestra los pesos ordenados de menor a mayor

### Intervalos de pesos [80 - 90), [90, 100), [100, 110), [110, 120), [120, 130)

In [None]:
# filtro para pesos mayores o iguales que 80 y menores que 90
filtro = (lakers['pesos'] >= 80) & (lakers['pesos'] < 80 + 10) 

# una serie de pesos mayores o iguales que 80 y menores que 90
serie = lakers['pesos'][filtro]
serie

In [None]:
# número de pesos en el intervalo [80, 90>
len(serie)

### Lista de números de pesos por intervalos

In [None]:
lista = []

# para cada peso i desde 80 hasta 120
for i in [80, 90, 100, 110, 120]:
    
    # filtra y cuenta los pesos en el intervalo [i, i + 10)
    filtro = (lakers['pesos'] >= i) & (lakers['pesos'] < i + 10)
    serie = lakers['pesos'][filtro]
    n = len(serie)

    lista.append(n)

lista

### Tabla de frecuencias por intervalos

In [None]:
indices = ['[80 - 90)', '[90, 100)', '[100, 110)', '[110, 120)', '[120, 130)', 'Total']

# crea una tabla con los textos como índices
pesos_agrupados = pd.DataFrame(index = indices)

# número de datos
total = len(lakers['pesos'])

# una columna con las frecuencias de ocurrencias más el total
pesos_agrupados['frecuencia'] = lista + [total]

# el nombre de la columna de índices
pesos_agrupados.index.name = 'pesos'

pesos_agrupados

### Concatenación de textos

In [None]:
i = 80

# el método str convierte valores de objetos a textos
indice = '[' + str(i) + ' - ' + str(i + 10) + '>'

indice

### Función tabla_de_frecuencias

In [None]:
def tabla_de_frecuencias(datos, minimo, maximo, intervalo, nombre_del_indice = '', decimales = 2):
    """
    Retorna una tabla de frecuencias.
    Recibe una secuencia de datos, un valor inicial, un valor final, un intervalo,
    un nombre para la columna de índices y el número de decimales de redondeo.
    """
    
    cuentas = []    # lista de número de valores en cada intervalo
    indices = []    # lista de los índices de la tabla
    
    # para valores de i desde minimo con incrementos de intervalo y menores que maximo
    for i in np.arange(minimo, maximo, intervalo): 
        
        # filtra y cuenta los datos en el intervalo [i, i + 10)
        filtro = (datos >= i) & (datos < i + intervalo)
        cuenta = len(datos[filtro])
        
        # forma el texto del índice
        indice = '[' + str(round(i, decimales)) + ', ' + str(round(i + intervalo, decimales)) + ')'

        # agrega el índice y la cuenta de datos
        indices.append(indice)
        cuentas.append(cuenta)

    # agrega un índice 'Total'
    indices.append('Total')
    # crea una tabla con los índices formados
    tabla = pd.DataFrame(index = indices)
    
    # agrega el total de datos a cuentas
    cuentas.append(len(datos))
    # crea una columna con las cuentas
    tabla['frecuencia'] = cuentas
    
    tabla.index.name = nombre_del_indice

    return tabla

In [None]:
# frecuencias de pesos
tabla_de_frecuencias(lakers['pesos'], 80, 130, 10, 'pesos (kg)')

In [None]:
print(sorted(lakers['alturas']))

In [None]:
# frecuencias de alturas
tabla_de_frecuencias(lakers['alturas'], 1.85, 2.15, 0.05, 'alturas (m)')

## 2.4 Tabla de frecuencias por intervalos con datos acumulados

In [None]:
def tabla_de_frecuencias(datos, minimo, maximo, intervalo, nombre_del_indice = '', decimales = 2):
    """
    Retorna una tabla de frecuencias con porcentajes y porcentajes acumulados.
    Recibe una secuencia de datos, un valor inicial, un valor final, un intervalo,
    un nombre para la columna de índices y el número de decimales de redondeo.
    """
    
    cuentas = []    # lista de número de valores en cada intervalo
    indices = []    # lista de los índices de la tabla
    
    # para valores de i desde minimo con incrementos de intervalo y menores que maximo
    for i in np.arange(minimo, maximo, intervalo):
        
        # filtra y cuenta los datos en el intervalo [i, i + 10)
        filtro = (datos >= i) & (datos < i + intervalo)
        cuenta = len(datos[filtro])
        
        # forma el texto del índice
        indice = '[' + str(round(i, decimales)) + ', ' + str(round(i + intervalo, decimales)) + ')'
        
        # agrega el índice y la cuenta de datos
        indices.append(indice)
        cuentas.append(cuenta)

    # número de datos
    total = len(datos)
    
    # agrega un índice 'Total'
    indices.append('Total')
    
    # crea una tabla con los índices formados
    tabla = pd.DataFrame(index = indices)
    
    # agrega el total de datos a cuentas
    cuentas.append(total)
    
    # crea una columna con las cuentas
    tabla['frecuencia'] = cuentas
    
    # cada valor de la columna 'frecuencia' se divide entre total y se multiplica por 100
    tabla['porcentajes'] = round(tabla['frecuencia'] / total * 100, decimales)
    
    # acumula los valores de porcentajes
    acumulados = tabla['porcentajes'].cumsum().tolist()
    
    # el último valor resulta 200, entonces se fija en 100
    acumulados[-1] = 100
    
    # crea una columna 'acumulados'
    tabla['acumulados'] = acumulados
    
    tabla.index.name = nombre_del_indice
    
    return tabla

In [None]:
tabla_de_frecuencias(lakers['pesos'], 80, 130, 10, 'pesos (kg)')

In [None]:
tabla_de_frecuencias(lakers['alturas'], 1.85, 2.15, 0.05, 'alturas (kg)', 3)

## Más información
Después de ejecutar **import pandas as pd**, puedes conseguir ayuda en inglés escribiendo los siguientes textos en una celda seguidos de ? o como argumentos de **help()**:
```python
pd.DataFrame, pd.Series, pd.Series.cumsum, pd.Series.tolist
pd.DataFrame.count, pd.Series.count, pd.Series.groupby
```

<a id='tarea3'></a>
<br><img src="linea.png">
# [Tarea 3](#inicio)
# Graficando datos
<br><img src="linea.png"><br>

In [None]:
# biblioteca de funciones gráficas
import matplotlib.pyplot as plt

## 3.1 Histogramas
Barras de alturas proporcionales a las frecuencias de los datos (representación gráfica de la tabla de frecuencias).

In [None]:
tabla_de_frecuencias(lakers['pesos'], 80, 130, 10)

In [None]:
# histograma de pesos con 5 intervalos
plt.hist(lakers['pesos'], bins = [80, 90, 100, 110, 120, 130]) 

# muestra la figura
plt.show()

In [None]:
tabla_de_frecuencias(lakers['alturas'], 1.85, 2.15, 0.05, 'alturas (kg)')

In [None]:
plt.hist(lakers['alturas'],                     # datos del histograma
         bins = np.arange(1.85, 2.16, 0.05),    # intervalos
         rwidth = .9)                           # anchura de las barras

# título del gráfico
plt.title('Alturas en metros de jugadores de baloncesto')  

plt.xlabel('Intervalos')        # etiqueta para las abscisas
plt.ylabel('Frecuencia')        # etiqueta para las ordenadas
plt.show()

### Histograma de los cuatro equipos

#### Listas de tablas, nombres, alturas y pesos por equipos

In [None]:
lista_de_equipos = [bucks, clippers, lakers, raptors]

lista_de_colores = ['green', 'blue', 'gold', 'red']              # https://en.wikipedia.org/wiki/X11_color_names

lista_de_alturas_por_equipos = []
lista_de_pesos_por_equipos = []
lista_de_nombres = []

# para cada equipo en la lista de equipos
for equipo in lista_de_equipos:
    
    # agrega la columna de alturas del equipo
    lista_de_alturas_por_equipos.append(equipo['alturas'])
    
    # agrega la columna de pesos del equipo
    lista_de_pesos_por_equipos.append(equipo['pesos'])
    
    # agrega el nombre del equipo
    lista_de_nombres.append(equipo.index.name)

In [None]:
# alturas mínimas y máximas en cada equipo
for i in lista_de_alturas_por_equipos:
    print(min(i), max(i))

In [None]:
plt.hist(lista_de_alturas_por_equipos,           # lista de columnas de alturas
         bins = np.arange(1.80, 2.16, 0.05),    # límites de los intervalos
         rwidth = .9,                           # anchura de las barras
         color = lista_de_colores)

# etiquetas de los equipos
plt.legend(lista_de_nombres)

plt.title('Alturas en metros de jugadores de baloncesto')
plt.xlabel('Intervalos')
plt.ylabel('Frecuencia')
plt.show()

In [None]:
# dimensiones de la figura
plt.figure(figsize=(16, 4))

# para cada índice en la lista de alturas por equipo
for i in range(len(lista_de_alturas_por_equipos)):
    
    # el gráfico i de cuatro gráficas, 1 fila x 4 columnas
    plt.subplot(141 + i)
    
    plt.hist(lista_de_alturas_por_equipos[i], 
             bins=np.arange(1.80, 2.16, 0.05),
             rwidth=0.9,
             color=lista_de_colores[i])
    
    plt.title(lista_de_nombres[i])
    
    # muestra los valores entre 0 y 8 (la mayor frecuencia)
    plt.ylim(0, 8)
    
plt.show()

## 3.2 Gráficos de dos variables

In [None]:
# la función plot recibe las ordenadas y abscisas,
# y opcionalmente un patrón de trazado
plt.plot(lakers['alturas'], lakers['pesos'], 'bo')

plt.title('Jugadores de los Lakers')
plt.xlabel('Alturas')
plt.ylabel('Pesos')
plt.grid()              # muestra una grilla
plt.show()

In [None]:
lakers.head(3)       # muestra las primeras tres filas de la tabla

### Grupo de gráficos

In [None]:
# alturas y pesos de dos equipos
plt.plot(lakers['alturas'], lakers['pesos'], color='gold', linestyle='', marker='o')
plt.plot(bucks['alturas'], bucks['pesos'], color='green', linestyle='', marker='o')

plt.title('Jugadores de baloncesto')

plt.title('Jugadores de baloncesto')
plt.xlabel('Alturas')
plt.ylabel('Pesos')

plt.grid()
plt.show()

### Función zip
Retorna una secuencia de tuplas con datos de las mismas posiciones de objetos iterables

In [None]:
for numero, palabra in zip([1, 5, 100], ['uno', 'cinco', 'cien']):
    print(numero, palabra)

### Función pesos_versus_alturas

In [None]:
def pesos_versus_alturas(lista_de_equipos, lista_de_nombres, lista_de_colores):
    """
    Muestra un gráfico de pesos versus alturas de los equipos.
    Recibe una lista de equipos y su respectiva lista de nombres
    y colores.
    """

    # para cada equipo y color
    for equipo, color in zip(lista_de_equipos, lista_de_colores):
        
        # grafica las columnas de pesos versus las de alturas con el color respectivo
        plt.plot(equipo['alturas'], equipo['pesos'], color=color, linestyle='', marker='o')
    
    plt.legend(lista_de_nombres)
    plt.title('Pesos versus alturas')
    plt.xlabel('Alturas') 
    plt.ylabel('Pesos')
    plt.grid()
    plt.show()

In [None]:
pesos_versus_alturas(lista_de_equipos, lista_de_nombres, lista_de_colores) 

## 3.3 Línea de tendencia o regresión

### Método escalar

In [None]:
# inicialización de datos
sumaxy = 0          # la suma de los productos de abscisas y ordenadas 
sumax = 0           # la suma de las abscisas
sumay = 0           # la suma de las ordenadas
sumax2 = 0          # la suma de los cuadrados de las abscisas

n = len(bucks['alturas'])    # el número de abscisas o de ordenadas

for x, y in zip(bucks['alturas'], bucks['pesos']):      # para cada par de alturas y pesos
    sumaxy += x * y         # agrega el producto
    sumax  += x             # agrega x
    sumay  += y             # agrega y
    sumax2 += x * x         # agrega el cuadrado de x

# la pendiente de la línea de tendencia
m = (sumaxy - sumax*sumay/n) / (sumax2 - sumax**2/n)

# el cruce por el eje y
b = sumay/n - m*sumax/n

print(m, b)

### Método vectorial

In [None]:
x = bucks['alturas']
y = bucks['pesos']

# datos de tipo numpy.float64
sumaxy = np.sum(x * y)  # la suma de los productos de cada altura y peso
sumax = np.sum(x)       # la suma de las alturas
sumay = np.sum(y)       # la suma de los pesos
sumax2 = np.sum(x * x)  # la suma de los cuadrados de las alturas

# la pendiente de la línea de tendencia
m = (n*sumaxy - sumax*sumay) / (n*sumax2 - sumax**2)

# el cruce por el eje y
b = (sumay - m*sumax)/n

print(m, b)

### Función polyfit de NumPy

In [None]:
# encuentra un polinomio de grado 1 (mx + b)
mb = np.polyfit(bucks['alturas'], bucks['pesos'], 1)
mb[0], mb[1]    # pendiente de la recta y cruce por el eje y

### Gráfica de la línea de tendencia

In [None]:
# extremos de los datos
x = np.array([min(bucks['alturas']), max(bucks['alturas'])])

# las ordenadas de los extremos
y = m*x + b 

# dos pares de puntos unidos por línea azul
plt.plot(x, y, 'b-') 

# datos de alturas y pesos
plt.plot(bucks['alturas'], bucks['pesos'], 'bo')

plt.grid()
plt.show()

In [None]:
def pesos_versus_alturas(lista_de_equipos, lista_de_nombres, lista_de_colores):
    """
    Muestra un gráfico de pesos versus alturas de los equipos con sus
    líneas de tendencias.
    Recibe una lista de equipos y su respectiva lista de nombres
    y colores.
    """

    # para cada equipo y color
    for equipo, color in zip(lista_de_equipos, lista_de_colores):
        
        # grafica las columnas de pesos versus las de alturas con el color respectivo
        plt.plot(equipo['alturas'], equipo['pesos'], color=color, linestyle='', marker='o')
    
    plt.legend(lista_de_nombres)
    
    
    for equipo, color in zip(lista_de_equipos, lista_de_colores):

        # obtiene los parámetros de la línea de tendencia
        parametros = np.polyfit(equipo['alturas'], equipo['pesos'], 1)
        m, b = parametros[0], parametros[1]

        # extremos de la línea de tendencia
        x = np.array([min(equipo['alturas']), max(equipo['alturas'])])

        # las ordenadas de los extremos
        y = m*x + b 

        # dibuja la línea de tendencia
        plt.plot(x, y, color = color, linestyle = '-', marker = '')


    plt.title('Pesos versus alturas')
    plt.xlabel('Alturas') 
    plt.ylabel('Pesos')
    plt.grid()
    plt.show()

In [None]:
pesos_versus_alturas(lista_de_equipos, lista_de_nombres, lista_de_colores)

## Más información
Después de ejecutar **import matplotlib.pyplot as plt**, puedes conseguir ayuda en inglés escribiendo los siguientes textos en una celda seguidos de ? o como argumentos de **help()**:
```python
plt.hist, plt.show, plt.title, plt.xlabel, plt.ylabel, plt.grid, plt.legend
plt.subplot, plt.yticks, plt.ylim

pd.Series.iloc, pd.DataFrame.iloc, pd.DataFrame.hist, pd.DataFrame.plot.hist
pd.DataFrame.head, pd.Series.head

zip

np.sum, np.polyfit
```

<a id='tarea4'></a>
<br><img src="linea.png">
# [Tarea 4](#inicio)
# Calculando tendencias centrales: medias, medianas y modas
<br><img src="linea.png"><br>

## 4.1 Media
El promedio de una lista de valores o datos.

In [None]:
suma = 0    # acumulador
n = 0       # contador

# suma y cuenta cada altura de los Clippers
for altura in clippers['alturas']:
    suma = suma + altura
    n = n + 1

# divide la suma de las alturas
# entre el número de alturas
promedio = suma / n

print(promedio)

In [None]:
# media con funciones sum y len
sum(clippers['alturas']) / len(clippers['alturas'])

In [None]:
# media con función mean de NumPy
np.mean(clippers['alturas'])

In [None]:
# media con el método mean de Series (pandas)
clippers['alturas'].mean()

### Tabla de promedios de alturas

In [None]:
promedios_de_alturas = pd.DataFrame(index = lista_de_nombres)
promedios_de_alturas.index.name = 'Equipos'

datos = []
for alturas_de_un_equipo in lista_de_alturas_por_equipos:
    datos.append(round(np.mean(alturas_de_un_equipo), 2))

promedios_de_alturas['Promedios de alturas'] = datos
promedios_de_alturas

## 4.2 Barras

### Barras verticales

In [None]:
indices = range(len(datos)) # posiciones de las barras: 0, 1, 2, 3

# dibuja barras verticales en las posiciones indicadas por el rango indices
# con alturas dadas por los elementos de la lista datos
plt.bar(indices, datos)

plt.xlabel('Equipos')
plt.ylabel('Valores')
plt.title('Promedios de alturas (m)')

# etiqueta las posiciones con los nombres de los equipos
plt.xticks(indices, lista_de_nombres)

plt.show()

### Barras horizontales

In [None]:
datos = []
for pesos_de_un_equipo in lista_de_pesos_por_equipos:
    datos.append(round(np.mean(pesos_de_un_equipo), 2))

plt.barh(indices, datos, color='darkgreen')        # barh
plt.xlabel('Valores')
plt.ylabel('Equipos')
plt.yticks(indices, lista_de_nombres)    # los nombres en el eje de ordenadas

plt.title('Promedios de pesos (kg)')
plt.show()

## 4.3 Mediana
El valor o dato central de una lista de datos.

### Algoritmo
```python
Ordenar los datos de menor a mayor
Si el número de datos es impar
    retornar el número central
Sino
    retornar el promedio de los dos números centrales
```

```python
Caso 1:
11 elementos = 5 + 1 + 5
índices:    0..4   5   6..11
5 = (11 - 1) // 2
```

```python
Caso 2:
12 elementos = 5 + 1 + 1 + 5
índices:    0..4   5   6   7..12
5 = 12 // 2 - 1
6 = 12 // 2
```

In [None]:
lista = sorted(raptors['alturas'])
n = len(lista)

# si el residuo del número entre 2 es cero
if n % 2 == 0:  # n es par
    # división entera con //
    mediana = (lista[n//2 - 1] + lista[n//2]) / 2
# sino
else:           # n es impar
    mediana = lista[(n - 1)//2]

print(mediana)

In [None]:
# mediana con la función median de NumPy
np.median(raptors['alturas'])

In [None]:
# mediana con el método median de Series
raptors['alturas'].median()

## 4.4 Barras emparejadas

In [None]:
indices = np.arange(len(lista_de_equipos))
anchura = 0.4

# la suma de un arreglo con escalar
# aplica el escalar a cada elemento del arreglo
indices, indices + anchura

In [None]:
promedios = []
medianas = []

for alturas_por_equipo in lista_de_alturas_por_equipos:
    promedios.append(round(alturas_por_equipo.mean(), 2))
    medianas.append(round(alturas_por_equipo.median(), 2))

plt.bar(indices, promedios, anchura)                # centros de las barras de promedios
plt.bar(indices + anchura, medianas, anchura)       # centros de las barras de medianas

plt.xlabel('Equipos')
plt.ylabel('Valores')
plt.title('Promedios y medianas de alturas')
plt.xticks(indices + anchura/2, lista_de_nombres)            # posiciones de los nombres
plt.legend(['Promedios', 'Medianas'], loc='lower center')

plt.show()

## 4.5 Moda
El valor o los valores que más aparecen en una colección de datos.

In [None]:
sorted(clippers['pesos'])

In [None]:
clippers.groupby('pesos').count()

In [None]:
# moda de pesos de los Clippers con el método mode de Series (pd.Series.mode)
clippers['pesos'].mode()

In [None]:
# modas de alturas de los Lakers
lakers.groupby('alturas').count()

In [None]:
lakers['alturas'].mode()

## Más información
Después de ejecutar **import matplotlib.pyplot as plt**, puedes conseguir ayuda en inglés escribiendo los siguientes textos en una celda seguidos de ? o como argumentos de help():
```python
plt.bar, plt.barh, plt.xticks

pd.Series.mean, pd.Series.median, pd.Series.mode

np.mean, np.median
```

<a id='tarea5'></a>
<br><img src="linea.png">
# [Tarea 5](#inicio)
# Calculando dispersiones: rangos, varianzas y desviaciones estándares
<br><img src="linea.png"><br>

## 5.1 Rango
La diferencia entre el valor máximo y el valor mínimo de los datos.

In [None]:
# rango de pesos de los jugadores de los Raptors
max(raptors['pesos']) - min(raptors['pesos'])

In [None]:
# rangos de pesos de los cuatro equipos

tabla = pd.DataFrame(index = lista_de_nombres)
tabla.index.name = 'equipos'

minimos = []
maximos = []
rangos = []

# para cada pesos por equipo
for pesos_por_equipo in lista_de_pesos_por_equipos:
    # agrega los valores mínimos y máximos
    minimo = min(pesos_por_equipo)
    maximo = max(pesos_por_equipo)
    minimos.append(minimo)
    maximos.append(maximo)
    
    # agrega el rango
    rangos.append(maximo - minimo)

# crea columnas de mínimos, máximos y rangos
tabla['pesos mínimos'] = minimos
tabla['pesos máximos'] = maximos
tabla['rangos de pesos'] = rangos

tabla

## 5.2 Rango intercuartil
La diferencia entre el dato del tercer cuartil y el dato del primer cuartil.

In [None]:
datos = sorted(bucks['pesos'])
print(datos)
print(len(datos))

In [None]:
# primer cuartil, interpolación lineal
x = (len(datos) - 1) * 0.25

# el valor entero de x marca la posición del dato en el primer cuartil
# la parte decimal sirve para interpolar un dato entre la posición entera y la siguiente
i = int(x)
d = x - int(x)
i, d

In [None]:
q1 = datos[i] + d*(datos[i + 1] - datos[i])
q1

In [None]:
# cuartiles con pandas, retorna un objeto Series
bucks['pesos'].quantile([0.25, 0.5, 0.75])

In [None]:
# cuartiles con NumPy, retorna una lista
np.quantile(bucks['pesos'], [0.25, 0.50, 0.75])

In [None]:
# rangos intercuartiles
rangos_intercuartiles = []

for pesos_por_equipo in lista_de_pesos_por_equipos:
    q = np.quantile(pesos_por_equipo, [0.25, 0.75])
    rangos_intercuartiles.append(q[1] - q[0])

tabla['rangos intercuartiles'] = rangos_intercuartiles

tabla

### El método describe

In [None]:
raptors.describe()

## 5.3 Diagramas de cajas

In [None]:
# muestra un diagrama de caja (caja y bigotes)
plt.boxplot(raptors['pesos'])

plt.grid()
plt.show()

### Comparación de pesos

In [None]:
# diagramas de caja de los pesos por equipo 
plt.boxplot(lista_de_pesos_por_equipos)

# etiqueta el eje x con los nombres
plt.xticks(range(1, len(lista_de_nombres) + 1), lista_de_nombres)

plt.title('Comparación de pesos')
plt.grid()
plt.show()

In [None]:
bucks[bucks['pesos'] > 120]     # los casos estadísticos atípicos de los Bucks

### Comparación de alturas

In [None]:
plt.boxplot(lista_de_alturas_por_equipos)

plt.xticks(np.arange(len(lista_de_nombres)) + 1, lista_de_nombres)
plt.grid()
plt.show()

## 5.4 Valores atípicos
Los valores fuera del intervalo [Q1 - 1.5 IQR, Q3 + 1.5 IQR]

In [None]:
# retorna una serie con el valor mínimo, 
# los cuartiles Q1, Q2 y Q3, y el valor máximo.
dato = bucks['pesos'].quantile([0, 0.25, 0.5, 0.75, 1])

# rango intercuartil
iqr = dato[0.75] - dato[0.25]

m = dato[0.25] - 1.5*iqr    # límite superior de valores atípicos menores
n = dato[0.75] + 1.5*iqr    # límite inferior de valores atípicos mayores

print(m, n)
print(sorted(bucks['pesos']))

## 5.5 Varianza

In [None]:
x = clippers['alturas']
N = len(x)  # número de datos

# varianza de una población
varianza = sum((x - np.mean(x))**2) / N
print('Varianza de población:', varianza)

# varianza de una muestra
varianza = sum((x - np.mean(x))**2) / (N - 1)
print('Varianza de muestra:  ', varianza)

## 5.6 Desviación estándar

### Desviación estándar de una población

In [None]:
x = clippers['alturas']
N = len(x)  # número de datos

# varianza de una población
varianza = sum((x - np.mean(x))**2) / N
desviacion_estandar = varianza**0.5
print('Desviación estándar de población:', desviacion_estandar)

# varianza de una muestra
varianza = sum((x - np.mean(x))**2) / (N - 1)
desviacion_estandar = np.sqrt(varianza)
print('Desviación estándar de muestra:  ', desviacion_estandar)

In [None]:
# desviación estándar de una población con pandas
clippers['alturas'].std(ddof = 0)       # el denominador es N - ddof

In [None]:
# desviación estándar de una población con NumPy
np.std(clippers['alturas'])

In [None]:
# desviación estándar de una muestra con pandas
clippers['alturas'].std()         # el denominador es N - ddof, ddof es 1 por defecto

In [None]:
# desviación estándar de una muestra con NumPy
np.std(clippers['alturas'], ddof = 1)  # # el denominador es N - ddof, ddof es 0 por defecto

In [None]:
# varianzas de pesos y alturas en los equipos

tabla = pd.DataFrame(index = lista_de_nombres)
tabla.index.name = 'equipos'

poblaciones = []
muestras = []

for alturas_por_equipo in lista_de_alturas_por_equipos:
    poblaciones.append(np.std(alturas_por_equipo))
    muestras.append(np.std(alturas_por_equipo, ddof = 1))
        
tabla['variancia de población'] = poblaciones
tabla['variancia de muestra'] = muestras

tabla

### Regla 68 95 99.7

In [None]:
## desviación estándar de una muestra
s = np.std(bucks['alturas'], ddof = 1)
m = np.mean(bucks['alturas'])
bucks[abs(bucks['alturas'] - m) <= s] 

In [None]:
p68 = len(bucks[abs(bucks['alturas'] - m) <=   s]) / len(bucks)
p95 = len(bucks[abs(bucks['alturas'] - m) <= 2*s]) / len(bucks)
p99 = len(bucks[abs(bucks['alturas'] - m) <= 3*s]) / len(bucks)
p68, p95, p99

## Más información
Puedes conseguir ayuda en inglés escribiendo los siguientes textos en una celda seguidos de ? o como argumentos de help():
```python
plt.boxplot

pd.Series., pd.Series.std

np.sqrt, np.quantile
```

<a id='tarea6'></a>
<br><img src="linea.png">
# [Tarea 6](#inicio)
# Comparando índices de masas corporales
<br><img src="linea.png"><br>

## 6.1 Índice de masa corporal (IMC)
El peso dividido entre el cuadrado de la altura

### Función agrega_imc

In [None]:
def agrega_imc(equipos):
    """
    Agrega una columna 'imc' de índices de masas corporales
    """
    for equipo in equipos:
        
        imc = []
        
        for altura, peso in zip(equipo['alturas'], equipo['pesos']):
            
            # agrega el peso entre el cuadrado de la altura
            imc.append(round(peso/altura**2, 1))
            
        equipo['imc'] = imc

In [None]:
agrega_imc(lista_de_equipos)

In [None]:
bucks

### Función grafica_imc

In [None]:
def grafica_imc(equipos, colores, etiquetas):
    """
    Grafica los índices de masas corporales de una lista de equipos.
    """
    # para cada par de equipos y colores
    for equipo, color in zip(equipos, colores):
        plt.plot(range(len(equipo)),    # índices de los datos, desde 0 hasta número de datos - 1
                 equipo['imc'],         # datos de IMC
                 color = color,         # color del punto
                 linestyle = '',        # sin segmentos entre puntos
                 marker = 'o')          # punto

    plt.title('Índices de masas corporales')
    plt.xlabel('Jugadores')
    plt.ylabel('IMC')
    plt.legend(etiquetas)
    plt.show()

In [None]:
grafica_imc(lista_de_equipos, lista_de_colores, lista_de_nombres)

### Promedio de IMC por equipos

In [None]:
for equipo, nombre in zip(lista_de_equipos, lista_de_nombres):
    print(nombre, round(np.mean(equipo['imc']), 1))

## 6.2 Rangos de IMC
[Índice de masa corporal](https://medlineplus.gov/spanish/ency/article/007196.htm)

In [None]:
# https://medlineplus.gov/spanish/ency/article/007196.htm
# Debajo de 18.5    Por debajo del peso
# 18.5 a 24.9       Saludable
# 25.0 a 29.9       Con sobrepeso
# 30.0 a 39.9       Obeso
# Más de 40         Obesidad extrema o de alto riesgo

imc = bucks['imc']
print("Debajo del peso:", len(imc[imc < 18.5]))
print("Saludable:      ", len(imc[(imc >= 18.5) & (imc < 25)]))
print("Con sobrepeso:  ", len(imc[(imc >= 25) & (imc < 30)]))
print("Obeso:          ", len(imc[(imc >= 30) & (imc < 40)]))
print("Alto riesgo:    ", len(imc[imc >= 40]))

### Función porcentajes_imc

In [None]:
def porcentajes_imc(equipos, nombres):
    """
    Retorna una tabla de porcentajes en cada categoría de IMC.
    """

    tabla = pd.DataFrame(index = ["Debajo del peso",
                                  "Saludable",
                                  "Con sobrepeso",
                                  "Obeso",
                                  "Alto riesgo"])

    marcas = [0, 18.5, 25, 30, 40, 1000]    # 1000 es extremo, con 
    
    # para cada equipo y nombre
    for equipo, nombre in zip(equipos, nombres):
        
        imc = equipo['imc']     # los valores IMC
        tpc = 100 / len(imc)    # el factor de tanto por ciento 
        
        lista = []
        
        # para cada índice de la lista marcas desde el primero hasta el penúltimo
        for i in range(len(marcas) - 1):
            
            # número de elementos entre la marca actual y la siguiente
            n = len(imc[(imc >= marcas[i]) & (imc < marcas[i + 1])])
            
            # agrega el porcentaje con dos cifras decimales
            lista.append(round(n * tpc, 2))
        
        # columna de datos IMC del equipo
        tabla[nombre] = lista
        
    return tabla

In [None]:
porcentajes_imc(lista_de_equipos, lista_de_nombres)

### Tabla transpuesta

In [None]:
porcentajes_imc(lista_de_equipos, lista_de_nombres).T

## 6.3 Barras apiladas

In [None]:
def barras_imc(tabla, nombres, dimensiones = (8, 4), anchura = 0.8):
    """
    Muestra barras apiladas de datos de porcentajes de jugadores
    de acuerdo a condiciones saludables, con sobrepeso, obesos y en alto riesgo.
    Fuente: medlineplus.gov/spanish/ency/article/007196.htm
    """
    saludables = tabla['Saludable']
    sobrepesos = tabla['Con sobrepeso']
    obesos = tabla['Obeso']
    enriesgos = tabla['Alto riesgo']

    indices = np.arange(len(tabla))
    
    plt.figure(figsize=dimensiones)
    
    plt.bar(indices, saludables, anchura)
    plt.bar(indices, sobrepesos, anchura, bottom=saludables)
    plt.bar(indices, obesos,     anchura, bottom=saludables + sobrepesos)
    plt.bar(indices, enriesgos,  anchura, bottom=saludables + sobrepesos + obesos)
    
    plt.xlabel('Equipos')
    plt.ylabel('Valores')
    plt.title('Condiciones de IMC, medlineplus.gov/spanish/ency/article/007196.htm')
    plt.xticks(indices, nombres)
    plt.legend(['Saludables', 'Sobrepesos', 'Obesos', 'Alto riesgo'], loc='lower center')

    plt.show()

In [None]:
tabla = porcentajes_imc(lista_de_equipos, lista_de_nombres).T
tabla

In [None]:
barras_imc(tabla, lista_de_nombres)

## 6.4 Alturas y pesos de deportistas de fútbol, fútbol americano y sumo
Datos extraídos de las páginas de los clubes, Wikipedia y de la página oficial de sumo

In [None]:
# Fútbol 

barcelona = pd.DataFrame()
barcelona['alturas'] = [1.87, 1.90, 1.77, 1.94, 1.86, 1.70, 1.78, 1.82, 1.84, 1.84,
                        1.89, 1.71, 1.80, 1.80, 1.82, 1.70, 1.78, 1.76, 1.77]
barcelona['pesos'] = [85, 84, 67, 85, 81, 68, 68, 75, 78, 78,
                      76, 73, 74, 75, 86, 72, 67, 73, 73]

bayern = pd.DataFrame()
bayern['alturas'] = [1.93, 1.92, 1.92, 1.93, 1.89, 1.76, 1.80, 1.82, 1.92, 1.86, 
                     1.95, 1.76, 1.81, 1.81, 1.89, 1.81, 1.72, 1.92, 1.74, 1.79, 
                     1.86, 1.75, 1.84, 1.86, 1.84]
bayern['pesos'] = [92, 87, 84, 84, 84, 73, 78, 76, 90, 76,
                   97, 66, 81, 72, 76, 74, 68, 86, 70, 75,
                   75, 75, 78, 80, 80]

juventus = pd.DataFrame()
juventus['alturas'] = [1.92, 1.96, 1.92, 1.90, 1.84, 1.89, 1.83, 1.87, 1.89, 1.82, 
                       1.89, 1.78, 1.87, 1.86, 1.79, 1.77]
juventus['pesos'] = [91, 90, 89, 85, 80, 86, 74, 78, 71, 77,
                     80, 72, 83, 75, 71, 73]

madrid = pd.DataFrame()
madrid['alturas'] = [1.95, 1.99, 1.73, 1.86, 1.84, 1.91, 1.80, 1.74, 1.80, 1.83,
                     1.72, 1.85, 1.82, 1.80, 1.76, 1.75, 1.85, 1.85, 1.73, 1.82, 
                     1.82, 1.71, 1.80, 1.76, 1.74]
madrid['pesos'] = [94, 96, 73.5, 78, 82.2, 81.2, 76.3, 75, 73, 76, 66.2, 84,
                   78, 75, 79, 74, 81.2, 81.8, 70.5, 85, 76, 68, 76, 73, 64]

# Fútbol americano

saints = pd.DataFrame()
saints['alturas'] = [1.91, 1.93, 1.85, 1.83, 1.78, 1.85, 1.85, 1.91, 1.96, 1.93, 
                     1.96, 1.91, 1.78, 1.96, 1.96, 1.88, 1.88, 1.8, 1.93, 1.8, 
                     1.85, 1.91, 1.88, 1.98, 2.01, 1.96, 1.83, 1.93, 1.93, 1.78, 
                     1.91, 1.93, 1.83, 1.78, 1.93, 1.93, 1.8, 1.96, 1.7, 1.83, 
                     1.96, 1.78, 1.93, 1.8, 1.93, 1.91, 1.83, 1.78, 1.96, 2.03, 
                     1.93, 1.91, 1.88, 1.96, 1.93, 1.68, 1.85, 1.91, 1.85, 1.93, 
                     1.93, 1.83, 1.96, 1.88, 1.8, 1.85, 1.91, 1.85, 1.91, 1.91, 
                     1.85, 1.88, 1.98, 1.98, 2.01, 1.96, 1.96, 1.91, 1.85, 1.88, 
                     1.93, 1.83, 1.88, 1.83, 1.91, 1.83, 1.88, 1.96, 1.91, 1.91, 
                     1.88]
saints['pesos'] = [115.7, 104.8, 88.5, 88.9, 83.9, 81.6, 101.2, 136.1, 114.8, 136.1,
                   141.1, 96.2, 93.0, 106.6, 138.3, 138.3, 95.3, 81.6, 144.7, 86.6, 
                   106.1, 131.5, 138.3, 142.4, 143.3, 142.9, 107.0, 136.1, 148.3, 85.7,
                   104.3, 106.6, 98.0, 83.9, 142.4, 155.6, 83.5, 124.7, 76.2, 87.1, 
                   145.1, 97.5, 130.2, 101.6, 104.8, 90.7, 92.5, 86.2, 140.6, 133.8, 
                   102.1, 98.4, 100.2, 113.4, 122.5, 77.1, 90.7, 100.7, 93.4, 108.9, 
                   152.0, 91.6, 118.4, 88.9, 95.3, 98.9, 108.9, 88.5, 127.0, 137.4, 
                   102.1, 112.5, 120.2, 136.1, 116.1, 115.2, 141.1, 115.7, 88.5, 92.5, 
                   99.8, 108.9, 145.1, 94.8, 108.9, 99.3, 104.8, 137.9, 109.3, 108.4, 
                   113.9]

packers = pd.DataFrame()
packers['alturas'] = [1.88, 1.91, 1.83, 1.88, 1.8, 1.85, 1.98, 1.93, 1.96, 1.96, 
                      1.88, 1.88, 1.91, 1.88, 1.85, 1.8, 1.83, 1.93, 1.96, 1.93, 
                      1.96, 1.8, 1.88, 1.98, 1.96, 1.8, 1.85, 1.93, 1.88, 1.8, 
                      1.91, 1.96, 1.91, 2.01, 1.91, 1.91, 1.96, 1.98, 1.91, 1.93, 
                      1.91, 1.91, 1.96, 1.98, 1.98, 1.96, 1.91, 1.93, 1.88, 1.91, 
                      1.91, 1.85, 1.75, 1.98, 1.96, 1.83, 1.83, 1.93, 1.83, 1.8, 
                      1.96, 1.93, 1.96, 1.78, 1.85, 1.83, 1.91, 1.88, 1.93, 1.8, 
                      1.98, 1.91, 1.91, 1.98, 1.93, 1.83, 1.83, 1.83, 1.96, 1.88, 
                      1.93, 1.83, 1.83, 1.78, 1.93, 1.85, 1.93, 1.96, 1.88, 1.85, 
                      1.91]
packers['pesos'] = [136.1, 110.7, 96.6, 87.5, 96.2, 109.3, 142.9, 93.4, 140.6, 107.5, 
                    98.4, 98.0, 147.0, 88.9, 109.3, 85.7, 96.2, 143.3, 97.1, 123.4, 
                    120.2, 84.4, 91.6, 94.3, 111.6, 89.8, 84.8, 139.3, 102.1, 84.4, 
                    108.0, 130.2, 142.0, 142.4, 107.5, 108.9, 139.7, 134.3, 102.1, 99.3, 
                    130.2, 136.5, 140.2, 121.1, 136.5, 103.0, 142.0, 94.8, 106.6, 90.7, 
                    130.6, 115.7, 94.3, 136.5, 141.1, 88.9, 88.9, 134.3, 92.5, 89.4, 
                    125.6, 116.6, 103.9, 87.1, 84.8, 112.0, 89.8, 108.0, 108.9, 102.1, 
                    139.3, 142.4, 105.7, 135.2, 105.2, 103.4, 92.5, 90.7, 113.4, 103.9, 
                    140.6, 86.2, 97.1, 88.9, 137.9, 97.5, 113.9, 117.0, 137.9, 93.9, 
                    109.3]

ravens = pd.DataFrame()
ravens['alturas'] = [1.91, 1.96, 1.93, 1.91, 1.85, 1.93, 1.91, 1.91, 1.96, 1.75, 
                     1.85, 1.75, 1.78, 1.78, 1.98, 1.8, 1.8, 1.88, 1.91, 1.96, 
                     1.96, 1.88, 1.88, 1.8, 1.91, 1.83, 1.85, 1.8, 1.98, 1.93, 
                     1.96, 1.96, 1.83, 1.96, 1.91, 1.88, 1.8, 1.85, 1.8, 1.93, 
                     1.83, 1.91, 1.85, 1.85, 1.91, 1.8, 1.85, 1.91, 1.88, 1.75, 
                     1.85, 1.83, 2.01, 1.78, 1.83, 1.91, 1.88, 1.83, 1.96, 1.96, 
                     1.88, 1.85, 1.98, 1.85, 1.8, 1.75, 1.78, 1.96, 1.8, 1.88, 
                     1.96, 1.85, 1.93, 1.91, 1.83, 2.03, 2.03, 1.75, 1.98, 1.96, 
                     1.91, 1.93, 1.93, 1.91, 1.73, 1.88, 1.8, 1.96, 1.91, 1.98, 
                     1.96, 1.96, 1.85]
ravens['pesos'] = [138.3, 129.3, 108.0, 114.3, 152.4, 93.4, 108.4, 138.3, 130.2, 85.3, 
                   83.0, 83.9, 91.6, 95.3, 142.9, 93.0, 88.9, 95.3, 142.0, 95.3, 
                   112.9, 108.9, 118.8, 95.3, 141.1, 104.3, 103.0, 87.5, 141.1, 140.6, 
                   146.1, 156.5, 88.5, 115.7, 89.4, 112.5, 86.6, 90.7, 83.0, 139.7, 
                   91.6, 120.2, 95.3, 87.1, 132.9, 93.9, 100.7, 118.4, 96.2, 97.5, 
                   93.0, 89.4, 149.7, 90.7, 79.4, 112.0, 96.6, 105.2, 155.1, 124.7, 
                   158.8, 95.3, 140.6, 108.0, 95.3, 82.1, 96.2, 147.4, 93.9, 108.9, 
                   136.1, 142.9, 106.6, 142.0, 93.0, 136.1, 156.5, 77.1, 114.3, 143.3,
                   143.8, 122.5, 99.8, 109.8, 82.6, 103.9, 80.7, 116.1, 108.4, 113.4, 
                   115.2, 157.4, 89.4]

patriots = pd.DataFrame()
patriots['alturas'] = [1.83, 1.88, 1.88, 1.96, 1.91, 1.91, 1.78, 1.88, 1.91, 1.93, 
                       1.96, 1.78, 1.68, 1.91, 1.85, 1.83, 1.88, 1.88, 1.75, 1.75, 
                       1.91, 1.96, 1.73, 1.83, 1.8, 1.8, 1.91, 1.83, 1.96, 1.93, 
                       1.8, 1.88, 1.93, 1.8, 1.78, 1.85, 1.83, 1.91, 1.88, 1.93, 
                       1.78, 1.91, 1.91, 1.85, 1.96, 1.88, 1.96, 1.78, 1.93, 1.8, 
                       1.8, 1.88, 1.93, 1.85, 1.88, 1.96, 1.93, 1.78, 1.88, 1.88, 
                       1.98, 1.91, 1.91, 1.96, 1.91, 1.93, 1.96, 1.75, 1.96, 1.91, 
                       1.78, 1.75, 1.8, 1.96, 1.83, 1.93, 1.88, 1.88, 1.91, 1.91, 
                       1.91, 1.91]
patriots['pesos'] = [86.2, 140.6, 132.0, 124.7, 113.4, 96.2, 93.0, 138.3, 102.5, 138.3, 
                     139.7, 78.9, 83.9, 97.5, 98.9, 93.0, 117.9, 95.3, 87.1, 86.2, 
                     104.3, 113.4, 80.7, 88.9, 89.8, 95.3, 158.8, 86.2, 111.1, 120.2, 
                     97.5, 90.7, 101.6, 88.5, 88.5, 140.6, 112.5, 98.0, 99.8, 113.9, 
                     86.2, 115.7, 117.5, 89.8, 115.7, 98.0, 138.3, 78.9, 102.1, 106.1, 
                     96.6, 106.6, 142.9, 91.6, 92.1, 140.6, 152.0, 89.8, 99.8, 92.1, 
                     141.1, 136.1, 119.3, 132.0, 111.1, 117.9, 140.6, 81.6, 136.1, 117.9, 
                     97.5, 83.9, 93.0, 113.4, 90.7, 115.7, 115.7, 93.0, 116.6, 136.1, 
                     148.3, 90.7]

# Sumo

sumo = pd.DataFrame()
sumo['alturas'] = [1.92, 1.78, 1.82, 1.75, 1.78, 1.95, 1.91, 1.91, 1.85, 1.84,
                   1.95, 1.93, 1.92, 1.82, 1.85, 1.81, 1.91, 1.89, 1.78, 1.69,
                   1.85, 1.69, 1.87, 1.84, 1.78, 1.79, 1.85, 1.85, 1.88, 1.84,
                   1.80, 1.92, 1.87, 1.82, 1.90, 1.89, 1.81, 1.83]
sumo['pesos'] = [201, 133, 124, 111, 161, 201, 173, 165, 170, 140,
                 171, 163, 194, 188, 157, 178, 153, 169, 130, 120,
                 175,  96, 172, 162, 155, 190, 168, 135, 172, 165, 
                 175, 180, 152, 164, 160, 169, 188, 150]

### Listas de equipos y nombres

In [None]:
equipos = [bucks, clippers, lakers, raptors,
           barcelona, bayern, juventus, madrid,
           packers, patriots, ravens, saints,
           sumo]

nombres = ['Bucks', 'Clippers', 'Lakers', 'Raptors', 
           'Barcelona', 'Bayern', 'Juventus', 'Madrid',
           'Packers', 'Patriots', 'Ravens', 'Saints',
           'Sumo']

## 6.5 Gráfica de pesos versus alturas por deporte

In [None]:
listas = [[bucks, clippers, lakers, raptors],
          [barcelona, bayern, juventus, madrid],
          [packers, patriots, ravens, saints],
          [sumo]]

colores = ['bo', 'go', 'ro', 'co']

for indice, lista in enumerate(listas): # crea pares de índices y valores
    
    alturas = []
    pesos = []
    
    # compone una lista por deporte con los elementos de las listas de equipos
    for equipo in lista:
        alturas.extend(equipo['alturas'])
        pesos.extend(equipo['pesos'])
    
    plt.plot(alturas, pesos, colores[indice])

plt.title('Pesos versus alturas por deportes')
plt.xlabel('Alturas')
plt.ylabel('Pesos')
plt.legend(['Baloncesto', 'Fútbol', 'Fútbol americano', 'Sumo'])

plt.show()

## 6.6 Comparaciones de cajas con bigotes

In [None]:
def cajas(equipos, atributo, nombres, dimensiones=(8, 4)):
    """
    Muestra cajas con bigotes de un atributo de equipos.
    """
    lista = []
    for equipo in equipos:
        lista.append(equipo[atributo])

    plt.figure(figsize=dimensiones)
        
    plt.boxplot(lista)
    plt.xticks(range(1, len(nombres) + 1), nombres)
    plt.title(atributo.capitalize())
    plt.grid()
    plt.show()

In [None]:
cajas(equipos, 'alturas', nombres, (16, 4))

In [None]:
cajas(equipos, 'pesos', nombres, (16, 4))

In [None]:
agrega_imc(equipos)
cajas(equipos, 'imc', nombres, (16, 4))

In [None]:
tabla = porcentajes_imc(equipos, nombres).T
tabla

In [None]:
barras_imc(tabla, nombres, dimensiones=(16, 4))

## Más información
Puedes conseguir ayuda en inglés escribiendo los siguientes textos en una celda seguidos de ? o como argumentos de **help()**:
```python
list.extend

pd.DataFrame.T

plt.figure

enumerate
```

<a id='tarea7'></a>
<br><img src="linea.png">
# [Tarea 7](#inicio)
# Almacenando y leyendo archivos
<br><img src="linea.png"><br>

## 7.1 Guardado y leyendo archivos 

In [None]:
sumo

### Guardar datos en archivos CSV 

In [None]:
# guarda el archivo sin incluir la columna de índices
sumo.to_csv('sumo.csv', index = False)

### Leer datos desde archivos CSV

In [None]:
archivo_sumo = pd.read_csv('sumo.csv')
archivo_sumo

### Conservar índices de tablas

In [None]:
tabla_sumo = tabla_de_frecuencias(archivo_sumo['pesos'], 95, 205, 10, 'pesos')
tabla_sumo

In [None]:
# guarda el archivo incluyendo índices y columnas
tabla_sumo.to_csv('tabla_sumo.csv')

In [None]:
pd.read_csv("tabla_sumo.csv")

In [None]:
# fija el índice con la primera columna de datos
tabla = pd.read_csv("tabla_sumo.csv", index_col = 0)
tabla

## 7.2 Descargando datos de Internet

In [None]:
# NCD Risk Factor Collaboration (NCD-RisC) , http://ncdrisc.org/
bmi = pd.read_csv("http://ncdrisc.org/downloads/bmi/NCD_RisC_Lancet_2017_BMI_age_standardised_world.csv",
                 engine='python')  # método para formatear los datos

# primeras cinco filas de datos
bmi.head()

In [None]:
# una nueva tabla con tres columnas de datos
bmi = bmi[['Sex', 'Year', 'Mean BMI']]

# primeras cinco filas
bmi.head()

In [None]:
# últimas cinco filas
bmi.tail()

In [None]:
# cuenta los datos por género
bmi.groupby('Sex').count()

In [None]:
# describe la tabla para datos numéricos y nominales
bmi.describe(include='all')

## 7.3 Promedios mundiales de IMC de hombres y mujeres

In [None]:
# dimensiones de la figura
plt.figure(figsize=(12, 4))

# valores promedios de IMC desde 1975 hasta 2016

hombres = bmi[bmi['Sex'] == 'Men']['Mean BMI']
mujeres = bmi[bmi['Sex'] == 'Women']['Mean BMI']

plt.plot(range(1975, 2017), hombres, 'r')
plt.plot(range(1975, 2017), mujeres, 'b')

# marcas cada tres años y marca final de 2016
plt.xticks(list(range(1975, 2017, 3)) + [2016])
plt.xlim(1975, 2016)

plt.legend(['Hombres', 'Mujeres'])

plt.title('Promedios mundiales anuales de IMC de mujeres y hombres, http://ncdrisc.org')
plt.xlabel('Años')
plt.ylabel('Promedios IMC')
plt.grid()
plt.show()

## 7.4 Comparaciones de IMC entre países

In [None]:
def linea_de_tiempo_de_imc(un_pais, otro_pais, paisA="", paisB=""):
    """
    Línea de tiempo de promedios de índices de masas corporales de dos países
    entre 1975 y 2016. Fuente: http://ncdrisc.org
    """
    plt.figure(figsize=(12, 4))
    ticks = range(1975, 2017)

    color = ['r', 'b', 'g', 'y']
    indice = 0

    for pais in [un_pais, otro_pais]:
    
        # para obtener el URL base se pulsa click derecho en el botón 
        # Download de la página de descarga de los datos y luego se copia el enlace
        url = "http://ncdrisc.org/downloads/bmi/adult_country/NCD_RisC_Lancet_2017_BMI_age_standardised_"
        
        # agrega el nombre del país reemplazando espacios por %20 para formar un enlace válido,
        # y luego la extensión .csv
        url += pais.replace(" ", "%20") + ".csv"
        
        # lee el archivo en el objeto imc
        imc = pd.read_csv(url, engine='python')
        
        # toma los promedios anuales de imc de hombres y mujeres
        hombres = imc[imc['Sex'] == 'Men']['Mean BMI']
        mujeres = imc[imc['Sex'] == 'Women']['Mean BMI']
        
        # grafica los datos, con los colores indizados de la lista color
        plt.plot(ticks, hombres, color[2*indice])
        plt.plot(ticks, mujeres, color[2*indice + 1])
        
        indice = indice + 1

    # marcas desde 1975 hasta antes de 2017 de 3 en 3, y marca de 2016 final
    plt.xticks(list(range(1975, 2017, 3)) + [2016])
    plt.xlim(1975, 2016)

    # si el nombre paisA está vacío se utiliza el primer nombre de país
    if paisA == "":
        paisA = un_pais

    # si el nombre paisB está vacío se utiliza el segundo nombre de país
    if paisB == "":
        paisB = otro_pais
    
    # los identificadores de países y géneros
    plt.legend(['Hombres de ' + paisA, 'Mujeres de ' + paisA,
                'Hombres de ' + paisB, 'Mujeres de ' + paisB])

    plt.title('(http://ncdrisc.org) Promedios anuales IMC de mujeres y hombres de ' + paisA + ' y ' + paisB)
    
    plt.xlabel('Años')
    plt.ylabel('Promedios de IMC')
    plt.grid()
    plt.show()

#### Nombres de países
Afghanistan, Albania, Algeria, American Samoa, Andorra, Angola, Antigua and Barbuda, Argentina, Armenia, Australia, Austria, Azerbaijan, Bahamas, Bahrain, Bangladesh, Barbados, Belarus, Belgium, Belize, Benin, Bermuda, Bhutan, Bolivia, Bosnia and Herzegovina, Botswana, Brazil, Brunei Darussalam, Bulgaria, Burkina Faso, Burundi, Cabo Verde, Cambodia, Cameroon, Canada, Central African Republic, Chad, Chile, China, China (Hong Kong SAR), Colombia, Comoros, Congo, Cook Islands, Costa Rica, Cote d'Ivoire, Croatia, Cuba, Cyprus, Czech Republic, DR Congo, Denmark, Djibouti, Dominica, Dominican Republic, Ecuador, Egypt, El Salvador, Equatorial Guinea, Eritrea, Estonia, Ethiopia, Fiji, Finland, France, French Polynesia, Gabon, Gambia, Georgia, Germany, Ghana, Greece, Greenland, Grenada, Guatemala, Guinea, Guinea Bissau, Guyana, Haiti, Honduras, Hungary, Iceland, India, Indonesia, Iran, Iraq, Ireland, Israel, Italy, Jamaica, Japan, Jordan, Kazakhstan, Kenya, Kiribati, Kuwait, Kyrgyzstan, Lao PDR, Latvia, Lebanon, Lesotho, Liberia, Libya, Lithuania, Luxembourg, Macedonia (TFYR), Madagascar, Malawi, Malaysia, Maldives, Mali, Malta, Marshall Islands, Mauritania, Mauritius, Mexico, Micronesia (Federated States of), Moldova, Mongolia, Montenegro, Morocco, Mozambique, Myanmar, Namibia, Nauru, Nepal, Netherlands, New Zealand, Nicaragua, Niger, Nigeria, Niue, North Korea, Norway, Occupied Palestinian Territory, Oman, Pakistan, Palau, Panama, Papua New Guinea, Paraguay, Peru, Philippines, Poland, Portugal, Puerto Rico, Qatar, Romania, Russian Federation, Rwanda, Saint Kitts and Nevis, Saint Lucia, Saint Vincent and the Grenadines, Samoa, Sao Tome and Principe, Saudi Arabia, Senegal, Serbia, Seychelles, Sierra Leone, Singapore, Slovakia, Slovenia, Solomon Islands, Somalia, South Africa, South Korea, Spain, Sri Lanka, Sudan, Suriname, Swaziland, Sweden, Switzerland, Syrian Arab Republic, Taiwan, Tajikistan, Tanzania, Thailand, Timor-Leste, Togo, Tokelau, Tonga, Trinidad and Tobago, Tunisia, Turkey, Turkmenistan, Tuvalu, Uganda, Ukraine, United Arab Emirates, United Kingdom, United States of America, Uruguay, Uzbekistan, Vanuatu, Venezuela, Viet Nam, Yemen, Zambia, Zimbabwe

In [None]:
linea_de_tiempo_de_imc('United States of America', 'Russian Federation', 'Estados Unidos', 'Rusia')

## Más información
Puedes conseguir ayuda en inglés escribiendo los siguientes textos en una celda seguidos de ? o como argumentos de **help()**:
```python
pd.DataFrame.to_csv, pd.DataFrame.describe, pd.DataFrame.head, pd.DataFrame.tail
pd.read_csv, pd.Series.describe, pd.Series.head, pd.Series.tail

plt.figure, plt.xlim

str.replace
```