<div align="center" style="font-size: xx-large; color:#279D9F">Máster en Big Data y Data Science</div><br>
<div align="center" style="font-size: x-large; color:#6E6E6E">Librerías básicas de Python: Pandas</div><br>
<div align="center" style="font-size: large; color:#279D9F">Ángela Fernández Pascual - Universidad Autónoma de Madrid</div><br>

# Introducción

Este Notebook incluye el contenido correspondiente al bloque de funciones de la librería Pandas, tanto los ejemplos mostrados en los distintos vídeos como los ejercicios propuestos.

# ¿Por qué pandas?

**Ejemplo de los estudiantes**: obtener las notas de matemáticas para todos los estudiantes.

In [18]:
# Solución en NumPy.
import numpy as np

estudiantes = np.loadtxt("./datos/estudiantes.txt", dtype = str)
asignaturas = np.loadtxt("./datos/asignaturas.txt", dtype = str)
notas = np.loadtxt("./datos/notas.txt")

nombres = np.unique(estudiantes)
notas_matematicas = np.zeros_like(nombres,dtype = 'float64')
for i, n in enumerate(nombres):
    ix = (estudiantes == n) & (asignaturas == "Matemáticas")
    notas_matematicas[i] = notas[ix][0] if ix.any() else -1.0
for n, val in zip(nombres, notas_matematicas):
    print(n, val)

Alberto -1.0
Alicia -1.0
Ana -1.0
AndrÃ©s -1.0
Carlos -1.0
Daniel -1.0
Diego -1.0
Eva -1.0
JesÃºs -1.0
Juan -1.0
Luis -1.0
Maite -1.0
Manuel -1.0
Marta -1.0
Pedro -1.0
Pilar -1.0
Rosa -1.0
Silvia -1.0
Sonia -1.0
Yago -1.0


In [19]:
# Solución en pandas.
from pandas import DataFrame
df = DataFrame({'Asignatura': asignaturas, 'Nota': notas}, index = estudiantes)

notas_mates = df.loc[df.Asignatura == 'Matemáticas', 'Nota']
# Reindexamos con los nombres de todos los estudiantes, introduciendo -1 como fill_value:
notas_mates.reindex(df.index.unique(), fill_value = -1)

Marta     -1.0
Eva       -1.0
JesÃºs    -1.0
Ana       -1.0
Alicia    -1.0
Juan      -1.0
Daniel    -1.0
AndrÃ©s   -1.0
Diego     -1.0
Yago      -1.0
Pilar     -1.0
Manuel    -1.0
Luis      -1.0
Alberto   -1.0
Carlos    -1.0
Maite     -1.0
Rosa      -1.0
Pedro     -1.0
Sonia     -1.0
Silvia    -1.0
Name: Nota, dtype: float64

# La clase Series

In [20]:
# Importamos la clase Series de pandas, y creamos una serie:
from pandas import Series
serie = Series([1, 2, 3, 4, 5])
serie

0    1
1    2
2    3
3    4
4    5
dtype: int64

## Acceso

In [21]:
# Accedemos a los valores de la serie:
serie.values

array([1, 2, 3, 4, 5], dtype=int64)

In [22]:
# Accedemos a los índices de la serie:
serie.index

RangeIndex(start=0, stop=5, step=1)

In [23]:
# Creamos una serie especificando los índices:
serie = Series([1, 2, 3, 4, 5], index = ['uno', 'dos', 'tres', 'cuatro', 'cinco'])
serie

uno       1
dos       2
tres      3
cuatro    4
cinco     5
dtype: int64

In [24]:
# Accedemos a los índices de la serie:
serie.index

Index(['uno', 'dos', 'tres', 'cuatro', 'cinco'], dtype='object')

In [25]:
# Elemento asociado al índice 'tres':
serie['tres']

3

In [26]:
# Subserie con los elementos 'cuatro' y 'uno':
serie[['cuatro', 'uno']]

cuatro    4
uno       1
dtype: int64

In [27]:
# Subserie con todos los elementos hasta el 'cuatro':
serie[:'cuatro']

uno       1
dos       2
tres      3
cuatro    4
dtype: int64

## Asignación

In [28]:
# Cambiamos el valor del elemento 'uno':
serie['uno'] = 20
serie

uno       20
dos        2
tres       3
cuatro     4
cinco      5
dtype: int64

In [29]:
# Cambiamos el valor de los elementos 'dos' a 'cuatro' (broadcasting):
serie['dos':'cuatro'] = 100
serie

uno        20
dos       100
tres      100
cuatro    100
cinco       5
dtype: int64

In [30]:
# Accedemos mediante índices numéricos enteros:
serie[1:3]

dos     100
tres    100
dtype: int64

## Operaciones sobre Series

In [31]:
# La serie original:
serie

uno        20
dos       100
tres      100
cuatro    100
cinco       5
dtype: int64

In [32]:
# Multiplicamos la serie por 2:
serie*2

uno        40
dos       200
tres      200
cuatro    200
cinco      10
dtype: int64

In [33]:
# Elementos mayores que 50:
serie > 50

uno       False
dos        True
tres       True
cuatro     True
cinco     False
dtype: bool

In [34]:
# Acceso mediante índices booleanos:
serie[serie > 50]

dos       100
tres      100
cuatro    100
dtype: int64

## Creación a partir de diccionarios

In [35]:
# Creamos un diccionario con nombres y edades:
diccionario = {'Juan': 23, 'Ana': 25, 'Eva': 31, 'Andres': 27}
diccionario

{'Juan': 23, 'Ana': 25, 'Eva': 31, 'Andres': 27}

In [36]:
# Creamos una serie a partir del diccionario. Las claves del diccionario
# se convierten en los índices de la serie:
serie = Series(diccionario)
serie

Juan      23
Ana       25
Eva       31
Andres    27
dtype: int64

## Creación a partir de otra serie

In [37]:
# Creamos una nueva serie a partir de la anterior:
nueva_serie = Series(serie)
nueva_serie

Juan      23
Ana       25
Eva       31
Andres    27
dtype: int64

In [38]:
# Creamos una nueva serie a partir de la anterior, especificando un índice 
# que excluye alguno de los elementos de la serie inicial:
nueva_serie = Series(serie, index = ['Eva', 'Juan', 'Andres'])
nueva_serie

Eva       31
Juan      23
Andres    27
dtype: int64

In [39]:
# Creamos una nueva serie a partir de la anterior, especificando un índice 
# que incluye algún elemento que no está en la serie inicial:
nueva_serie = Series(serie, index = ['Eva', 'Juan', 'Andres', 'Susana'])
nueva_serie

Eva       31.0
Juan      23.0
Andres    27.0
Susana     NaN
dtype: float64

## Cambiar el atributo index

In [40]:
# La serie inicial:
serie

Juan      23
Ana       25
Eva       31
Andres    27
dtype: int64

In [41]:
# Cambiamos los índices:
serie.index = ['a', 'b', 'c', 'd']
serie

a    23
b    25
c    31
d    27
dtype: int64

In [42]:
# Pero no podemos cambiar el objeto Index
serie.index[1] = 'e'

TypeError: Index does not support mutable operations

## Ejercicio: La clase Series

In [43]:
# Tenemos las siguientes listas de marcas, modelos y precios en euros de 
# arneses de escalada:
marcas = ['Camp', 'Camp', 'Petzl', 'Petzl', 'Edelrid', 'Edelrid', 'Edelrid',
          'Black Diamond', 'Black Diamond', 'Mammut']
modelos = ['Energy', 'Jasper', 'Simba', 'Adjama New', 'Moe', 'Orion', 'Leaf',
           'Xenes', 'Chaos', 'Ophir']
precios = [39.90, 56.00, 45.00, 75.00, 49.90, 99.90, 65.00, 119.90, 
           99.90, 55.00]

<font color="#279D9F">1. </font> Construir una serie en la que los modelos sean el índice y los precios el valor.

In [44]:
serie = Series(precios,index=modelos)
serie

Energy         39.9
Jasper         56.0
Simba          45.0
Adjama New     75.0
Moe            49.9
Orion          99.9
Leaf           65.0
Xenes         119.9
Chaos          99.9
Ophir          55.0
dtype: float64

<font color="#279D9F">2. </font> Localizar los modelos que tienen un precio menor de 70 euros.

In [45]:
serie[serie < 70]

Energy    39.9
Jasper    56.0
Simba     45.0
Moe       49.9
Leaf      65.0
Ophir     55.0
dtype: float64

<font color="#279D9F">3. </font> Crear una nueva serie que contenga el precio original para todos los productos salvo los de la marca Edelrid, a los que se aplicará un descuento del 10%.

In [46]:
serie[np.array(marcas) == 'Edelrid'] = serie[np.array(marcas) == 'Edelrid'] * 0.9
serie


Energy         39.90
Jasper         56.00
Simba          45.00
Adjama New     75.00
Moe            44.91
Orion          89.91
Leaf           58.50
Xenes         119.90
Chaos          99.90
Ophir          55.00
dtype: float64

# La clase DataFrame

In [47]:
# Creamos un diccionario de listas:
diccionario = {'Nombre': ['Juan', 'Veronica', 'Bruno', 'Pablo', 'Rosa'], 
               'Edad': [33, 41, 45, 28, 36],
               'Telefono': [2289, 1243, 2564, 4448, 3321]}
diccionario

{'Nombre': ['Juan', 'Veronica', 'Bruno', 'Pablo', 'Rosa'],
 'Edad': [33, 41, 45, 28, 36],
 'Telefono': [2289, 1243, 2564, 4448, 3321]}

In [48]:
# Importamos la clase DataFrame y creamos el DataFrame a partir del diccionario:
from pandas import DataFrame
data = DataFrame(diccionario)
data

Unnamed: 0,Nombre,Edad,Telefono
0,Juan,33,2289
1,Veronica,41,1243
2,Bruno,45,2564
3,Pablo,28,4448
4,Rosa,36,3321


In [49]:
# Especificamos el orden de las columnas:
data = DataFrame(diccionario, columns = ['Edad', 'Nombre', 'Telefono'])
data

Unnamed: 0,Edad,Nombre,Telefono
0,33,Juan,2289
1,41,Veronica,1243
2,45,Bruno,2564
3,28,Pablo,4448
4,36,Rosa,3321


In [50]:
# Usamos un índice específico:
data = DataFrame(diccionario, columns = ['Edad', 'Nombre', 'Telefono'], 
                 index = ['j33', 'v41', 'b45', 'p28', 'r36'])
data

Unnamed: 0,Edad,Nombre,Telefono
j33,33,Juan,2289
v41,41,Veronica,1243
b45,45,Bruno,2564
p28,28,Pablo,4448
r36,36,Rosa,3321


In [51]:
# El nombre de columna E-mail no está en el diccionario:
data = DataFrame(diccionario, columns = ['Edad', 'Nombre', 'Telefono', 'E-mail'], 
                 index = ['j33', 'v41', 'b45', 'p28', 'r36'])
data

Unnamed: 0,Edad,Nombre,Telefono,E-mail
j33,33,Juan,2289,
v41,41,Veronica,1243,
b45,45,Bruno,2564,
p28,28,Pablo,4448,
r36,36,Rosa,3321,


## Acceso

In [52]:
# Obtenemos la columna usando el nombre de la misma como atributo del DataFrame:
data.Nombre

j33        Juan
v41    Veronica
b45       Bruno
p28       Pablo
r36        Rosa
Name: Nombre, dtype: object

In [53]:
# Obtenemos la columna indexando el DataFrame con el nombre de la misma:
data['Nombre']

j33        Juan
v41    Veronica
b45       Bruno
p28       Pablo
r36        Rosa
Name: Nombre, dtype: object

In [54]:
# Obtenemos una o varias filas usando el atributo loc y los nombres de los índices:
print(data.loc['j33'])
print(data.loc['v41':'p28'])
print(data.loc[:'p28'])

Edad          33
Nombre      Juan
Telefono    2289
E-mail       NaN
Name: j33, dtype: object
     Edad    Nombre  Telefono E-mail
v41    41  Veronica      1243    NaN
b45    45     Bruno      2564    NaN
p28    28     Pablo      4448    NaN
     Edad    Nombre  Telefono E-mail
j33    33      Juan      2289    NaN
v41    41  Veronica      1243    NaN
b45    45     Bruno      2564    NaN
p28    28     Pablo      4448    NaN


In [55]:
# Obtenemos una o varias filas usando el atributo loc y los índices numéricos:
print(data.iloc[0])
print(data.iloc[1:3])
print(data.iloc[:3])

Edad          33
Nombre      Juan
Telefono    2289
E-mail       NaN
Name: j33, dtype: object
     Edad    Nombre  Telefono E-mail
v41    41  Veronica      1243    NaN
b45    45     Bruno      2564    NaN
     Edad    Nombre  Telefono E-mail
j33    33      Juan      2289    NaN
v41    41  Veronica      1243    NaN
b45    45     Bruno      2564    NaN


In [56]:
# Obtenemos un conjunto de filas indexando mediante un slice de índices numéricos o los nombres de los índices
print(data[:3])
print(data[:'b45'])

     Edad    Nombre  Telefono E-mail
j33    33      Juan      2289    NaN
v41    41  Veronica      1243    NaN
b45    45     Bruno      2564    NaN
     Edad    Nombre  Telefono E-mail
j33    33      Juan      2289    NaN
v41    41  Veronica      1243    NaN
b45    45     Bruno      2564    NaN


In [57]:
# Acceso a los índices:
data.index

Index(['j33', 'v41', 'b45', 'p28', 'r36'], dtype='object')

In [58]:
# Acceso a las columnas:
data.columns

Index(['Edad', 'Nombre', 'Telefono', 'E-mail'], dtype='object')

In [59]:
# Acceso a los valores:
data.values

array([[33, 'Juan', 2289, nan],
       [41, 'Veronica', 1243, nan],
       [45, 'Bruno', 2564, nan],
       [28, 'Pablo', 4448, nan],
       [36, 'Rosa', 3321, nan]], dtype=object)

## Asignación

In [60]:
# Asignamos un único valor a todos los elementos de la columna E-mail:
data['E-mail'] = 'xxx@gmail.com'
data

Unnamed: 0,Edad,Nombre,Telefono,E-mail
j33,33,Juan,2289,xxx@gmail.com
v41,41,Veronica,1243,xxx@gmail.com
b45,45,Bruno,2564,xxx@gmail.com
p28,28,Pablo,4448,xxx@gmail.com
r36,36,Rosa,3321,xxx@gmail.com


In [61]:
# Asignamos valores a la columna E-mail usando una lista:
data['E-mail'] = ['juan@gmail.com', 'vero@gmail.com', 'bruno@gmail.com', 
                  'pau@gmail.com', 'rosa@gmail.com']
data

Unnamed: 0,Edad,Nombre,Telefono,E-mail
j33,33,Juan,2289,juan@gmail.com
v41,41,Veronica,1243,vero@gmail.com
b45,45,Bruno,2564,bruno@gmail.com
p28,28,Pablo,4448,pau@gmail.com
r36,36,Rosa,3321,rosa@gmail.com


In [62]:
# Cambiamos los índices del dataframe:
data.index = range(0, 10, 2)
data

Unnamed: 0,Edad,Nombre,Telefono,E-mail
0,33,Juan,2289,juan@gmail.com
2,41,Veronica,1243,vero@gmail.com
4,45,Bruno,2564,bruno@gmail.com
6,28,Pablo,4448,pau@gmail.com
8,36,Rosa,3321,rosa@gmail.com


In [63]:
# Cambiamos los nombres de las columnas:
data.columns = ['Age', 'Name', 'Phone', 'E-mail']
data

Unnamed: 0,Age,Name,Phone,E-mail
0,33,Juan,2289,juan@gmail.com
2,41,Veronica,1243,vero@gmail.com
4,45,Bruno,2564,bruno@gmail.com
6,28,Pablo,4448,pau@gmail.com
8,36,Rosa,3321,rosa@gmail.com


## Ejercicio: La clase DataFrame

In [64]:
# Tenemos las siguientes listas con los nombres, raza y edad de un conjunto de perros
nombre = ['Bobby', 'Tobby', 'Linda', 'Snoopy']
raza = ['bulldog', 'caniche', 'labrador', 'chihuahua']
edad = [2, 12, 5, 7]
pedigree = [True, False, False, True]

<font color="#279D9F">1. </font> Construye un DataFrame llamado *perros* con estos datos organizados en cinco columnas: *nombre*, *raza*, *edad* y *pedigree* más una columan vacía llamada *adoptado*. Los índices de las filas se generarán automáticamente.

In [65]:
diccionario = {'nombre':nombre,'raza':raza,'edad':edad,'pedigree':pedigree}
perros = DataFrame(diccionario,columns=['nombre','raza','edad','pedigree','adoptado'])

In [66]:
perros


Unnamed: 0,nombre,raza,edad,pedigree,adoptado
0,Bobby,bulldog,2,True,
1,Tobby,caniche,12,False,
2,Linda,labrador,5,False,
3,Snoopy,chihuahua,7,True,


<font color="#279D9F">2. </font> Modifica los nombres de los índices de las filas para que contengan como identificador un string formado por la primera letra del nombre y la edad del perro.

In [67]:
perros.index=['b2','t12','l5','s7']
perros

Unnamed: 0,nombre,raza,edad,pedigree,adoptado
b2,Bobby,bulldog,2,True,
t12,Tobby,caniche,12,False,
l5,Linda,labrador,5,False,
s7,Snoopy,chihuahua,7,True,


<font color="#279D9F">3. </font> Asigna el valor 'No' a todas las filas de la columna 'Adoptado'.

In [68]:
perros['adoptado'] = 'No'
perros

Unnamed: 0,nombre,raza,edad,pedigree,adoptado
b2,Bobby,bulldog,2,True,No
t12,Tobby,caniche,12,False,No
l5,Linda,labrador,5,False,No
s7,Snoopy,chihuahua,7,True,No


<font color="#279D9F">4. </font> Crea un DataFrame llamado *tienda* con los datos del ejercicio 1, donde las columnas se llamen *marca*, *modelo* y *precio*, y los índices de las filas se generen automáticamente.

In [120]:
diccionario = {'marca':marcas,'modelo':modelos,'precio':precios}
tienda = DataFrame(diccionario,columns=['marca','modelo','precio'])
tienda

Unnamed: 0,marca,modelo,precio
0,Camp,Energy,39.9
1,Camp,Jasper,56.0
2,Petzl,Simba,45.0
3,Petzl,Adjama New,75.0
4,Edelrid,Moe,49.9
5,Edelrid,Orion,99.9
6,Edelrid,Leaf,65.0
7,Black Diamond,Xenes,119.9
8,Black Diamond,Chaos,99.9
9,Mammut,Ophir,55.0


# Operaciones básicas con *Series* y *DataFrames*

## Reindexación

### DataFrame

In [70]:
# Creamos nuevo DataFrame con los índices reordenados:
new_data = data.reindex([2, 6, 0, 4, 8])
new_data

Unnamed: 0,Age,Name,Phone,E-mail
2,41,Veronica,1243,vero@gmail.com
6,28,Pablo,4448,pau@gmail.com
0,33,Juan,2289,juan@gmail.com
4,45,Bruno,2564,bruno@gmail.com
8,36,Rosa,3321,rosa@gmail.com


In [71]:
# Omitimos algunos índices:
new_data = data.reindex([2, 6, 0])
new_data

Unnamed: 0,Age,Name,Phone,E-mail
2,41,Veronica,1243,vero@gmail.com
6,28,Pablo,4448,pau@gmail.com
0,33,Juan,2289,juan@gmail.com


In [72]:
# Incluimos nuevos índices:
new_data = data.reindex([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
new_data

Unnamed: 0,Age,Name,Phone,E-mail
0,33.0,Juan,2289.0,juan@gmail.com
1,,,,
2,41.0,Veronica,1243.0,vero@gmail.com
3,,,,
4,45.0,Bruno,2564.0,bruno@gmail.com
5,,,,
6,28.0,Pablo,4448.0,pau@gmail.com
7,,,,
8,36.0,Rosa,3321.0,rosa@gmail.com
9,,,,


In [73]:
# Asignamos el valor "---" a las casillas nuevas:
new_data = data.reindex([0, 1, 2, 3, 4, 5, 6, 7, 8, 9], fill_value = "---")
new_data

Unnamed: 0,Age,Name,Phone,E-mail
0,33,Juan,2289,juan@gmail.com
1,---,---,---,---
2,41,Veronica,1243,vero@gmail.com
3,---,---,---,---
4,45,Bruno,2564,bruno@gmail.com
5,---,---,---,---
6,28,Pablo,4448,pau@gmail.com
7,---,---,---,---
8,36,Rosa,3321,rosa@gmail.com
9,---,---,---,---


In [74]:
# Rellenamos las casillas nuevas con el último valor:
new_data = data.reindex([0, 1, 2, 3, 4, 5, 6, 7, 8, 9], method = 'ffill')
new_data

Unnamed: 0,Age,Name,Phone,E-mail
0,33,Juan,2289,juan@gmail.com
1,33,Juan,2289,juan@gmail.com
2,41,Veronica,1243,vero@gmail.com
3,41,Veronica,1243,vero@gmail.com
4,45,Bruno,2564,bruno@gmail.com
5,45,Bruno,2564,bruno@gmail.com
6,28,Pablo,4448,pau@gmail.com
7,28,Pablo,4448,pau@gmail.com
8,36,Rosa,3321,rosa@gmail.com
9,36,Rosa,3321,rosa@gmail.com


In [75]:
# Nuevo DataFrame reindexando las columnas:
new_data = data.reindex(columns = ['Name', 'Phone'])
new_data

Unnamed: 0,Name,Phone
0,Juan,2289
2,Veronica,1243
4,Bruno,2564
6,Pablo,4448
8,Rosa,3321


### Series

In [76]:
serie = Series([1, 2, 3, 4, 5], index = ['uno', 'dos', 'tres', 'cuatro', 'cinco'])
serie

uno       1
dos       2
tres      3
cuatro    4
cinco     5
dtype: int64

In [77]:
new_Serie = serie.reindex(['uno','dos'])
new_Serie

uno    1
dos    2
dtype: int64

In [78]:
new_Serie = serie.reindex(['cuatro', 'cinco','uno','dos', 'tres'])
new_Serie

cuatro    4
cinco     5
uno       1
dos       2
tres      3
dtype: int64

In [79]:
new_Serie = serie.reindex(['uno','dos', 'siete', 'ocho'], fill_value = 'X')
new_Serie

uno      1
dos      2
siete    X
ocho     X
dtype: object

### Ejercicio: Reindexación

<font color="#279D9F">1. </font> A partir del DataFrame **perros** del ejercicio anterior, crea un nuevo DataFrame que elimine la columna con nombre 'Pedigree'.

In [80]:
new_perros = perros.reindex(columns=['nombre','raza','edad','adoptado'])
new_perros

Unnamed: 0,nombre,raza,edad,adoptado
b2,Bobby,bulldog,2,No
t12,Tobby,caniche,12,No
l5,Linda,labrador,5,No
s7,Snoopy,chihuahua,7,No


<font color="#279D9F">2. </font> A partir del DataFrame **tienda** del ejercicio anterior, crea un nuevo DataFrame que incorpore dos nuevas columnas con los nombres 'Ventas' y 'Total'.

In [122]:
new_tienda = tienda.reindex(columns=['marca','modelo','precio','ventas','total'])

In [123]:
new_tienda

Unnamed: 0,marca,modelo,precio,ventas,total
0,Camp,Energy,39.9,,
1,Camp,Jasper,56.0,,
2,Petzl,Simba,45.0,,
3,Petzl,Adjama New,75.0,,
4,Edelrid,Moe,49.9,,
5,Edelrid,Orion,99.9,,
6,Edelrid,Leaf,65.0,,
7,Black Diamond,Xenes,119.9,,
8,Black Diamond,Chaos,99.9,,
9,Mammut,Ophir,55.0,,


##  Eliminar filas o columnas

### DataFrame

In [83]:
# El DataFrame original:
data

Unnamed: 0,Age,Name,Phone,E-mail
0,33,Juan,2289,juan@gmail.com
2,41,Veronica,1243,vero@gmail.com
4,45,Bruno,2564,bruno@gmail.com
6,28,Pablo,4448,pau@gmail.com
8,36,Rosa,3321,rosa@gmail.com


In [84]:
# Eliminamos las filas 2 y 6:
new_data = data.drop([2, 6])
new_data

Unnamed: 0,Age,Name,Phone,E-mail
0,33,Juan,2289,juan@gmail.com
4,45,Bruno,2564,bruno@gmail.com
8,36,Rosa,3321,rosa@gmail.com


In [85]:
# Eliminamos la columna Phone:
new_data = data.drop(['Phone'], axis = 1)
new_data

Unnamed: 0,Age,Name,E-mail
0,33,Juan,juan@gmail.com
2,41,Veronica,vero@gmail.com
4,45,Bruno,bruno@gmail.com
6,28,Pablo,pau@gmail.com
8,36,Rosa,rosa@gmail.com


### Series

In [86]:
# La Serie original
serie

uno       1
dos       2
tres      3
cuatro    4
cinco     5
dtype: int64

In [87]:
# Eliminamos las filas tres y cinco
serie.drop(['tres', 'cinco'])

uno       1
dos       2
cuatro    4
dtype: int64

### Ejercicio: Eliminar filas o columnas

<font color="#279D9F">1. </font> A partir del DataFrame **perros** de los ejercicios anteriores, crea un nuevo DataFrame que elimine las columnas con nombre 'Pedigree' y 'Adoptado' usando drop.

In [88]:
new_perros = perros.drop(['pedigree','adoptado'],axis=1)
new_perros

Unnamed: 0,nombre,raza,edad
b2,Bobby,bulldog,2
t12,Tobby,caniche,12
l5,Linda,labrador,5
s7,Snoopy,chihuahua,7


<font color="#279D9F">2. </font> A partir del DataFrame **tienda** de los ejercicios anteriores, crea un nuevo DataFrame que elimine el arnés Black Diamond Chaos.

In [89]:
new_tienda = tienda.drop(tienda[tienda['modelo'] == 'Chaos'].index)
new_tienda

Unnamed: 0,marca,modelo,precio
0,Camp,Energy,39.9
1,Camp,Jasper,56.0
2,Petzl,Simba,45.0
3,Petzl,Adjama New,75.0
4,Edelrid,Moe,49.9
5,Edelrid,Orion,99.9
6,Edelrid,Leaf,65.0
7,Black Diamond,Xenes,119.9
9,Mammut,Ophir,55.0


## Indexación, selección y filtrado

### Series

In [90]:
# Creamos una serie especificando los índices:
serie = Series([1, 2, 3, 4, 5], index = ['uno', 'dos', 'tres', 'cuatro', 'cinco'])
serie

uno       1
dos       2
tres      3
cuatro    4
cinco     5
dtype: int64

In [91]:
# Seleccionamos un slice:
subserie = serie['dos':'cuatro']
subserie

dos       2
tres      3
cuatro    4
dtype: int64

In [92]:
# Modificamos la subserie:
subserie[:] = -10
subserie

dos      -10
tres     -10
cuatro   -10
dtype: int64

In [93]:
# La serie original también ha cambiado:
serie

uno        1
dos      -10
tres     -10
cuatro   -10
cinco      5
dtype: int64

### DataFrame

In [94]:
# Enteros seleccionan filas:
data[:3]

Unnamed: 0,Age,Name,Phone,E-mail
0,33,Juan,2289,juan@gmail.com
2,41,Veronica,1243,vero@gmail.com
4,45,Bruno,2564,bruno@gmail.com


In [95]:
# Índices seleccionan columnas:
data[['Name', 'Phone']]

Unnamed: 0,Name,Phone
0,Juan,2289
2,Veronica,1243
4,Bruno,2564
6,Pablo,4448
8,Rosa,3321


In [96]:
# Uso del atributo loc para seleccionar filas con el índice:
data.loc[:4]

Unnamed: 0,Age,Name,Phone,E-mail
0,33,Juan,2289,juan@gmail.com
2,41,Veronica,1243,vero@gmail.com
4,45,Bruno,2564,bruno@gmail.com


In [97]:
# Uso del atributo loc para seleccionar un slice de columnas:
data.loc[:,'Name':'Phone']

Unnamed: 0,Name,Phone
0,Juan,2289
2,Veronica,1243
4,Bruno,2564
6,Pablo,4448
8,Rosa,3321


In [98]:
# Seleccionamos los menores de 40:
data[data.Age < 40]

Unnamed: 0,Age,Name,Phone,E-mail
0,33,Juan,2289,juan@gmail.com
6,28,Pablo,4448,pau@gmail.com
8,36,Rosa,3321,rosa@gmail.com


In [99]:
serie[serie<3]

uno        1
dos      -10
tres     -10
cuatro   -10
dtype: int64

### Ejercicio: Indexación, selección y filtrado

<font color="#279D9F">1. </font> A partir del DataFrame **tienda** de los ejercicios anteriores, muestra todos los arneses de la marca Edelrid.

In [100]:
tienda[tienda.marca=='Edelrid']

Unnamed: 0,marca,modelo,precio
4,Edelrid,Moe,49.9
5,Edelrid,Orion,99.9
6,Edelrid,Leaf,65.0


<font color="#279D9F">2. </font> A partir del DataFrame **tienda** de los ejercicios anteriores, muestra todos los arneses con precio mayor de 70.

In [101]:
tienda[tienda.precio>70]

Unnamed: 0,marca,modelo,precio
3,Petzl,Adjama New,75.0
5,Edelrid,Orion,99.9
7,Black Diamond,Xenes,119.9
8,Black Diamond,Chaos,99.9


<font color="#279D9F">3. </font> A partir del DataFrame **tienda** de los ejercicios anteriores, muestra el slice de columnas de Marca a Modelo.

In [102]:
tienda.loc[:,'marca':'modelo']

Unnamed: 0,marca,modelo
0,Camp,Energy
1,Camp,Jasper
2,Petzl,Simba
3,Petzl,Adjama New
4,Edelrid,Moe
5,Edelrid,Orion
6,Edelrid,Leaf
7,Black Diamond,Xenes
8,Black Diamond,Chaos
9,Mammut,Ophir


In [103]:
# Definimos la siguiente serie
veterinario = Series([40, 37, 2, 10, 7, 8], index = ['perros', 'gatos', 'vacas', 'iguanas', 'tortugas', 'camaleones'])
veterinario

perros        40
gatos         37
vacas          2
iguanas       10
tortugas       7
camaleones     8
dtype: int64

<font color="#279D9F">4. </font> A partir de la serie definida en la celda anterior, muestra el número de 'perros' y 'gatos' que sigue el veterinario y súmales uno a cada uno de manera que se modifique también la serie original.

In [104]:
veterinario[['perros','gatos']] += 1
veterinario

perros        41
gatos         38
vacas          2
iguanas       10
tortugas       7
camaleones     8
dtype: int64

## Aritmética entre objetos con índices distintos

### Series

In [105]:
# Creamos una serie:
import numpy as np
serie1 = Series(np.random.randint(0, 5, 6), index = range(6))
serie1

0    3
1    4
2    1
3    1
4    1
5    1
dtype: int32

In [106]:
# Creamos otra serie:
serie2 = Series(np.random.randint(0, 5, 6), index = range(2, 8))
serie2

2    1
3    3
4    3
5    4
6    4
7    4
dtype: int32

In [107]:
# Sumamos ambas series:
serie1 + serie2

0    NaN
1    NaN
2    2.0
3    4.0
4    4.0
5    5.0
6    NaN
7    NaN
dtype: float64

### DataFrame

In [108]:
# Creamos un DataFrame:
data1 = DataFrame(np.random.randint(0, 5, (6, 3)), index = range(6), columns = ['A', 'B', 'C'])
data1

Unnamed: 0,A,B,C
0,1,4,4
1,3,1,1
2,1,1,0
3,2,2,0
4,3,0,4
5,0,3,3


In [109]:
# Creamos otro DataFrame:
data2 = DataFrame(np.random.randint(0, 5, (6, 3)), index = range(2, 8), columns = ['B', 'A', 'D'])
data2

Unnamed: 0,B,A,D
2,3,2,0
3,1,0,2
4,4,4,3
5,2,0,2
6,0,2,4
7,0,2,0


In [110]:
# Sumamos ambos DataFrames:
data1 + data2

Unnamed: 0,A,B,C,D
0,,,,
1,,,,
2,3.0,4.0,,
3,2.0,3.0,,
4,7.0,4.0,,
5,0.0,5.0,,
6,,,,
7,,,,


In [111]:
# Sumamos con add y fill_value:
data1.add(data2, fill_value = 0)

Unnamed: 0,A,B,C,D
0,1.0,4.0,4.0,
1,3.0,1.0,1.0,
2,3.0,4.0,0.0,0.0
3,2.0,3.0,0.0,2.0
4,7.0,4.0,4.0,3.0
5,0.0,5.0,3.0,2.0
6,2.0,0.0,,4.0
7,2.0,0.0,,0.0


## Aritmética entre *Series* y *DataFrames*

### Broadcasting por columnas

In [112]:
# Creamos un DataFrame con unos:
df = DataFrame(np.ones((5, 4)), columns = ['var_1', 'var_2', 'var_3', 'var_4'])
df

Unnamed: 0,var_1,var_2,var_3,var_4
0,1.0,1.0,1.0,1.0
1,1.0,1.0,1.0,1.0
2,1.0,1.0,1.0,1.0
3,1.0,1.0,1.0,1.0
4,1.0,1.0,1.0,1.0


In [113]:
# Creamos una serie cuyos índices son las columnas del DataFrame:
serie = Series([0, 1, 2, 3], df.columns)
serie

var_1    0
var_2    1
var_3    2
var_4    3
dtype: int64

In [114]:
# Sumamos la serie y el DataFrame:
df + serie

Unnamed: 0,var_1,var_2,var_3,var_4
0,1.0,2.0,3.0,4.0
1,1.0,2.0,3.0,4.0
2,1.0,2.0,3.0,4.0
3,1.0,2.0,3.0,4.0
4,1.0,2.0,3.0,4.0


### Broadcasting por filas

In [115]:
# Creamos una serie con los índices del DataFrame:
serie = Series([0, 1, 2, 3, 4], df.index)
serie

0    0
1    1
2    2
3    3
4    4
dtype: int64

In [116]:
# Sumamos la serie y el DataFrame:
df.add(serie, axis = 0)

Unnamed: 0,var_1,var_2,var_3,var_4
0,1.0,1.0,1.0,1.0
1,2.0,2.0,2.0,2.0
2,3.0,3.0,3.0,3.0
3,4.0,4.0,4.0,4.0
4,5.0,5.0,5.0,5.0


### Ejercicio: Aritmética en Pandas

<font color="#279D9F">1. </font> Crea una lista de 10 números aleatorios entre 0 y 50 y añádela al DataFrame **tienda** en la columna 'Ventas'.

In [124]:
venta = np.random.randint(0,50,10)
new_tienda.ventas = venta
new_tienda

Unnamed: 0,marca,modelo,precio,ventas,total
0,Camp,Energy,39.9,41,
1,Camp,Jasper,56.0,17,
2,Petzl,Simba,45.0,23,
3,Petzl,Adjama New,75.0,23,
4,Edelrid,Moe,49.9,19,
5,Edelrid,Orion,99.9,4,
6,Edelrid,Leaf,65.0,21,
7,Black Diamond,Xenes,119.9,3,
8,Black Diamond,Chaos,99.9,28,
9,Mammut,Ophir,55.0,21,


<font color="#279D9F">2. </font> Añade en la columna 'Total' el producto del precio de cada arnés por el número de unidades vendidas ('Ventas').

In [125]:
new_tienda.total = new_tienda.ventas * new_tienda.precio
new_tienda

Unnamed: 0,marca,modelo,precio,ventas,total
0,Camp,Energy,39.9,41,1635.9
1,Camp,Jasper,56.0,17,952.0
2,Petzl,Simba,45.0,23,1035.0
3,Petzl,Adjama New,75.0,23,1725.0
4,Edelrid,Moe,49.9,19,948.1
5,Edelrid,Orion,99.9,4,399.6
6,Edelrid,Leaf,65.0,21,1365.0
7,Black Diamond,Xenes,119.9,3,359.7
8,Black Diamond,Chaos,99.9,28,2797.2
9,Mammut,Ophir,55.0,21,1155.0


## Ordenación

In [126]:
# Creamos DataFrame con números enteros al azar:
df = DataFrame(np.random.randint(0, 5, (5, 4)), 
               columns = np.random.permutation(['var_1', 'var_2', 'var_3', 'var_4']), 
               index = np.random.permutation(5))
df

Unnamed: 0,var_1,var_2,var_4,var_3
0,3,0,1,1
1,4,3,1,3
3,1,0,1,3
4,0,2,4,3
2,3,4,0,4


In [127]:
# Ordenamos las filas según su índice:
df.sort_index()

Unnamed: 0,var_1,var_2,var_4,var_3
0,3,0,1,1
1,4,3,1,3
2,3,4,0,4
3,1,0,1,3
4,0,2,4,3


In [None]:
# Ordenamos las columnas según su indice:
df.sort_index(axis = 1)

In [None]:
# Ordenamos las filas según el valor de la columna var_1:
df.sort_values(by = 'var_1')

In [None]:
# Ordenamos las filas según el valor de la columna var_1, 
# y en caso de empate según el valor de la columna var_2:
df.sort_values(by = ['var_1', 'var_2'])

### Ejercicio: Ordenación

<font color="#279D9F">1. </font> Muestra el DataFrame **tienda** del ejercicio anterior con los datos ordenados por precio.

In [None]:
new_tienda.sort_values(by='precio')

<font color="#279D9F">2. </font> Muestra el DataFrame **tienda** del ejercicio anterior con los datos ordenados por venta.

In [None]:
new_tienda.sort_values(by='ventas')

<font color="#279D9F">3. </font> Muestra el DataFrame **tienda** del ejercicio anterior con las columnas ordenadas según su índice.

In [None]:
new_tienda.sort_index()

# Otras operaciones con *DataFrames*

## Aplicación de funciones a un *DataFrame*

### applymap

In [141]:
# Creamos un DataFrame con números aleatorios:
df = DataFrame(np.random.randn(5, 4), 
               columns = ['var_1', 'var_2', 'var_3', 'var_4'])
df

Unnamed: 0,var_1,var_2,var_3,var_4
0,-1.015388,-0.013858,2.254462,0.067891
1,-0.446633,-0.383664,2.11936,0.190841
2,0.574296,0.312354,0.682973,-1.498091
3,-0.483051,-1.871814,0.031925,-0.169111
4,0.232698,0.15386,-0.752618,0.762931


In [None]:
# Aplicamos la función np.abs a los datos usando applymap:
df.applymap(np.abs)

In [None]:
# Aplicamos la función np.abs a los datos directamente:
np.abs(df)

In [None]:
# Mi propia función abs:
my_abs = lambda x: x if x > 0 else -x

In [None]:
# Y la aplico a los datos:
df.applymap(my_abs)

In [142]:
# Defino una función para formatear los datos:
format = lambda x: '%5.2f' % x

In [143]:
# Y la aplico a los datos:
df.applymap(format)

Unnamed: 0,var_1,var_2,var_3,var_4
0,-1.02,-0.01,2.25,0.07
1,-0.45,-0.38,2.12,0.19
2,0.57,0.31,0.68,-1.5
3,-0.48,-1.87,0.03,-0.17
4,0.23,0.15,-0.75,0.76


### apply

In [None]:
# Calculamos la media de cada columna con el método apply:
df.apply(np.mean)

In [None]:
# Defino mi propia función para calcular la media:
my_mean = lambda x: np.mean(x)

In [None]:
# Y la aplico a cada columna con el método apply:
df.apply(my_mean)

In [None]:
# Defino función para calcular estadísticas:
my_stats = lambda x: Series([np.mean(x), np.std(x), np.min(x), np.max(x)], 
                            index = ['mean', 'std', 'min', 'max'])

In [None]:
# Y la aplico a cada columna con el método apply:
df.apply(my_stats)

### Ejercicio: Aplicación de funciones a un DataFrame

<font color="#279D9F">1. </font> Crea una copia del DataFrame **tienda**.

In [128]:
tienda_copia = new_tienda.copy()

Unnamed: 0,marca,modelo,precio,ventas,total
0,Camp,Energy,39.9,41,1635.9
1,Camp,Jasper,56.0,17,952.0
2,Petzl,Simba,45.0,23,1035.0
3,Petzl,Adjama New,75.0,23,1725.0
4,Edelrid,Moe,49.9,19,948.1
5,Edelrid,Orion,99.9,4,399.6
6,Edelrid,Leaf,65.0,21,1365.0
7,Black Diamond,Xenes,119.9,3,359.7
8,Black Diamond,Chaos,99.9,28,2797.2
9,Mammut,Ophir,55.0,21,1155.0


<font color="#279D9F">2. </font> Crea una función que formatee números para que se muestren con dos decimales y después del número salga el símbolo euro ('€').
Sobre la copia de tienda, aplica la función anterior para cambiar el formato de las celdas 'Precio' y 'Total'.

In [148]:
format = lambda x: '%5.2f $' % x
tienda_copia[['precio','total']].applymap(format)

Unnamed: 0,precio,total
0,39.90 $,1635.90 $
1,56.00 $,952.00 $
2,45.00 $,1035.00 $
3,75.00 $,1725.00 $
4,49.90 $,948.10 $
5,99.90 $,399.60 $
6,65.00 $,1365.00 $
7,119.90 $,359.70 $
8,99.90 $,2797.20 $
9,55.00 $,1155.00 $


<font color="#279D9F">3. </font> Sobre el DataFrame tienda, calcula las ventas y las ganancias totales.

In [153]:
funcion = lambda x: sum(x)
print(new_tienda)
new_tienda[['ventas','total']].apply(funcion)

           marca      modelo  precio  ventas   total
0           Camp      Energy    39.9      41  1635.9
1           Camp      Jasper    56.0      17   952.0
2          Petzl       Simba    45.0      23  1035.0
3          Petzl  Adjama New    75.0      23  1725.0
4        Edelrid         Moe    49.9      19   948.1
5        Edelrid       Orion    99.9       4   399.6
6        Edelrid        Leaf    65.0      21  1365.0
7  Black Diamond       Xenes   119.9       3   359.7
8  Black Diamond       Chaos    99.9      28  2797.2
9         Mammut       Ophir    55.0      21  1155.0


ventas      200.0
total     12372.5
dtype: float64

<font color="#279D9F">4. </font> Calcula las ventas y las ganancias totales para cada marca.

In [156]:
new_tienda[['ventas','total']].groupby(new_tienda['marca']).sum()

Unnamed: 0_level_0,ventas,total
marca,Unnamed: 1_level_1,Unnamed: 2_level_1
Black Diamond,31,3156.9
Camp,58,2587.9
Edelrid,44,2712.7
Mammut,21,1155.0
Petzl,46,2760.0


## Cálculo de estadísticas descriptivas sobre los datos

Puedes consultar una lista completa en <a href="http://pandas.pydata.org/pandas-docs/version/0.18.1/api.html#api-dataframe-stats">este enlace</a>.

In [157]:
# DataFrame anterior:
df

Unnamed: 0,var_1,var_2,var_3,var_4
0,-1.015388,-0.013858,2.254462,0.067891
1,-0.446633,-0.383664,2.11936,0.190841
2,0.574296,0.312354,0.682973,-1.498091
3,-0.483051,-1.871814,0.031925,-0.169111
4,0.232698,0.15386,-0.752618,0.762931


In [158]:
# Calculamos la media de cada columna:
df.mean()

var_1   -0.227615
var_2   -0.360624
var_3    0.867220
var_4   -0.129108
dtype: float64

In [159]:
# Calculamos la media, la desviación estándar, el mínimo y el máximo
# de cada columna, y los guardamos en un DataFrame:
DataFrame([df.mean(), df.std(), df.min(), df.max()], index = ['mean', 'std', 'min', 'max'])

Unnamed: 0,var_1,var_2,var_3,var_4
mean,-0.227615,-0.360624,0.86722,-0.129108
std,0.630229,0.883468,1.308418,0.838544
min,-1.015388,-1.871814,-0.752618,-1.498091
max,0.574296,0.312354,2.254462,0.762931


In [160]:
# Generamos estadísticas con el método describe (datos numéricos):
df.describe()

Unnamed: 0,var_1,var_2,var_3,var_4
count,5.0,5.0,5.0,5.0
mean,-0.227615,-0.360624,0.86722,-0.129108
std,0.630229,0.883468,1.308418,0.838544
min,-1.015388,-1.871814,-0.752618,-1.498091
25%,-0.483051,-0.383664,0.031925,-0.169111
50%,-0.446633,-0.013858,0.682973,0.067891
75%,0.232698,0.15386,2.11936,0.190841
max,0.574296,0.312354,2.254462,0.762931


### Resumen de estadística

In [161]:
# Creamos un DataFrame con datos que no son numéricos:
diccionario = {'Nombre': ['Juan', 'Veronica', 'Bruno', 'Pablo', 'Rosa'], 
               'Edad': [33, 41, 33, 28, 36],
               'Telefono': [2289, 1243, 2564, 4448, 3321], 
               'E-mail': ['juan@gmail.com', 'vero@gmail.com', 'bruno@gmail.com', 
                          'pau@gmail.com', 'rosa@gmail.com']}
data = DataFrame(diccionario)
data

Unnamed: 0,Nombre,Edad,Telefono,E-mail
0,Juan,33,2289,juan@gmail.com
1,Veronica,41,1243,vero@gmail.com
2,Bruno,33,2564,bruno@gmail.com
3,Pablo,28,4448,pau@gmail.com
4,Rosa,36,3321,rosa@gmail.com


In [162]:
# Generamos estadísticas con el método describe (datos numéricos y no numéricos):
data.describe(include = 'all')

Unnamed: 0,Nombre,Edad,Telefono,E-mail
count,5,5.0,5.0,5
unique,5,,,5
top,Rosa,,,vero@gmail.com
freq,1,,,1
mean,,34.2,2773.0,
std,,4.764452,1196.324162,
min,,28.0,1243.0,
25%,,33.0,2289.0,
50%,,33.0,2564.0,
75%,,36.0,3321.0,


### Valores únicos

In [163]:
# Obtenemos el número de valores únicos de cada columna:
data.apply(Series.nunique)

Nombre      5
Edad        4
Telefono    5
E-mail      5
dtype: int64

### Missing values

In [164]:
# DataFrame con datos que no son numéricos y algunos NaN:
diccionario = {'Nombre': ['Juan', 'Veronica', 'Bruno', 'Pablo', 'Rosa'], 
               'Edad': [33, 41, 33, 28, 36],
               'Telefono': [2289, 1243, np.nan, 4448, 3321], 
               'E-mail': [np.nan, 'vero@gmail.com', np.nan, 
                          'pau@gmail.com', 'rosa@gmail.com']}
data = DataFrame(diccionario)
data

Unnamed: 0,Nombre,Edad,Telefono,E-mail
0,Juan,33,2289.0,
1,Veronica,41,1243.0,vero@gmail.com
2,Bruno,33,,
3,Pablo,28,4448.0,pau@gmail.com
4,Rosa,36,3321.0,rosa@gmail.com


In [165]:
# Buscamos los NaN con isnull:
data.isnull()

Unnamed: 0,Nombre,Edad,Telefono,E-mail
0,False,False,False,True
1,False,False,False,False
2,False,False,True,True
3,False,False,False,False
4,False,False,False,False


In [166]:
# Eliminamos todas las filas que contengan NaN:
data_without_nan = data.dropna()
data_without_nan

Unnamed: 0,Nombre,Edad,Telefono,E-mail
1,Veronica,41,1243.0,vero@gmail.com
3,Pablo,28,4448.0,pau@gmail.com
4,Rosa,36,3321.0,rosa@gmail.com


In [167]:
# Sustituimos los NaN del e-mail por la cadena "---":
data['E-mail'].fillna('---', inplace = True)
data

Unnamed: 0,Nombre,Edad,Telefono,E-mail
0,Juan,33,2289.0,---
1,Veronica,41,1243.0,vero@gmail.com
2,Bruno,33,,---
3,Pablo,28,4448.0,pau@gmail.com
4,Rosa,36,3321.0,rosa@gmail.com


In [168]:
# Sustituimos los NaN del teléfono por 0:
data['Telefono'].fillna('0', inplace = True)
data

Unnamed: 0,Nombre,Edad,Telefono,E-mail
0,Juan,33,2289,---
1,Veronica,41,1243,vero@gmail.com
2,Bruno,33,0,---
3,Pablo,28,4448,pau@gmail.com
4,Rosa,36,3321,rosa@gmail.com


### Matrices de correlación y covarianza

In [169]:
# Creamos DataFrame con números aleatorios:
df = DataFrame(np.random.randn(5, 4), 
               columns = ['var_1', 'var_2', 'var_3', 'var_4'])
df

Unnamed: 0,var_1,var_2,var_3,var_4
0,1.489365,-0.820521,-1.55003,-0.353963
1,-0.709249,1.797422,0.279999,-0.187455
2,1.487569,-0.452505,-0.9102,-0.121867
3,-0.282933,-0.447387,-1.593701,-0.867397
4,-0.143722,0.642284,0.123634,-0.220092


In [170]:
# Matriz de correlaciones:
df.corr()

Unnamed: 0,var_1,var_2,var_3,var_4
var_1,1.0,-0.758121,-0.558135,0.275248
var_2,-0.758121,1.0,0.911695,0.391719
var_3,-0.558135,0.911695,1.0,0.634696
var_4,0.275248,0.391719,0.634696,1.0


In [171]:
# Matriz de covarianzas:
df.cov()

Unnamed: 0,var_1,var_2,var_3,var_4
var_1,1.089233,-0.850146,-0.520983,0.086545
var_2,-0.850146,1.154488,0.876129,0.126802
var_3,-0.520983,0.876129,0.799922,0.17102
var_4,0.086545,0.126802,0.17102,0.090764


### Ejercicio: Cálculo de estadísticas descriptivas sobre los datos

<font color="#279D9F">1. </font> Saca un resumen de estadísticas de los datos del DataFrame **tienda**.

In [173]:
new_tienda.describe()

Unnamed: 0,precio,ventas,total
count,10.0,10.0,10.0
mean,70.55,20.0,1237.25
std,27.245846,10.954451,709.536851
min,39.9,3.0,359.7
25%,51.175,17.5,949.075
50%,60.5,21.0,1095.0
75%,93.675,23.0,1568.175
max,119.9,41.0,2797.2


<font color="#279D9F">2. </font> Calcula el número de productos de cada marca.

In [179]:
new_tienda.groupby('marca').count()

Unnamed: 0_level_0,modelo,precio,ventas,total
marca,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Black Diamond,2,2,2,2
Camp,2,2,2,2
Edelrid,3,3,3,3
Mammut,1,1,1,1
Petzl,2,2,2,2


## Lectura y escritura en ficheros

In [180]:
# DataFrame con los datos:
diccionario = {'Nombre': ['Juan', 'Veronica', 'Bruno', 'Pablo', 'Rosa'], 
               'Edad': [33, 41, 33, 28, 36],
               'Telefono': [2289, 1243, 2234, 4448, 3321], 
               'E-mail': ['juan@gmail.com', 'vero@gmail.com', 'bruno@gmail.com', 
                          'pau@gmail.com', 'rosa@gmail.com']}
data = DataFrame(diccionario)
data

Unnamed: 0,Nombre,Edad,Telefono,E-mail
0,Juan,33,2289,juan@gmail.com
1,Veronica,41,1243,vero@gmail.com
2,Bruno,33,2234,bruno@gmail.com
3,Pablo,28,4448,pau@gmail.com
4,Rosa,36,3321,rosa@gmail.com


In [181]:
# Guardamos en fichero:
data.to_csv("personas.csv")
!cat "personas.csv"

"cat" no se reconoce como un comando interno o externo,
programa o archivo por lotes ejecutable.


In [None]:
# Leemos de fichero:
import pandas as pd
nuevos_datos = pd.read_csv("personas.csv")
nuevos_datos