
# Mod04 - Introducción a Python
## Parte 3 - Pandas (2)

# En la clase anterior...
- Series y DataFrames
- Indexación y slicing
- Cargar y grabar a archivo
- Ejemplo MovieLens 1M

# Operaciones en pandas
- Búsqueda
- Ordenar
- Operaciones matemáticas entre objetos
- apply(lambda)
- Estadística descriptiva
- Ejemplo fuel efficiency

#### Búsqueda

In [2]:
import pandas as pd
import numpy as np

rand_matrix = np.random.randint(6,size=(2,3))
frame = pd.DataFrame(rand_matrix , columns=list('ABC'))
frame

Unnamed: 0,A,B,C
0,4,3,5
1,1,5,4


In [3]:
# buscando columnas
'A' in frame

True

In [4]:
# buscando valores
frame.isin([3,2]) # --> mask de respuesta (valores que son 3 o 2)

Unnamed: 0,A,B,C
0,False,True,False
1,False,False,False


In [5]:
# Contar el número de ocurrencias
frame.isin([5]).values.sum()
# frame.isin([5]) devuelve una mask con valores true si el elemento es 5
#  .values --> transforma los resultados a una array de bools
#  .sum() --> suma los valores True (1) y False (0)

2

In [6]:
# Cuántos valores son > =5?

In [7]:
mask = frame >= 5
mask.values.sum()

2

#### Ordenación

In [8]:
from random import shuffle

rand_matrix = np.random.randint(20,size=(5,4))
indices = list(range(5))
shuffle(indices)
frame = pd.DataFrame(rand_matrix , columns=list('ABCD'),index=indices)
frame

Unnamed: 0,A,B,C,D
0,18,7,0,4
2,13,12,17,8
4,14,19,10,1
1,19,1,14,10
3,17,0,7,4


In [9]:
# ordenar por índice
frame.sort_index(ascending=False)

Unnamed: 0,A,B,C,D
4,14,19,10,1
3,17,0,7,4
2,13,12,17,8
1,19,1,14,10
0,18,7,0,4


In [10]:
#ordenar por columna
frame.sort_index(axis=1,ascending=False)

Unnamed: 0,D,C,B,A
0,4,0,7,18
2,8,17,12,13
4,1,10,19,14
1,10,14,1,19
3,4,7,0,17


In [11]:
# ordenar por valor en columna
frame.sort_values(by='A')

Unnamed: 0,A,B,C,D
2,13,12,17,8
4,14,19,10,1
3,17,0,7,4
0,18,7,0,4
1,19,1,14,10


#### Ranking
- Construir un ranking de valores

In [12]:
frame.rank()

Unnamed: 0,A,B,C,D
0,4.0,3.0,1.0,2.5
2,1.0,4.0,5.0,4.0
4,2.0,5.0,3.0,1.0
1,5.0,2.0,4.0,5.0
3,3.0,1.0,2.0,2.5


In [13]:
# Ejercicio: imprimir, uno a uno, los valores de la columna 'C' de mayor a menor

# Operaciones

Operaciones matemáticas entre objetos

In [14]:
matrixA = np.random.randint(100,size=(4,4))
matrixB = np.random.randint(100,size=(4,4))
frameA = pd.DataFrame(matrixA)
frameB = pd.DataFrame(matrixB)

In [15]:
# a través de métodos u operadores
frameA + frameB == frameA.add(frameB)

Unnamed: 0,0,1,2,3
0,True,True,True,True
1,True,True,True,True
2,True,True,True,True
3,True,True,True,True


In [16]:
frameB - frameA == frameB.sub(frameA)

Unnamed: 0,0,1,2,3
0,True,True,True,True
1,True,True,True,True
2,True,True,True,True
3,True,True,True,True


In [17]:
# si los frames no son iguales, valor por defecto NaN
frameC = pd.DataFrame(np.random.randint(100,size=(3,3)))
frameA - frameC

Unnamed: 0,0,1,2,3
0,-2.0,12.0,-3.0,
1,-30.0,-81.0,41.0,
2,18.0,-28.0,-4.0,
3,,,,


In [18]:
# se puede especificar el valor por defecto con el argumento fill_value
frameA.sub(frameC,fill_value=0)

Unnamed: 0,0,1,2,3
0,-2.0,12.0,-3.0,69.0
1,-30.0,-81.0,41.0,23.0
2,18.0,-28.0,-4.0,4.0
3,57.0,18.0,12.0,10.0


Operaciones entre Series y DataFrames

In [20]:
rand_matrix = np.random.randint(10, size=(3, 4))
print(rand_matrix)
# uso común, averiguar la diferencia entre una fila y el resto
df = pd.DataFrame(rand_matrix , columns=list('ABCD'))
df - df.iloc[0]

[[5 1 0 4]
 [4 2 6 1]
 [0 5 6 4]]


Unnamed: 0,A,B,C,D
0,0,0,0,0
1,-1,1,6,-3
2,-5,4,6,0


### Pandas se basa en NumPy, np operadores binarios y unarios son aceptables 


Aplicación de funciones a medida con lambda

In [21]:
rand_matrix = np.random.randint(10, size=(3, 4))
frame = pd.DataFrame(rand_matrix , columns=list('ABCD'))
print(frame)
frame.apply(lambda x : x.max() - x.min()) # diferencia por columna

   A  B  C  D
0  4  9  8  8
1  3  7  0  1
2  7  3  4  5


A    4
B    6
C    8
D    7
dtype: int64

In [22]:
# Ejercicio: modificar el ejemplo anterior para reflejar la diferencia entre min y max por fila (no columna)

# Estadística descriptiva
- Análisis preliminar de los datos
- Para Series y DataFrame

In [23]:
diccionario = { "nombre" : ["Marisa","Laura","Manuel"], "edad" : [34,29,11], "puntos" : [98,54,75] }
frame = pd.DataFrame(diccionario)
frame.describe() # datos generales de elementos numéricos (usar include='all' para todos)

Unnamed: 0,edad,puntos
count,3.0,3.0
mean,24.666667,75.666667
std,12.096832,22.007574
min,11.0,54.0
25%,20.0,64.5
50%,29.0,75.0
75%,31.5,86.5
max,34.0,98.0


In [24]:
# operadores básicos
frame.sum()

nombre    MarisaLauraManuel
edad                     74
puntos                  227
dtype: object

In [25]:
frame.mean()

edad      24.666667
puntos    75.666667
dtype: float64

In [26]:
frame.cumsum()

Unnamed: 0,nombre,edad,puntos
0,Marisa,34,98
1,MarisaLaura,63,152
2,MarisaLauraManuel,74,227


In [27]:
frame

Unnamed: 0,nombre,edad,puntos
0,Marisa,34,98
1,Laura,29,54
2,Manuel,11,75


In [28]:
frame['edad'].idxmax()

0

In [29]:
frame['puntos'].idxmin()

1

pandas incluye métodos para analizar correlaciones
- Relación matemática entre dos variables (-1 negativamente relacionadas, 1 positivamente relacionadas, 0 sin relación)
- obj.corr(obj2) --> medida de correlación entre los datos de ambos objetos

# Ejemplo Fuel efficiency
- https://www.datascience.com/blog/introduction-to-correlation-learn-data-science-tutorials

In [30]:
import pandas as pd
path = 'http://archive.ics.uci.edu/ml/machine-learning-databases/auto-mpg/auto-mpg.data'

mpg_data = pd.read_csv(path, delim_whitespace=True, header=None,
            names = ['mpg', 'cilindros', 'desplazamiento','potencia',
            'peso', 'aceleracion', 'año', 'origen', 'nombre'],
            na_values='?')

In [31]:
mpg_data.sample(5)

Unnamed: 0,mpg,cilindros,desplazamiento,potencia,peso,aceleracion,año,origen,nombre
155,15.0,6,250.0,72.0,3158.0,19.5,75,1,ford maverick
65,14.0,8,351.0,153.0,4129.0,13.0,72,1,ford galaxie 500
70,13.0,8,400.0,190.0,4422.0,12.5,72,1,chrysler newport royal
158,16.0,8,318.0,150.0,4498.0,14.5,75,1,plymouth grand fury
17,21.0,6,200.0,85.0,2587.0,16.0,70,1,ford maverick


In [32]:
mpg_data.describe()

Unnamed: 0,mpg,cilindros,desplazamiento,potencia,peso,aceleracion,año,origen
count,398.0,398.0,398.0,392.0,398.0,398.0,398.0,398.0
mean,23.514573,5.454774,193.425879,104.469388,2970.424623,15.56809,76.01005,1.572864
std,7.815984,1.701004,104.269838,38.49116,846.841774,2.757689,3.697627,0.802055
min,9.0,3.0,68.0,46.0,1613.0,8.0,70.0,1.0
25%,17.5,4.0,104.25,75.0,2223.75,13.825,73.0,1.0
50%,23.0,4.0,148.5,93.5,2803.5,15.5,76.0,1.0
75%,29.0,8.0,262.0,126.0,3608.0,17.175,79.0,2.0
max,46.6,8.0,455.0,230.0,5140.0,24.8,82.0,3.0


In [33]:
mpg_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 398 entries, 0 to 397
Data columns (total 9 columns):
mpg               398 non-null float64
cilindros         398 non-null int64
desplazamiento    398 non-null float64
potencia          392 non-null float64
peso              398 non-null float64
aceleracion       398 non-null float64
año               398 non-null int64
origen            398 non-null int64
nombre            398 non-null object
dtypes: float64(5), int64(3), object(1)
memory usage: 28.1+ KB


### Correlaciones entre valores

In [34]:
mpg_data['mpg'].corr(mpg_data['peso'])

-0.8317409332443351

In [35]:
mpg_data['peso'].corr(mpg_data['aceleracion'])

-0.4174573199403932

### Correlaciones entre todos los valores

In [36]:
mpg_data.corr()

Unnamed: 0,mpg,cilindros,desplazamiento,potencia,peso,aceleracion,año,origen
mpg,1.0,-0.775396,-0.804203,-0.778427,-0.831741,0.420289,0.579267,0.56345
cilindros,-0.775396,1.0,0.950721,0.842983,0.896017,-0.505419,-0.348746,-0.562543
desplazamiento,-0.804203,0.950721,1.0,0.897257,0.932824,-0.543684,-0.370164,-0.609409
potencia,-0.778427,0.842983,0.897257,1.0,0.864538,-0.689196,-0.416361,-0.455171
peso,-0.831741,0.896017,0.932824,0.864538,1.0,-0.417457,-0.306564,-0.581024
aceleracion,0.420289,-0.505419,-0.543684,-0.689196,-0.417457,1.0,0.288137,0.205873
año,0.579267,-0.348746,-0.370164,-0.416361,-0.306564,0.288137,1.0,0.180662
origen,0.56345,-0.562543,-0.609409,-0.455171,-0.581024,0.205873,0.180662,1.0


In [38]:
corr_data = mpg_data.drop(['año','origen'],axis=1).corr()

# representación gráfica
import matplotlib.pyplot as plt 
corr_data.style.background_gradient(cmap=plt.get_cmap('RdYlGn'), axis=1)

Unnamed: 0,mpg,cilindros,desplazamiento,potencia,peso,aceleracion
mpg,1.0,-0.775396,-0.804203,-0.778427,-0.831741,0.420289
cilindros,-0.775396,1.0,0.950721,0.842983,0.896017,-0.505419
desplazamiento,-0.804203,0.950721,1.0,0.897257,0.932824,-0.543684
potencia,-0.778427,0.842983,0.897257,1.0,0.864538,-0.689196
peso,-0.831741,0.896017,0.932824,0.864538,1.0,-0.417457
aceleracion,0.420289,-0.505419,-0.543684,-0.689196,-0.417457,1.0


In [39]:
# correlación más negativa
mpg_data.drop(['año','origen'],axis=1).corr().idxmin()

mpg                   peso
cilindros              mpg
desplazamiento         mpg
potencia               mpg
peso                   mpg
aceleracion       potencia
dtype: object

In [40]:
# Ejercicio: conseguir una tabla similar con las correlaciones más positivas (evitar parejas del mismo valor)