## Estructuras de datos. Librería Pandas (II)

![logo](img/logo.jpeg)


# Operaciones en pandas
- Búsqueda
- Ordenar
- Operaciones matemáticas entre objetos
- apply(lambda)
- Estadística descriptiva
- Ejemplo fuel efficiency

#### Búsqueda

In [1]:
import pandas as pd
import numpy as np

In [51]:
import warnings
warnings.filterwarnings("ignore")

In [2]:
rand_matrix = np.random.randint(6,size=(2,3))
frame = pd.DataFrame(rand_matrix , columns=list('ABC'))
display(frame)

Unnamed: 0,A,B,C
0,1,0,2
1,0,1,0


In [3]:
# buscando columnas (DataFrame como dic, busca en claves)
'A' in frame

True

In [4]:
# buscando valores
display(frame.isin([3,2])) # --> mask de respuesta (valores que son 3 o 2)

Unnamed: 0,A,B,C
0,False,False,True
1,False,False,False


In [5]:
# Contar el número de ocurrencias
print(frame.isin([4]).values.sum())
display(frame.isin([4])) #devuelve una mask con valores true si el elemento es 4
type(frame.isin([4]).values) # pandas es una capa alrededor de numpy

0


Unnamed: 0,A,B,C
0,False,False,False
1,False,False,False


numpy.ndarray

In [6]:
# Cuántos valores son >= 4
mask = frame >= 4
print(mask.values.sum())
display(mask)

0


Unnamed: 0,A,B,C
0,False,False,False
1,False,False,False


#### Ordenación

In [8]:
from random import shuffle

rand_matrix = np.random.randint(20,size=(5,4))

indices = list(range(5))
shuffle(indices) # mezcla indices

frame = pd.DataFrame(rand_matrix , columns=list('DACB'),index=indices)
display(frame)

Unnamed: 0,D,A,C,B
2,19,5,19,15
3,17,10,19,4
1,6,14,10,16
0,19,10,5,5
4,1,13,12,5


In [9]:
# ordenar por índice
display(frame.sort_index(ascending=False))

Unnamed: 0,D,A,C,B
4,1,13,12,5
3,17,10,19,4
2,19,5,19,15
1,6,14,10,16
0,19,10,5,5


In [10]:
#ordenar por columna
display(frame.sort_index(axis=1, ascending=True))

Unnamed: 0,A,B,C,D
2,5,15,19,19
3,10,4,19,17
1,14,16,10,6
0,10,5,5,19
4,13,5,12,1


In [11]:
# ordenar filas por valor en columna
display(frame.sort_values(by='A', ascending=False))

Unnamed: 0,D,A,C,B
1,6,14,10,16
4,1,13,12,5
3,17,10,19,4
0,19,10,5,5
2,19,5,19,15


In [12]:
# ordenar columnas por valor en fila
display(frame.sort_values(by=0, axis=1, ascending=False))

Unnamed: 0,D,A,C,B
2,19,5,19,15
3,17,10,19,4
1,6,14,10,16
0,19,10,5,5
4,1,13,12,5


In [13]:
# ordenar por valor en columna y guardar cambios
frame.sort_values(by='A', ascending=False, inplace=True)
display(frame)

Unnamed: 0,D,A,C,B
1,6,14,10,16
4,1,13,12,5
3,17,10,19,4
0,19,10,5,5
2,19,5,19,15


#### Ranking
- Construir un ranking de valores

In [14]:
display(frame.rank(method='average'))

Unnamed: 0,D,A,C,B
1,2.0,5.0,2.0,5.0
4,1.0,4.0,3.0,2.5
3,3.0,2.5,4.5,1.0
0,4.5,2.5,1.0,2.5
2,4.5,1.0,4.5,4.0


In [15]:
# Imprimir, uno a uno, los valores de la columna 'C' de mayor a menor
for x in frame.sort_values(by='C', ascending=False)['C'].values:
    print(x)

19
19
12
10
5


# Operaciones

Operaciones matemáticas entre objetos

In [16]:
matrixA = np.random.randint(100,size=(4,4))
matrixB = np.random.randint(100,size=(4,4))
frameA = pd.DataFrame(matrixA)
frameB = pd.DataFrame(matrixB)
display(frameA)
display(frameB)

Unnamed: 0,0,1,2,3
0,46,67,82,41
1,13,89,19,69
2,33,35,32,15
3,85,82,54,79


Unnamed: 0,0,1,2,3
0,21,17,67,11
1,64,60,28,7
2,9,34,26,86
3,21,47,53,20


In [17]:
# a través de métodos u operadores
display(frameA + frameB == frameA.add(frameB))
display(frameA + frameB)

Unnamed: 0,0,1,2,3
0,True,True,True,True
1,True,True,True,True
2,True,True,True,True
3,True,True,True,True


Unnamed: 0,0,1,2,3
0,67,84,149,52
1,77,149,47,76
2,42,69,58,101
3,106,129,107,99


In [18]:
display(frameB - frameA == frameB.sub(frameA))
display(frameB - frameA)

Unnamed: 0,0,1,2,3
0,True,True,True,True
1,True,True,True,True
2,True,True,True,True
3,True,True,True,True


Unnamed: 0,0,1,2,3
0,-25,-50,-15,-30
1,51,-29,9,-62
2,-24,-1,-6,71
3,-64,-35,-1,-59


In [19]:
# si los frames no son iguales, valor por defecto NaN
frameC = pd.DataFrame(np.random.randint(100,size=(3,3)))
display(frameA)
display(frameC)
display(frameA + frameC)

Unnamed: 0,0,1,2,3
0,46,67,82,41
1,13,89,19,69
2,33,35,32,15
3,85,82,54,79


Unnamed: 0,0,1,2
0,42,35,3
1,1,42,29
2,98,66,3


Unnamed: 0,0,1,2,3
0,88.0,102.0,85.0,
1,14.0,131.0,48.0,
2,131.0,101.0,35.0,
3,,,,


In [20]:
# se puede especificar el valor por defecto con el argumento fill_value
display(frameA.sub(frameC,fill_value=0))

Unnamed: 0,0,1,2,3
0,4.0,32.0,79.0,41.0
1,12.0,47.0,-10.0,69.0
2,-65.0,-31.0,29.0,15.0
3,85.0,82.0,54.0,79.0


Operadores aritméticos solo válidos en elementos aceptables

In [21]:
frameD = pd.DataFrame({0: ['a','b'],1:['d','f']})
display(frameD)
frameA - frameD

Unnamed: 0,0,1
0,a,d
1,b,f


TypeError: unsupported operand type(s) for -: 'int' and 'str'

Operaciones entre Series y DataFrames

In [22]:
rand_matrix = np.random.randint(10, size=(3, 4))
df = pd.DataFrame(rand_matrix , columns=list('ABCD'))
display(df)
display(type(df.iloc[0]))
# uso común, averiguar la diferencia entre una fila y el resto
display(df - df.iloc[0])
# # Por columnas cómo se restaría
display(df.sub(df['A'], axis=0))

Unnamed: 0,A,B,C,D
0,0,2,1,3
1,3,1,6,1
2,5,5,0,1


pandas.core.series.Series

Unnamed: 0,A,B,C,D
0,0,0,0,0
1,3,-1,5,-2
2,5,3,-1,-2


Unnamed: 0,A,B,C,D
0,0,2,1,3
1,0,-2,3,-2
2,0,0,-5,-4


pandas se basa en NumPy, np operadores binarios y unarios son aceptables 

| Tipo | Operación | Descripción |
|:---------|:-----|:-----|
| Unario | *abs* | Valor absoluto de cada elemento |
| | *sqrt* | Raíz cuadrada de cada elemento |
| | *exp* | e^x, siendo x cad elemento |
| | *log, log10, log2* | Logaritmos en distintas bases de cada elemento |
| | *sign* | Retorna el signo de cada elemento (-1 para negativo, 0 o 1 para positivo) |
| | *ceil* | Redondea cada elemento por arriba |
| | *floor* | Redondea cada elemento por abajo |
| | *isnan* | Retorna si cada elemento es Nan |
| | *cos, sin, tan* | Operaciones trigonométricas en cada elemento |
| | *arccos, arcsin, arctan* | Inversas de operaciones trigonométricas en cada elemento |
| Binario | *add* | Suma de dos arrays |
| | *substract* | Resta de dos arrays |
| | *multiply* | Multiplicación de dos arrays |
| | *divide* | División de dos arrays |
| | *maximum, minimum* | Retorna el valor máximo/mínimo de cada pareja de elementos |
| | *equal, not_equal* | Retorna la comparación (igual o no igual) de cada pareja de elementos |
| | *greater, greater_equal, less, less_equal* | Retorna la comparación (>, >=, <, <= respectivamente) de cada pareja de elementos |

Aplicación de funciones a medida con lambda

In [23]:
rand_matrix = np.random.randint(10, size=(3, 4))
frame = pd.DataFrame(rand_matrix , columns=list('ABCD'))
display(frame)
print(frame.apply(lambda x : x.max() - x.min())) # diferencia por columna

Unnamed: 0,A,B,C,D
0,9,3,1,8
1,9,2,9,0
2,5,5,9,9


A    4
B    3
C    8
D    9
dtype: int64


In [24]:
# diferencia entre min y max por fila (no columna)
rand_matrix = np.random.randint(10, size=(3, 4))
frame = pd.DataFrame(rand_matrix , columns=list('ABCD'))
display(frame)
print(frame.apply(lambda x : x.max() - x.min(), axis = 1)) # diferencia por fila

Unnamed: 0,A,B,C,D
0,9,8,0,7
1,7,4,7,3
2,5,0,9,6


0    9
1    4
2    9
dtype: int64


# Estadística descriptiva
- Análisis preliminar de los datos
- Para Series y DataFrame

In [25]:
diccionario = { "nombre" : ["Marisa","Laura","Manuel", "Carlos"], "edad" : [34,34,11, 30], 
               "puntos" : [98,12,98,40], "genero": ["F", "F", "M", "M"] }
frame = pd.DataFrame(diccionario)
display(frame)
display(frame.describe(include='all')) # datos generales de elementos

Unnamed: 0,nombre,edad,puntos,genero
0,Marisa,34,98,F
1,Laura,34,12,F
2,Manuel,11,98,M
3,Carlos,30,40,M


Unnamed: 0,nombre,edad,puntos,genero
count,4,4.0,4.0,4
unique,4,,,2
top,Marisa,,,F
freq,1,,,2
mean,,27.25,62.0,
std,,10.996211,43.112257,
min,,11.0,12.0,
25%,,25.25,33.0,
50%,,32.0,69.0,
75%,,34.0,98.0,


In [26]:
print(type(frame['edad']))

<class 'pandas.core.series.Series'>


In [27]:
# operadores básicos
frame.sum()

nombre    MarisaLauraManuelCarlos
edad                          109
puntos                        248
genero                       FFMM
dtype: object

In [34]:
frame.drop(['nombre','genero'],axis=1).mean() #Eliminamos las columnas con contenido "incompatible" con la media

edad      27.25
puntos    62.00
dtype: float64

In [35]:
frame.cumsum() #suma acumulativa

Unnamed: 0,nombre,edad,puntos,genero
0,Marisa,34,98,F
1,MarisaLaura,68,110,FF
2,MarisaLauraManuel,79,208,FFM
3,MarisaLauraManuelCarlos,109,248,FFMM


In [36]:
frame.count()

nombre    4
edad      4
puntos    4
genero    4
dtype: int64

In [37]:
frame['edad'].std()

10.996211468804457

In [38]:
frame['edad'].idxmax() # índice del elemento con valor máximo para la edad

0

In [40]:
frame['puntos'].idxmin()

1

In [41]:
# frame con las filas con los valores maximos de una columna
print(frame['puntos'].max())
display(frame[frame['puntos'] == frame['puntos'].max()])

98


Unnamed: 0,nombre,edad,puntos,genero
0,Marisa,34,98,F
2,Manuel,11,98,M


pandas incluye métodos para analizar correlaciones
- Relación matemática entre dos variables (-1 negativamente relacionadas, 1 positivamente relacionadas, 0 sin relación)
- obj.corr(obj2) --> medida de correlación entre los datos de ambos objetos
- https://www.datascience.com/blog/introduction-to-correlation-learn-data-science-tutorials

Correlación

In [43]:
x = pd.Series(range(10,20))
y = pd.Series([2,1,4,5,8,12,18,25,96,48])
print("Correlación de x sobre y: ", x.corr(y)) # por defecto, se usa el coeficiente de correlación de Pearson
print("Correlación de y sobre x: ", y.corr(x))

Correlación de x sobre y:  0.7586402890911867
Correlación de y sobre x:  0.7586402890911869


In [44]:
print("Correlación de x sobre y (Rho Spearman): ", x.corr(y, method='spearman'))
print("Correlación de x sobre y (Tau Kendall): ", x.corr(y, method='kendall'))

Correlación de x sobre y (Rho Spearman):  0.9757575757575757
Correlación de x sobre y (Tau Kendall):  0.911111111111111


## Agregaciones

In [45]:
display(frame)
display(frame.groupby('genero').count())  # agrupar primero y aplicar operación después.

Unnamed: 0,nombre,edad,puntos,genero
0,Marisa,34,98,F
1,Laura,34,12,F
2,Manuel,11,98,M
3,Carlos,30,40,M


Unnamed: 0_level_0,nombre,edad,puntos
genero,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
F,2,2,2
M,2,2,2


In [48]:
display(frame.drop('nombre',axis=1).groupby('genero').mean())  # eliminamos primero la columna de datos que no podemos operar

Unnamed: 0_level_0,edad,puntos
genero,Unnamed: 1_level_1,Unnamed: 2_level_1
F,34.0,55.0
M,20.5,69.0


In [49]:
display(frame.groupby('genero').max())

Unnamed: 0_level_0,nombre,edad,puntos
genero,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
F,Marisa,34,98
M,Manuel,30,98


In [52]:
# funciones de agregación de varias columnas para obtener distintos estadísticos
display(frame.groupby('genero')[['edad', 'puntos']].aggregate(['min', np.median, max]))

Unnamed: 0_level_0,edad,edad,edad,puntos,puntos,puntos
Unnamed: 0_level_1,min,median,max,min,median,max
genero,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
F,34,34.0,34,12,55.0,98
M,11,20.5,30,40,69.0,98


In [53]:
# Filtrado de los datos en el que el conjunto no supera una media determinada 
def media(x):
    return x["edad"].mean() > 30

frame.groupby('genero').filter(media)

Unnamed: 0,nombre,edad,puntos,genero
0,Marisa,34,98,F
1,Laura,34,12,F


## Pivot Table
- https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.pivot_table.html
- https://pandas.pydata.org/pandas-docs/stable/user_guide/reshaping.html

In [1]:
# Ejemplo de uso de pivot-table en Pandas
import pandas as pd
import numpy as np

In [2]:
df = pd.read_excel("./datasets/sales-funnel.xlsx") # debemos instalar 'openpyxl' para poder acceder al fichero xlsx
df.head()

Unnamed: 0,Account,Name,Rep,Manager,Product,Quantity,Price,Status
0,714466,Trantow-Barrows,Craig Booker,Debra Henley,CPU,1,30000,presented
1,714466,Trantow-Barrows,Craig Booker,Debra Henley,Software,1,10000,presented
2,714466,Trantow-Barrows,Craig Booker,Debra Henley,Maintenance,2,5000,pending
3,737550,"Fritsch, Russel and Anderson",Craig Booker,Debra Henley,CPU,1,35000,declined
4,146832,Kiehn-Spinka,Daniel Hilton,Debra Henley,CPU,2,65000,won


In [3]:
df["Status"] = df["Status"].astype("category")
df["Status"]=df["Status"].cat.set_categories(["won","pending","presented","declined"])

In [16]:
pd.pivot_table(df,index=["Name"],values=["Account","Price","Quantity"], aggfunc="mean") # el parámetro "aggfunc" nos indica la función de agregación usada (sumatorio, media,...)

Unnamed: 0_level_0,Account,Price,Quantity
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Barton LLC,740150.0,35000.0,1.0
"Fritsch, Russel and Anderson",737550.0,35000.0,1.0
Herman LLC,141962.0,65000.0,2.0
Jerde-Hilpert,412290.0,5000.0,2.0
"Kassulke, Ondricka and Metz",307599.0,7000.0,3.0
Keeling LLC,688981.0,100000.0,5.0
Kiehn-Spinka,146832.0,65000.0,2.0
Koepp Ltd,729833.0,35000.0,2.0
Kulas Inc,218895.0,25000.0,1.5
Purdy-Kunde,163416.0,30000.0,1.0


In [13]:
pd.pivot_table(df,index=["Name","Rep","Manager"], values=["Account","Price","Quantity"], aggfunc="mean")

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Account,Price,Quantity
Name,Rep,Manager,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Barton LLC,John Smith,Debra Henley,740150.0,35000.0,1.0
"Fritsch, Russel and Anderson",Craig Booker,Debra Henley,737550.0,35000.0,1.0
Herman LLC,Cedric Moss,Fred Anderson,141962.0,65000.0,2.0
Jerde-Hilpert,John Smith,Debra Henley,412290.0,5000.0,2.0
"Kassulke, Ondricka and Metz",Wendy Yule,Fred Anderson,307599.0,7000.0,3.0
Keeling LLC,Wendy Yule,Fred Anderson,688981.0,100000.0,5.0
Kiehn-Spinka,Daniel Hilton,Debra Henley,146832.0,65000.0,2.0
Koepp Ltd,Wendy Yule,Fred Anderson,729833.0,35000.0,2.0
Kulas Inc,Daniel Hilton,Debra Henley,218895.0,25000.0,1.5
Purdy-Kunde,Cedric Moss,Fred Anderson,163416.0,30000.0,1.0


In [17]:
pd.pivot_table(df,index=["Manager","Rep"],values=["Account","Price","Quantity"], aggfunc="mean")

Unnamed: 0_level_0,Unnamed: 1_level_0,Account,Price,Quantity
Manager,Rep,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Debra Henley,Craig Booker,720237.0,20000.0,1.25
Debra Henley,Daniel Hilton,194874.0,38333.333333,1.666667
Debra Henley,John Smith,576220.0,20000.0,1.5
Fred Anderson,Cedric Moss,196016.5,27500.0,1.25
Fred Anderson,Wendy Yule,614061.5,44250.0,3.0


# Ejemplo Fuel efficiency
- https://archive.ics.uci.edu/ml/datasets/Auto+MPG

Consumo de combustible (*Miles Per Gallon*)

In [18]:
import pandas as pd
path = 'http://archive.ics.uci.edu/ml/machine-learning-databases/auto-mpg/auto-mpg.data'

mpg_data = pd.read_csv(path, delim_whitespace=True, header=None,
            names = ['mpg', 'cilindros', 'desplazamiento','potencia',
            'peso', 'aceleracion', 'año', 'origen', 'nombre'],
            na_values='?')

In [19]:
display(mpg_data.sample(5))

Unnamed: 0,mpg,cilindros,desplazamiento,potencia,peso,aceleracion,año,origen,nombre
20,25.0,4,110.0,87.0,2672.0,17.5,70,2,peugeot 504
169,20.0,6,232.0,100.0,2914.0,16.0,75,1,amc gremlin
395,32.0,4,135.0,84.0,2295.0,11.6,82,1,dodge rampage
199,20.0,6,225.0,100.0,3651.0,17.7,76,1,dodge aspen se
226,20.5,6,231.0,105.0,3425.0,16.9,77,1,buick skylark


In [20]:
display(mpg_data.describe(include='all'))

Unnamed: 0,mpg,cilindros,desplazamiento,potencia,peso,aceleracion,año,origen,nombre
count,398.0,398.0,398.0,392.0,398.0,398.0,398.0,398.0,398
unique,,,,,,,,,305
top,,,,,,,,,ford pinto
freq,,,,,,,,,6
mean,23.514573,5.454774,193.425879,104.469388,2970.424623,15.56809,76.01005,1.572864,
std,7.815984,1.701004,104.269838,38.49116,846.841774,2.757689,3.697627,0.802055,
min,9.0,3.0,68.0,46.0,1613.0,8.0,70.0,1.0,
25%,17.5,4.0,104.25,75.0,2223.75,13.825,73.0,1.0,
50%,23.0,4.0,148.5,93.5,2803.5,15.5,76.0,1.0,
75%,29.0,8.0,262.0,126.0,3608.0,17.175,79.0,2.0,


In [21]:
mpg_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 398 entries, 0 to 397
Data columns (total 9 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   mpg             398 non-null    float64
 1   cilindros       398 non-null    int64  
 2   desplazamiento  398 non-null    float64
 3   potencia        392 non-null    float64
 4   peso            398 non-null    float64
 5   aceleracion     398 non-null    float64
 6   año             398 non-null    int64  
 7   origen          398 non-null    int64  
 8   nombre          398 non-null    object 
dtypes: float64(5), int64(3), object(1)
memory usage: 28.1+ KB


### Correlaciones entre valores

In [22]:
mpg_data['mpg'].corr(mpg_data['peso']) # + mpg = - peso

-0.8317409332443351

In [23]:
mpg_data['peso'].corr(mpg_data['aceleracion']) # + peso = - aceleracion

-0.4174573199403932

### Correlaciones entre todos los valores

In [26]:
mpg_data.drop(['nombre'],axis=1).corr()

Unnamed: 0,mpg,cilindros,desplazamiento,potencia,peso,aceleracion,año,origen
mpg,1.0,-0.775396,-0.804203,-0.778427,-0.831741,0.420289,0.579267,0.56345
cilindros,-0.775396,1.0,0.950721,0.842983,0.896017,-0.505419,-0.348746,-0.562543
desplazamiento,-0.804203,0.950721,1.0,0.897257,0.932824,-0.543684,-0.370164,-0.609409
potencia,-0.778427,0.842983,0.897257,1.0,0.864538,-0.689196,-0.416361,-0.455171
peso,-0.831741,0.896017,0.932824,0.864538,1.0,-0.417457,-0.306564,-0.581024
aceleracion,0.420289,-0.505419,-0.543684,-0.689196,-0.417457,1.0,0.288137,0.205873
año,0.579267,-0.348746,-0.370164,-0.416361,-0.306564,0.288137,1.0,0.180662
origen,0.56345,-0.562543,-0.609409,-0.455171,-0.581024,0.205873,0.180662,1.0


In [29]:
#año y origen no parecen correlacionables. Evidentemente, el nombre tampoco es correlacionales y, como en el apartado anterior, también lo eliminamos
#eliminar columnas de la correlacion
corr_data = mpg_data.drop(['año','origen','nombre'],axis=1).corr()
display(corr_data)

Unnamed: 0,mpg,cilindros,desplazamiento,potencia,peso,aceleracion
mpg,1.0,-0.775396,-0.804203,-0.778427,-0.831741,0.420289
cilindros,-0.775396,1.0,0.950721,0.842983,0.896017,-0.505419
desplazamiento,-0.804203,0.950721,1.0,0.897257,0.932824,-0.543684
potencia,-0.778427,0.842983,0.897257,1.0,0.864538,-0.689196
peso,-0.831741,0.896017,0.932824,0.864538,1.0,-0.417457
aceleracion,0.420289,-0.505419,-0.543684,-0.689196,-0.417457,1.0


In [30]:
# representación gráfica matplotlib
import matplotlib.pyplot as plt

In [31]:
# representación gráfica
corr_data.style.background_gradient(cmap=plt.get_cmap('RdYlGn'), axis=1)

Unnamed: 0,mpg,cilindros,desplazamiento,potencia,peso,aceleracion
mpg,1.0,-0.775396,-0.804203,-0.778427,-0.831741,0.420289
cilindros,-0.775396,1.0,0.950721,0.842983,0.896017,-0.505419
desplazamiento,-0.804203,0.950721,1.0,0.897257,0.932824,-0.543684
potencia,-0.778427,0.842983,0.897257,1.0,0.864538,-0.689196
peso,-0.831741,0.896017,0.932824,0.864538,1.0,-0.417457
aceleracion,0.420289,-0.505419,-0.543684,-0.689196,-0.417457,1.0


In [33]:
# correlación más negativa
mpg_data.drop(['año','origen','nombre'],axis=1).corr().idxmin()

mpg                   peso
cilindros              mpg
desplazamiento         mpg
potencia               mpg
peso                   mpg
aceleracion       potencia
dtype: object

In [34]:
# correlación más positiva
mpg_data.drop(['año','origen','nombre'],axis=1).corr().idxmax()  #consigo misma....

mpg                          mpg
cilindros              cilindros
desplazamiento    desplazamiento
potencia                potencia
peso                        peso
aceleracion          aceleracion
dtype: object

In [35]:
# tabla similar con las correlaciones más positivas (evitar parejas del mismo valor)
positive_corr = mpg_data.drop(['año','origen','nombre'],axis=1).corr()
np.fill_diagonal(positive_corr.values, 0)
# display(positive_corr)
positive_corr.idxmax()

mpg                  aceleracion
cilindros         desplazamiento
desplazamiento         cilindros
potencia          desplazamiento
peso              desplazamiento
aceleracion                  mpg
dtype: object

In [36]:
positive_corr.style.background_gradient(cmap=plt.get_cmap('RdYlGn'), axis=1)

Unnamed: 0,mpg,cilindros,desplazamiento,potencia,peso,aceleracion
mpg,0.0,-0.775396,-0.804203,-0.778427,-0.831741,0.420289
cilindros,-0.775396,0.0,0.950721,0.842983,0.896017,-0.505419
desplazamiento,-0.804203,0.950721,0.0,0.897257,0.932824,-0.543684
potencia,-0.778427,0.842983,0.897257,0.0,0.864538,-0.689196
peso,-0.831741,0.896017,0.932824,0.864538,0.0,-0.417457
aceleracion,0.420289,-0.505419,-0.543684,-0.689196,-0.417457,0.0


## <img src="img/by-nc.png" width="200">