
<img src="img/viu_logo.png" width="200">

## 01MIAR - Estructuras de datos, +Pandas

![logo](img/python_logo.png)

*Ivan Fuertes*

In [1]:
import pandas as pd
import numpy as np

# Operaciones en pandas

#### Búsqueda

In [2]:
rand_matrix = np.random.randint(6,size=(2,3))
frame = pd.DataFrame(rand_matrix , columns=list('ABC'))
display(frame)

Unnamed: 0,A,B,C
0,4,0,3
1,4,1,5


In [3]:
# buscando columnas (DataFrame como dic, busca en claves)
'A' in frame

True

In [4]:
# buscando valores
display(frame.isin([3,2])) # --> mask de respuesta (valores que son 3 o 2)

Unnamed: 0,A,B,C
0,False,False,True
1,False,False,False


In [5]:
# Contar el número de ocurrencias
print(frame.isin([5]).values.sum())
display(frame.isin([5])) #devuelve una mask con valores true si el elemento es 4
type(frame.isin([1]).values) # pandas es una capa alrededor de numpy

1


Unnamed: 0,A,B,C
0,False,False,False
1,False,False,True


numpy.ndarray

In [6]:
# Cuántos valores son >= 4
mask = frame >= 4
print(mask.values.sum())
display(mask)

3


Unnamed: 0,A,B,C
0,True,False,False
1,True,False,True


#### Ordenación

In [7]:
from random import shuffle

rand_matrix = np.random.randint(20,size=(5,4))

indices = list(range(5))
shuffle(indices) # mezcla indices

frame = pd.DataFrame(rand_matrix , columns=list('DACB'), index=indices)
display(frame)

Unnamed: 0,D,A,C,B
3,19,18,9,1
0,19,5,16,5
2,17,12,19,7
1,12,7,18,2
4,0,12,12,17


In [8]:
# ordenar por índice
display(frame.sort_index(ascending=True))
display(frame)

Unnamed: 0,D,A,C,B
0,19,5,16,5
1,12,7,18,2
2,17,12,19,7
3,19,18,9,1
4,0,12,12,17


Unnamed: 0,D,A,C,B
3,19,18,9,1
0,19,5,16,5
2,17,12,19,7
1,12,7,18,2
4,0,12,12,17


In [9]:
#ordenar por titulo de columna, en este caso alfabetico
display(frame.sort_index(axis=1, ascending=True))

Unnamed: 0,A,B,C,D
3,18,1,9,19
0,5,5,16,19
2,12,7,19,17
1,7,2,18,12
4,12,17,12,0


In [10]:
display(frame.sort_index(axis=0, ascending=True)) # por orden de indice en este caso numerico, pero podria ser alfabetico

Unnamed: 0,D,A,C,B
0,19,5,16,5
1,12,7,18,2
2,17,12,19,7
3,19,18,9,1
4,0,12,12,17


In [11]:
# ordenar filas por valor en columna
display(frame.sort_values(by='A', ascending=False))

Unnamed: 0,D,A,C,B
3,19,18,9,1
2,17,12,19,7
4,0,12,12,17
1,12,7,18,2
0,19,5,16,5


In [12]:
# ordenar columnas por valor en fila
display(frame.sort_values(by=1, axis=1, ascending=True)) # aqui a cambiado el axis igual a 1 lo llama fila

Unnamed: 0,B,A,D,C
3,1,18,19,9
0,5,5,19,16
2,7,12,17,19
1,2,7,12,18
4,17,12,0,12


In [13]:
# ordenar por valor en columna y guardar cambios
frame.sort_values(by='A', ascending=False, inplace=True)
display(frame)

Unnamed: 0,D,A,C,B
3,19,18,9,1
2,17,12,19,7
4,0,12,12,17
1,12,7,18,2
0,19,5,16,5


#### Ranking
- Construir un ranking de valores

In [14]:
display(frame)

Unnamed: 0,D,A,C,B
3,19,18,9,1
2,17,12,19,7
4,0,12,12,17
1,12,7,18,2
0,19,5,16,5


In [15]:
display(frame.rank(method='average', axis= 0)) # axis 1 por filas, axis = 0 columnas

Unnamed: 0,D,A,C,B
3,4.5,5.0,1.0,1.0
2,3.0,3.5,5.0,4.0
4,1.0,3.5,2.0,5.0
1,2.0,2.0,4.0,2.0
0,4.5,1.0,3.0,3.0


In [16]:
frame['A'].mean()

10.8

In [17]:
frame.iloc[:,1].mean()

10.8

In [18]:
for n in frame.columns:
    print(n)
    print(frame[n].mean())

D
13.4
A
10.8
C
14.8
B
6.4


In [19]:
# Imprimir, uno a uno, los valores de la columna 'C' de mayor a menor
for x in frame.sort_values(by='C', ascending=False)['C'].values:
    print(x)

19
18
16
12
9


# Operaciones

Operaciones matemáticas entre objetos

In [20]:
matrixA = np.random.randint(100,size=(4,4))
matrixB = np.random.randint(100,size=(4,4))
frameA = pd.DataFrame(matrixA)
frameB = pd.DataFrame(matrixB)
display(frameA)
display(frameB)

Unnamed: 0,0,1,2,3
0,88,92,1,58
1,41,57,39,6
2,13,43,87,28
3,10,46,28,69


Unnamed: 0,0,1,2,3
0,56,56,2,67
1,67,49,89,41
2,35,58,30,59
3,86,29,61,62


In [21]:
# a través de métodos u operadores
display(frameA + frameB == frameA.add(frameB))
display(frameA + frameB)

Unnamed: 0,0,1,2,3
0,True,True,True,True
1,True,True,True,True
2,True,True,True,True
3,True,True,True,True


Unnamed: 0,0,1,2,3
0,144,148,3,125
1,108,106,128,47
2,48,101,117,87
3,96,75,89,131


In [22]:
display(frameB - frameA == frameB.sub(frameA))
display(frameB - frameA)

Unnamed: 0,0,1,2,3
0,True,True,True,True
1,True,True,True,True
2,True,True,True,True
3,True,True,True,True


Unnamed: 0,0,1,2,3
0,-32,-36,1,9
1,26,-8,50,35
2,22,15,-57,31
3,76,-17,33,-7


In [23]:
# si los frames no son iguales, valor por defecto NaN
frameC = pd.DataFrame(np.random.randint(100,size=(3,3)))
display(frameA)
display(frameC)
display(frameA + frameC)

Unnamed: 0,0,1,2,3
0,88,92,1,58
1,41,57,39,6
2,13,43,87,28
3,10,46,28,69


Unnamed: 0,0,1,2
0,29,6,81
1,22,59,6
2,14,58,46


Unnamed: 0,0,1,2,3
0,117.0,98.0,82.0,
1,63.0,116.0,45.0,
2,27.0,101.0,133.0,
3,,,,


In [24]:
# se puede especificar el valor por defecto con el argumento fill_value IMPORTANTE 
display(frameA.sub(frameC, fill_value=0))

Unnamed: 0,0,1,2,3
0,59.0,86.0,-80.0,58.0
1,19.0,-2.0,33.0,6.0
2,-1.0,-15.0,41.0,28.0
3,10.0,46.0,28.0,69.0


Operadores aritméticos solo válidos en elementos aceptables

In [25]:
# frameD = pd.DataFrame({0: ['a','b'],1:['d','f']})
# display(frameD)
# frameA - frameD

Operaciones entre Series y DataFrames

In [30]:
rand_matrix = np.random.randint(10, size=(3, 4))
df = pd.DataFrame(rand_matrix , columns=list('ABCD'))
display(df)

display(type(df.iloc[0]))
# uso común, averiguar la diferencia entre una fila y el resto
display(df - df.iloc[0]) # resta la fila 0 al resto de columnas y a si misma
# Por columnas cómo se restaría
display(df.sub(df['A'], axis=0)) # resta la columna asi misma y al resto

Unnamed: 0,A,B,C,D
0,1,7,2,6
1,7,9,4,0
2,8,3,5,3


pandas.core.series.Series

Unnamed: 0,A,B,C,D
0,0,0,0,0
1,6,2,2,-6
2,7,-4,3,-3


Unnamed: 0,A,B,C,D
0,0,6,1,5
1,0,2,-3,-7
2,0,-5,-3,-5


pandas se basa en NumPy, np operadores binarios y unarios son aceptables 

| Tipo | Operación | Descripción |
|:---------|:-----|:-----|
| Unario | *abs* | Valor absoluto de cada elemento |
| | *sqrt* | Raíz cuadrada de cada elemento |
| | *exp* | e^x, siendo x cad elemento |
| | *log, log10, log2* | Logaritmos en distintas bases de cada elemento |
| | *sign* | Retorna el signo de cada elemento (-1 para negativo, 0 o 1 para positivo) |
| | *ceil* | Redondea cada elemento por arriba |
| | *floor* | Redondea cada elemento por abajo |
| | *isnan* | Retorna si cada elemento es Nan |
| | *cos, sin, tan* | Operaciones trigonométricas en cada elemento |
| | *arccos, arcsin, arctan* | Inversas de operaciones trigonométricas en cada elemento |
| Binario | *add* | Suma de dos arrays |
| | *substract* | Resta de dos arrays |
| | *multiply* | Multiplicación de dos arrays |
| | *divide* | División de dos arrays |
| | *maximum, minimum* | Retorna el valor máximo/mínimo de cada pareja de elementos |
| | *equal, not_equal* | Retorna la comparación (igual o no igual) de cada pareja de elementos |
| | *greater, greater_equal, less, less_equal* | Retorna la comparación (>, >=, <, <= respectivamente) de cada pareja de elementos |

## .apply() y rolling()

Aplicación de funciones a medida con lambda

In [29]:
rand_matrix = np.random.randint(20, size=(10, 2))
df = pd.DataFrame(rand_matrix , columns=list('AB'))
display(df)
print(df.apply(lambda x : x.max() - x.min())) # diferencia por columna
display(df.max(axis= 0) - df.min(axis= 0))

Unnamed: 0,A,B
0,9,5
1,2,0
2,5,9
3,10,13
4,18,3
5,9,10
6,12,11
7,10,13
8,15,8
9,4,1


A    16
B    13
dtype: int32


A    16
B    13
dtype: int32

In [34]:
# diferencia entre min y max por fila (no columna)
rand_matrix = np.random.randint(10, size=(3, 4))
frame = pd.DataFrame(rand_matrix , columns=list('ABCD'))
display(frame)
print(frame.apply(lambda x : x.max() - x.min(), axis = 1)) # diferencia por fila

Unnamed: 0,A,B,C,D
0,2,2,7,0
1,4,1,3,3
2,4,5,3,6


0    7
1    3
2    3
dtype: int32


In [33]:
# rolling sobre una secuencia de ventana
# muy utilizada en series temporales para cálculo de media movil

df['C'] = df['A'].rolling(window= 3, center= False, min_periods=2).mean() # aplica una media movil sobre la columna A 
df

Unnamed: 0,A,B,C
0,9,5,
1,2,0,5.5
2,5,9,5.333333
3,10,13,5.666667
4,18,3,11.0
5,9,10,12.333333
6,12,11,13.0
7,10,13,10.333333
8,15,8,12.333333
9,4,1,9.666667


### Mas opciones con el rolling()

In [35]:
# permite pasarle una función personalizada
def funcion(x): # solo es una funcion de ejemplo
    pos = x.index.values[1]
    return x.mean() - df.loc[pos, 'B']

df['C'] = df['A'].rolling(window= 3, center= False, min_periods=2).apply(lambda x: funcion(x))  # el valor de c es la media movil de 3 valores de A menos el penultimo valor de B 
# rolling tiene el parametro raw= False o True que devuelve un np.array([])
df

Unnamed: 0,A,B,C
0,9,5,
1,2,0,5.5
2,5,9,5.333333
3,10,13,-3.333333
4,18,3,-2.0
5,9,10,9.333333
6,12,11,3.0
7,10,13,-0.666667
8,15,8,-0.666667
9,4,1,1.666667


# Estadística descriptiva
- Análisis preliminar de los datos
- Para Series y DataFrame

| Operación | Descripción |
|:----------|:------------|
| count | Número de valores no NaN |
| describe | Conjunto de estadísticas sumarias|
| min, max | Valores mínimo y máximo |
| argmin, argmax | Índices posicionales del valor mínimo y máximo |
| idxmin, idxmax | Índices semánticos del valor mínimo y máximo |
| sum | Suma de los elementos |
| mean | Media de los elementos |
| median | Mediana de los elementos |
| mad | Desviación absoluta media del valor medio |
| var | Varianza de los elementos |
| std | Desviación estándar de los elementos |
| cumsum | Suma acumulada de los elementos |
| diff | Diferencia aritmética de los elementos |

In [37]:
diccionario = { "nombre" : ["Marisa","Laura","Manuel", "Carlos"], "edad" : [34,34,11, 30], 
               "puntos" : [98,12,98,np.nan], "genero": ["F", "F", "M", "M"] }
frame = pd.DataFrame(diccionario)
display(frame)
display(frame.describe(include='all')) # datos generales de elementos

Unnamed: 0,nombre,edad,puntos,genero
0,Marisa,34,98.0,F
1,Laura,34,12.0,F
2,Manuel,11,98.0,M
3,Carlos,30,,M


Unnamed: 0,nombre,edad,puntos,genero
count,4,4.0,3.0,4
unique,4,,,2
top,Marisa,,,F
freq,1,,,2
mean,,27.25,69.333333,
std,,10.996211,49.652123,
min,,11.0,12.0,
25%,,25.25,55.0,
50%,,32.0,98.0,
75%,,34.0,98.0,


In [38]:
print(type(frame['edad']))

<class 'pandas.core.series.Series'>


In [39]:
# operadores básicos
print(frame.sum())
print(frame.sum(axis=1, numeric_only=True))

nombre    MarisaLauraManuelCarlos
edad                          109
puntos                      208.0
genero                       FFMM
dtype: object
0    132.0
1     46.0
2    109.0
3     30.0
dtype: float64


In [40]:
frame.mean(numeric_only=True)

edad      27.250000
puntos    69.333333
dtype: float64

In [41]:
frame.cumsum()

Unnamed: 0,nombre,edad,puntos,genero
0,Marisa,34,98.0,F
1,MarisaLaura,68,110.0,FF
2,MarisaLauraManuel,79,208.0,FFM
3,MarisaLauraManuelCarlos,109,,FFMM


In [42]:
frame.count()

nombre    4
edad      4
puntos    3
genero    4
dtype: int64

In [43]:
frame['edad'].std()

10.996211468804457

In [44]:
frame['edad'].idxmax()

0

In [45]:
frame['puntos'].idxmin()

1

In [46]:
# frame con las filas con los valores maximos de una columna
print(frame['puntos'].max())
display(frame[frame['puntos'] == frame['puntos'].max()])

98.0


Unnamed: 0,nombre,edad,puntos,genero
0,Marisa,34,98.0,F
2,Manuel,11,98.0,M


## GROUPBY().Agregaciones

In [47]:
display(frame)
frame.groupby('genero').count() # le aplica la funcion a las columnas numericas

Unnamed: 0,nombre,edad,puntos,genero
0,Marisa,34,98.0,F
1,Laura,34,12.0,F
2,Manuel,11,98.0,M
3,Carlos,30,,M


Unnamed: 0_level_0,nombre,edad,puntos
genero,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
F,2,2,2
M,2,2,1


### el truco LOC para groupby()

In [48]:
# display(frame.groupby('genero').mean()) # no puede hacer la agreacion de mean a las no numericas

In [49]:
frame.loc[:,['genero', 'puntos', 'edad']].groupby('genero').mean()

Unnamed: 0_level_0,puntos,edad
genero,Unnamed: 1_level_1,Unnamed: 2_level_1
F,55.0,34.0
M,98.0,20.5


In [41]:
display(frame.groupby('genero').max())

Unnamed: 0_level_0,nombre,edad,puntos
genero,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
F,Marisa,34,98.0
M,Manuel,30,98.0


### Aggregate([lista de funciones]) en groupby()

In [42]:
# funciones de agregación de varias columnas para obtener distintos estadísticos
display(frame.groupby('genero')[['edad', 'puntos']].aggregate(['min', np.median, max]))

Unnamed: 0_level_0,edad,edad,edad,puntos,puntos,puntos
Unnamed: 0_level_1,min,median,max,min,median,max
genero,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
F,34,34.0,34,12.0,55.0,98.0
M,11,20.5,30,98.0,98.0,98.0


#### Forma recomendada

In [50]:
# seleccionar columans y operaciones

display(frame.groupby('genero').aggregate({ # se aplica un diccionario con las claves en las columnas y los valores las funciones
    'edad':'sum',
    'puntos':'mean'
}))

# seleccionar las columnas y operaciones

display(frame.groupby('genero').aggregate(
    maximo_edad= pd.NamedAgg(column='edad', aggfunc= 'max')
))

Unnamed: 0_level_0,edad,puntos
genero,Unnamed: 1_level_1,Unnamed: 2_level_1
F,68,55.0
M,41,98.0


Unnamed: 0_level_0,maximo_edad
genero,Unnamed: 1_level_1
F,34
M,30


In [None]:
# Filtrado de los datos en el que el conjunto no supera una media determinada 
def media(x):
    return x["edad"].mean() > 30

display(frame)
frame.groupby('genero').filter(media)

## Correlaciones

pandas incluye métodos para analizar correlaciones
- Relación matemática entre dos variables (-1 negativamente relacionadas, 1 positivamente relacionadas, 0 sin relación)
- obj.corr(obj2) --> medida de correlación entre los datos de ambos objetos
- https://blogs.oracle.com/ai-and-datascience/post/introduction-to-correlation

### Ejemplo Fuel efficiency
- https://archive.ics.uci.edu/ml/datasets/Auto+MPG

In [31]:
import pandas as pd
path = 'http://archive.ics.uci.edu/ml/machine-learning-databases/auto-mpg/auto-mpg.data'

mpg_data = pd.read_csv(path, delim_whitespace=True, header=None,
            names = ['mpg', 'cilindros', 'desplazamiento','potencia',
            'peso', 'aceleracion', 'año', 'origen', 'nombre'],
            na_values='?')

In [32]:
display(mpg_data.sample(5))

Unnamed: 0,mpg,cilindros,desplazamiento,potencia,peso,aceleracion,año,origen,nombre
230,15.5,8,350.0,170.0,4165.0,11.4,77,1,chevrolet monte carlo landau
395,32.0,4,135.0,84.0,2295.0,11.6,82,1,dodge rampage
239,30.0,4,97.0,67.0,1985.0,16.4,77,3,subaru dl
43,13.0,8,400.0,170.0,4746.0,12.0,71,1,ford country squire (sw)
118,24.0,4,116.0,75.0,2158.0,15.5,73,2,opel manta


In [33]:
mpg_data['origen'].unique()

array([1, 3, 2], dtype=int64)

In [34]:
display(mpg_data.describe(include='all'))

Unnamed: 0,mpg,cilindros,desplazamiento,potencia,peso,aceleracion,año,origen,nombre
count,398.0,398.0,398.0,392.0,398.0,398.0,398.0,398.0,398
unique,,,,,,,,,305
top,,,,,,,,,ford pinto
freq,,,,,,,,,6
mean,23.514573,5.454774,193.425879,104.469388,2970.424623,15.56809,76.01005,1.572864,
std,7.815984,1.701004,104.269838,38.49116,846.841774,2.757689,3.697627,0.802055,
min,9.0,3.0,68.0,46.0,1613.0,8.0,70.0,1.0,
25%,17.5,4.0,104.25,75.0,2223.75,13.825,73.0,1.0,
50%,23.0,4.0,148.5,93.5,2803.5,15.5,76.0,1.0,
75%,29.0,8.0,262.0,126.0,3608.0,17.175,79.0,2.0,


In [35]:
mpg_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 398 entries, 0 to 397
Data columns (total 9 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   mpg             398 non-null    float64
 1   cilindros       398 non-null    int64  
 2   desplazamiento  398 non-null    float64
 3   potencia        392 non-null    float64
 4   peso            398 non-null    float64
 5   aceleracion     398 non-null    float64
 6   año             398 non-null    int64  
 7   origen          398 non-null    int64  
 8   nombre          398 non-null    object 
dtypes: float64(5), int64(3), object(1)
memory usage: 28.1+ KB


### Correlaciones entre valores

In [36]:
mpg_data['mpg'].corr(mpg_data['peso']) # + mpg = - peso

-0.8317409332443354

In [37]:
mpg_data['peso'].corr(mpg_data['aceleracion']) # + peso = - aceleracion

-0.41745731994039337

### Correlaciones entre todos los valores

In [38]:
mpg_data.corr(numeric_only=True)

Unnamed: 0,mpg,cilindros,desplazamiento,potencia,peso,aceleracion,año,origen
mpg,1.0,-0.775396,-0.804203,-0.778427,-0.831741,0.420289,0.579267,0.56345
cilindros,-0.775396,1.0,0.950721,0.842983,0.896017,-0.505419,-0.348746,-0.562543
desplazamiento,-0.804203,0.950721,1.0,0.897257,0.932824,-0.543684,-0.370164,-0.609409
potencia,-0.778427,0.842983,0.897257,1.0,0.864538,-0.689196,-0.416361,-0.455171
peso,-0.831741,0.896017,0.932824,0.864538,1.0,-0.417457,-0.306564,-0.581024
aceleracion,0.420289,-0.505419,-0.543684,-0.689196,-0.417457,1.0,0.288137,0.205873
año,0.579267,-0.348746,-0.370164,-0.416361,-0.306564,0.288137,1.0,0.180662
origen,0.56345,-0.562543,-0.609409,-0.455171,-0.581024,0.205873,0.180662,1.0


In [40]:
mpg_data.corr(numeric_only=True)

Unnamed: 0,mpg,cilindros,desplazamiento,potencia,peso,aceleracion,año,origen
mpg,1.0,-0.775396,-0.804203,-0.778427,-0.831741,0.420289,0.579267,0.56345
cilindros,-0.775396,1.0,0.950721,0.842983,0.896017,-0.505419,-0.348746,-0.562543
desplazamiento,-0.804203,0.950721,1.0,0.897257,0.932824,-0.543684,-0.370164,-0.609409
potencia,-0.778427,0.842983,0.897257,1.0,0.864538,-0.689196,-0.416361,-0.455171
peso,-0.831741,0.896017,0.932824,0.864538,1.0,-0.417457,-0.306564,-0.581024
aceleracion,0.420289,-0.505419,-0.543684,-0.689196,-0.417457,1.0,0.288137,0.205873
año,0.579267,-0.348746,-0.370164,-0.416361,-0.306564,0.288137,1.0,0.180662
origen,0.56345,-0.562543,-0.609409,-0.455171,-0.581024,0.205873,0.180662,1.0


In [41]:
#año y origen no parecen correlacionables
#eliminar columnas de la correlacion
corr_data = mpg_data.drop(['año','origen'],axis=1).corr(numeric_only=True)
display(corr_data)

Unnamed: 0,mpg,cilindros,desplazamiento,potencia,peso,aceleracion
mpg,1.0,-0.775396,-0.804203,-0.778427,-0.831741,0.420289
cilindros,-0.775396,1.0,0.950721,0.842983,0.896017,-0.505419
desplazamiento,-0.804203,0.950721,1.0,0.897257,0.932824,-0.543684
potencia,-0.778427,0.842983,0.897257,1.0,0.864538,-0.689196
peso,-0.831741,0.896017,0.932824,0.864538,1.0,-0.417457
aceleracion,0.420289,-0.505419,-0.543684,-0.689196,-0.417457,1.0


In [42]:
# representación gráfica matplotlib
import matplotlib.pyplot as plt

In [44]:
# representación gráfica
corr_data.style.background_gradient(cmap=plt.get_cmap('plasma'), axis=1)

Unnamed: 0,mpg,cilindros,desplazamiento,potencia,peso,aceleracion
mpg,1.0,-0.775396,-0.804203,-0.778427,-0.831741,0.420289
cilindros,-0.775396,1.0,0.950721,0.842983,0.896017,-0.505419
desplazamiento,-0.804203,0.950721,1.0,0.897257,0.932824,-0.543684
potencia,-0.778427,0.842983,0.897257,1.0,0.864538,-0.689196
peso,-0.831741,0.896017,0.932824,0.864538,1.0,-0.417457
aceleracion,0.420289,-0.505419,-0.543684,-0.689196,-0.417457,1.0


In [46]:
# correlación más negativa
mpg_data.drop(['año','origen'],axis=1).corr(numeric_only=True).idxmin()

mpg                   peso
cilindros              mpg
desplazamiento         mpg
potencia               mpg
peso                   mpg
aceleracion       potencia
dtype: object

In [47]:
# correlación más positiva
mpg_data.drop(['año','origen'],axis=1).corr(numeric_only=True).idxmax()  #consigo misma....

mpg                          mpg
cilindros              cilindros
desplazamiento    desplazamiento
potencia                potencia
peso                        peso
aceleracion          aceleracion
dtype: object

In [49]:
# tabla similar con las correlaciones más positivas (evitar parejas del mismo valor)
positive_corr = mpg_data.drop(['año','origen'],axis=1).corr(numeric_only=True)
np.fill_diagonal(positive_corr.values, 0)
display(positive_corr)
positive_corr.idxmax()

Unnamed: 0,mpg,cilindros,desplazamiento,potencia,peso,aceleracion
mpg,0.0,-0.775396,-0.804203,-0.778427,-0.831741,0.420289
cilindros,-0.775396,0.0,0.950721,0.842983,0.896017,-0.505419
desplazamiento,-0.804203,0.950721,0.0,0.897257,0.932824,-0.543684
potencia,-0.778427,0.842983,0.897257,0.0,0.864538,-0.689196
peso,-0.831741,0.896017,0.932824,0.864538,0.0,-0.417457
aceleracion,0.420289,-0.505419,-0.543684,-0.689196,-0.417457,0.0


mpg                  aceleracion
cilindros         desplazamiento
desplazamiento         cilindros
potencia          desplazamiento
peso              desplazamiento
aceleracion                  mpg
dtype: object

In [50]:
positive_corr.style.background_gradient(cmap=plt.get_cmap('RdYlGn'), axis=1, vmin=-1.0, vmax=1.0)

Unnamed: 0,mpg,cilindros,desplazamiento,potencia,peso,aceleracion
mpg,0.0,-0.775396,-0.804203,-0.778427,-0.831741,0.420289
cilindros,-0.775396,0.0,0.950721,0.842983,0.896017,-0.505419
desplazamiento,-0.804203,0.950721,0.0,0.897257,0.932824,-0.543684
potencia,-0.778427,0.842983,0.897257,0.0,0.864538,-0.689196
peso,-0.831741,0.896017,0.932824,0.864538,0.0,-0.417457
aceleracion,0.420289,-0.505419,-0.543684,-0.689196,-0.417457,0.0


# Notas

- pandas profiling
- geo pandas

In [2]:
! pip install seaborn

Collecting seaborn
  Using cached seaborn-0.12.2-py3-none-any.whl (293 kB)
Installing collected packages: seaborn
Successfully installed seaborn-0.12.2



[notice] A new release of pip is available: 23.0.1 -> 23.1.2
[notice] To update, run: python.exe -m pip install --upgrade pip
