<div style="display:flex; justify-content:center; align-items:center; margin:25px 0;">
    
![jupyter](img/logo.png)

</div>

## 01MIAR - Estructuras de datos, +Pandas

<div style="display:flex; justify-content:center; align-items:center; margin:25px 0;">
    
![jupyter](img/python.png)

</div>

<div align="center">
    
## **Nombre**: ***Adriel Bedoya***

</div>

In [1]:
import pandas as pd
import numpy as np

In [2]:
pd.__version__

'2.3.3'

# Operaciones en pandas

#### Búsqueda

In [4]:
#Generamos una matriz con números random enteros hasta el 6, con un tamaño de matriz de 2 filas x 3 col
rand_matrix = np.random.randint(6,size=(2,3))
#entramos con el método de dataframe, hacemos referencia a la matríz y almacenamos los names de las col como A , B , C
frame = pd.DataFrame(rand_matrix , columns=list('ABC'))
#MOSTRAMOS
display(frame)

Unnamed: 0,A,B,C
0,5,0,4
1,1,4,5


In [5]:
# buscando columnas (DataFrame como dic, busca en claves)
'A' in frame

True

In [8]:
# buscando valores
#isin() comprueba celda por celda si el valor está dentro de la lista [3, 2]
#Saldrá true si la celda contiene 3 o 2
display(frame.isin([3,2])) # --> mask de respuesta (valores que son 3 o 2)

Unnamed: 0,A,B,C
0,False,False,False
1,False,False,False


In [10]:
# Contar el número de ocurrencias

#Crea una mask bool dará true si es 4, sino false, values convierte en array de numpy y sum() cuenta cuántas veces aparece el valor 4 en todo el DataFrame.
print(frame.isin([4]).values.sum())
print("---------------------------------------")
#devuelve una mask con valores true si el elemento es 4
display(frame.isin([4]))
print("---------------------------------------")
#Imprime el array de NumPy que hay debajo del DataFrame.
print(frame.isin([4]).values)
print("---------------------------------------")
type(frame.isin([4]).values) # pandas es una capa alrededor de numpy

2
---------------------------------------


Unnamed: 0,A,B,C
0,False,False,True
1,False,True,False


---------------------------------------
[[False False  True]
 [False  True False]]
---------------------------------------


numpy.ndarray

In [11]:
# Cuántos valores son >= 2

#Creamos la condición para el dataframe, todos los valores mayores o iguales a 2
mask = frame >= 2
#Ponemos mask y que vaya viendo cuántos números cumplen la condición
print(mask.values.sum())
#print
display(mask)

4


Unnamed: 0,A,B,C
0,True,False,True
1,False,True,True


#### Ordenación

In [13]:
from random import shuffle #shuffle es el módulo estándar random

#Genera una matriz NumPy de tamaño 5×4 y los valores son enteros aleatorios entre 0 y 19.
rand_matrix = np.random.randint(20,size=(5,4))
#Creamos una lista de índices del 0 al 4
indices = list(range(5))
#Mezcla la lista indices directamente, No crea una nueva lista.
shuffle(indices)

#inserta los datos para el dataframe, crea las columnas con DACB y asigna el índice mezclado
frame = pd.DataFrame(rand_matrix , columns=list('DACB'), index=indices)
#print
display(frame)

Unnamed: 0,D,A,C,B
3,4,2,10,14
4,18,3,1,1
2,18,19,7,4
0,0,9,18,9
1,8,10,6,6


In [16]:
# ordenar por índice

#Ordenamos los índices de manera descendente
display(frame.sort_index(ascending=False))
print("-------------------------------------")
#Como estaría sin ordenar
display(frame)

Unnamed: 0,D,A,C,B
4,18,3,1,1
3,4,2,10,14
2,18,19,7,4
1,8,10,6,6
0,0,9,18,9


-------------------------------------


Unnamed: 0,D,A,C,B
3,4,2,10,14
4,18,3,1,1
2,18,19,7,4
0,0,9,18,9
1,8,10,6,6


In [18]:
#ordenar por columna
#Recordemos que axis = 0 es para filas, axis = 1 es para col y axis = 2 es para los bloques
#me da tok ver así, le pondré en ascendente
display(frame.sort_index(axis=1, ascending=True))

Unnamed: 0,A,B,C,D
3,2,14,10,4
4,3,1,1,18
2,19,4,7,18
0,9,9,18,0
1,10,6,6,8


In [19]:
# ordenar filas por valor en columna

#Toda la columna "A" estará ordenada de manera ascendente
display(frame.sort_values(by='A', ascending=True))

Unnamed: 0,D,A,C,B
3,4,2,10,14
4,18,3,1,1
0,0,9,18,9
1,8,10,6,6
2,18,19,7,4


In [20]:
# ordenar columnas por valor en fila
#Ordena valores en un DataFrame.
#las columnas se reordenan, no las filas.
#by=1 indica que el criterio de ordenación es la fila con índice 1.

display(frame.sort_values(by=1, axis=1, ascending=True))

Unnamed: 0,B,C,D,A
3,14,10,4,2
4,1,1,18,3
2,4,7,18,19
0,9,18,0,9
1,6,6,8,10


In [21]:
# ordenar por valor en columna y guardar cambios
frame.sort_values(by='A', ascending=False, inplace=True)
display(frame)

Unnamed: 0,D,A,C,B
2,18,19,7,4
1,8,10,6,6
0,0,9,18,9
4,18,3,1,1
3,4,2,10,14


#### Ranking
- Construir un ranking de valores

In [22]:
display(frame)

Unnamed: 0,D,A,C,B
2,18,19,7,4
1,8,10,6,6
0,0,9,18,9
4,18,3,1,1
3,4,2,10,14


In [23]:
#rank() asigna rangos numéricos a los valores del DataFrame según su orden.
#rank(min_rango, max_rango)
#Indica que el ranking se hace por filas.
#Cada fila se procesa independientemente y las columnas de una misma fila se comparan entre sí.
#Si fuera axis=0 (default), el ranking sería por columnas.
display(frame.rank(method='max', axis=1))

Unnamed: 0,D,A,C,B
2,3.0,4.0,2.0,1.0
1,3.0,4.0,2.0,2.0
0,1.0,3.0,4.0,3.0
4,4.0,3.0,2.0,2.0
3,2.0,1.0,3.0,4.0


In [24]:
# Imprimir, uno a uno, los valores de la columna 'C' de mayor a menor
for x in frame.sort_values(by='C', ascending=False)['C'].values:
    print(x)

18
10
7
6
1


# Operaciones

Operaciones matemáticas entre objetos

In [25]:
matrixA = np.random.randint(100,size=(4,4))
matrixB = np.random.randint(100,size=(4,4))
frameA = pd.DataFrame(matrixA)
frameB = pd.DataFrame(matrixB)
display(frameA)
display(frameB)

Unnamed: 0,0,1,2,3
0,42,34,46,99
1,36,87,22,91
2,93,64,93,99
3,64,89,59,37


Unnamed: 0,0,1,2,3
0,17,30,33,39
1,96,64,94,83
2,10,64,23,90
3,31,19,95,27


In [26]:
# a través de métodos u operadores
#Compara si sumar frameA + frameB es igual al frameA.add(frameB)
display(frameA + frameB == frameA.add(frameB)) #Verdadero

display(frameA + frameB) #Suma

Unnamed: 0,0,1,2,3
0,True,True,True,True
1,True,True,True,True
2,True,True,True,True
3,True,True,True,True


Unnamed: 0,0,1,2,3
0,59,64,79,138
1,132,151,116,174
2,103,128,116,189
3,95,108,154,64


In [27]:
display(frameB - frameA == frameB.sub(frameA))
display(frameB - frameA)

Unnamed: 0,0,1,2,3
0,True,True,True,True
1,True,True,True,True
2,True,True,True,True
3,True,True,True,True


Unnamed: 0,0,1,2,3
0,-25,-4,-13,-60
1,60,-23,72,-8
2,-83,0,-70,-9
3,-33,-70,36,-10


In [28]:
# si los frames no son iguales, valor por defecto NaN
frameC = pd.DataFrame(np.random.randint(100,size=(3,3)))
display(frameA)
display(frameC)
display(frameC + frameA)

Unnamed: 0,0,1,2,3
0,42,34,46,99
1,36,87,22,91
2,93,64,93,99
3,64,89,59,37


Unnamed: 0,0,1,2
0,9,8,78
1,20,94,15
2,84,51,22


Unnamed: 0,0,1,2,3
0,51.0,42.0,124.0,
1,56.0,181.0,37.0,
2,177.0,115.0,115.0,
3,,,,


In [29]:
# se puede especificar el valor por defecto con el argumento fill_value
display(frameA.add(frameC, fill_value=0))

Unnamed: 0,0,1,2,3
0,51.0,42.0,124.0,99.0
1,56.0,181.0,37.0,91.0
2,177.0,115.0,115.0,99.0
3,64.0,89.0,59.0,37.0


Operadores aritméticos solo válidos en elementos aceptables

In [30]:
frameD = pd.DataFrame({0: ['a','b'],1:['d','f']})
display(frameD)
frameA - frameD

Unnamed: 0,0,1
0,a,d
1,b,f


TypeError: unsupported operand type(s) for -: 'int' and 'str'

Operaciones entre Series y DataFrames

In [None]:
rand_matrix = np.random.randint(10, size=(3, 4))
df = pd.DataFrame(rand_matrix , columns=list('ABCD'))
display(df)

display(df.iloc[0])
display(type(df.iloc[0]))
# uso común, averiguar la diferencia entre una fila y el resto
display(df - df.iloc[0])
display(df.sub(df.iloc[0], axis=1))
# Por columnas cómo se restaría
display(df.sub(df['A'], axis=0))

pandas se basa en NumPy, np operadores binarios y unarios son aceptables 

| Tipo | Operación | Descripción |
|:---------|:-----|:-----|
| Unario | *abs* | Valor absoluto de cada elemento |
| | *sqrt* | Raíz cuadrada de cada elemento |
| | *exp* | e^x, siendo x cad elemento |
| | *log, log10, log2* | Logaritmos en distintas bases de cada elemento |
| | *sign* | Retorna el signo de cada elemento (-1 para negativo, 0 o 1 para positivo) |
| | *ceil* | Redondea cada elemento por arriba |
| | *floor* | Redondea cada elemento por abajo |
| | *isnan* | Retorna si cada elemento es Nan |
| | *cos, sin, tan* | Operaciones trigonométricas en cada elemento |
| | *arccos, arcsin, arctan* | Inversas de operaciones trigonométricas en cada elemento |
| Binario | *add* | Suma de dos arrays |
| | *substract* | Resta de dos arrays |
| | *multiply* | Multiplicación de dos arrays |
| | *divide* | División de dos arrays |
| | *maximum, minimum* | Retorna el valor máximo/mínimo de cada pareja de elementos |
| | *equal, not_equal* | Retorna la comparación (igual o no igual) de cada pareja de elementos |
| | *greater, greater_equal, less, less_equal* | Retorna la comparación (>, >=, <, <= respectivamente) de cada pareja de elementos |

Aplicación de funciones a medida con lambda

In [31]:
rand_matrix = np.random.randint(10, size=(3, 4))
frame = pd.DataFrame(rand_matrix , columns=list('ABCD'))
display(frame)

print(frame.apply(lambda x : x.max() - x.min(), axis = 1)) # diferencia por columna

Unnamed: 0,A,B,C,D
0,4,6,4,2
1,7,0,9,7
2,9,1,9,9


0    4
1    9
2    8
dtype: int32


In [32]:
def max_min(x):
    return x.max() - x.min()

print(frame.apply(max_min, axis = 0)) # diferencia por columna

A    5
B    6
C    5
D    7
dtype: int32


In [33]:
# diferencia entre min y max por fila (no columna)
rand_matrix = np.random.randint(10, size=(3, 4))
frame = pd.DataFrame(rand_matrix , columns=list('ABCD'))
display(frame)

print(frame.apply(lambda x : x.max() - x.min(), axis = 1)) # diferencia por fila

Unnamed: 0,A,B,C,D
0,9,9,6,1
1,8,5,9,1
2,3,6,8,0


0    8
1    8
2    8
dtype: int32


# Estadística descriptiva
- Análisis preliminar de los datos
- Para Series y DataFrame

| Operación | Descripción |
|:----------|:------------|
| count | Número de valores no NaN |
| describe | Conjunto de estadísticas sumarias|
| min, max | Valores mínimo y máximo |
| argmin, argmax | Índices posicionales del valor mínimo y máximo |
| idxmin, idxmax | Índices semánticos del valor mínimo y máximo |
| sum | Suma de los elementos |
| mean | Media de los elementos |
| median | Mediana de los elementos |
| mad | Desviación absoluta media del valor medio |
| var | Varianza de los elementos |
| std | Desviación estándar de los elementos |
| cumsum | Suma acumulada de los elementos |
| diff | Diferencia aritmética de los elementos |

In [34]:
diccionario = { "nombre" : ["Marisa","Laura","Manuel", "Carlos"], "edad" : [34,34,11, 30], 
               "puntos" : [98,12,98,np.nan], "genero": ["F", "F", "M", "M"] }
frame = pd.DataFrame(diccionario)
display(frame)
display(frame.describe()) # datos generales de elementos

Unnamed: 0,nombre,edad,puntos,genero
0,Marisa,34,98.0,F
1,Laura,34,12.0,F
2,Manuel,11,98.0,M
3,Carlos,30,,M


Unnamed: 0,edad,puntos
count,4.0,3.0
mean,27.25,69.333333
std,10.996211,49.652123
min,11.0,12.0
25%,25.25,55.0
50%,32.0,98.0
75%,34.0,98.0
max,34.0,98.0


In [35]:
# operadores básicos
print(frame.sum())

display(frame)
print(frame.sum(axis=1, numeric_only=True))

nombre    MarisaLauraManuelCarlos
edad                          109
puntos                      208.0
genero                       FFMM
dtype: object


Unnamed: 0,nombre,edad,puntos,genero
0,Marisa,34,98.0,F
1,Laura,34,12.0,F
2,Manuel,11,98.0,M
3,Carlos,30,,M


0    132.0
1     46.0
2    109.0
3     30.0
dtype: float64


In [36]:
frame.mean(numeric_only=True)

edad      27.250000
puntos    69.333333
dtype: float64

In [37]:
frame.cumsum()

Unnamed: 0,nombre,edad,puntos,genero
0,Marisa,34,98.0,F
1,MarisaLaura,68,110.0,FF
2,MarisaLauraManuel,79,208.0,FFM
3,MarisaLauraManuelCarlos,109,,FFMM


In [38]:
frame.count(axis=1)

0    4
1    4
2    4
3    3
dtype: int64

In [39]:
print(frame['edad'].std())

10.996211468804457


In [40]:
frame['edad'].idxmax()

0

In [41]:
frame['puntos'].idxmin()

1

In [42]:
# frame con las filas con los valores maximos de una columna
print(frame['puntos'].max())

display(frame[frame['puntos'] == frame['puntos'].max()])

98.0


Unnamed: 0,nombre,edad,puntos,genero
0,Marisa,34,98.0,F
2,Manuel,11,98.0,M


In [43]:
frame["ranking"] = frame["puntos"].rank(method='max')  

In [44]:
display(frame)

Unnamed: 0,nombre,edad,puntos,genero,ranking
0,Marisa,34,98.0,F,3.0
1,Laura,34,12.0,F,1.0
2,Manuel,11,98.0,M,3.0
3,Carlos,30,,M,


## Agregaciones

In [45]:
display(frame)
df = frame.groupby('genero').count()
display(df)

Unnamed: 0,nombre,edad,puntos,genero,ranking
0,Marisa,34,98.0,F,3.0
1,Laura,34,12.0,F,1.0
2,Manuel,11,98.0,M,3.0
3,Carlos,30,,M,


Unnamed: 0_level_0,nombre,edad,puntos,ranking
genero,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
F,2,2,2,2
M,2,2,1,1


In [46]:
# si es Nan descarta la fila
df = frame.groupby('puntos').count()
display(df)

Unnamed: 0_level_0,nombre,edad,genero,ranking
puntos,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
12.0,1,1,1,1
98.0,2,2,2,2


In [47]:
display(frame.groupby('genero').mean(numeric_only=True))

Unnamed: 0_level_0,edad,puntos,ranking
genero,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
F,34.0,55.0,2.0
M,20.5,98.0,3.0


In [48]:
display(frame.groupby('genero').max())

Unnamed: 0_level_0,nombre,edad,puntos,ranking
genero,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
F,Marisa,34,98.0,3.0
M,Manuel,30,98.0,3.0


In [49]:
# funciones de agregación de varias columnas para obtener distintos estadísticos
display(frame.groupby('genero')[['edad', 'puntos']].aggregate(['min', 'mean', 'max']))

Unnamed: 0_level_0,edad,edad,edad,puntos,puntos,puntos
Unnamed: 0_level_1,min,mean,max,min,mean,max
genero,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
F,34,34.0,34,12.0,55.0,98.0
M,11,20.5,30,98.0,98.0,98.0


In [50]:
# Filtrado de los datos en el que el conjunto no supera una media determinada 
def media(x):
    return x["edad"].mean() > 30

display(frame)
frame.groupby('genero').filter(media)

Unnamed: 0,nombre,edad,puntos,genero,ranking
0,Marisa,34,98.0,F,3.0
1,Laura,34,12.0,F,1.0
2,Manuel,11,98.0,M,3.0
3,Carlos,30,,M,


Unnamed: 0,nombre,edad,puntos,genero,ranking
0,Marisa,34,98.0,F,3.0
1,Laura,34,12.0,F,1.0


## Correlaciones

pandas incluye métodos para analizar correlaciones
- Relación matemática entre dos variables (-1 negativamente relacionadas, 1 positivamente relacionadas, 0 sin relación)
- obj.corr(obj2) --> medida de correlación entre los datos de ambos objetos
- https://blogs.oracle.com/ai-and-datascience/post/introduction-to-correlation

### Ejemplo Fuel efficiency
- https://archive.ics.uci.edu/ml/datasets/Auto+MPG

In [51]:
import pandas as pd
path = 'http://archive.ics.uci.edu/ml/machine-learning-databases/auto-mpg/auto-mpg.data'

mpg_data = pd.read_csv(path, sep='\s+', header=None,
            names = ['mpg', 'cilindros', 'desplazamiento','potencia',
            'peso', 'aceleracion', 'año', 'origen', 'nombre'],
            na_values='?', engine='c')

In [52]:
display(mpg_data.sample(5))

Unnamed: 0,mpg,cilindros,desplazamiento,potencia,peso,aceleracion,año,origen,nombre
245,36.1,4,98.0,66.0,1800.0,14.4,78,1,ford fiesta
106,12.0,8,350.0,180.0,4499.0,12.5,73,1,oldsmobile vista cruiser
250,19.4,8,318.0,140.0,3735.0,13.2,78,1,dodge diplomat
337,32.4,4,107.0,72.0,2290.0,17.0,80,3,honda accord
44,13.0,8,400.0,175.0,5140.0,12.0,71,1,pontiac safari (sw)


In [53]:
display(mpg_data.describe(include='all'))

Unnamed: 0,mpg,cilindros,desplazamiento,potencia,peso,aceleracion,año,origen,nombre
count,398.0,398.0,398.0,392.0,398.0,398.0,398.0,398.0,398
unique,,,,,,,,,305
top,,,,,,,,,ford pinto
freq,,,,,,,,,6
mean,23.514573,5.454774,193.425879,104.469388,2970.424623,15.56809,76.01005,1.572864,
std,7.815984,1.701004,104.269838,38.49116,846.841774,2.757689,3.697627,0.802055,
min,9.0,3.0,68.0,46.0,1613.0,8.0,70.0,1.0,
25%,17.5,4.0,104.25,75.0,2223.75,13.825,73.0,1.0,
50%,23.0,4.0,148.5,93.5,2803.5,15.5,76.0,1.0,
75%,29.0,8.0,262.0,126.0,3608.0,17.175,79.0,2.0,


In [54]:
mpg_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 398 entries, 0 to 397
Data columns (total 9 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   mpg             398 non-null    float64
 1   cilindros       398 non-null    int64  
 2   desplazamiento  398 non-null    float64
 3   potencia        392 non-null    float64
 4   peso            398 non-null    float64
 5   aceleracion     398 non-null    float64
 6   año             398 non-null    int64  
 7   origen          398 non-null    int64  
 8   nombre          398 non-null    object 
dtypes: float64(5), int64(3), object(1)
memory usage: 28.1+ KB


### Correlaciones entre valores

In [55]:
mpg_data['mpg'].corr(mpg_data['peso']) # + mpg = - peso

np.float64(-0.8317409332443354)

In [56]:
mpg_data['peso'].corr(mpg_data['aceleracion']) # + peso = - aceleracion

np.float64(-0.41745731994039337)

### Correlaciones entre todos los valores

In [57]:
mpg_data.corr(numeric_only=True)

Unnamed: 0,mpg,cilindros,desplazamiento,potencia,peso,aceleracion,año,origen
mpg,1.0,-0.775396,-0.804203,-0.778427,-0.831741,0.420289,0.579267,0.56345
cilindros,-0.775396,1.0,0.950721,0.842983,0.896017,-0.505419,-0.348746,-0.562543
desplazamiento,-0.804203,0.950721,1.0,0.897257,0.932824,-0.543684,-0.370164,-0.609409
potencia,-0.778427,0.842983,0.897257,1.0,0.864538,-0.689196,-0.416361,-0.455171
peso,-0.831741,0.896017,0.932824,0.864538,1.0,-0.417457,-0.306564,-0.581024
aceleracion,0.420289,-0.505419,-0.543684,-0.689196,-0.417457,1.0,0.288137,0.205873
año,0.579267,-0.348746,-0.370164,-0.416361,-0.306564,0.288137,1.0,0.180662
origen,0.56345,-0.562543,-0.609409,-0.455171,-0.581024,0.205873,0.180662,1.0


In [58]:
#año y origen no parecen correlacionables
#eliminar columnas de la correlacion
corr_data = mpg_data.drop(['año','origen'],axis=1).corr(numeric_only=True)
display(corr_data)

Unnamed: 0,mpg,cilindros,desplazamiento,potencia,peso,aceleracion
mpg,1.0,-0.775396,-0.804203,-0.778427,-0.831741,0.420289
cilindros,-0.775396,1.0,0.950721,0.842983,0.896017,-0.505419
desplazamiento,-0.804203,0.950721,1.0,0.897257,0.932824,-0.543684
potencia,-0.778427,0.842983,0.897257,1.0,0.864538,-0.689196
peso,-0.831741,0.896017,0.932824,0.864538,1.0,-0.417457
aceleracion,0.420289,-0.505419,-0.543684,-0.689196,-0.417457,1.0


In [60]:
# representación gráfica matplotlib
import matplotlib.pyplot as plt

In [61]:
# representación gráfica
corr_data.style.background_gradient(cmap=plt.get_cmap('RdYlGn'), axis=1)

Unnamed: 0,mpg,cilindros,desplazamiento,potencia,peso,aceleracion
mpg,1.0,-0.775396,-0.804203,-0.778427,-0.831741,0.420289
cilindros,-0.775396,1.0,0.950721,0.842983,0.896017,-0.505419
desplazamiento,-0.804203,0.950721,1.0,0.897257,0.932824,-0.543684
potencia,-0.778427,0.842983,0.897257,1.0,0.864538,-0.689196
peso,-0.831741,0.896017,0.932824,0.864538,1.0,-0.417457
aceleracion,0.420289,-0.505419,-0.543684,-0.689196,-0.417457,1.0


In [62]:
# correlación más negativa
mpg_data.drop(['año','origen'],axis=1).corr(numeric_only=True).idxmin()

mpg                   peso
cilindros              mpg
desplazamiento         mpg
potencia               mpg
peso                   mpg
aceleracion       potencia
dtype: object

In [63]:
# correlación más positiva
mpg_data.drop(['año','origen'],axis=1).corr(numeric_only=True).idxmax()  #consigo misma....

mpg                          mpg
cilindros              cilindros
desplazamiento    desplazamiento
potencia                potencia
peso                        peso
aceleracion          aceleracion
dtype: object

In [64]:
# tabla similar con las correlaciones más positivas (evitar parejas del mismo valor)
positive_corr = mpg_data.drop(['año','origen'],axis=1).corr(numeric_only=True)
np.fill_diagonal(positive_corr.values, 0)
display(positive_corr)
positive_corr.idxmax()

Unnamed: 0,mpg,cilindros,desplazamiento,potencia,peso,aceleracion
mpg,0.0,-0.775396,-0.804203,-0.778427,-0.831741,0.420289
cilindros,-0.775396,0.0,0.950721,0.842983,0.896017,-0.505419
desplazamiento,-0.804203,0.950721,0.0,0.897257,0.932824,-0.543684
potencia,-0.778427,0.842983,0.897257,0.0,0.864538,-0.689196
peso,-0.831741,0.896017,0.932824,0.864538,0.0,-0.417457
aceleracion,0.420289,-0.505419,-0.543684,-0.689196,-0.417457,0.0


mpg                  aceleracion
cilindros         desplazamiento
desplazamiento         cilindros
potencia          desplazamiento
peso              desplazamiento
aceleracion                  mpg
dtype: object

In [65]:
positive_corr.style.background_gradient(cmap=plt.get_cmap('RdYlGn'), axis=1, vmin=-1.0, vmax=1.0)

Unnamed: 0,mpg,cilindros,desplazamiento,potencia,peso,aceleracion
mpg,0.0,-0.775396,-0.804203,-0.778427,-0.831741,0.420289
cilindros,-0.775396,0.0,0.950721,0.842983,0.896017,-0.505419
desplazamiento,-0.804203,0.950721,0.0,0.897257,0.932824,-0.543684
potencia,-0.778427,0.842983,0.897257,0.0,0.864538,-0.689196
peso,-0.831741,0.896017,0.932824,0.864538,0.0,-0.417457
aceleracion,0.420289,-0.505419,-0.543684,-0.689196,-0.417457,0.0


## Ejercicios

- Ejercicios para practicar Pandas: https://github.com/ajcr/100-pandas-puzzles/blob/master/100-pandas-puzzles.ipynb


In [66]:
#2. Print the version of pandas that has been imported.
version = pd.__version__
print(version)

2.3.3


In [68]:
#4. Create a DataFrame df from this dictionary data which has the index labels.

import numpy as np

data = {'animal': ['cat', 'cat', 'snake', 'dog', 'dog', 'cat', 'snake', 'cat', 'dog', 'dog'],
        'age': [2.5, 3, 0.5, np.nan, 5, 2, 4.5, np.nan, 7, 3],
        'visits': [1, 3, 2, 3, 2, 3, 1, 1, 2, 1],
        'priority': ['yes', 'yes', 'no', 'yes', 'no', 'no', 'no', 'yes', 'no', 'no']}

labels = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']

df = pd.DataFrame(data, index = labels)
display(df)

Unnamed: 0,animal,age,visits,priority
a,cat,2.5,1,yes
b,cat,3.0,3,yes
c,snake,0.5,2,no
d,dog,,3,yes
e,dog,5.0,2,no
f,cat,2.0,3,no
g,snake,4.5,1,no
h,cat,,1,yes
i,dog,7.0,2,no
j,dog,3.0,1,no


In [70]:
#6. Return the first 3 rows of the DataFrame df.
df.head(3) #Las 3 primeras filas

Unnamed: 0,animal,age,visits,priority
a,cat,2.5,1,yes
b,cat,3.0,3,yes
c,snake,0.5,2,no


In [75]:
#8. Select the data in rows [3, 4, 8] and in columns ['animal', 'age'].
#filas 3,4,8 ; col 'animal' , 'age'
df.index = range(len(df))  # Obtenemos los índices de forma numérica
df.loc[[3, 4, 8], ['animal', 'age']] #Ahora ya podemos hacer loc

Unnamed: 0,animal,age
3,dog,
4,dog,5.0
8,dog,7.0


In [76]:
#10. Select the rows where the age is missing, i.e. it is NaN.
df[df['age'].isna()]

Unnamed: 0,animal,age,visits,priority
3,dog,,3,yes
7,cat,,1,yes


In [81]:
#12. Select the rows the age is between 2 and 4 (inclusive).
df[(df['age'] >= 2) & (df['age'] <= 4)]

Unnamed: 0,animal,age,visits,priority
0,cat,2.5,1,yes
1,cat,3.0,3,yes
5,cat,2.0,3,no
9,dog,3.0,1,no


In [82]:
#14. Calculate the sum of all visits in df (i.e. find the total number of visits).
total_visits = df['visits'].sum()
print(total_visits)

19


In [83]:
#16. Append a new row 'k' to df with your choice of values for each column. Then delete that row to return the original DataFrame.

# Crear la nueva fila como un diccionario
new_row = {'animal': 'rabbit', 'age': 3, 'visits': 1, 'priority': 'high'}

# Añadir la fila al DataFrame
df.loc['k'] = new_row

# Mostrar el DataFrame con la nueva fila
display(df)


Unnamed: 0,animal,age,visits,priority
0,cat,2.5,1,yes
1,cat,3.0,3,yes
2,snake,0.5,2,no
3,dog,,3,yes
4,dog,5.0,2,no
5,cat,2.0,3,no
6,snake,4.5,1,no
7,cat,,1,yes
8,dog,7.0,2,no
9,dog,3.0,1,no


In [84]:
#18. Sort df first by the values in the 'age' in decending order, then by the value in the 'visits' column in ascending order (so row i should be first, and row d should be last).
df_sorted = df.sort_values(
    by=['age', 'visits'],     # columnas para ordenar
    ascending=[False, True]   # False → descendente, True → ascendente
)

display(df_sorted)


Unnamed: 0,animal,age,visits,priority
8,dog,7.0,2,no
4,dog,5.0,2,no
6,snake,4.5,1,no
9,dog,3.0,1,no
k,rabbit,3.0,1,high
1,cat,3.0,3,yes
0,cat,2.5,1,yes
5,cat,2.0,3,no
2,snake,0.5,2,no
7,cat,,1,yes


In [87]:
#20. In the 'animal' column, change the 'snake' entries to 'python'.

#Hice 2, pero la primera me pareció más fácil
#1
df_20 = df['animal'] = df['animal'].replace('snake', 'python')
#2
#df['animal'] = df['animal'].replace('snake', 'python')

display(df_20)

0       cat
1       cat
2    python
3       dog
4       dog
5       cat
6    python
7       cat
8       dog
9       dog
k    rabbit
Name: animal, dtype: object

# Github
<div style="margin-left: 330px">
    
![](img/github.png)
</div>

### Click aquí para [ver el repositorio](https://github.com/Addrriel/MachineLearningCuadernazo/tree/main/clases)