# Introducción a la manipulación de datos con Pandas (Parte I)


In [2]:
# Accediendo a la libreria
import pandas as pd

### Objetivo de la clase:

* Tener un primer acercamiento con la libreria Pandas.
* Conocer las estructuras de datos en Pandas.
* Comprender el uso de Pandas para operaciones básicas.

### Las estructuras de datos en Pandas

**Panda Series**

In [3]:
Numeros = range(50, 70, 2)
Numeros_serie = pd.Series(Numeros)
print(Numeros_serie)

0    50
1    52
2    54
3    56
4    58
5    60
6    62
7    64
8    66
9    68
dtype: int64


In [4]:
print(Numeros_serie[2])

54


**Panda Series**

In [6]:
print(Numeros_serie.index)

RangeIndex(start=0, stop=10, step=1)


In [8]:
print(Numeros_serie.values)

[50 52 54 56 58 60 62 64 66 68]


Tanto el arreglo de índices como el de valores pueden modificarse


In [11]:
Numeros_en_texto = ['primero','segundo','tercero','cuarto','quinto','sexto','séptimo','octavo','noveno','décimo']
Numeros_serie_2 = pd.Series(Numeros,index=Numeros_en_texto)
Numeros_serie_2

primero    50
segundo    52
tercero    54
cuarto     56
quinto     58
sexto      60
séptimo    62
octavo     64
noveno     66
décimo     68
dtype: int64

**Panda Data Frame**

Construyendo un Data Frame manualmente

In [26]:
# Primera forma

# Se construyen primero las listas para luego convertirse en Pandas.Series
modelos = ['A4 3.0 Quattro 4dr manual',
 'A4 3.0 Quattro 4dr auto',
 'A6 3.0 4dr',
 'A6 3.0 Quattro 4dr',
 'A4 3.0 convertible 2dr']
peso = [3583, 3627, 3561, 3880, 3814]
precios = ['$33,430', '$34,480', '$36,640', '$39,640', '$42,490']

# Se asigna el mismo indice a ambos series
Autos_peso = pd.Series(peso,index=modelos)
Autos_precio = pd.Series(precios,index=modelos) 

#Construir el Data Frame a partir de las Series en un dictionary:
Autos = pd.DataFrame({'Peso':Autos_peso,'Precio':Autos_precio})


print(Autos)

                           Peso   Precio
A4 3.0 Quattro 4dr manual  3583  $33,430
A4 3.0 Quattro 4dr auto    3627  $34,480
A6 3.0 4dr                 3561  $36,640
A6 3.0 Quattro 4dr         3880  $39,640
A4 3.0 convertible 2dr     3814  $42,490


In [14]:
# Segunda forma (sin indices)
DAutos = {'Peso': peso, 'Precio':precios}

Autos = pd.DataFrame(DAutos)

print(Autos)

   Peso   Precio
0  3583  $33,430
1  3627  $34,480
2  3561  $36,640
3  3880  $39,640
4  3814  $42,490


##### Haciendo un tablero de Ajedrez

In [16]:
import numpy as np

Ajedrez_64 = np.arange(1,65).reshape(8,8)
Ajedrez_df = pd.DataFrame(
Ajedrez_64,
columns=range(1,9),
index=['A','B','C','D','E','F','G','H']
) 
Ajedrez_df

Unnamed: 0,1,2,3,4,5,6,7,8
A,1,2,3,4,5,6,7,8
B,9,10,11,12,13,14,15,16
C,17,18,19,20,21,22,23,24
D,25,26,27,28,29,30,31,32
E,33,34,35,36,37,38,39,40
F,41,42,43,44,45,46,47,48
G,49,50,51,52,53,54,55,56
H,57,58,59,60,61,62,63,64


### Selección de elementos

**Seleccionando una Serie**

Con Pandas, existen tres formas de seleccionar elementos:

In [19]:
print(Numeros_serie_2)

primero    50
segundo    52
tercero    54
cuarto     56
quinto     58
sexto      60
séptimo    62
octavo     64
noveno     66
décimo     68
dtype: int64


In [17]:
#Mediante el índice
Numeros_serie_2['quinto']

58

In [20]:
#Mediante el método loc()
Numeros_serie_2.loc['quinto']

58

In [24]:
#Mediante el método iloc()
Numeros_serie_2.iloc[4] # Recordemos que primero: [0], segundo: [1]...

58

**Seleccionando un Data Frame**

También podemos seleccionar partes específicas del Data Frame, como índices, columnas y valores

In [27]:
Autos.index

Index(['A4 3.0 Quattro 4dr manual', 'A4 3.0 Quattro 4dr auto', 'A6 3.0 4dr',
       'A6 3.0 Quattro 4dr', 'A4 3.0 convertible 2dr'],
      dtype='object')

In [28]:
Autos.columns

Index(['Peso', 'Precio'], dtype='object')

In [29]:
Autos.values

array([[3583, '$33,430'],
       [3627, '$34,480'],
       [3561, '$36,640'],
       [3880, '$39,640'],
       [3814, '$42,490']], dtype=object)

In [33]:
# Seleccionando columna
Autos['Peso']

A4 3.0 Quattro 4dr manual    3583
A4 3.0 Quattro 4dr auto      3627
A6 3.0 4dr                   3561
A6 3.0 Quattro 4dr           3880
A4 3.0 convertible 2dr       3814
Name: Peso, dtype: int64

In [34]:
#Al seleccionar una columna, automaticamente lo entiende como pandas Series
type(Autos['Peso'])

pandas.core.series.Series

In [42]:
# Selección de fila
Autos.values[1]

array([3627, '$34,480'], dtype=object)

In [40]:
#Selección de fila
Autos.loc['A4 3.0 Quattro 4dr auto',]

Peso         3627
Precio    $34,480
Name: A4 3.0 Quattro 4dr auto, dtype: object

Selección con condición

Supongamos que necesitamos un listado de precios de aquellos autos con peso mayor a 3600 🤔

In [43]:
Autos.loc[Autos.Peso >= 3600,'Precio']

A4 3.0 Quattro 4dr auto    $34,480
A6 3.0 Quattro 4dr         $39,640
A4 3.0 convertible 2dr     $42,490
Name: Precio, dtype: object

#### Operaciones básicas con datos en Pandas

In [44]:
# Transpuesta

Autos.T

Unnamed: 0,A4 3.0 Quattro 4dr manual,A4 3.0 Quattro 4dr auto,A6 3.0 4dr,A6 3.0 Quattro 4dr,A4 3.0 convertible 2dr
Peso,3583,3627,3561,3880,3814
Precio,"$33,430","$34,480","$36,640","$39,640","$42,490"


In [48]:
#Las funciones vectorizadas o ufuncs de Numpy pueden realizarse también sobre Data Frames y Series.
#Tras ejecutar la operación se conservan los índices.

Numeros_3 = range(51,70,2)
Numeros_serie_3 = pd.Series(Numeros_3,index=Numeros_en_texto)
Numeros_serie_3

primero    51
segundo    53
tercero    55
cuarto     57
quinto     59
sexto      61
séptimo    63
octavo     65
noveno     67
décimo     69
dtype: int64

In [50]:
#Normal

largo = [179, 179, 192, 192, 180]
Autos_2 = pd.DataFrame({'Peso':peso,'Largo':largo},index=modelos)
Autos_2

Unnamed: 0,Peso,Largo
A4 3.0 Quattro 4dr manual,3583,179
A4 3.0 Quattro 4dr auto,3627,179
A6 3.0 4dr,3561,192
A6 3.0 Quattro 4dr,3880,192
A4 3.0 convertible 2dr,3814,180


In [57]:
(Autos_2 / Autos_2.iloc[0]-1) * 100

Unnamed: 0,Peso,Largo
A4 3.0 Quattro 4dr manual,0.0,0.0
A4 3.0 Quattro 4dr auto,1.228021,0.0
A6 3.0 4dr,-0.614011,7.26257
A6 3.0 Quattro 4dr,8.289143,7.26257
A4 3.0 convertible 2dr,6.447111,0.558659


In [58]:
Numeros_serie_2.add(Numeros_serie_3)

primero    50
segundo    52
tercero    54
cuarto     56
quinto     58
sexto      60
séptimo    62
octavo     64
noveno     66
décimo     68
dtype: int64

In [62]:
Numeros_serie_2_porcion = Numeros_serie_2[4:7]
Numeros_serie_3_porcion = Numeros_serie_3[5:8]
print(Numeros_serie_2_porcion)
print("#########################")
print(Numeros_serie_3_porcion)

quinto     58
sexto      60
séptimo    62
dtype: int64
#########################
sexto      61
séptimo    63
octavo     65
dtype: int64


In [63]:
print(Numeros_serie_2_porcion + Numeros_serie_3_porcion)

octavo       NaN
quinto       NaN
sexto      121.0
séptimo    125.0
dtype: float64


### Lidiando con valores faltantes

In [64]:
#La mayoría de las operaciones de Pandas admiten un parámetro fill_value,
#que indica el valor a insertar en caso de resultar un NaN.

Numeros_serie_2_porcion.add(Numeros_serie_3_porcion, fill_value=0)

octavo      65.0
quinto      58.0
sexto      121.0
séptimo    125.0
dtype: float64

**Propagación de valores faltantes**

In [67]:
valor_nan = np.nan # asi se declara Nan
type(valor_nan)

float

In [68]:
2 * valor_nan

nan

In [69]:
np.nanprod([2,valor_nan])

2.0

En caso de Pandas

* Estos valores podrían no ser adecuados para algunos algoritmos de Data Science. 
* Por ello, deben ser manejados correctamente.
* Pandas nos provee de herramientas para trabajar con ellos.


In [71]:
Numeros_nan = Numeros_serie_2_porcion + Numeros_serie_3_porcion
Numeros_nan

octavo       NaN
quinto       NaN
sexto      121.0
séptimo    125.0
dtype: float64

In [76]:
#Podemos marcarlos
Numeros_nan.isnull()

octavo      True
quinto      True
sexto      False
séptimo    False
dtype: bool

In [73]:
#Saber cuantos son
Numeros_nan.info()

<class 'pandas.core.series.Series'>
Index: 4 entries, octavo to séptimo
Series name: None
Non-Null Count  Dtype  
--------------  -----  
2 non-null      float64
dtypes: float64(1)
memory usage: 236.0+ bytes


In [74]:
# Podemos reemplazarlos
Numeros_nan.fillna(0)

octavo       0.0
quinto       0.0
sexto      121.0
séptimo    125.0
dtype: float64

In [75]:
# Podemos eliminarlos
Numeros_nan.dropna()

sexto      121.0
séptimo    125.0
dtype: float64