# Pandas Avanzado

90 min | Última modificación: Junio 07, 2020.

In [1]:
# Import pandas and vehiculos.csv
import pandas as pd 
vehiculos = pd.read_csv('files/vehiculos.csv', sep = ";", index_col = 0)
vehiculos

Unnamed: 0_level_0,year,ranking,marca,ventas,market_share,ensambladora_local
cod,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
REN,2019,1,RENAULT,57066,21.60%,SI
CHE,2019,2,CHEVROLET,46521,17.60%,SI
NIS,2019,3,NISSAN,21579,8.20%,SI
MAZ,2019,4,MAZDA,20424,7.70%,
KIA,2019,5,KIA,20015,7.60%,
TOY,2019,6,TOYOTA,16187,6.10%,SI
VOL,2019,7,VOLKSWAGEN,14214,5.40%,SI
FOR,2019,8,FORD,10926,4.10%,
SUZ,2019,9,SUZUKI,8716,3.30%,
HYU,2019,10,HYUNDAI,5694,2.20%,


## Filtrar el valor de una columna

La operación básica de filtrado es seleccionar aquellos valores que cumplen una condición. Para ello se puede comparar la columna con el valor deseado y obtener una lista de valores verdaderos o falsos.

In [2]:
# Filtro ventas mayores o iguales a 20000
ventas_20000 = vehiculos['ventas'] >= 20000
ventas_20000

cod
REN     True
CHE     True
NIS     True
MAZ     True
KIA     True
TOY    False
VOL    False
FOR    False
SUZ    False
HYU    False
REN     True
CHE     True
NIS    False
MAZ    False
KIA     True
TOY    False
VOL    False
FOR    False
SUZ    False
HYU    False
CHE     True
REN     True
NIS     True
MAZ    False
KIA    False
TOY    False
VOL    False
FOR    False
SUZ    False
HYU    False
Name: ventas, dtype: bool

Para conseguir un nuevo DataFrame solamente con estas vehiculos simplemente se ha de usar `ventas_20000` como filtro. Así se puede conseguir el nuevo conjunto de datos.

In [3]:
# Crea DF con filtro ventas mayores o iguales a 20000
vehiculos_ventas = vehiculos[ventas_20000]
vehiculos_ventas

Unnamed: 0_level_0,year,ranking,marca,ventas,market_share,ensambladora_local
cod,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
REN,2019,1,RENAULT,57066,21.60%,SI
CHE,2019,2,CHEVROLET,46521,17.60%,SI
NIS,2019,3,NISSAN,21579,8.20%,SI
MAZ,2019,4,MAZDA,20424,7.70%,
KIA,2019,5,KIA,20015,7.60%,
REN,2018,2,RENAULT,49741,19.40%,SI
CHE,2018,1,CHEVROLET,49916,19.40%,SI
KIA,2018,5,KIA,21013,8.20%,
CHE,2017,1,CHEVROLET,51253,21.50%,SI
REN,2017,2,RENAULT,46863,19.70%,SI


## Filtrar columnas que no tienen un valor

De forma análoga a como se ha conseguido seleccionar los registros que cumplen una condición se puede seleccionar aquellos que no la cumple. Ahora simplemente el filtro se puede conseguir mediante el operador no igual.

In [4]:
# Crea DF con filtro que no incluya a Renault
vehiculos_not_renault = vehiculos[vehiculos['marca'] != 'RENAULT']
vehiculos_not_renault.head()

Unnamed: 0_level_0,year,ranking,marca,ventas,market_share,ensambladora_local
cod,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
CHE,2019,2,CHEVROLET,46521,17.60%,SI
NIS,2019,3,NISSAN,21579,8.20%,SI
MAZ,2019,4,MAZDA,20424,7.70%,
KIA,2019,5,KIA,20015,7.60%,
TOY,2019,6,TOYOTA,16187,6.10%,SI


## Filtrar valores nulos

En muchos conjuntos de datos es habitual que existan registros con valores nulos. Para identificar los registros nulos objetos de Pandas cuentan con los métodos `isnull()` y `notnull()`. Tal como indica el nombre, el primero de ellos devuelve verdadero en los registros nulos y el segundo en los que no son nulos. Aplicando estos métodos a una columna se puede saber los registros que cumplen una condición u otra.

In [5]:
# filtra nulos en el DF por la columna ensambladora
vehiculos_null = vehiculos[vehiculos.ensambladora_local.isnull()]
vehiculos_null.head()

Unnamed: 0_level_0,year,ranking,marca,ventas,market_share,ensambladora_local
cod,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
MAZ,2019,4,MAZDA,20424,7.70%,
KIA,2019,5,KIA,20015,7.60%,
FOR,2019,8,FORD,10926,4.10%,
SUZ,2019,9,SUZUKI,8716,3.30%,
HYU,2019,10,HYUNDAI,5694,2.20%,


Por otro lado, para obtener aquellos en los que se conoce la ensambladora local se puede utilizar.

In [6]:
# filtra los no nulos en el DF por la columna ensambladora
vehiculos_not_null = vehiculos[vehiculos.ensambladora_local.notnull()]
vehiculos_not_null.head()

Unnamed: 0_level_0,year,ranking,marca,ventas,market_share,ensambladora_local
cod,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
REN,2019,1,RENAULT,57066,21.60%,SI
CHE,2019,2,CHEVROLET,46521,17.60%,SI
NIS,2019,3,NISSAN,21579,8.20%,SI
TOY,2019,6,TOYOTA,16187,6.10%,SI
VOL,2019,7,VOLKSWAGEN,14214,5.40%,SI


## Filtrar por elementos en una lista

Los filtros anteriores bastante útiles, pero en muchas ocasiones se desea seleccionar datos cuyos valores se encuentra en una lista. Para ello se puede aplicar el método `isin()` a las columnas para obtener un filtro.

In [7]:
# filtra el DF con multiples valores contenidos en una lista por la columna marca
vehiculos_in_marca = vehiculos[vehiculos.marca.isin(['MAZDA', 'TOYOTA'])]
vehiculos_in_marca.head()

Unnamed: 0_level_0,year,ranking,marca,ventas,market_share,ensambladora_local
cod,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
MAZ,2019,4,MAZDA,20424,7.70%,
TOY,2019,6,TOYOTA,16187,6.10%,SI
MAZ,2018,4,MAZDA,2152,8.40%,
TOY,2018,6,TOYOTA,14179,5.50%,SI
MAZ,2017,5,MAZDA,187,7.80%,


Por otro lado, si se desea conocer los registros que no está en una lista mediante el operador negación ~ se puede invertir el filtro.

In [8]:
# filtra el DF con los valores no contenidos en una lista por la columna marca
vehiculos_in_marca = vehiculos[~vehiculos.marca.isin(['MAZDA', 'TOYOTA'])]
vehiculos_in_marca.head()

Unnamed: 0_level_0,year,ranking,marca,ventas,market_share,ensambladora_local
cod,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
REN,2019,1,RENAULT,57066,21.60%,SI
CHE,2019,2,CHEVROLET,46521,17.60%,SI
NIS,2019,3,NISSAN,21579,8.20%,SI
KIA,2019,5,KIA,20015,7.60%,
VOL,2019,7,VOLKSWAGEN,14214,5.40%,SI


## Fitrar con multiples condiciones

Finalmente se puede combinar varios filtros mediante el uso de los operadores `&` (`and`) y `|` (`or`). 

In [9]:
# filtra el DF con multiples criterior y valores
vehiculos[vehiculos.year.isin([2018, 2019]) & vehiculos.ensambladora_local.isnull()]

Unnamed: 0_level_0,year,ranking,marca,ventas,market_share,ensambladora_local
cod,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
MAZ,2019,4,MAZDA,20424,7.70%,
KIA,2019,5,KIA,20015,7.60%,
FOR,2019,8,FORD,10926,4.10%,
SUZ,2019,9,SUZUKI,8716,3.30%,
HYU,2019,10,HYUNDAI,5694,2.20%,
MAZ,2018,4,MAZDA,2152,8.40%,
KIA,2018,5,KIA,21013,8.20%,
FOR,2018,8,FORD,12545,4.90%,
SUZ,2018,9,SUZUKI,8277,3.20%,
HYU,2018,10,HYUNDAI,4932,1.90%,


## Fusionar tablas

concat permite concatenar Series y DataFrame. Mediante la opción axis, podemos controlar si la unión se debe hacer por filas o por columnas.

In [10]:
# filtra el DF por año 2019
vehiculos_2019 = vehiculos[vehiculos['year'] == 2019]

# filtra el DF por año 2018
vehiculos_2018 = vehiculos[vehiculos['year'] == 2018]

# concatena los DF vehiculos_2018 y vehiculos_2019 por columnas
df = pd.concat([vehiculos_2019, vehiculos_2018], axis = 0)

df

Unnamed: 0_level_0,year,ranking,marca,ventas,market_share,ensambladora_local
cod,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
REN,2019,1,RENAULT,57066,21.60%,SI
CHE,2019,2,CHEVROLET,46521,17.60%,SI
NIS,2019,3,NISSAN,21579,8.20%,SI
MAZ,2019,4,MAZDA,20424,7.70%,
KIA,2019,5,KIA,20015,7.60%,
TOY,2019,6,TOYOTA,16187,6.10%,SI
VOL,2019,7,VOLKSWAGEN,14214,5.40%,SI
FOR,2019,8,FORD,10926,4.10%,
SUZ,2019,9,SUZUKI,8716,3.30%,
HYU,2019,10,HYUNDAI,5694,2.20%,


In [11]:
# filtra el DF por año 2019
vehiculos_2019 = vehiculos[vehiculos['year'] == 2019]

# filtra el DF por año 2018
vehiculos_2018 = vehiculos[vehiculos['year'] == 2018]

# concatena los DF vehiculos_2018 y vehiculos_2019 por filas
df = pd.concat([vehiculos_2019, vehiculos_2018], axis = 1)

df


Unnamed: 0_level_0,year,ranking,marca,ventas,market_share,ensambladora_local,year,ranking,marca,ventas,market_share,ensambladora_local
cod,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
REN,2019,1,RENAULT,57066,21.60%,SI,2018,2,RENAULT,49741,19.40%,SI
CHE,2019,2,CHEVROLET,46521,17.60%,SI,2018,1,CHEVROLET,49916,19.40%,SI
NIS,2019,3,NISSAN,21579,8.20%,SI,2018,3,NISSAN,2319,9.00%,SI
MAZ,2019,4,MAZDA,20424,7.70%,,2018,4,MAZDA,2152,8.40%,
KIA,2019,5,KIA,20015,7.60%,,2018,5,KIA,21013,8.20%,
TOY,2019,6,TOYOTA,16187,6.10%,SI,2018,6,TOYOTA,14179,5.50%,SI
VOL,2019,7,VOLKSWAGEN,14214,5.40%,SI,2018,7,VOLKSWAGEN,13393,5.20%,SI
FOR,2019,8,FORD,10926,4.10%,,2018,8,FORD,12545,4.90%,
SUZ,2019,9,SUZUKI,8716,3.30%,,2018,9,SUZUKI,8277,3.20%,
HYU,2019,10,HYUNDAI,5694,2.20%,,2018,10,HYUNDAI,4932,1.90%,


## Iterar sobre un DataFrame

iteritems y iterrows permiten iterar sobre un DataFrame. El primero devuelve el DataFrame columna por columna y el segundo por filas.

### DataFrame.iteritems()

Recorre en iteración las columnas DataFrame, devolviendo una tupla con el nombre de columna y el contenido como una serie.

In [12]:
for column, row in vehiculos.iteritems():  
    print(column)

year
ranking
marca
ventas
market_share
ensambladora_local


In [13]:
for column, row in vehiculos.iteritems():  
    print(row[0])

2019
1
RENAULT
57066
21.60%
SI


### DataFrame.iterrows()

Recorrer en iteración las filas de DataFrame como pares (índice, serie).

In [14]:
for lab, row in vehiculos.iterrows():  
    print(lab)

REN
CHE
NIS
MAZ
KIA
TOY
VOL
FOR
SUZ
HYU
REN
CHE
NIS
MAZ
KIA
TOY
VOL
FOR
SUZ
HYU
CHE
REN
NIS
MAZ
KIA
TOY
VOL
FOR
SUZ
HYU


In [15]:
for lab, row in vehiculos.iterrows():  
    print(row[0])

2019
2019
2019
2019
2019
2019
2019
2019
2019
2019
2018
2018
2018
2018
2018
2018
2018
2018
2018
2018
2017
2017
2017
2017
2017
2017
2017
2017
2017
2017


## groupby

`groupby` permite agrupar los datos en función de un criterio dado. Devuelve un objeto GroupBy, y uno de sus atributos (groups) es un diccionario dónde las claves son los grupos y los valores son las etiquetas de las filas que pertenecen a dicho grupo

In [16]:
vehiculos.groupby('year').groups

{2017: Index(['CHE', 'REN', 'NIS', 'MAZ', 'KIA', 'TOY', 'VOL', 'FOR', 'SUZ', 'HYU'], dtype='object', name='cod'),
 2018: Index(['REN', 'CHE', 'NIS', 'MAZ', 'KIA', 'TOY', 'VOL', 'FOR', 'SUZ', 'HYU'], dtype='object', name='cod'),
 2019: Index(['REN', 'CHE', 'NIS', 'MAZ', 'KIA', 'TOY', 'VOL', 'FOR', 'SUZ', 'HYU'], dtype='object', name='cod')}

### Métodos de interés

Algunos ejemplos de estos métodos son:

`count()` Número de observaciones no nulas  

`sum()` Suma de valores  

`mean()` Media  

`median()` Mediana  

`min()` Mínimo  

`max()` Máximo  

`mode()` Moda  

`abs()` Valor absoluto  

`std()` Desviacion estándar  

`var()` Varianza  

`quantile()` Quartil  

`corr()` Cálculo de correlaciones  

`cov()` Cálculo de covarianza

In [17]:
vehiculos.groupby('year').count()

Unnamed: 0_level_0,ranking,marca,ventas,market_share,ensambladora_local
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2017,10,10,10,10,5
2018,10,10,10,10,5
2019,10,10,10,10,5


#### Método sum()

In [18]:
# agrupando por year
vehiculos.groupby('year').sum()

Unnamed: 0_level_0,ranking,ventas
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2017,55,164709
2018,55,178467
2019,55,221342


In [19]:
# Seleccionando columnas
vehiculos.groupby('year').sum()[['ventas']]

Unnamed: 0_level_0,ventas
year,Unnamed: 1_level_1
2017,164709
2018,178467
2019,221342


#### Método mean()

In [20]:
vehiculos.groupby('year').mean()[['ventas']]

Unnamed: 0_level_0,ventas
year,Unnamed: 1_level_1
2017,16470.9
2018,17846.7
2019,22134.2


#### Método std()

In [21]:
vehiculos.groupby('year').std()[['ventas']]

Unnamed: 0_level_0,ventas
year,Unnamed: 1_level_1
2017,18380.580649
2018,17835.386268
2019,16655.734667
