# Pandas básico

90 min | Última modificación: Junio 07, 2020.

Pandas es una herramienta de manipulación de datos de alto nivel desarrollada por Wes McKinney. Es construido con el paquete Numpy y su estructura de datos clave es llamada el DataFrame. El DataFrame te permite almacenar y manipular datos tabulados en filas de observaciones y columnas de variables.

Hay varias maneras de crear un DataFrame. Una es usar un diccionario. Por ejemplo:

## Diccionario a DataFrame

In [1]:
dict = {"country": ["Brazil", "Russia", "India", "China", "South Africa"],
       "capital": ["Brasilia", "Moscow", "New Dehli", "Beijing", "Pretoria"],
       "area": [8.516, 17.10, 3.286, 9.597, 1.221],
       "population": [200.4, 143.5, 1252, 1357, 52.98] }

import pandas as pd
brics = pd.DataFrame(dict)
brics

Unnamed: 0,country,capital,area,population
0,Brazil,Brasilia,8.516,200.4
1,Russia,Moscow,17.1,143.5
2,India,New Dehli,3.286,1252.0
3,China,Beijing,9.597,1357.0
4,South Africa,Pretoria,1.221,52.98


Como puedes ver con el nuevo DataFrame brics, Pandas tiene asignada una clave para cada país como valores numéricos de 0 a 4. Si deseas tener diferentes valores de índice, por ejemplo el código del país de dos letras, tambien puedes hacerlo facilmente.

In [2]:
# Set the index for brics
brics.index = ["BR", "RU", "IN", "CH", "SA"]

# brics with new index values
brics

Unnamed: 0,country,capital,area,population
BR,Brazil,Brasilia,8.516,200.4
RU,Russia,Moscow,17.1,143.5
IN,India,New Dehli,3.286,1252.0
CH,China,Beijing,9.597,1357.0
SA,South Africa,Pretoria,1.221,52.98


## Leer un archivo de Excel

In [3]:
# Import pandas as pd
import pandas as pd

# Import the vehiculos

vehiculos = pd.read_excel('files/vehiculos.xlsx')

# vehiculos
vehiculos

Unnamed: 0,cod,year,ranking,marca,ventas,market_share,ensambladora_local
0,REN,2019,1,RENAULT,57066,0.216,SI
1,CHE,2019,2,CHEVROLET,46521,0.176,SI
2,NIS,2019,3,NISSAN,21579,0.082,SI
3,MAZ,2019,4,MAZDA,20424,0.077,
4,KIA,2019,5,KIA,20015,0.076,
5,TOY,2019,6,TOYOTA,16187,0.061,SI
6,VOL,2019,7,VOLKSWAGEN,14214,0.054,SI
7,FOR,2019,8,FORD,10926,0.041,
8,SUZ,2019,9,SUZUKI,8716,0.033,
9,HYU,2019,10,HYUNDAI,5694,0.022,


¡Este resultado es llamado DataFrame! Esa es la unidad básica de pandas.

Otra manera de crear un DataFRame es importando un archivo csv usando Pandas. Ahora, el csv cars.csv es almacenado y puede ser importado usando pd.read_csv:

## Importar archivo CSV

In [4]:
# Import pandas as pd
import pandas as pd

# Import the vehiculos
vehiculos = pd.read_csv('files/vehiculos.csv', sep = ";")

# vehiculos
vehiculos

Unnamed: 0,cod,year,ranking,marca,ventas,market_share,ensambladora_local
0,REN,2019,1,RENAULT,57066,21.60%,SI
1,CHE,2019,2,CHEVROLET,46521,17.60%,SI
2,NIS,2019,3,NISSAN,21579,8.20%,SI
3,MAZ,2019,4,MAZDA,20424,7.70%,
4,KIA,2019,5,KIA,20015,7.60%,
5,TOY,2019,6,TOYOTA,16187,6.10%,SI
6,VOL,2019,7,VOLKSWAGEN,14214,5.40%,SI
7,FOR,2019,8,FORD,10926,4.10%,
8,SUZ,2019,9,SUZUKI,8716,3.30%,
9,HYU,2019,10,HYUNDAI,5694,2.20%,


## Leer un archivo de texto

También podemos usar el método read_csv de pandas para leer desde un archivo de texto; Considera el siguiente ejemplo:

In [5]:
# Import pandas as pd
import pandas as pd

# Import the vehiculos
vehiculos = pd.read_csv('files/vehiculos.txt', sep = '\t')

# vehiculos
vehiculos

Unnamed: 0,cod,year,ranking,marca,ventas,market_share,ensambladora_local
0,REN,2019,1,RENAULT,57066,21.60%,SI
1,CHE,2019,2,CHEVROLET,46521,17.60%,SI
2,NIS,2019,3,NISSAN,21579,8.20%,SI
3,MAZ,2019,4,MAZDA,20424,7.70%,
4,KIA,2019,5,KIA,20015,7.60%,
5,TOY,2019,6,TOYOTA,16187,6.10%,SI
6,VOL,2019,7,VOLKSWAGEN,14214,5.40%,SI
7,FOR,2019,8,FORD,10926,4.10%,
8,SUZ,2019,9,SUZUKI,8716,3.30%,
9,HYU,2019,10,HYUNDAI,5694,2.20%,


El archivo también puede usar otro delimitador, como un punto y coma, un tabulador, etc.

## Propiedades del DataFrame

Se verifican las propiedades de la tabla después de la carga de datos.

In [6]:
# Import pandas and vehiculos.csv
import pandas as pd 
vehiculos = pd.read_csv('files/vehiculos.csv', sep = ";", index_col = 0)

# Número de registros
len(vehiculos)

30

In [7]:
# Columnas del DF
vehiculos.columns

Index(['year', 'ranking', 'marca', 'ventas', 'market_share',
       'ensambladora_local'],
      dtype='object')

In [8]:
# Estadisticas de los campos númericos
vehiculos.describe()

Unnamed: 0,year,ranking,ventas
count,30.0,30.0,30.0
mean,2018.0,5.5,18817.266667
std,0.830455,2.921384,17195.365294
min,2017.0,1.0,187.0
25%,2017.0,3.0,8356.75
50%,2018.0,5.5,13786.0
75%,2019.0,8.0,21060.25
max,2019.0,10.0,57066.0


## Visualización de datos

In [9]:
# Primeros 5 registros
vehiculos.head()

Unnamed: 0_level_0,year,ranking,marca,ventas,market_share,ensambladora_local
cod,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
REN,2019,1,RENAULT,57066,21.60%,SI
CHE,2019,2,CHEVROLET,46521,17.60%,SI
NIS,2019,3,NISSAN,21579,8.20%,SI
MAZ,2019,4,MAZDA,20424,7.70%,
KIA,2019,5,KIA,20015,7.60%,


## Subconjunto de registros

Hay varias maneras de obtener subconjuntos desde un DataFrame de Pandas. 

**A partir de los indices**

In [10]:
# Import pandas and vehiculos.csv
import pandas as pd 
vehiculos = pd.read_csv('files/vehiculos.csv', sep = ";", index_col = 0)

# first 5 observations
vehiculos[0:5]

Unnamed: 0_level_0,year,ranking,marca,ventas,market_share,ensambladora_local
cod,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
REN,2019,1,RENAULT,57066,21.60%,SI
CHE,2019,2,CHEVROLET,46521,17.60%,SI
NIS,2019,3,NISSAN,21579,8.20%,SI
MAZ,2019,4,MAZDA,20424,7.70%,
KIA,2019,5,KIA,20015,7.60%,


In [11]:
# fifth and sixth observation
vehiculos[4:6]

Unnamed: 0_level_0,year,ranking,marca,ventas,market_share,ensambladora_local
cod,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
KIA,2019,5,KIA,20015,7.60%,
TOY,2019,6,TOYOTA,16187,6.10%,SI


## Subconjunto de columnas

Para obtener subconjuntos de columnas una de las formas más sencillas es usar la notación de corchetes.

En el ejemplo, puedes usar corchetes para seleccionar una columna del DataFrame vehiculos. Puedes usar corchetes simples o dobles. 

**Corchetes simples**  
Los corchetes simples tienen salida a Pandas Series

In [12]:
#  market_share column as Pandas Series
new_veh = vehiculos['market_share']
new_veh

cod
REN    21.60%
CHE    17.60%
NIS     8.20%
MAZ     7.70%
KIA     7.60%
TOY     6.10%
VOL     5.40%
FOR     4.10%
SUZ     3.30%
HYU     2.20%
REN    19.40%
CHE    19.40%
NIS     9.00%
MAZ     8.40%
KIA     8.20%
TOY     5.50%
VOL     5.20%
FOR     4.90%
SUZ     3.20%
HYU     1.90%
CHE    21.50%
REN    19.70%
NIS     8.80%
MAZ     7.80%
KIA     8.30%
TOY     4.00%
VOL     3.90%
FOR     6.40%
SUZ     3.00%
HYU     3.60%
Name: market_share, dtype: object

**Corchetes dobles**  
Los corchetes dobles tendrán salida a a Pandas DataFrame.

In [13]:
# market_share column as Pandas DataFrame
new_veh = vehiculos[['market_share']]
new_veh

Unnamed: 0_level_0,market_share
cod,Unnamed: 1_level_1
REN,21.60%
CHE,17.60%
NIS,8.20%
MAZ,7.70%
KIA,7.60%
TOY,6.10%
VOL,5.40%
FOR,4.10%
SUZ,3.30%
HYU,2.20%


Corchetes dobles con multiples columnas

In [14]:
# Print out DataFrame with market_share and ventas columns
new_veh = vehiculos[['market_share', 'ventas']]
new_veh

Unnamed: 0_level_0,market_share,ventas
cod,Unnamed: 1_level_1,Unnamed: 2_level_1
REN,21.60%,57066
CHE,17.60%,46521
NIS,8.20%,21579
MAZ,7.70%,20424
KIA,7.60%,20015
TOY,6.10%,16187
VOL,5.40%,14214
FOR,4.10%,10926
SUZ,3.30%,8716
HYU,2.20%,5694


## Subconjunto de filas y columnas

También puedes usar loc e iloc para realizar casi cualquier operación de selección de datos.

### loc

`loc` está basado en etiquetas, lo que significa que puedes especificar filas y columnas basadas en sus etiquetas de filas y columnas.

In [15]:
# Un registro y todas las columnas como un Pandas Series
new_veh = vehiculos.loc['MAZ']  
new_veh

Unnamed: 0_level_0,year,ranking,marca,ventas,market_share,ensambladora_local
cod,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
MAZ,2019,4,MAZDA,20424,7.70%,
MAZ,2018,4,MAZDA,2152,8.40%,
MAZ,2017,5,MAZDA,187,7.80%,


In [16]:
# Un registro y todas las columnas como un Pandas DF
new_veh = vehiculos.loc[['MAZ']]  
new_veh

Unnamed: 0_level_0,year,ranking,marca,ventas,market_share,ensambladora_local
cod,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
MAZ,2019,4,MAZDA,20424,7.70%,
MAZ,2018,4,MAZDA,2152,8.40%,
MAZ,2017,5,MAZDA,187,7.80%,


In [17]:
# Todos los registros y una columna como un Pandas Series
new_veh = vehiculos.loc[:,'market_share']
new_veh

cod
REN    21.60%
CHE    17.60%
NIS     8.20%
MAZ     7.70%
KIA     7.60%
TOY     6.10%
VOL     5.40%
FOR     4.10%
SUZ     3.30%
HYU     2.20%
REN    19.40%
CHE    19.40%
NIS     9.00%
MAZ     8.40%
KIA     8.20%
TOY     5.50%
VOL     5.20%
FOR     4.90%
SUZ     3.20%
HYU     1.90%
CHE    21.50%
REN    19.70%
NIS     8.80%
MAZ     7.80%
KIA     8.30%
TOY     4.00%
VOL     3.90%
FOR     6.40%
SUZ     3.00%
HYU     3.60%
Name: market_share, dtype: object

In [18]:
# Todos los registros y una columna como un Pandas DF
new_veh = vehiculos.loc[:,['market_share']]
new_veh

Unnamed: 0_level_0,market_share
cod,Unnamed: 1_level_1
REN,21.60%
CHE,17.60%
NIS,8.20%
MAZ,7.70%
KIA,7.60%
TOY,6.10%
VOL,5.40%
FOR,4.10%
SUZ,3.30%
HYU,2.20%


In [19]:
# Varios registros y varias columnas como un Pandas DF
new_veh = vehiculos.loc[['MAZ','VOL'],['market_share','ventas']]
new_veh

Unnamed: 0_level_0,market_share,ventas
cod,Unnamed: 1_level_1,Unnamed: 2_level_1
MAZ,7.70%,20424
MAZ,8.40%,2152
MAZ,7.80%,187
VOL,5.40%,14214
VOL,5.20%,13393
VOL,3.90%,9265


### iloc
`iloc` es un índice basado en enteros, así que tienes que especificar las filas y columnas con su índice entero.

In [20]:
# Cómo un Pandas Series
new_veh = vehiculos.iloc[3]
new_veh

year                   2019
ranking                   4
marca                 MAZDA
ventas                20424
market_share          7.70%
ensambladora_local      NaN
Name: MAZ, dtype: object

In [21]:
# Cómo un Pandas DF
new_veh = vehiculos.iloc[[3]]
new_veh

Unnamed: 0_level_0,year,ranking,marca,ventas,market_share,ensambladora_local
cod,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
MAZ,2019,4,MAZDA,20424,7.70%,


In [22]:
# Todos los registros y una columna como un Pandas Series
new_veh = vehiculos.iloc[:,3]
new_veh

cod
REN    57066
CHE    46521
NIS    21579
MAZ    20424
KIA    20015
TOY    16187
VOL    14214
FOR    10926
SUZ     8716
HYU     5694
REN    49741
CHE    49916
NIS     2319
MAZ     2152
KIA    21013
TOY    14179
VOL    13393
FOR    12545
SUZ     8277
HYU     4932
CHE    51253
REN    46863
NIS    21076
MAZ      187
KIA     1981
TOY     9596
VOL     9265
FOR    15166
SUZ      726
HYU     8596
Name: ventas, dtype: int64

In [23]:
# Todos los registros y una columna como un Pandas DF
new_veh = vehiculos.iloc[:,[3]]
new_veh

Unnamed: 0_level_0,ventas
cod,Unnamed: 1_level_1
REN,57066
CHE,46521
NIS,21579
MAZ,20424
KIA,20015
TOY,16187
VOL,14214
FOR,10926
SUZ,8716
HYU,5694


In [24]:
new_veh = vehiculos.iloc[[3,6],[3,2]]
new_veh

Unnamed: 0_level_0,ventas,marca
cod,Unnamed: 1_level_1,Unnamed: 2_level_1
MAZ,20424,MAZDA
VOL,14214,VOLKSWAGEN


## Escribir DataFrame al disco

Para escribir un DataFrame al disco:

In [25]:
mkdir tmp 

Exportar tabla como un archivo csv. Para un mayor detalle de la sintaxis [Aquí](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_csv.html)

In [26]:
# exporta la tabla como un csv separado por comas
new_veh.to_csv("tmp/new_veh.csv", sep=",", header=True, index=False)

In [27]:
# exporta la tabla como un txt separado por tabuladores
new_veh.to_csv("tmp/new_veh.txt", sep="\t", header=True, index=False)

Exportar tabla como un archivo de excel. Para un mayor detalle de la sintaxis [Aquí](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_excel.html)

In [28]:
# exporta la tabla como un excel
new_veh.to_excel("tmp/new_veh.xlsx", header=True, index=False)