# Programación imprescindible para tratamiento de tablas

Este notebook es una recopilación de los principales comandos más útiles y usados para tratamiento de tablas.

## Índice

1. Exploración de la tabla
   - 1.1. Cabecera
   - 1.2. Número de registros
   - 1.3. Columnas y número de columnas
   - 1.4. Descripción (sólo para variables numéricas)
   - 1.5. Transponer
   
2. Filtrado y selección
   - 2.1. Acceder a una columna (o a ciertos elementos de una columna)
   - 2.2. Acceder a más de una columna
   - 2.3. Crear una columna nueva e inicializarla al valor que queramos
   - 2.4. Filtrar por filas con una condición
   - 2.5. Filtrado por una condición más compleja
   - 2.6. Filtrar por filas por el número de índice
   - 2.7. Filtrar por posición
   - 2.8. Borrar una columna
   - 2.9. Borrar una fila por el índice
   - 2.10. Filtrar a partir de una lista
   
3. Aplicación de funciones
   - 3.1. Operación global a una o más columnas (apply)
   - 3.2. Operación a cada elemento de una tabla (applymap)
   - 3.3. Operación a cada elemento de una columna (map)
   - 3.4. Cambio de formato de una columna en una tabla: de número a texto

4. Ordenación
   - 4.1. Ordenar columnas
   - 4.2. Ordenar por el valor de una columna
   - 4.3. Ordenar por más de un campo

5. Agrupación
   - 5.1. Resumen de los valores de una columna
   - 5.2. Resumen de valores y recuento

6. Valores nulos
   - 6.1. Detectar qué columnas tienen nulos
   - 6.2. Contar cuántos nulos hay en cada columna
   - 6.3. Quitar los registros con valores nulos
   - 6.4. Rellenar nulos

In [1]:
import pandas as pd
import numpy as np
import requests

### Importamos una tabla para trabajar con ella

Descargamos la tabla `honeyproduction` de kaggle: 

https://www.kaggle.com/jessicali9530/honey-production/version/2

Los campos son:

* `numcol`: Number of honey producing colonies. Honey producing colonies are the maximum number of colonies from which honey was taken during the year. It is possible to take honey from colonies which did not survive the entire year
* `yieldpercol`: Honey yield per colony. Unit is pounds
* `totalprod`: Total production (numcol x yieldpercol). Unit is pounds
* `stocks`: Refers to stocks held by producers. Unit is pounds
* `priceperlb`: Refers to average price per pound based on expanded sales. Unit is dollars.
* `prodvalue`: Value of production (totalprod x priceperlb). Unit is dollars.

In [2]:
path = 'honeyproduction.csv'
df = pd.read_csv(path)

## 1. Exploración de la tabla

#### 1.1. Cabecera

In [3]:
df.head(3)

Unnamed: 0,state,numcol,yieldpercol,totalprod,stocks,priceperlb,prodvalue,year
0,AL,16000.0,71,1136000.0,159000.0,0.72,818000.0,1998
1,AZ,55000.0,60,3300000.0,1485000.0,0.64,2112000.0,1998
2,AR,53000.0,65,3445000.0,1688000.0,0.59,2033000.0,1998


#### 1.2. Número de registros

In [4]:
len(df)

626

#### 1.3. Columnas y número de columnas

In [5]:
print(df.columns)
print(len(df.columns))

Index(['state', 'numcol', 'yieldpercol', 'totalprod', 'stocks', 'priceperlb',
       'prodvalue', 'year'],
      dtype='object')
8


#### 1.4. Descripción (sólo para variables numéricas)

In [6]:
df.describe()

Unnamed: 0,numcol,yieldpercol,totalprod,stocks,priceperlb,prodvalue,year
count,626.0,626.0,626.0,626.0,626.0,626.0,626.0
mean,60284.345048,62.009585,4169086.0,1318859.0,1.409569,4715741.0,2004.864217
std,91077.087231,19.458754,6883847.0,2272964.0,0.638599,7976110.0,4.317306
min,2000.0,19.0,84000.0,8000.0,0.49,162000.0,1998.0
25%,9000.0,48.0,475000.0,143000.0,0.9325,759250.0,2001.0
50%,26000.0,60.0,1533000.0,439500.0,1.36,1841500.0,2005.0
75%,63750.0,74.0,4175250.0,1489500.0,1.68,4703250.0,2009.0
max,510000.0,136.0,46410000.0,13800000.0,4.15,69615000.0,2012.0


#### 1.5. Transponer

In [7]:
df2 = df.T
df2.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,616,617,618,619,620,621,622,623,624,625
state,AL,AZ,AR,CA,CO,FL,GA,HI,ID,IL,...,SD,TN,TX,UT,VT,VA,WA,WV,WI,WY
numcol,16000,55000,53000,450000,27000,230000,75000,8000,120000,9000,...,260000,6000,92000,25000,4000,4000,62000,6000,60000,50000
yieldpercol,71,60,65,83,72,98,56,118,50,71,...,63,61,52,38,60,41,41,48,69,51
totalprod,1.136e+06,3.3e+06,3.445e+06,3.735e+07,1.944e+06,2.254e+07,4.2e+06,944000,6e+06,639000,...,1.638e+07,366000,4.784e+06,950000,240000,164000,2.542e+06,288000,4.14e+06,2.55e+06
stocks,159000,1.485e+06,1.688e+06,1.2326e+07,1.594e+06,4.508e+06,307000,66000,2.22e+06,204000,...,3.604e+06,59000,718000,209000,53000,23000,1.017e+06,95000,1.863e+06,459000


## 2. Filtrado y selección

#### 2.1. Acceder a una columna (o a ciertos elementos de una columna)

In [8]:
# df['numcol']
df['numcol'][:5]

0     16000.0
1     55000.0
2     53000.0
3    450000.0
4     27000.0
Name: numcol, dtype: float64

#### 2.2. Acceder a más de una columna

In [9]:
df[['numcol','yieldpercol']].head(3)

Unnamed: 0,numcol,yieldpercol
0,16000.0,71
1,55000.0,60
2,53000.0,65


#### 2.3. Crear una columna nueva e inicializarla al valor que queramos

In [10]:
df['new_col'] = 0

df.head(2)

Unnamed: 0,state,numcol,yieldpercol,totalprod,stocks,priceperlb,prodvalue,year,new_col
0,AL,16000.0,71,1136000.0,159000.0,0.72,818000.0,1998,0
1,AZ,55000.0,60,3300000.0,1485000.0,0.64,2112000.0,1998,0


#### 2.4. Filtrar por filas con una condición

In [11]:
df[df['numcol'] == 16000].head(2)

Unnamed: 0,state,numcol,yieldpercol,totalprod,stocks,priceperlb,prodvalue,year,new_col
0,AL,16000.0,71,1136000.0,159000.0,0.72,818000.0,1998,0
12,KS,16000.0,46,736000.0,390000.0,0.87,640000.0,1998,0


#### 2.5. Filtrado por una condición más compleja

In [12]:
df[(df['state'] > 'AL') & (df['totalprod'] > 1000)].head(3)

Unnamed: 0,state,numcol,yieldpercol,totalprod,stocks,priceperlb,prodvalue,year,new_col
1,AZ,55000.0,60,3300000.0,1485000.0,0.64,2112000.0,1998,0
2,AR,53000.0,65,3445000.0,1688000.0,0.59,2033000.0,1998,0
3,CA,450000.0,83,37350000.0,12326000.0,0.62,23157000.0,1998,0


In [13]:
state_AL = (df['state'] == 'AL')
big = df['numcol'] > 10000

df[state_AL & big].head(3)

Unnamed: 0,state,numcol,yieldpercol,totalprod,stocks,priceperlb,prodvalue,year,new_col
0,AL,16000.0,71,1136000.0,159000.0,0.72,818000.0,1998,0
43,AL,17000.0,68,1156000.0,185000.0,0.56,647000.0,1999,0
86,AL,16000.0,78,1248000.0,187000.0,0.59,736000.0,2000,0


#### 2.6. Filtrar por filas por el número de índice

In [14]:
df2 = df.loc[0:2]
df2

Unnamed: 0,state,numcol,yieldpercol,totalprod,stocks,priceperlb,prodvalue,year,new_col
0,AL,16000.0,71,1136000.0,159000.0,0.72,818000.0,1998,0
1,AZ,55000.0,60,3300000.0,1485000.0,0.64,2112000.0,1998,0
2,AR,53000.0,65,3445000.0,1688000.0,0.59,2033000.0,1998,0


In [15]:
# Para esto a veces puede venir bien 

df3=df2.reset_index()
df3

Unnamed: 0,index,state,numcol,yieldpercol,totalprod,stocks,priceperlb,prodvalue,year,new_col
0,0,AL,16000.0,71,1136000.0,159000.0,0.72,818000.0,1998,0
1,1,AZ,55000.0,60,3300000.0,1485000.0,0.64,2112000.0,1998,0
2,2,AR,53000.0,65,3445000.0,1688000.0,0.59,2033000.0,1998,0


#### 2.7. Filtrar por posición

In [16]:
df.iloc[-3:]  # Las tres últimas

Unnamed: 0,state,numcol,yieldpercol,totalprod,stocks,priceperlb,prodvalue,year,new_col
623,WV,6000.0,48,288000.0,95000.0,2.91,838000.0,2012,0
624,WI,60000.0,69,4140000.0,1863000.0,2.05,8487000.0,2012,0
625,WY,50000.0,51,2550000.0,459000.0,1.87,4769000.0,2012,0


#### 2.8. Borrar una columna

In [17]:
# No altera el df original, a no ser que utilice `inplace = True`

df2 = df.drop('state', axis = 1)
df2.head(2)

Unnamed: 0,numcol,yieldpercol,totalprod,stocks,priceperlb,prodvalue,year,new_col
0,16000.0,71,1136000.0,159000.0,0.72,818000.0,1998,0
1,55000.0,60,3300000.0,1485000.0,0.64,2112000.0,1998,0


#### 2.9. Borrar una fila por el índice

In [18]:
df.drop([2]).head(3)

Unnamed: 0,state,numcol,yieldpercol,totalprod,stocks,priceperlb,prodvalue,year,new_col
0,AL,16000.0,71,1136000.0,159000.0,0.72,818000.0,1998,0
1,AZ,55000.0,60,3300000.0,1485000.0,0.64,2112000.0,1998,0
3,CA,450000.0,83,37350000.0,12326000.0,0.62,23157000.0,1998,0


#### 2.10. Filtrar a partir de una lista

In [19]:
valor = [2002,2003]

df[df['year'].isin(valor) == True].head()

Unnamed: 0,state,numcol,yieldpercol,totalprod,stocks,priceperlb,prodvalue,year,new_col
173,AL,12000.0,86,1032000.0,103000.0,1.18,1218000.0,2002,0
174,AZ,38000.0,63,2394000.0,1197000.0,1.08,2586000.0,2002,0
175,AR,45000.0,88,3960000.0,871000.0,1.26,4990000.0,2002,0
176,CA,470000.0,50,23500000.0,3525000.0,1.32,31020000.0,2002,0
177,CO,24000.0,60,1440000.0,576000.0,1.29,1858000.0,2002,0


## 3. Aplicación de funciones

#### 3.1. Operación global a una o más columnas (apply)

In [20]:
df4 = df[['numcol', 'totalprod']]

df4.apply(lambda series: series.mean())

numcol       6.028435e+04
totalprod    4.169086e+06
dtype: float64

In [21]:
# También se puede con una función normal

def suma(series):
    return series.sum()

df4.apply(suma)

numcol       3.773800e+07
totalprod    2.609848e+09
dtype: float64

#### 3.2. Operación a cada elemento de una tabla (applymap)

In [22]:
df4.applymap(lambda element: element**2).head(2)


Unnamed: 0,numcol,totalprod
0,256000000.0,1290496000000.0
1,3025000000.0,10890000000000.0


#### 3.3. Operación a cada elemento de una columna (map)

In [23]:
df['numcol_K'] = df['numcol']
df['numcol_K'] = df['numcol_K'].map(lambda element: element/1000)
df.head(2)

Unnamed: 0,state,numcol,yieldpercol,totalprod,stocks,priceperlb,prodvalue,year,new_col,numcol_K
0,AL,16000.0,71,1136000.0,159000.0,0.72,818000.0,1998,0,16.0
1,AZ,55000.0,60,3300000.0,1485000.0,0.64,2112000.0,1998,0,55.0


#### 3.4. Cambio de formato de una columna en una tabla: de número a texto

In [24]:
df['yieldpercol'] = df['yieldpercol'].map(lambda element: '%s' % element)

type(df['yieldpercol'][0])

str

## 4. Ordenación

#### 4.1. Ordenar columnas

In [25]:
df.sort_index(axis = 1).head(2)

Unnamed: 0,new_col,numcol,numcol_K,priceperlb,prodvalue,state,stocks,totalprod,year,yieldpercol
0,0,16000.0,16.0,0.72,818000.0,AL,159000.0,1136000.0,1998,71
1,0,55000.0,55.0,0.64,2112000.0,AZ,1485000.0,3300000.0,1998,60


#### 4.2. Ordenar por el valor de una columna

In [26]:
df.sort_values(by = 'numcol', ascending = False).head(3)

Unnamed: 0,state,numcol,yieldpercol,totalprod,stocks,priceperlb,prodvalue,year,new_col,numcol_K
532,ND,510000.0,91,46410000.0,12995000.0,1.5,69615000.0,2010,0,510.0
612,ND,480000.0,69,33120000.0,5962000.0,1.92,63590000.0,2012,0,480.0
220,CA,480000.0,67,32160000.0,6432000.0,1.39,44702000.0,2003,0,480.0


#### 4.3. Ordenar por más de un campo

In [27]:
df.sort_values(by = ['numcol', 'year'], ascending = True).head(3)

Unnamed: 0,state,numcol,yieldpercol,totalprod,stocks,priceperlb,prodvalue,year,new_col,numcol_K
233,MD,2000.0,42,84000.0,21000.0,1.93,162000.0,2003,0,2.0
13,KY,3000.0,50,150000.0,51000.0,1.4,210000.0,1998,0,3.0
56,KY,3000.0,50,150000.0,12000.0,1.24,186000.0,1999,0,3.0


## 5. Agrupación

#### 5.1. Resumen de los valores de una columna

In [28]:
# Resumen de los valores de una columna

df['state'].unique()

array(['AL', 'AZ', 'AR', 'CA', 'CO', 'FL', 'GA', 'HI', 'ID', 'IL', 'IN',
       'IA', 'KS', 'KY', 'LA', 'ME', 'MD', 'MI', 'MN', 'MS', 'MO', 'MT',
       'NE', 'NV', 'NJ', 'NM', 'NY', 'NC', 'ND', 'OH', 'OK', 'OR', 'PA',
       'SD', 'TN', 'TX', 'UT', 'VT', 'VA', 'WA', 'WV', 'WI', 'WY', 'SC'], dtype=object)

#### 5.2. Resumen de valores y recuento

In [29]:
# Resumen de valores y recuento

df['year'].value_counts()

2003    44
2002    44
2001    44
2000    43
1999    43
1998    43
2008    41
2007    41
2006    41
2005    41
2004    41
2012    40
2011    40
2010    40
2009    40
Name: year, dtype: int64

## 6. Valores nulos

In [30]:
# Creamos un nuevo df

array = np.random.randn(6,3) * 20 + 100

df5 = pd.DataFrame(array, columns = list('xyz'), index = list('abcdef'))
df5.iloc[2:5, 1] = np.nan
df5.iloc[1:3, 2] = np.nan
df5

Unnamed: 0,x,y,z
a,81.17989,111.682636,62.188931
b,94.281516,90.734069,
c,103.884779,,
d,119.469071,,108.102361
e,55.129393,,108.214993
f,110.064935,58.789728,95.1185


#### 6.1. Detectar qué columnas tienen nulos

In [31]:
df5.notnull().all()  # False implica nulos

x     True
y    False
z    False
dtype: bool

#### 6.2. Contar cuántos nulos hay en cada columna

In [32]:


df5.isnull().sum()

x    0
y    3
z    2
dtype: int64

#### 6.3. Quitar los registros con valores nulos

In [33]:
df5.dropna()  # Puedo jugar con el axis para quitar columnas que tengan algún nulo

Unnamed: 0,x,y,z
a,81.17989,111.682636,62.188931
f,110.064935,58.789728,95.1185


In [34]:
# Quitar registros con valores nulos fijando un límite

df5.dropna(thresh = 2)  # Me quita sólo las filas que tengan 2 o más no nulos

Unnamed: 0,x,y,z
a,81.17989,111.682636,62.188931
b,94.281516,90.734069,
d,119.469071,,108.102361
e,55.129393,,108.214993
f,110.064935,58.789728,95.1185


#### 6.4. Rellenar nulos

In [35]:
# Rellenar nulos con un valor

df5.fillna(3)

Unnamed: 0,x,y,z
a,81.17989,111.682636,62.188931
b,94.281516,90.734069,3.0
c,103.884779,3.0,3.0
d,119.469071,3.0,108.102361
e,55.129393,3.0,108.214993
f,110.064935,58.789728,95.1185


In [36]:
# Rellenar nulos con la media de cada columna

df5.fillna(df5.mean())  # No es la media de df5, sino la media de cada columna.

Unnamed: 0,x,y,z
a,81.17989,111.682636,62.188931
b,94.281516,90.734069,93.406196
c,103.884779,87.068811,93.406196
d,119.469071,87.068811,108.102361
e,55.129393,87.068811,108.214993
f,110.064935,58.789728,95.1185


In [37]:
# Sustituir por el siguiente valor

df5.fillna(method = 'bfill')

Unnamed: 0,x,y,z
a,81.17989,111.682636,62.188931
b,94.281516,90.734069,108.102361
c,103.884779,58.789728,108.102361
d,119.469071,58.789728,108.102361
e,55.129393,58.789728,108.214993
f,110.064935,58.789728,95.1185


# WORK IN PROGRESS