<a href="https://colab.research.google.com/github/anttox/C8280/blob/main/Actividad2/TareaPandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### Pandas


Pandas es un paquete Python de código abierto que proporciona estructuras de datos rápidas, flexibles y expresivas diseñadas para que trabajar con datos "relacionales" o "etiquetados" sea fácil e intuitivo.

### Estructuras de datos
Pandas presenta dos nuevas estructuras de datos en Python: Series y DataFrame, ambas construidas sobre NumPy (esto significa que es rápido).


#### Serie

Este es un objeto unidimensional similar a la columna en una hoja de cálculo o tabla SQL. De forma predeterminada, a cada elemento se le asignará una etiqueta de índice de `0` a `N`.

In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [13]:
s = pd.Series([1,3,4,np.nan, 5, 6], index = ['A', 'B', 'C', 'D', 'E', 'F'])
print(s)

A    1.0
B    3.0
C    4.0
D    NaN
E    5.0
F    6.0
dtype: float64


Si creas una serie utilizando el diccionario, la clave se convertirá en el índice de forma predeterminada.

In [14]:
dict_ejemplo = {'A': 1, 'B':2, 'C':3, 'D':np.nan, 'E': 5, 'F': 6}
dict_ejemplo

{'A': 1, 'B': 2, 'C': 3, 'D': nan, 'E': 5, 'F': 6}

In [15]:
s = pd.Series(dict_ejemplo)
print(s)

A    1.0
B    2.0
C    3.0
D    NaN
E    5.0
F    6.0
dtype: float64


La contraparte bidimensional de las series unidimensionales es el DataFrame.

### DataFrame

Es un objeto bidimensional similar a una hoja de cálculo o una tabla SQL. Este es el objeto Pandas más utilizado.


In [16]:
data = {'Genero': ['F', 'M', 'M'],
        'Emp_ID': ['E01', 'E02', 'E03'],
        'Edad': [25, 27, 25]}
# Si queremos el orden de las columnas, especificamos en el parametro columns
df = pd.DataFrame(data, columns=['Emp_ID', 'Genero', 'Edad'])
df

Unnamed: 0,Emp_ID,Genero,Edad
0,E01,F,25
1,E02,M,27
2,E03,M,25


#### Lectura y escritura de datos

Veremos tres formatos de archivo de uso común: csv, archivo de texto y Excel.

In [27]:
# Leyendo desde un archivo csv
df = pd.read_csv('mtcars.csv')
df.head()

Unnamed: 0,model,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
0,Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
1,Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
2,Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
3,Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1
4,Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2


In [18]:
# Escribir un csv
# index = False - no escribe los valores de indice, el valor predeterminado es True
# completar
# Creamos un dataframe de ejemplo llamado amigos
Amigos = {'Nombre': ['Renzo', 'Anderson', 'Alexander'],
        'Edad': [20, 19, 18],
        'Ciudad': ['Carabayllo', 'Comas', 'San Borja']}
df = pd.DataFrame(Amigos)

# Escribimos el dataframe en un archivo CSV sin incluir los valores de índice
df.to_csv('archivo.csv', index=False)

In [28]:
# Leyendo desde un archivo .txt
df = pd.read_csv('mtcars.txt', sep='\t')
df.head()

Unnamed: 0,"model,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb"
0,"Mazda RX4,21,6,160,110,3.9,2.62,16.46,0,1,4,4"
1,"Mazda RX4 Wag,21,6,160,110,3.9,2.875,17.02,0,1..."
2,"Datsun 710,22.8,4,108,93,3.85,2.32,18.61,1,1,4,1"
3,"Hornet 4 Drive,21.4,6,258,110,3.08,3.215,19.44..."
4,"Hornet Sportabout,18.7,8,360,175,3.15,3.44,17...."


In [29]:
# Leyendo un archivo Excel
import pandas as pd
df = pd.read_excel('mtcars.xlsx', sheet_name= "Worksheet")

df.head()

Unnamed: 0,model,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
0,Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
1,Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
2,Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
3,Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1
4,Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2


### Resumen de estadísticas básicas


In [22]:
df = pd.read_csv('iris.csv')
df.head()

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa


#### Covarianza


In [23]:
# covarianza: devuelve la covarianza entre columnas adecuadas
columna1 = df['sepal.length']
columna2 = df['sepal.width']
covarianza = columna1.cov(columna2)

In [24]:
print(covarianza)

-0.042434004474272924


#### Correlación


In [25]:
# Calculamos la correlación entre columnas
correlation = df.corr(numeric_only=True)

# Imprimir la matriz de correlación
print(correlation)

              sepal.length  sepal.width  petal.length  petal.width
sepal.length      1.000000    -0.117570      0.871754     0.817941
sepal.width      -0.117570     1.000000     -0.428440    -0.366126
petal.length      0.871754    -0.428440      1.000000     0.962865
petal.width       0.817941    -0.366126      0.962865     1.000000


### Visualización de datos
Pandas DataFrame viene con funciones integradas para ver los datos contenidos:

* Mirando los `n` primeros registros, el valor predeterminado de `n` es 5 si no se especifica:  `df.head(n=2)`.

* Mirando los `n` registros inferiores: `df.tail()`

* Obtener los nombres de las columnas: `df.columns`

* Obtener los tipos de datos de las columnas: `df.types`

* Obtener el índice del dataframe: `df.index`

* Obtener valores únicos: `df[column_name].unique()`

* Obtener valores: `df.values`

* Ordenar el dataframe: `df.sort_values(by =['Column1', 'Column2'], ascending=[True,True'])`

* Seleccionar/ver por el nombre de la columna: `df[column_name]`

* Seleccionar/ver por número de fila `df[0:3]`

* Selección por índice:

- `df.loc[0:3] # índice de 0 a 3`
- `df.loc[0:3,[‘column1’, ‘column2’]] # índice de 0 a 3 para las columnas específicas`

* Selección por posición

- `df.iloc[0:2] # usando el rango, primeras 2 filas`
- `df.iloc[2,3,6] # posición específica`
-  `df.iloc[0:2,0:2] # primeras 2 filas y primeras 2 columnas`

* Selección sin que esté en el índice

- `print(df.ix[1,1]) # valor de la primera fila y la primera columna`
- `print(df.ix[:,2]) # todas las filas de la columna en la segunda posición`

* Alternativa más rápida a `iloc` para obtener valores escalares: `print(df.iat[1,1])`

* Transponer el dataframe: `df.T`

* Filtrar DataFrame según la condición de valor para una columna: `df[df['column_name'] > 7.5]`

* Filtrar DataFrame basado en una condición de valor en una columna: `df[df['column_name'].isin(['condition_value1', 'condition_value2'])]`

* Filtro basado en múltiples condiciones en múltiples columnas usando el operador AND: `df[(df['column1']>7.5) & (df['column2']>3)]`

* Filtro basado en múltiples condiciones en múltiples columnas usando el operador OR: `df[(df[‘column1’]>7.5) | (df['column2']>3)]`.

In [3]:
# Creamos el DataFrame
data = {'Column1': [1, 2, 3, 4, 5],
        'Column2': [6, 7, 8, 9, 10],
        'Column3': [11, 12, 13, 14, 15]}

df = pd.DataFrame(data)

In [4]:
# Visualizar los primeros n registros (por defecto n=5)
print(df.head(2))


   Column1  Column2  Column3
0        1        6       11
1        2        7       12


In [5]:
# Visualizar los últimos n registros
print(df.tail())

   Column1  Column2  Column3
0        1        6       11
1        2        7       12
2        3        8       13
3        4        9       14
4        5       10       15


In [6]:
# Obtener los nombres de las columnas
print(df.columns)

Index(['Column1', 'Column2', 'Column3'], dtype='object')


In [7]:
# Obtener los tipos de datos de las columnas
print(df.dtypes)

Column1    int64
Column2    int64
Column3    int64
dtype: object


In [8]:
# Obtener el índice del dataframe
print(df.index)

RangeIndex(start=0, stop=5, step=1)


In [9]:
# Obtener valores únicos de una columna
print(df['Column1'].unique())


[1 2 3 4 5]


In [10]:
# Obtener todos los valores del dataframe
print(df.values)

[[ 1  6 11]
 [ 2  7 12]
 [ 3  8 13]
 [ 4  9 14]
 [ 5 10 15]]


In [11]:
# Obtener los valores de una columna específica
column_values = df['Column2']
print(column_values)

0     6
1     7
2     8
3     9
4    10
Name: Column2, dtype: int64


In [44]:
# Obtener los valores únicos de la columna "Species"
# No hay columna Species, pero para ello crearemos un data Species
data = {'Species': ['setosa', 'versicolor', 'setosa', 'versicolor', 'virginica']}

df = pd.DataFrame(data)
unique_values = df['Species'].unique()
print(unique_values)

['setosa' 'versicolor' 'virginica']


In [37]:
data = {'Sepal.Length': [5.1, 4.9, 5.5, 5.7, 4.8]}
df = pd.DataFrame(data)
unique_values = df['Sepal.Length'].unique()
print(unique_values)

[5.1 4.9 5.5 5.7 4.8]


In [43]:
# Ordenar el DataFrame por las columnas "Species" y "Sepal.Length" en orden ascendente
data = {'Species': ['setosa', 'versicolor', 'setosa', 'versicolor', 'virginica'],
        'Sepal.Length': [5.1, 4.9, 5.5, 5.7, 4.8]}
df = pd.DataFrame(data)
sorted_df = df.sort_values(by=['Species', 'Sepal.Length'], ascending=[True, True])
print(sorted_df)

      Species  Sepal.Length
0      setosa           5.1
2      setosa           5.5
1  versicolor           4.9
3  versicolor           5.7
4   virginica           4.8


In [45]:
df['Species']

0        setosa
1    versicolor
2        setosa
3    versicolor
4     virginica
Name: Species, dtype: object

In [48]:
data = {'Species': ['setosa', 'versicolor', 'virginica'],
        'Sepal.Length': [5.1, 4.9, 6.3],
        'Petal.Length': [1.4, 3.0, 5.6]}

df = pd.DataFrame(data)

# Seleccionamos la columna "Species" del DataFrame
species_column = df['Species']
print(species_column)

0        setosa
1    versicolor
2     virginica
Name: Species, dtype: object


Selección diferente por opciones de etiqueta

- `loc:` solo funciona en el índice
- `iloc:` trabaja en posición
- `iat:` Obtener valores escalares. es un `iloc` muy rapido.

In [49]:
# Selección por índice
print(df.loc[1])  # Seleccionamos la fila con índice 1
print(df.iloc[0])  # Seleccionamos la primera fila

Species         versicolor
Sepal.Length           4.9
Petal.Length           3.0
Name: 1, dtype: object
Species         setosa
Sepal.Length       5.1
Petal.Length       1.4
Name: 0, dtype: object


In [50]:
# Selección por índice de nombres de etiquetas específicas
print(df.loc[[0, 2]])  # Seleccionamos las filas con índices 0 y 2
print(df.loc[:, ['Species', 'Petal.Length']])  # Seleccionamos las columnas "Species" y "Petal.Length"


     Species  Sepal.Length  Petal.Length
0     setosa           5.1           1.4
2  virginica           6.3           5.6
      Species  Petal.Length
0      setosa           1.4
1  versicolor           3.0
2   virginica           5.6


In [51]:
# Selección por índice de nombres de etiquetas específicas
print(df.loc[[0, 2]])  # Seleccionamos las filas con índices 0 y 2
print(df.loc[:, ['Species', 'Petal.Length']])  # Seleccionamos las columnas "Species" y "Petal.Length"


     Species  Sepal.Length  Petal.Length
0     setosa           5.1           1.4
2  virginica           6.3           5.6
      Species  Petal.Length
0      setosa           1.4
1  versicolor           3.0
2   virginica           5.6


In [52]:
# Selección por posición entre filas dadas como rango
print(df.iloc[1:3])  # Seleccionamos las filas de la posición 1 a 2 (excluyendo la 3)

      Species  Sepal.Length  Petal.Length
1  versicolor           4.9           3.0
2   virginica           6.3           5.6


**Ejercicio**

¿Qué produce `df.iloc[0:3, 0:3]` ?

In [61]:
# Seleccionamos las primeras 3 filas y las primeras 3 columnas
subset = df.iloc[0:3, 0:3]
print(subset)

      Species  Sepal.Length  Petal.Length
0      setosa           5.1           1.4
1  versicolor           4.9           3.0
2   virginica           6.3           5.6


In [63]:
# seleccion por posicion entre numeros de fila especificos dados
row_indices = [0, 2]  # Números de fila deseados
selected_rows = df.iloc[row_indices]
print(selected_rows)

     Species  Sepal.Length  Petal.Length
0     setosa           5.1           1.4
2  virginica           6.3           5.6


Selección por índice de fila y columna (el índice comienza con 0).

El siguiente caso obtendrá el valor `[índice de la primera fila, índice de la primera columna]`.

In [64]:
# obtener valores escalares. es un iloc muy rapido
print(df.iat[1, 1])  # Obtener el valor en la fila 1, columna 1

4.9


In [66]:
# Obtencion de datos sin que este en el indice
print(df.iloc[1, 1])  # Obtener el valor en la fila 1, columna 1

4.9


In [65]:
# selecciona columnas por posicion
print(df.iloc[:, 2])  # Seleccionar la tercera columna

0    1.4
1    3.0
2    5.6
Name: Petal.Length, dtype: float64


In [67]:
# Transpuesta
print(df.T)  # Transponer el DataFrame

                   0           1          2
Species       setosa  versicolor  virginica
Sepal.Length     5.1         4.9        6.3
Petal.Length     1.4         3.0        5.6


#### Indexado Booleano

In [68]:
data = {'Name': ['John', 'Jane', 'Michael', 'Sara'],
        'Age': [25, 30, 35, 28],
        'Salary': [50000, 60000, 70000, 55000]}

In [69]:
df = pd.DataFrame(data)

In [70]:
# Indexado booleano
condition = (df['Age'] > 30) & (df['Salary'] < 60000)  # Definimos la condición booleana
subset = df[condition]  # Filtramos el DataFrame utilizando la condición

In [71]:
print(subset)

Empty DataFrame
Columns: [Name, Age, Salary]
Index: []


### Operaciones básicas con Pandas

* Convertir cadenas a series de fechas: `pd.to_datetime(pd.Series(['2017-04-01','2017-04-02','2017-04-03']))`.

* Cambiar el nombre de una columna específica: `df.rename(columns={‘old_columnname’:‘new_columnname'}, inplace=True)`

* Cambiar el nombre de todas las columnas del DataFrame: `df.columns = ['col1_new_name','col2_new_name'...]`

* Marcar duplicados: `df.duplicated()`

* Quitar duplicados:`df = df.drop_duplicates()`

* Quitar duplicados en una columna específica: `df.drop_duplicates(['column_name'])`

* Quitar los duplicados en una columna específica, pero se conserva la primera o la última observación en el conjunto de duplicados: `df.drop_duplicates(['column_name'], keep = 'first') # cambiar al ultimo para conservar la ultima observación del duplicado`.

* Crear una nueva columna a partir de una columna existente: `df['new_column_name'] = df['new_column_name'] + 5`

* Crear una nueva columna a partir de los elementos de dos columnas: `df['new_column_name'] = df['existing_column1'] + '_' + df['existing_column2']`

* Agregar una lista o una nueva columna a DataFrame: `df['new_column_name'] = pd.Series(mylist)`

* Descartar las filas y columnas faltantes que tienen valores faltantes: `df.dropna()`

* Reemplaza todos los valores faltantes con 0 (o puede usar cualquier int o str): `df.fillna(value=0)`

* Reemplaza los valores faltantes con la última observación válida (útil en datos de series de tiempo). Por ejemplo, la temperatura no cambia drásticamente en comparación con una observación anterior. Una forma es llenar de NA forward-backward más alla de la media.

    1) 'pad' / 'ffill' - forward fill

    2) 'bfill'/'backfill' - backward fill

    Límite: si se especifica el método, este es el número máximo de valores de NaN consecutivos para completar forward/backward fill: `df.fillna (method = 'ffill', inplace= True, limit = 1)`

* Verifica la condición del valor faltante y devuelva el valor Booleano de `True` o `False` para cada celda: `pd.isnull(df)`

* Reemplaza todos los valores faltantes para una columna dada con la media: `mean=df['column_name].mean(); df['column_name'].fillna(mean)`

* Devuelve la media para cada columna: `df.mean()`

* Retorna el máximo para cada columna: `df.max()`

* Retorno el mínimo para cada columna: `df.min()`

* Devuelve la suma para cada columna: `df.sum()`

* Conteo para cada columna: `df.count()`

* Devuelve la suma acumulada para cada columna: `df.cumsum()`

* Aplica una función a lo largo de cualquier eje del DataFrame: `df.apply(np.cumsum)`

* Itera sobre cada elemento de una serie y realizar la acción deseada: `df['column_name'].map(lambda x: 1+x) # esto itera sobre la columna y agrega el valor 1 a cada elemento`

* Aplica una función a cada elemento del dataframe:`func = lambda x: x + 1 # función para agregar una constante 1 a cada elemento del dataframe df.applymap(func)`.

In [72]:
cadena_fechas = ('2017-04-01','2017-04-02','2017-04-03','2017-04-04')
pd.to_datetime(pd.Series(cadena_fechas))

0   2017-04-01
1   2017-04-02
2   2017-04-03
3   2017-04-04
dtype: datetime64[ns]

In [74]:
df.rename(columns = {'Sepal.Length': 'Sepal_Length'}, inplace=True)
df

Unnamed: 0,Name,Age,Salary
0,John,25,50000
1,Jane,30,60000
2,Michael,35,70000
3,Sara,28,55000


In [78]:
df.columns = ['Sepal_Length', 'Petal_Length', 'Species']
df

Unnamed: 0,Sepal_Length,Petal_Length,Species
0,Amy,Jackson,42
1,Amy,J,42
2,Jason,Miller,36
3,Nick,Milner,24
4,Stephen,L,24
5,Amy,J,42


In [76]:
# Removemos los duplicados

data_1 = {'primer_nombre': ['Amy', 'Amy', 'Jason', 'Nick', 'Stephen','Amy'],
        'ultimo_nombre': ['Jackson', 'J', 'Miller', 'Milner', 'L','J'],
        'edad': [42, 42, 36, 24, 24, 42]}
df = pd.DataFrame(data_1, columns = ['primer_nombre', 'ultimo_nombre', 'edad'])
print(df)

  primer_nombre ultimo_nombre  edad
0           Amy       Jackson    42
1           Amy             J    42
2         Jason        Miller    36
3          Nick        Milner    24
4       Stephen             L    24
5           Amy             J    42


In [79]:
print(df.duplicated())

0    False
1    False
2    False
3    False
4    False
5     True
dtype: bool


In [80]:
print(df.drop_duplicates())

  Sepal_Length Petal_Length  Species
0          Amy      Jackson       42
1          Amy            J       42
2        Jason       Miller       36
3         Nick       Milner       24
4      Stephen            L       24


In [83]:
data = {'Nombre': ['Juan', 'Pedro', 'María', 'Juan'],
        'Edad': [25, 30, 28, 25]}

df = pd.DataFrame(data)

# Eliminamos duplicados en la columna 'Nombre'
df.drop_duplicates(['Nombre'], keep='first', inplace=True)

# Mostrar el DataFrame actualizado
print(df)

  Nombre  Edad
0   Juan    25
1  Pedro    30
2  María    28


**Ejercicio**

* Agrega las columnas siguientes: `edad_mas_5`, `nombre_completo` y `genero`
 - `edad_mas_5`viene de sumar 5 a la etiqueta `edad`
 - `nombre_completo` viene de sumar las etiquetas `primer_nombre`, `_` y `ultimo_nombre`
 - `genero` es una serie de elementos `'F','F','M','M','M','F'.`

In [86]:
# Creamos un DataFrame de ejemplo
data = {'primer_nombre': ['Juan', 'Pedro', 'María', 'Juan', 'Ana'],
        'ultimo_nombre': ['Pérez', 'Gómez', 'López', 'González', 'Sánchez'],
        'edad': [25, 30, 28, 25, 32]}

df = pd.DataFrame(data)

# Agregamos la columna 'edad_mas_5'
df['edad_mas_5'] = df['edad'] + 5

# Agregamos la columna 'nombre_completo'
df['nombre_completo'] = df['primer_nombre'] + ' ' + df['ultimo_nombre']

# Agregamos la columna 'genero'
genero = ['F', 'F', 'M', 'M', 'F']
df['genero'] = genero[:len(df)]

print(df)

  primer_nombre ultimo_nombre  edad  edad_mas_5 nombre_completo genero
0          Juan         Pérez    25          30      Juan Pérez      F
1         Pedro         Gómez    30          35     Pedro Gómez      F
2         María         López    28          33     María López      M
3          Juan      González    25          30   Juan González      M
4           Ana       Sánchez    32          37     Ana Sánchez      F


#### Datos perdidos

pandas usa principalmente el valor `np.nan` para representar los datos que faltan. Por defecto no se incluye en los cálculos.

In [87]:
df.iloc[4,2] = np.nan
print(df)

  primer_nombre ultimo_nombre  edad  edad_mas_5 nombre_completo genero
0          Juan         Pérez  25.0          30      Juan Pérez      F
1         Pedro         Gómez  30.0          35     Pedro Gómez      F
2         María         López  28.0          33     María López      M
3          Juan      González  25.0          30   Juan González      M
4           Ana       Sánchez   NaN          37     Ana Sánchez      F


In [88]:
print(df.dropna())

  primer_nombre ultimo_nombre  edad  edad_mas_5 nombre_completo genero
0          Juan         Pérez  25.0          30      Juan Pérez      F
1         Pedro         Gómez  30.0          35     Pedro Gómez      F
2         María         López  28.0          33     María López      M
3          Juan      González  25.0          30   Juan González      M


In [89]:
df.iloc[4,2] = np.nan
print(df)

  primer_nombre ultimo_nombre  edad  edad_mas_5 nombre_completo genero
0          Juan         Pérez  25.0          30      Juan Pérez      F
1         Pedro         Gómez  30.0          35     Pedro Gómez      F
2         María         López  28.0          33     María López      M
3          Juan      González  25.0          30   Juan González      M
4           Ana       Sánchez   NaN          37     Ana Sánchez      F


In [90]:
df.fillna(value =0)

Unnamed: 0,primer_nombre,ultimo_nombre,edad,edad_mas_5,nombre_completo,genero
0,Juan,Pérez,25.0,30,Juan Pérez,F
1,Pedro,Gómez,30.0,35,Pedro Gómez,F
2,María,López,28.0,33,María López,M
3,Juan,González,25.0,30,Juan González,M
4,Ana,Sánchez,0.0,37,Ana Sánchez,F


In [91]:
df.iloc[4,2] = np.nan
print(df)

  primer_nombre ultimo_nombre  edad  edad_mas_5 nombre_completo genero
0          Juan         Pérez  25.0          30      Juan Pérez      F
1         Pedro         Gómez  30.0          35     Pedro Gómez      F
2         María         López  28.0          33     María López      M
3          Juan      González  25.0          30   Juan González      M
4           Ana       Sánchez   NaN          37     Ana Sánchez      F


In [92]:
pd.isnull(df)

Unnamed: 0,primer_nombre,ultimo_nombre,edad,edad_mas_5,nombre_completo,genero
0,False,False,False,False,False,False
1,False,False,False,False,False,False
2,False,False,False,False,False,False
3,False,False,False,False,False,False
4,False,False,True,False,False,False


#### Operaciones

In [93]:
data = {'primer_nombre': ['Juan', 'Pedro', 'María', 'Juan', 'Ana', 'Luis'],
        'ultimo_nombre': ['Pérez', 'Gómez', 'López', 'González', 'Sánchez', 'Martínez'],
        'edad': [25, 30, 28, 25, None, None]}

df = pd.DataFrame(data)

# Calculamos la media de la columna 'edad'
media = df['edad'].mean()

# Reemplazamos los valores NaN con la media
df['edad'].fillna(media, inplace=True)

print(df)

  primer_nombre ultimo_nombre  edad
0          Juan         Pérez  25.0
1         Pedro         Gómez  30.0
2         María         López  28.0
3          Juan      González  25.0
4           Ana       Sánchez  27.0
5          Luis      Martínez  27.0


In [94]:
df.fillna(method='ffill', inplace=True, limit=1)

In [95]:
import warnings
warnings.filterwarnings('ignore')
df.mean()

edad    27.0
dtype: float64

In [96]:
df.min()

primer_nombre         Ana
ultimo_nombre    González
edad                 25.0
dtype: object

In [97]:
df.max()

primer_nombre      Pedro
ultimo_nombre    Sánchez
edad                30.0
dtype: object

In [98]:
df.sum()

primer_nombre                 JuanPedroMaríaJuanAnaLuis
ultimo_nombre    PérezGómezLópezGonzálezSánchezMartínez
edad                                              162.0
dtype: object

In [99]:
df.count()

primer_nombre    6
ultimo_nombre    6
edad             6
dtype: int64

In [100]:
df.cumsum()

Unnamed: 0,primer_nombre,ultimo_nombre,edad
0,Juan,Pérez,25.0
1,JuanPedro,PérezGómez,55.0
2,JuanPedroMaría,PérezGómezLópez,83.0
3,JuanPedroMaríaJuan,PérezGómezLópezGonzález,108.0
4,JuanPedroMaríaJuanAna,PérezGómezLópezGonzálezSánchez,135.0
5,JuanPedroMaríaJuanAnaLuis,PérezGómezLópezGonzálezSánchezMartínez,162.0


#### Aplicación de función a elemento, columna o dataframe


In [103]:
import pandas as pd

# Creamos una serie de ejemplo
s = pd.Series([1, 2, 3, 4, 5])

# Definimos la función a aplicar
func = lambda x: x + 1

In [104]:
# Map: itera sobre cada elemento de una serie
# Completar agrega una constante 1 a cada elemento de la column1

# Aplicamos la función a cada elemento de la serie
s_mapped = s.map(func)

print(s_mapped)

0    2
1    3
2    4
3    5
4    6
dtype: int64


In [105]:
# Creamos un DataFrame de ejemplo
data = {'col1': [1, 2, 3, 4, 5],
        'col2': [6, 7, 8, 9, 10]}

df = pd.DataFrame(data)

# Definimos la función a aplicar
func = lambda x: x + 1

# Aplicamos la función a cada elemento de la columna 'col1'
df['col1_mapped'] = df['col1'].map(func)

print(df)

   col1  col2  col1_mapped
0     1     6            2
1     2     7            3
2     3     8            4
3     4     9            5
4     5    10            6


In [106]:
# Creamos un DataFrame de ejemplo
data = {'col1': [1, 2, 3, 4, 5],
        'col2': [6, 7, 8, 9, 10]}

df = pd.DataFrame(data)

# Definimos la función a aplicar
func = lambda x: x + 1

# Aplicamos la función a cada elemento del DataFrame
df_mapped = df.applymap(func)

print(df_mapped)

   col1  col2
0     2     7
1     3     8
2     4     9
3     5    10
4     6    11


**Ejemplo**

La parte del poder de pandas se da por los métodos integrados en los objetos Series y DataFrame.

In [156]:
from io import StringIO
data = StringIO('''UPC,Units,Sales,Date
1234,5,20.2,1-1-2014
1234,2,8.,1-2-2014
1234,3,13.,1-3-2014
789,1,2.,1-1-2014
789,2,3.8,1-2-2014
789,,,1-3-2014
789,1,1.8,1-5-2014''')

In [157]:
sales = pd.read_csv(data)
sales

Unnamed: 0,UPC,Units,Sales,Date
0,1234,5.0,20.2,1-1-2014
1,1234,2.0,8.0,1-2-2014
2,1234,3.0,13.0,1-3-2014
3,789,1.0,2.0,1-1-2014
4,789,2.0,3.8,1-2-2014
5,789,,,1-3-2014
6,789,1.0,1.8,1-5-2014


In [158]:
sales.shape

(7, 4)

In [159]:
sales.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7 entries, 0 to 6
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   UPC     7 non-null      int64  
 1   Units   6 non-null      float64
 2   Sales   6 non-null      float64
 3   Date    7 non-null      object 
dtypes: float64(2), int64(1), object(1)
memory usage: 352.0+ bytes


A diferencia del objeto `Series` que prueba la pertenencia con el índice, el `DataFrame` prueba la pertenencia con las columnas. El comportamiento de iteración `(__iter__)` y el comportamiento de pertenencia `(__contains__)` es el mismo para el `DataFrame`.

#### Operaciones de índice


In [160]:
sales.reindex([0, 4])

Unnamed: 0,UPC,Units,Sales,Date
0,1234,5.0,20.2,1-1-2014
4,789,2.0,3.8,1-2-2014


In [161]:
sales.reindex(columns=['Date', 'Sales'])

Unnamed: 0,Date,Sales
0,1-1-2014,20.2
1,1-2-2014,8.0
2,1-3-2014,13.0
3,1-1-2014,2.0
4,1-2-2014,3.8
5,1-3-2014,
6,1-5-2014,1.8


La selección de columnas e índices se puede combinar para refinar aún más la selección. Además, se pueden incluir nuevas entradas para valores de índices y nombres de columna. Por defecto, usarán el parámetro opcional `fill_value` (que es NaN a menos que se especifique):

In [162]:
sales.reindex(index=[2, 6, 8], columns=['Sales', 'MIT', 'missing'])

Unnamed: 0,Sales,MIT,missing
2,13.0,,
6,1.8,,
8,,,


In [163]:
by_date = sales.set_index('Date')
by_date

Unnamed: 0_level_0,UPC,Units,Sales
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1-1-2014,1234,5.0,20.2
1-2-2014,1234,2.0,8.0
1-3-2014,1234,3.0,13.0
1-1-2014,789,1.0,2.0
1-2-2014,789,2.0,3.8
1-3-2014,789,,
1-5-2014,789,1.0,1.8


Para agregar un índice entero creciente a un data frame, usa `.reset_index`:

In [164]:
by_date.reset_index()

Unnamed: 0,Date,UPC,Units,Sales
0,1-1-2014,1234,5.0,20.2
1,1-2-2014,1234,2.0,8.0
2,1-3-2014,1234,3.0,13.0
3,1-1-2014,789,1.0,2.0
4,1-2-2014,789,2.0,3.8
5,1-3-2014,789,,
6,1-5-2014,789,1.0,1.8


#### Obtener y establecer valores


In [165]:
sales.iat[4, 2]

3.8


A continuación, insertamos una columna `Category` después de ` UPC`  (en la posición 1):

In [166]:
sales.insert(1, 'Category', 'Food')
sales

Unnamed: 0,UPC,Category,Units,Sales,Date
0,1234,Food,5.0,20.2,1-1-2014
1,1234,Food,2.0,8.0,1-2-2014
2,1234,Food,3.0,13.0,1-3-2014
3,789,Food,1.0,2.0,1-1-2014
4,789,Food,2.0,3.8,1-2-2014
5,789,Food,,,1-3-2014
6,789,Food,1.0,1.8,1-5-2014


El método `.replace` es una forma poderosa de actualizar muchos valores de un data frame en las columnas. Para reemplazar todos los 789 con 790, realiza lo siguiente:

In [167]:
sales.replace(789, 790)

Unnamed: 0,UPC,Category,Units,Sales,Date
0,1234,Food,5.0,20.2,1-1-2014
1,1234,Food,2.0,8.0,1-2-2014
2,1234,Food,3.0,13.0,1-3-2014
3,790,Food,1.0,2.0,1-1-2014
4,790,Food,2.0,3.8,1-2-2014
5,790,Food,,,1-3-2014
6,790,Food,1.0,1.8,1-5-2014


In [168]:
sales.replace({'UPC': {789:790},
                'Sales': {789: 1.4}})

Unnamed: 0,UPC,Category,Units,Sales,Date
0,1234,Food,5.0,20.2,1-1-2014
1,1234,Food,2.0,8.0,1-2-2014
2,1234,Food,3.0,13.0,1-3-2014
3,790,Food,1.0,2.0,1-1-2014
4,790,Food,2.0,3.8,1-2-2014
5,790,Food,,,1-3-2014
6,790,Food,1.0,1.8,1-5-2014


El método `replace` también acepta expresiones regulares (pueden ser incluidas en diccionarios anidados) si  el paramétro`regex` se coloca en `True`.

In [169]:
sales.replace('(F.*d)', r'\1_stuff', regex=True)

Unnamed: 0,UPC,Category,Units,Sales,Date
0,1234,Food_stuff,5.0,20.2,1-1-2014
1,1234,Food_stuff,2.0,8.0,1-2-2014
2,1234,Food_stuff,3.0,13.0,1-3-2014
3,789,Food_stuff,1.0,2.0,1-1-2014
4,789,Food_stuff,2.0,3.8,1-2-2014
5,789,Food_stuff,,,1-3-2014
6,789,Food_stuff,1.0,1.8,1-5-2014


#### Eliminación de  columnas

Hay al menos cuatro formas de eliminar una columna:

* El método `.pop`

* El método `.drop` con `axis = 1`

* El método `.reindex`

* Indexación con una lista de nuevas columnas

El método `.pop` toma el nombre de una columna y lo elimina del data frame. Opera in-place. En lugar de devolver un data frame, devuelve la columna eliminada.

In [170]:
sales['subcat'] = 'Dairy'
sales

Unnamed: 0,UPC,Category,Units,Sales,Date,subcat
0,1234,Food,5.0,20.2,1-1-2014,Dairy
1,1234,Food,2.0,8.0,1-2-2014,Dairy
2,1234,Food,3.0,13.0,1-3-2014,Dairy
3,789,Food,1.0,2.0,1-1-2014,Dairy
4,789,Food,2.0,3.8,1-2-2014,Dairy
5,789,Food,,,1-3-2014,Dairy
6,789,Food,1.0,1.8,1-5-2014,Dairy


In [171]:
sales.pop('subcat')

0    Dairy
1    Dairy
2    Dairy
3    Dairy
4    Dairy
5    Dairy
6    Dairy
Name: subcat, dtype: object

In [172]:
sales

Unnamed: 0,UPC,Category,Units,Sales,Date
0,1234,Food,5.0,20.2,1-1-2014
1,1234,Food,2.0,8.0,1-2-2014
2,1234,Food,3.0,13.0,1-3-2014
3,789,Food,1.0,2.0,1-1-2014
4,789,Food,2.0,3.8,1-2-2014
5,789,Food,,,1-3-2014
6,789,Food,1.0,1.8,1-5-2014


Para quitar una columna con el método `.drop`, simplemente páselo (o una lista de nombres de columna) junto con la configuración del parámetro `axis` en 1:

In [173]:
sales.drop('Category', axis=1)

Unnamed: 0,UPC,Units,Sales,Date
0,1234,5.0,20.2,1-1-2014
1,1234,2.0,8.0,1-2-2014
2,1234,3.0,13.0,1-3-2014
3,789,1.0,2.0,1-1-2014
4,789,2.0,3.8,1-2-2014
5,789,,,1-3-2014
6,789,1.0,1.8,1-5-2014


In [174]:
sales

Unnamed: 0,UPC,Category,Units,Sales,Date
0,1234,Food,5.0,20.2,1-1-2014
1,1234,Food,2.0,8.0,1-2-2014
2,1234,Food,3.0,13.0,1-3-2014
3,789,Food,1.0,2.0,1-1-2014
4,789,Food,2.0,3.8,1-2-2014
5,789,Food,,,1-3-2014
6,789,Food,1.0,1.8,1-5-2014


#### Los dos métodos finales para eliminar columnas

In [175]:
cols = ['Sales', 'Date']

In [176]:
sales.reindex(columns=cols)

Unnamed: 0,Sales,Date
0,20.2,1-1-2014
1,8.0,1-2-2014
2,13.0,1-3-2014
3,2.0,1-1-2014
4,3.8,1-2-2014
5,,1-3-2014
6,1.8,1-5-2014


In [133]:
sales[cols]

Unnamed: 0,Sales,Date
0,20.2,1-1-2014
1,8.0,1-2-2014
2,13.0,1-3-2014
3,2.0,1-1-2014
4,3.8,1-2-2014
5,,1-3-2014
6,1.8,1-5-2014


#### Recortes


In [178]:
sales.head()

Unnamed: 0,UPC,Category,Units,Sales,Date
0,1234,Food,5.0,20.2,1-1-2014
1,1234,Food,2.0,8.0,1-2-2014
2,1234,Food,3.0,13.0,1-3-2014
3,789,Food,1.0,2.0,1-1-2014
4,789,Food,2.0,3.8,1-2-2014


In [179]:
sales.tail(2)

Unnamed: 0,UPC,Category,Units,Sales,Date
5,789,Food,,,1-3-2014
6,789,Food,1.0,1.8,1-5-2014


Usemos un índice basado en cadenas para que quede más claro qué hacen las opciones de recorte:

In [180]:
sales['new_index'] = range(len(sales))
df['new_index'] = range(len(df))

In [181]:
del sales['new_index']

In [182]:
sales

Unnamed: 0,UPC,Category,Units,Sales,Date
0,1234,Food,5.0,20.2,1-1-2014
1,1234,Food,2.0,8.0,1-2-2014
2,1234,Food,3.0,13.0,1-3-2014
3,789,Food,1.0,2.0,1-1-2014
4,789,Food,2.0,3.8,1-2-2014
5,789,Food,,,1-3-2014
6,789,Food,1.0,1.8,1-5-2014


Para dividir por posición, usa el atributo `.iloc`. Aquí tomamos filas en las posiciones dos hasta cuatro, pero sin incluirlas:

In [183]:
df.iloc[2:4]

Unnamed: 0,col1,col2,new_index
2,3,8,2
3,4,9,3


También podemos proporcionar posiciones de columna que también queremos mantener. Las posiciones de las columnas deben seguir una coma en la operación de índice. Aquí mantenemos las filas desde dos hasta pero sin incluir la fila cuatro. También tomamos columnas desde cero hasta pero sin incluir uno (solo la columna en la posición de índice cero).

Esto se expresa en la siguiente figura:


<img src="recorte-pandas.png" alt="Drawing" style="width: 500px;"/>

A continuación se muestra un resumen de las construcciones de  de data frame por posición y etiqueta.


```
.iloc [i: j]            Posición de filas i hasta pero sin incluir j (semiabierto)
.iloc [:, i: j]         Posición de las columnas i hasta pero sin incluir j (semiabierto)
.iloc [[i, k, m]]       Filas en i, k y m (no es un intervalo)
.loc [a: b]             Filas desde la etiqueta de índice a hasta b (cerrado)
.loc [:, c: d]          Columnas de la etiqueta de columna c a d (cerrado)
.loc [: [b, d, f]]      Columnas en las etiquetas b, d y f (no es un intervalo)

```

<img src="recorte-ejemplo.png" alt="Drawing" style="width: 600px;"/>

In [185]:
print(df.columns)

Index(['col1', 'col2', 'new_index'], dtype='object')


In [186]:
df = df.drop(['col1'], axis=1)
df

Unnamed: 0,col2,new_index
0,6,0
1,7,1
2,8,2
3,9,3
4,10,4


In [189]:
df.iloc[2:4, 0:1]

Unnamed: 0,col2
2,8
3,9


También hay soporte para dividir datos por etiquetas. Usando el atributo `.loc`, podemos tomar valores de índice desde la `a` a la `d`:

In [190]:
data = {'A': [1, 2, 3, 4, 5],
        'B': [6, 7, 8, 9, 10],
        'C': [11, 12, 13, 14, 15],
        'D': [16, 17, 18, 19, 20]}

df = pd.DataFrame(data, index=['a', 'b', 'c', 'd', 'e'])

# Dividimos los datos por etiquetas de índice de 'a' a 'd'
subset = df.loc['a':'d']

print(subset)

   A  B   C   D
a  1  6  11  16
b  2  7  12  17
c  3  8  13  18
d  4  9  14  19


Y al igual que `.iloc`, `.loc` tiene la capacidad de especificar columnas por etiqueta. En este ejemplo, solo tomamos la columna `Units` y, por lo tanto, devuelve una serie:

In [191]:
# Seleccionamos la columna 'B' por etiqueta
columna = df.loc[:, 'B']

print(columna)

a     6
b     7
c     8
d     9
e    10
Name: B, dtype: int64


Sacamos las columnas `UPC` y `Sales`, pero con solo los últimos 4 valores:

In [192]:
data = {'UPC': [1234, 1234, 1234, 789, 789, 789],
        'Units': [5, 2, 3, 1, 2, 1],
        'Sales': [20.2, 8.0, 13.0, 2.0, 3.8, 1.8],
        'Date': ['1-1-2014', '1-2-2014', '1-3-2014', '1-1-2014', '1-2-2014', '1-5-2014']}

df = pd.DataFrame(data)

# Seleccionamos las columnas 'UPC' y 'Sales' con los últimos 4 valores
df_selected = df.loc[-4:, ['UPC', 'Sales']]

print(df_selected)

    UPC  Sales
0  1234   20.2
1  1234    8.0
2  1234   13.0
3   789    2.0
4   789    3.8
5   789    1.8


### Merge/Join


In [193]:
data = {
        'emp_id': ['1', '2', '3', '4', '5'],
        'primer_nombre': ['Jason', 'Andy', 'Allen', 'John', 'Amy'],
        'ultimo_nombre': ['Larkin', 'Jacob', 'A', 'AA', 'Jackson']}
df_1 = pd.DataFrame(data, columns = ['emp_id', 'primer_nombre', 'ultimo_nombre'])
print (df_1)

  emp_id primer_nombre ultimo_nombre
0      1         Jason        Larkin
1      2          Andy         Jacob
2      3         Allen             A
3      4          John            AA
4      5           Amy       Jackson


In [194]:
data = {
        'emp_id': ['4', '5', '6', '7'],
        'primer_nombre': ['James', 'Shize', 'Kim', 'Jose'],
        'ultimo_nombre': ['Alexander', 'Suma', 'Mike', 'G']}
df_2 = pd.DataFrame(data, columns = ['emp_id', 'primer_nombre', 'ultimo_nombre'])
print (df_2)

  emp_id primer_nombre ultimo_nombre
0      4         James     Alexander
1      5         Shize          Suma
2      6           Kim          Mike
3      7          Jose             G


In [195]:
# usando concat
df = pd.concat([df_1, df_2])
print(df)

  emp_id primer_nombre ultimo_nombre
0      1         Jason        Larkin
1      2          Andy         Jacob
2      3         Allen             A
3      4          John            AA
4      5           Amy       Jackson
0      4         James     Alexander
1      5         Shize          Suma
2      6           Kim          Mike
3      7          Jose             G


In [196]:
# Juntando dos dataframes a lo largo de las columnas
pd.concat([df_1,df_2], axis=1)

Unnamed: 0,emp_id,primer_nombre,ultimo_nombre,emp_id.1,primer_nombre.1,ultimo_nombre.1
0,1,Jason,Larkin,4.0,James,Alexander
1,2,Andy,Jacob,5.0,Shize,Suma
2,3,Allen,A,6.0,Kim,Mike
3,4,John,AA,7.0,Jose,G
4,5,Amy,Jackson,,,


Combinamos dos dataframes basados en el valor `emp_id` en este caso, solo se unirán los `emp_id` presentes en ambas tablas.

In [197]:
print(pd.merge(df_1,df_2, on='emp_id'))

  emp_id primer_nombre_x ultimo_nombre_x primer_nombre_y ultimo_nombre_y
0      4            John              AA           James       Alexander
1      5             Amy         Jackson           Shize            Suma


### Grouping


Pandas nos brinda la capacidad de agrupar data frames por valores de columna y luego fusionarlos nuevamente en un resultado con el método `.groupby`.
Pandas `group by` nos permitirá lograr lo siguiente:

- Aplicar una función de agregación a cada grupo de forma independiente
- Según algunos criterios, divide los datos en grupos.
- Combinar los resultados del `group by` en una estructura de datos.


<img src="Groupby.png" alt="Drawing" style="width: 700px;"/>

Como ejemplo, en el data frame `scores`, calcularemos las puntuaciones medias de cada maestro. Primero llamamos a `.groupby` y entonces invocamos a `.median` en el resultado:

In [198]:
scores = pd.DataFrame({
    'name':['Adam', 'Bob', 'Dave', 'Fred'],
    'age': [15, 16, 16, 15],
    'test1': [95, 81, 89, None],
    'test2': [80, 82, 84, 88],
    'teacher': ['Ashby', 'Ashby', 'Jones', 'Jones']})

In [199]:
# Calculamos las puntuaciones medias de cada maestro
scores_mean = scores.groupby('teacher').mean()

print(scores_mean)

          age  test1  test2
teacher                    
Ashby    15.5   88.0   81.0
Jones    15.5   89.0   86.0


Esto incluyó la columna `age`, para ignorar que podemos separar solo las columnas de prueba:

In [200]:
# Seleccionamos solo las columnas de prueba
test_scores = scores[['test1', 'test2']]

# Calculamos las puntuaciones medias de cada maestro para las columnas de prueba
test_scores_mean = test_scores.groupby(scores['teacher']).mean()

print(test_scores_mean)

         test1  test2
teacher              
Ashby     88.0   81.0
Jones     89.0   86.0


Para encontrar los valores medianos de cada grupo de edad para cada maestro, simplemente agrupa por maestro y edad:


In [201]:
# Calculamos los valores medianos de cada grupo de edad para cada maestro
median_scores = scores.groupby(['teacher', 'age']).median()

print(median_scores)

             test1  test2
teacher age              
Ashby   15    95.0   80.0
        16    81.0   82.0
Jones   15     NaN   88.0
        16    89.0   84.0


Si queremos los puntajes mínimos y máximos de las pruebas por maestro, usamos el método `.agg` y pasamos una lista de funciones para llamar:

In [202]:
# Obtenemos los puntajes mínimos y máximos de las pruebas por maestro
min_max_scores = scores.groupby('teacher').agg({'test1': ['min', 'max'], 'test2': ['min', 'max']})

print(min_max_scores)

        test1       test2    
          min   max   min max
teacher                      
Ashby    81.0  95.0    80  82
Jones    89.0  89.0    84  88


**Ejercicio**

In [203]:
df = pd.DataFrame({'Nombre' : ['jack', 'jane', 'jack', 'jane', 'jack', 'jane', 'jack', 'jane'],
                   'Estado' : ['SFO', 'SFO', 'NYK', 'CA', 'NYK', 'NYK', 'SFO', 'CA'],
                   'Genero':['A','A','B','A','C','B','C','A'],
                   'Edad' : np.random.uniform(24, 50, size=8),
                   'Salario' : np.random.uniform(3000, 5000, size=8),})

Ten en cuenta que las columnas se ordenan automáticamente en su orden alfabético para un orden personalizado, usa el siguiente código_

`df = pd.DataFrame (data, columns = ['Nombre', 'Estado', 'Edad', 'Salario'])`

* Calcula la suma por nombres.

* Encuentra la edad máxima y el salario por nombre/ estado. Puedes usar todas las funciones agregadas, como mínimo, máximo, media, conteo, suma acumulada.

In [204]:
# Suma por nombres
suma_por_nombres = df.groupby('Nombre').sum()

# Edad máxima y salario por nombre/estado
max_edad_salario = df.groupby(['Nombre', 'Estado']).agg({'Edad': 'max', 'Salario': 'max'})

print("Suma por nombres:")
print(suma_por_nombres)
print()
print("Edad máxima y salario por nombre/estado:")
print(max_edad_salario)

Suma por nombres:
              Edad       Salario
Nombre                          
jack    137.985610  16387.844063
jane    167.337251  14584.249087

Edad máxima y salario por nombre/estado:
                    Edad      Salario
Nombre Estado                        
jack   NYK     41.119270  3898.575927
       SFO     40.905500  4911.826052
jane   CA      49.556552  3160.202999
       NYK     47.363095  4683.075893
       SFO     34.258303  3601.926525


#### Tablas pivot

Pandas proporciona una función `pivot_table` para crear una tabla pivot (dinámica )de estilo de hoja de cálculo de MS-Excel. Puede tomar los siguientes argumentos:

- `data`: objeto DataFrame
- `values`: columna para agregar
- `index`: etiquetas de fila
- `columns`: etiquetas de columna
- `aggfunc`: función de agregación que se usará en valores, el valor predeterminado es `NumPy.mean`.

Usando una tabla pivot, podemos generalizar ciertos comportamientos grupales. Para obtener las puntuaciones medias de los profesores, podemos ejecutar lo siguiente:

In [205]:
scores = pd.DataFrame({
    'name': ['Adam', 'Bob', 'Dave', 'Fred'],
    'age': [15, 16, 16, 15],
    'test1': [95, 81, 89, None],
    'test2': [80, 82, 84, 88],
    'teacher': ['Ashby', 'Ashby', 'Jones', 'Jones']
})

pivot_table = pd.pivot_table(scores, values=['test1', 'test2'], index='teacher', aggfunc='mean')

print(pivot_table)

         test1  test2
teacher              
Ashby     88.0     81
Jones     89.0     86


Si queremos agregar por maestro y edad, simplemente usamos una lista con ambos para el parámetro `index`:

In [206]:
scores.pivot_table(index=['teacher', 'age'],
                   values=['test1', 'test2'],
                   aggfunc='median')

Unnamed: 0_level_0,Unnamed: 1_level_0,test1,test2
teacher,age,Unnamed: 2_level_1,Unnamed: 3_level_1
Ashby,15,95.0,80
Ashby,16,81.0,82
Jones,15,,88
Jones,16,89.0,84


Si queremos aplicar múltiples funciones, simplemente usa una lista de ellas. Aquí, analizamos los puntajes mínimos y máximos de las pruebas por maestro:

In [207]:
scores.pivot_table(index='teacher',
                   values=['test1', 'test2'],
                   aggfunc=[min, max])

Unnamed: 0_level_0,min,min,max,max
Unnamed: 0_level_1,test1,test2,test1,test2
teacher,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Ashby,81.0,80,95.0,82
Jones,89.0,84,89.0,88


Podemos ver que la tabla pivot y de grupo por comportamiento son muy similares. Hay del estilo declarativo de `.pivot_table` y el estilo  semántico de los grupos.

Una característica adicional de las tablas pivots es la capacidad de agregar filas de resumen. Simplemente estableciendo `margins= True` obtenemos esta funcionalidad:

In [208]:
scores.pivot_table(index='teacher',
                   values=['test1', 'test2'],
                   aggfunc='median', margins=True)

Unnamed: 0_level_0,test1,test2
teacher,Unnamed: 1_level_1,Unnamed: 2_level_1
Ashby,88.0,81
Jones,89.0,86
All,89.0,82


<img src="pivot.png" alt="Drawing" style="width: 700px;"/>

In [209]:
scores.pivot_table(index= ['teacher', 'age'],
                   values=['test1', 'test2'],
                   aggfunc=[len, sum], margins=True)

Unnamed: 0_level_0,Unnamed: 1_level_0,len,len,sum,sum
Unnamed: 0_level_1,Unnamed: 1_level_1,test1,test2,test1,test2
teacher,age,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Ashby,15.0,1,1,95.0,80
Ashby,16.0,1,1,81.0,82
Jones,15.0,1,1,0.0,88
Jones,16.0,1,1,89.0,84
All,,3,3,265.0,246


<img src="pivot-parameters.png" alt="Drawing" style="width: 700px;"/>

**Ejercicio** Del dataframe anterior agrupa por estado y nombre y encuentre la edad media para cada grado.


In [215]:
scores.pivot_table(index=['teacher', 'age'], values='test1', aggfunc='mean')

Unnamed: 0_level_0,Unnamed: 1_level_0,test1
teacher,age,Unnamed: 2_level_1
Ashby,15,95.0
Ashby,16,81.0
Jones,16,89.0


In [214]:
scores.pivot_table(index=['teacher', 'age'], values='test2', aggfunc='mean')

Unnamed: 0_level_0,Unnamed: 1_level_0,test2
teacher,age,Unnamed: 2_level_1
Ashby,15,80
Ashby,16,82
Jones,15,88
Jones,16,84
