<a href="https://colab.research.google.com/github/KimberlySalazarB/C8280/blob/main/Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### Pandas


Pandas es un paquete Python de código abierto que proporciona estructuras de datos rápidas, flexibles y expresivas diseñadas para que trabajar con datos "relacionales" o "etiquetados" sea fácil e intuitivo.

### Estructuras de datos
Pandas presenta dos nuevas estructuras de datos en Python: Series y DataFrame, ambas construidas sobre NumPy (esto significa que es rápido).


#### Serie

Este es un objeto unidimensional similar a la columna en una hoja de cálculo o tabla SQL. De forma predeterminada, a cada elemento se le asignará una etiqueta de índice de `0` a `N`.

In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [3]:
s = pd.Series([1,3,4,np.nan, 5, 6], index = ['A', 'B', 'C', 'D', 'E', 'F'])
print(s)

A    1.0
B    3.0
C    4.0
D    NaN
E    5.0
F    6.0
dtype: float64


Si creas una serie utilizando el diccionario, la clave se convertirá en el índice de forma predeterminada.

In [4]:
dict_ejemplo = {'A': 1, 'B':2, 'C':3, 'D':np.nan, 'E': 5, 'F': 6}
dict_ejemplo

{'A': 1, 'B': 2, 'C': 3, 'D': nan, 'E': 5, 'F': 6}

In [5]:
s = pd.Series(dict_ejemplo)
print(s)

A    1.0
B    2.0
C    3.0
D    NaN
E    5.0
F    6.0
dtype: float64


La contraparte bidimensional de las series unidimensionales es el DataFrame.

### DataFrame

Es un objeto bidimensional similar a una hoja de cálculo o una tabla SQL. Este es el objeto Pandas más utilizado.


In [6]:
data = {'Genero': ['F', 'M', 'M'],
        'Emp_ID': ['E01', 'E02', 'E03'],
        'Edad': [25, 27, 25]}
# Si queremos el orden de las columnas, especificamos en el parametro columns
df = pd.DataFrame(data, columns=['Emp_ID', 'Genero', 'Edad'])
df

Unnamed: 0,Emp_ID,Genero,Edad
0,E01,F,25
1,E02,M,27
2,E03,M,25


#### Lectura y escritura de datos

Veremos tres formatos de archivo de uso común: csv, archivo de texto y Excel.

In [7]:
# Leyendo desde un archivo csv
df=pd.read_csv('mtcars.csv')
df.head()

Unnamed: 0,model,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
0,Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
1,Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
2,Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
3,Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1
4,Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2


In [17]:
# Escribir un csv
# index = False - no escribe los valores de indice, el valor predeterminado es True
# completar
data2 = {'Genero': ['M', 'M', 'F'],
        'ID_usu': ['1b', '2b', '3b'],
        'Edad': [12,13, 14]}

df = pd.DataFrame(data2, columns=['ID_usu', 'Genero', 'Edad'], )
#Guardamos los datos en un archivo.csv
df.to_csv('archivo.csv', index=False)


In [None]:
# Leyendo desde un archivo .txt
df=pd.read_csv('mtcars.txt', sep='\t')
# completar
df.head()

Unnamed: 0,model,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
0,Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
1,Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
2,Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
3,Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1
4,Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2


In [None]:
# Leyendo un archivo Excel
df=pd.read_excel('mtcars.xlsx','Sheet2')
# Completar
df.head()

Unnamed: 0,model,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
0,Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
1,Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
2,Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
3,Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1
4,Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2


### Resumen de estadísticas básicas


In [19]:
df = pd.read_csv('iris.csv')
# completar
esta_bas = df.describe()
esta_bas

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


#### Covarianza


In [22]:
# covarianza: devuelve la covarianza entre columnas adecuadas
# completar
columnas=['Sepal.Length','Petal.Length']
covarianza = df[columnas].cov()
covarianza

Unnamed: 0,Sepal.Length,Petal.Length
Sepal.Length,0.685694,1.274315
Petal.Length,1.274315,3.116278


#### Correlación


In [26]:
# completar
columnas=['Sepal.Length','Sepal.Width']
correlacion = df[columnas].corr()
correlacion

Unnamed: 0,Sepal.Length,Sepal.Width
Sepal.Length,1.0,-0.11757
Sepal.Width,-0.11757,1.0


### Visualización de datos
Pandas DataFrame viene con funciones integradas para ver los datos contenidos:

* Mirando los `n` primeros registros, el valor predeterminado de `n` es 5 si no se especifica:  `df.head(n=2)`.

* Mirando los `n` registros inferiores: `df.tail()`

* Obtener los nombres de las columnas: `df.columns`

* Obtener los tipos de datos de las columnas: `df.types`

* Obtener el índice del dataframe: `df.index`

* Obtener valores únicos: `df[column_name].unique()`

* Obtener valores: `df.values`

* Ordenar el dataframe: `df.sort_values(by =['Column1', 'Column2'], ascending=[True,True'])`

* Seleccionar/ver por el nombre de la columna: `df[column_name]`

* Seleccionar/ver por número de fila `df[0:3]`

* Selección por índice:

- `df.loc[0:3] # índice de 0 a 3`
- `df.loc[0:3,[‘column1’, ‘column2’]] # índice de 0 a 3 para las columnas específicas`

* Selección por posición

- `df.iloc[0:2] # usando el rango, primeras 2 filas`
- `df.iloc[2,3,6] # posición específica`
-  `df.iloc[0:2,0:2] # primeras 2 filas y primeras 2 columnas`

* Selección sin que esté en el índice

- `print(df.ix[1,1]) # valor de la primera fila y la primera columna`
- `print(df.ix[:,2]) # todas las filas de la columna en la segunda posición`

* Alternativa más rápida a `iloc` para obtener valores escalares: `print(df.iat[1,1])`

* Transponer el dataframe: `df.T`

* Filtrar DataFrame según la condición de valor para una columna: `df[df['column_name'] > 7.5]`

* Filtrar DataFrame basado en una condición de valor en una columna: `df[df['column_name'].isin(['condition_value1', 'condition_value2'])]`

* Filtro basado en múltiples condiciones en múltiples columnas usando el operador AND: `df[(df['column1']>7.5) & (df['column2']>3)]`

* Filtro basado en múltiples condiciones en múltiples columnas usando el operador OR: `df[(df[‘column1’]>7.5) | (df['column2']>3)]`.

In [27]:
# completar
#para mirar los dos primeros registros
df.head(n=2)

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa


In [30]:
# completar
#Para mirar los registros inferiores del dataset
df.tail()

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica
149,5.9,3.0,5.1,1.8,virginica


In [33]:
print ("Nombres de las columnas:" , df.columns)

Nombres de las columnas: Index(['Sepal.Length', 'Sepal.Width', 'Petal.Length', 'Petal.Width',
       'Species'],
      dtype='object')


In [37]:
# completar
#Obtener los tipos de datos de las columnas
df.dtypes

Sepal.Length    float64
Sepal.Width     float64
Petal.Length    float64
Petal.Width     float64
Species          object
dtype: object

In [34]:
print ("Indice del DataFrame : ", df.index)

Indice del DataFrame :  RangeIndex(start=0, stop=150, step=1)


In [38]:
print(df.values)

[[5.1 3.5 1.4 0.2 'setosa']
 [4.9 3.0 1.4 0.2 'setosa']
 [4.7 3.2 1.3 0.2 'setosa']
 [4.6 3.1 1.5 0.2 'setosa']
 [5.0 3.6 1.4 0.2 'setosa']
 [5.4 3.9 1.7 0.4 'setosa']
 [4.6 3.4 1.4 0.3 'setosa']
 [5.0 3.4 1.5 0.2 'setosa']
 [4.4 2.9 1.4 0.2 'setosa']
 [4.9 3.1 1.5 0.1 'setosa']
 [5.4 3.7 1.5 0.2 'setosa']
 [4.8 3.4 1.6 0.2 'setosa']
 [4.8 3.0 1.4 0.1 'setosa']
 [4.3 3.0 1.1 0.1 'setosa']
 [5.8 4.0 1.2 0.2 'setosa']
 [5.7 4.4 1.5 0.4 'setosa']
 [5.4 3.9 1.3 0.4 'setosa']
 [5.1 3.5 1.4 0.3 'setosa']
 [5.7 3.8 1.7 0.3 'setosa']
 [5.1 3.8 1.5 0.3 'setosa']
 [5.4 3.4 1.7 0.2 'setosa']
 [5.1 3.7 1.5 0.4 'setosa']
 [4.6 3.6 1.0 0.2 'setosa']
 [5.1 3.3 1.7 0.5 'setosa']
 [4.8 3.4 1.9 0.2 'setosa']
 [5.0 3.0 1.6 0.2 'setosa']
 [5.0 3.4 1.6 0.4 'setosa']
 [5.2 3.5 1.5 0.2 'setosa']
 [5.2 3.4 1.4 0.2 'setosa']
 [4.7 3.2 1.6 0.2 'setosa']
 [4.8 3.1 1.6 0.2 'setosa']
 [5.4 3.4 1.5 0.4 'setosa']
 [5.2 4.1 1.5 0.1 'setosa']
 [5.5 4.2 1.4 0.2 'setosa']
 [4.9 3.1 1.5 0.2 'setosa']
 [5.0 3.2 1.2 0.2 's

In [43]:
# Valores para una especifica columna
# Completar
df['Sepal.Length']


0      5.1
1      4.9
2      4.7
3      4.6
4      5.0
      ... 
145    6.7
146    6.3
147    6.5
148    6.2
149    5.9
Name: Sepal.Length, Length: 150, dtype: float64

In [45]:
df['Species'].unique()

array(['setosa', 'versicolor', 'virginica'], dtype=object)

In [46]:
df['Sepal.Length'].unique()

array([5.1, 4.9, 4.7, 4.6, 5. , 5.4, 4.4, 4.8, 4.3, 5.8, 5.7, 5.2, 5.5,
       4.5, 5.3, 7. , 6.4, 6.9, 6.5, 6.3, 6.6, 5.9, 6. , 6.1, 5.6, 6.7,
       6.2, 6.8, 7.1, 7.6, 7.3, 7.2, 7.7, 7.4, 7.9])

In [44]:
df.sort_values(by = ['Species', 'Sepal.Length'], ascending=[True, True])

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
13,4.3,3.0,1.1,0.1,setosa
8,4.4,2.9,1.4,0.2,setosa
38,4.4,3.0,1.3,0.2,setosa
42,4.4,3.2,1.3,0.2,setosa
41,4.5,2.3,1.3,0.3,setosa
...,...,...,...,...,...
117,7.7,3.8,6.7,2.2,virginica
118,7.7,2.6,6.9,2.3,virginica
122,7.7,2.8,6.7,2.0,virginica
135,7.7,3.0,6.1,2.3,virginica


In [47]:
df['Species']

0         setosa
1         setosa
2         setosa
3         setosa
4         setosa
         ...    
145    virginica
146    virginica
147    virginica
148    virginica
149    virginica
Name: Species, Length: 150, dtype: object

In [49]:
# completar
df.sort_values(by =['Sepal.Length', 'Species'], ascending=[True,True])

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
13,4.3,3.0,1.1,0.1,setosa
8,4.4,2.9,1.4,0.2,setosa
38,4.4,3.0,1.3,0.2,setosa
42,4.4,3.2,1.3,0.2,setosa
41,4.5,2.3,1.3,0.3,setosa
...,...,...,...,...,...
117,7.7,3.8,6.7,2.2,virginica
118,7.7,2.6,6.9,2.3,virginica
122,7.7,2.8,6.7,2.0,virginica
135,7.7,3.0,6.1,2.3,virginica


Selección diferente por opciones de etiqueta

- `loc:` solo funciona en el índice
- `iloc:` trabaja en posición
- `iat:` Obtener valores escalares. es un `iloc` muy rapido.

In [50]:
# selección por indice
# completar
df.loc[0:2]

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa


In [64]:
# selección por indice de nombres de etiquetas específicas
# completar
df.loc[0:2,['Sepal.Length','Sepal.Width']]

Unnamed: 0,Sepal.Length,Sepal.Width
0,5.1,3.5
1,4.9,3.0
2,4.7,3.2


In [65]:
# Selección por posición
# completar
df.iloc[0:2]


Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa


In [67]:
# Seleccion por posicion entre filas dadas como rango
# completar
df.iloc[2:5,:]

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


**Ejercicio**

¿Qué produce `df.iloc[0:3, 0:3]` ?

In [68]:
## Tu respuesta
## se mira las primeras 3 filas y primeras 3 columnas
df.iloc[0:3, 0:3]

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length
0,5.1,3.5,1.4
1,4.9,3.0,1.4
2,4.7,3.2,1.3


In [73]:
# seleccion por posicion entre numeros de fila especificos dados
# Completar
df.iloc[2:5, :]

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


Selección por índice de fila y columna (el índice comienza con 0).

El siguiente caso obtendrá el valor `[índice de la primera fila, índice de la primera columna]`.

In [74]:
# obtener valores escalares. es un iloc muy rapido
print(df.iat[1,1])

3.0


In [75]:
# Obtencion de datos sin que este en el indice
print(df.iloc[1,1])

3.0


In [76]:
# selecciona columnas por posicion
print (df.iloc[:, 2])

0      1.4
1      1.4
2      1.3
3      1.5
4      1.4
      ... 
145    5.2
146    5.0
147    5.2
148    5.4
149    5.1
Name: Petal.Length, Length: 150, dtype: float64


In [77]:
# Transpuesta
df.T

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,140,141,142,143,144,145,146,147,148,149
Sepal.Length,5.1,4.9,4.7,4.6,5.0,5.4,4.6,5.0,4.4,4.9,...,6.7,6.9,5.8,6.8,6.7,6.7,6.3,6.5,6.2,5.9
Sepal.Width,3.5,3.0,3.2,3.1,3.6,3.9,3.4,3.4,2.9,3.1,...,3.1,3.1,2.7,3.2,3.3,3.0,2.5,3.0,3.4,3.0
Petal.Length,1.4,1.4,1.3,1.5,1.4,1.7,1.4,1.5,1.4,1.5,...,5.6,5.1,5.1,5.9,5.7,5.2,5.0,5.2,5.4,5.1
Petal.Width,0.2,0.2,0.2,0.2,0.2,0.4,0.3,0.2,0.2,0.1,...,2.4,2.3,1.9,2.3,2.5,2.3,1.9,2.0,2.3,1.8
Species,setosa,setosa,setosa,setosa,setosa,setosa,setosa,setosa,setosa,setosa,...,virginica,virginica,virginica,virginica,virginica,virginica,virginica,virginica,virginica,virginica


#### Indexado Booleano

In [81]:
# Completar
df.Species == 'setosa'

0       True
1       True
2       True
3       True
4       True
       ...  
145    False
146    False
147    False
148    False
149    False
Name: Species, Length: 150, dtype: bool

In [82]:
# Completar
df[df.Species == 'setosa']

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
5,5.4,3.9,1.7,0.4,setosa
6,4.6,3.4,1.4,0.3,setosa
7,5.0,3.4,1.5,0.2,setosa
8,4.4,2.9,1.4,0.2,setosa
9,4.9,3.1,1.5,0.1,setosa


In [92]:
# Completar
df['Sepal.Length'] < 6


0       True
1       True
2       True
3       True
4       True
       ...  
145    False
146    False
147    False
148    False
149     True
Name: Sepal.Length, Length: 150, dtype: bool

In [96]:
# Completar
df['Sepal.Width'] < 3

0      False
1      False
2      False
3      False
4      False
       ...  
145    False
146     True
147    False
148    False
149    False
Name: Sepal.Width, Length: 150, dtype: bool

### Operaciones básicas con Pandas

* Convertir cadenas a series de fechas: `pd.to_datetime(pd.Series(['2017-04-01','2017-04-02','2017-04-03']))`.

* Cambiar el nombre de una columna específica: `df.rename(columns={‘old_columnname’:‘new_columnname'}, inplace=True)`

* Cambiar el nombre de todas las columnas del DataFrame: `df.columns = ['col1_new_name','col2_new_name'...]`

* Marcar duplicados: `df.duplicated()`

* Quitar duplicados:`df = df.drop_duplicates()`

* Quitar duplicados en una columna específica: `df.drop_duplicates(['column_name'])`

* Quitar los duplicados en una columna específica, pero se conserva la primera o la última observación en el conjunto de duplicados: `df.drop_duplicates(['column_name'], keep = 'first') # cambiar al ultimo para conservar la ultima observación del duplicado`.

* Crear una nueva columna a partir de una columna existente: `df['new_column_name'] = df['new_column_name'] + 5`

* Crear una nueva columna a partir de los elementos de dos columnas: `df['new_column_name'] = df['existing_column1'] + '_' + df['existing_column2']`

* Agregar una lista o una nueva columna a DataFrame: `df['new_column_name'] = pd.Series(mylist)`

* Descartar las filas y columnas faltantes que tienen valores faltantes: `df.dropna()`

* Reemplaza todos los valores faltantes con 0 (o puede usar cualquier int o str): `df.fillna(value=0)`

* Reemplaza los valores faltantes con la última observación válida (útil en datos de series de tiempo). Por ejemplo, la temperatura no cambia drásticamente en comparación con una observación anterior. Una forma es llenar de NA forward-backward más alla de la media.

    1) 'pad' / 'ffill' - forward fill

    2) 'bfill'/'backfill' - backward fill

    Límite: si se especifica el método, este es el número máximo de valores de NaN consecutivos para completar forward/backward fill: `df.fillna (method = 'ffill', inplace= True, limit = 1)`

* Verifica la condición del valor faltante y devuelva el valor Booleano de `True` o `False` para cada celda: `pd.isnull(df)`

* Reemplaza todos los valores faltantes para una columna dada con la media: `mean=df['column_name].mean(); df['column_name'].fillna(mean)`

* Devuelve la media para cada columna: `df.mean()`

* Retorna el máximo para cada columna: `df.max()`

* Retorno el mínimo para cada columna: `df.min()`

* Devuelve la suma para cada columna: `df.sum()`

* Conteo para cada columna: `df.count()`

* Devuelve la suma acumulada para cada columna: `df.cumsum()`

* Aplica una función a lo largo de cualquier eje del DataFrame: `df.apply(np.cumsum)`

* Itera sobre cada elemento de una serie y realizar la acción deseada: `df['column_name'].map(lambda x: 1+x) # esto itera sobre la columna y agrega el valor 1 a cada elemento`

* Aplica una función a cada elemento del dataframe:`func = lambda x: x + 1 # función para agregar una constante 1 a cada elemento del dataframe df.applymap(func)`.

In [97]:
cadena_fechas = ('2017-04-01','2017-04-02','2017-04-03','2017-04-04')
pd.to_datetime(pd.Series(cadena_fechas))

0   2017-04-01
1   2017-04-02
2   2017-04-03
3   2017-04-04
dtype: datetime64[ns]

In [98]:
df.rename(columns = {'Sepal.Length': 'Sepal_Length'}, inplace=True)

In [99]:
df.columns = ['Sepal_Length', 'Sepal_Width', 'Petal_Length', 'Petal_Width', 'Species']


In [190]:
# Removemos los duplicados

data_1 = {'primer_nombre': ['Amy', 'Amy', 'Jason', 'Nick', 'Stephen','Amy'],
        'ultimo_nombre': ['Jackson', 'J', 'Miller', 'Milner', 'L','J'],
        'edad': [42, 42, 36, 24, 24, 42]}
df = pd.DataFrame(data_1, columns = ['primer_nombre', 'ultimo_nombre', 'edad'])
print(df)

  primer_nombre ultimo_nombre  edad
0           Amy       Jackson    42
1           Amy             J    42
2         Jason        Miller    36
3          Nick        Milner    24
4       Stephen             L    24
5           Amy             J    42


In [191]:
print(df.duplicated())

0    False
1    False
2    False
3    False
4    False
5     True
dtype: bool


In [192]:
print(df.drop_duplicates())

  primer_nombre ultimo_nombre  edad
0           Amy       Jackson    42
1           Amy             J    42
2         Jason        Miller    36
3          Nick        Milner    24
4       Stephen             L    24


In [193]:
df.drop_duplicates(['primer_nombre'], keep ='first')

Unnamed: 0,primer_nombre,ultimo_nombre,edad
0,Amy,Jackson,42
2,Jason,Miller,36
3,Nick,Milner,24
4,Stephen,L,24


**Ejercicio**

* Agrega las columnas siguientes: `edad_mas_5`, `nombre_completo` y `genero`
 - `edad_mas_5`viene de sumar 5 a la etiqueta `edad`
 - `nombre_completo` viene de sumar las etiquetas `primer_nombre`, `_` y `ultimo_nombre`
 - `genero` es una serie de elementos `'F','F','M','M','M','F'.`

In [194]:
# Tu respuesta
df['edad_mas_5'] = df['edad'] + 5
df['nombre_completo'] = df['primer_nombre'] +' '+ df['ultimo_nombre']
df['genero'] = pd.Series(['F','F','M','M','M','F'])
df

Unnamed: 0,primer_nombre,ultimo_nombre,edad,edad_mas_5,nombre_completo,genero
0,Amy,Jackson,42,47,Amy Jackson,F
1,Amy,J,42,47,Amy J,F
2,Jason,Miller,36,41,Jason Miller,M
3,Nick,Milner,24,29,Nick Milner,M
4,Stephen,L,24,29,Stephen L,M
5,Amy,J,42,47,Amy J,F


#### Datos perdidos

pandas usa principalmente el valor `np.nan` para representar los datos que faltan. Por defecto no se incluye en los cálculos.

In [195]:
df.iloc[4,2] = np.nan
print(df)

  primer_nombre ultimo_nombre  edad  edad_mas_5 nombre_completo genero
0           Amy       Jackson  42.0          47     Amy Jackson      F
1           Amy             J  42.0          47           Amy J      F
2         Jason        Miller  36.0          41    Jason Miller      M
3          Nick        Milner  24.0          29     Nick Milner      M
4       Stephen             L   NaN          29       Stephen L      M
5           Amy             J  42.0          47           Amy J      F


In [196]:
print(df.dropna())

  primer_nombre ultimo_nombre  edad  edad_mas_5 nombre_completo genero
0           Amy       Jackson  42.0          47     Amy Jackson      F
1           Amy             J  42.0          47           Amy J      F
2         Jason        Miller  36.0          41    Jason Miller      M
3          Nick        Milner  24.0          29     Nick Milner      M
5           Amy             J  42.0          47           Amy J      F


In [197]:
df.iloc[4,2] = np.nan
print(df)

  primer_nombre ultimo_nombre  edad  edad_mas_5 nombre_completo genero
0           Amy       Jackson  42.0          47     Amy Jackson      F
1           Amy             J  42.0          47           Amy J      F
2         Jason        Miller  36.0          41    Jason Miller      M
3          Nick        Milner  24.0          29     Nick Milner      M
4       Stephen             L   NaN          29       Stephen L      M
5           Amy             J  42.0          47           Amy J      F


In [198]:
df.fillna(value =0)

Unnamed: 0,primer_nombre,ultimo_nombre,edad,edad_mas_5,nombre_completo,genero
0,Amy,Jackson,42.0,47,Amy Jackson,F
1,Amy,J,42.0,47,Amy J,F
2,Jason,Miller,36.0,41,Jason Miller,M
3,Nick,Milner,24.0,29,Nick Milner,M
4,Stephen,L,0.0,29,Stephen L,M
5,Amy,J,42.0,47,Amy J,F


In [199]:
df.iloc[4,2] = np.nan
print(df)

  primer_nombre ultimo_nombre  edad  edad_mas_5 nombre_completo genero
0           Amy       Jackson  42.0          47     Amy Jackson      F
1           Amy             J  42.0          47           Amy J      F
2         Jason        Miller  36.0          41    Jason Miller      M
3          Nick        Milner  24.0          29     Nick Milner      M
4       Stephen             L   NaN          29       Stephen L      M
5           Amy             J  42.0          47           Amy J      F


In [200]:
pd.isnull(df)

Unnamed: 0,primer_nombre,ultimo_nombre,edad,edad_mas_5,nombre_completo,genero
0,False,False,False,False,False,False
1,False,False,False,False,False,False
2,False,False,False,False,False,False
3,False,False,False,False,False,False
4,False,False,True,False,False,False
5,False,False,False,False,False,False


#### Operaciones

In [201]:
media = df['edad'].mean()
#media
# usamos la media para reeemplazar el NaN
# completar
df['edad'].fillna(media, inplace=True)
df

Unnamed: 0,primer_nombre,ultimo_nombre,edad,edad_mas_5,nombre_completo,genero
0,Amy,Jackson,42.0,47,Amy Jackson,F
1,Amy,J,42.0,47,Amy J,F
2,Jason,Miller,36.0,41,Jason Miller,M
3,Nick,Milner,24.0,29,Nick Milner,M
4,Stephen,L,37.2,29,Stephen L,M
5,Amy,J,42.0,47,Amy J,F


In [202]:
df.fillna(method='ffill', inplace=True, limit=1)

In [203]:
import warnings
warnings.filterwarnings('ignore')
df.mean()

edad          37.2
edad_mas_5    40.0
dtype: float64

In [204]:
df.min()

primer_nombre        Amy
ultimo_nombre          J
edad                24.0
edad_mas_5            29
nombre_completo    Amy J
genero                 F
dtype: object

In [205]:
df.max()

primer_nombre        Stephen
ultimo_nombre         Milner
edad                    42.0
edad_mas_5                47
nombre_completo    Stephen L
genero                     M
dtype: object

In [206]:
df.sum()

primer_nombre                              AmyAmyJasonNickStephenAmy
ultimo_nombre                                 JacksonJMillerMilnerLJ
edad                                                           223.2
edad_mas_5                                                       240
nombre_completo    Amy JacksonAmy JJason MillerNick MilnerStephen...
genero                                                        FFMMMF
dtype: object

In [207]:
df.count()

primer_nombre      6
ultimo_nombre      6
edad               6
edad_mas_5         6
nombre_completo    6
genero             6
dtype: int64

In [208]:
df.cumsum()

Unnamed: 0,primer_nombre,ultimo_nombre,edad,edad_mas_5,nombre_completo,genero
0,Amy,Jackson,42.0,47,Amy Jackson,F
1,AmyAmy,JacksonJ,84.0,94,Amy JacksonAmy J,FF
2,AmyAmyJason,JacksonJMiller,120.0,135,Amy JacksonAmy JJason Miller,FFM
3,AmyAmyJasonNick,JacksonJMillerMilner,144.0,164,Amy JacksonAmy JJason MillerNick Milner,FFMM
4,AmyAmyJasonNickStephen,JacksonJMillerMilnerL,181.2,193,Amy JacksonAmy JJason MillerNick MilnerStephen L,FFMMM
5,AmyAmyJasonNickStephenAmy,JacksonJMillerMilnerLJ,223.2,240,Amy JacksonAmy JJason MillerNick MilnerStephen...,FFMMMF


#### Aplicación de función a elemento, columna o dataframe


In [209]:
# completar
df.apply(np.cumsum)
df

Unnamed: 0,primer_nombre,ultimo_nombre,edad,edad_mas_5,nombre_completo,genero
0,Amy,Jackson,42.0,47,Amy Jackson,F
1,Amy,J,42.0,47,Amy J,F
2,Jason,Miller,36.0,41,Jason Miller,M
3,Nick,Milner,24.0,29,Nick Milner,M
4,Stephen,L,37.2,29,Stephen L,M
5,Amy,J,42.0,47,Amy J,F


In [210]:
# Map: itera sobre cada elemento de una serie
# Completar agrega una constante 1 a cada elemento de la column1
df['edad'] = df['edad'].map(lambda x: x + 1)
df

Unnamed: 0,primer_nombre,ultimo_nombre,edad,edad_mas_5,nombre_completo,genero
0,Amy,Jackson,43.0,47,Amy Jackson,F
1,Amy,J,43.0,47,Amy J,F
2,Jason,Miller,37.0,41,Jason Miller,M
3,Nick,Milner,25.0,29,Nick Milner,M
4,Stephen,L,38.2,29,Stephen L,M
5,Amy,J,43.0,47,Amy J,F


In [211]:
func=lambda x: x+1
df_filtrado = df.iloc[:, 2:4]
print(df_filtrado)

   edad  edad_mas_5
0  43.0          47
1  43.0          47
2  37.0          41
3  25.0          29
4  38.2          29
5  43.0          47


In [212]:
print(df_filtrado.applymap(func))

   edad  edad_mas_5
0  44.0          48
1  44.0          48
2  38.0          42
3  26.0          30
4  39.2          30
5  44.0          48


**Ejemplo**

La parte del poder de pandas se da por los métodos integrados en los objetos Series y DataFrame.

In [213]:
from io import StringIO
data = StringIO('''UPC,Units,Sales,Date
1234,5,20.2,1-1-2014
1234,2,8.,1-2-2014
1234,3,13.,1-3-2014
789,1,2.,1-1-2014
789,2,3.8,1-2-2014
789,,,1-3-2014
789,1,1.8,1-5-2014''')

In [214]:
sales = pd.read_csv(data)
sales

Unnamed: 0,UPC,Units,Sales,Date
0,1234,5.0,20.2,1-1-2014
1,1234,2.0,8.0,1-2-2014
2,1234,3.0,13.0,1-3-2014
3,789,1.0,2.0,1-1-2014
4,789,2.0,3.8,1-2-2014
5,789,,,1-3-2014
6,789,1.0,1.8,1-5-2014


In [215]:
sales.shape

(7, 4)

In [216]:
sales.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7 entries, 0 to 6
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   UPC     7 non-null      int64  
 1   Units   6 non-null      float64
 2   Sales   6 non-null      float64
 3   Date    7 non-null      object 
dtypes: float64(2), int64(1), object(1)
memory usage: 352.0+ bytes


A diferencia del objeto `Series` que prueba la pertenencia con el índice, el `DataFrame` prueba la pertenencia con las columnas. El comportamiento de iteración `(__iter__)` y el comportamiento de pertenencia `(__contains__)` es el mismo para el `DataFrame`.

#### Operaciones de índice


In [220]:
sales.reindex([0, 4])

Unnamed: 0,UPC,Units,Sales,Date
0,1234,5.0,20.2,1-1-2014
4,789,2.0,3.8,1-2-2014


In [221]:
sales.reindex(columns=['Date', 'Sales'])

Unnamed: 0,Date,Sales
0,1-1-2014,20.2
1,1-2-2014,8.0
2,1-3-2014,13.0
3,1-1-2014,2.0
4,1-2-2014,3.8
5,1-3-2014,
6,1-5-2014,1.8


La selección de columnas e índices se puede combinar para refinar aún más la selección. Además, se pueden incluir nuevas entradas para valores de índices y nombres de columna. Por defecto, usarán el parámetro opcional `fill_value` (que es NaN a menos que se especifique):

In [222]:
sales.reindex(index=[2, 6, 8], columns=['Sales', 'MIT', 'missing'])

Unnamed: 0,Sales,MIT,missing
2,13.0,,
6,1.8,,
8,,,


In [223]:
by_date = sales.set_index('Date')
by_date

Unnamed: 0_level_0,UPC,Units,Sales
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1-1-2014,1234,5.0,20.2
1-2-2014,1234,2.0,8.0
1-3-2014,1234,3.0,13.0
1-1-2014,789,1.0,2.0
1-2-2014,789,2.0,3.8
1-3-2014,789,,
1-5-2014,789,1.0,1.8


Para agregar un índice entero creciente a un data frame, usa `.reset_index`:

In [224]:
by_date.reset_index()

Unnamed: 0,Date,UPC,Units,Sales
0,1-1-2014,1234,5.0,20.2
1,1-2-2014,1234,2.0,8.0
2,1-3-2014,1234,3.0,13.0
3,1-1-2014,789,1.0,2.0
4,1-2-2014,789,2.0,3.8
5,1-3-2014,789,,
6,1-5-2014,789,1.0,1.8


#### Obtener y establecer valores


In [225]:
sales.iat[4, 2]

3.8


A continuación, insertamos una columna `Category` después de ` UPC`  (en la posición 1):

In [226]:
sales.insert(1, 'Category', 'Food')
sales

Unnamed: 0,UPC,Category,Units,Sales,Date
0,1234,Food,5.0,20.2,1-1-2014
1,1234,Food,2.0,8.0,1-2-2014
2,1234,Food,3.0,13.0,1-3-2014
3,789,Food,1.0,2.0,1-1-2014
4,789,Food,2.0,3.8,1-2-2014
5,789,Food,,,1-3-2014
6,789,Food,1.0,1.8,1-5-2014


El método `.replace` es una forma poderosa de actualizar muchos valores de un data frame en las columnas. Para reemplazar todos los 789 con 790, realiza lo siguiente:

In [227]:
sales.replace(789, 790)

Unnamed: 0,UPC,Category,Units,Sales,Date
0,1234,Food,5.0,20.2,1-1-2014
1,1234,Food,2.0,8.0,1-2-2014
2,1234,Food,3.0,13.0,1-3-2014
3,790,Food,1.0,2.0,1-1-2014
4,790,Food,2.0,3.8,1-2-2014
5,790,Food,,,1-3-2014
6,790,Food,1.0,1.8,1-5-2014


In [228]:
sales.replace({'UPC': {789:790},
               'Sales': {789: 1.4}})

Unnamed: 0,UPC,Category,Units,Sales,Date
0,1234,Food,5.0,20.2,1-1-2014
1,1234,Food,2.0,8.0,1-2-2014
2,1234,Food,3.0,13.0,1-3-2014
3,790,Food,1.0,2.0,1-1-2014
4,790,Food,2.0,3.8,1-2-2014
5,790,Food,,,1-3-2014
6,790,Food,1.0,1.8,1-5-2014


El método `replace` también acepta expresiones regulares (pueden ser incluidas en diccionarios anidados) si  el paramétro`regex` se coloca en `True`.

In [229]:
sales.replace('(F.*d)', r'\1_stuff', regex=True)

Unnamed: 0,UPC,Category,Units,Sales,Date
0,1234,Food_stuff,5.0,20.2,1-1-2014
1,1234,Food_stuff,2.0,8.0,1-2-2014
2,1234,Food_stuff,3.0,13.0,1-3-2014
3,789,Food_stuff,1.0,2.0,1-1-2014
4,789,Food_stuff,2.0,3.8,1-2-2014
5,789,Food_stuff,,,1-3-2014
6,789,Food_stuff,1.0,1.8,1-5-2014


#### Eliminación de  columnas

Hay al menos cuatro formas de eliminar una columna:

* El método `.pop`

* El método `.drop` con `axis = 1`

* El método `.reindex`

* Indexación con una lista de nuevas columnas

El método `.pop` toma el nombre de una columna y lo elimina del data frame. Opera in-place. En lugar de devolver un data frame, devuelve la columna eliminada.

In [230]:
sales['subcat'] = 'Dairy'
sales

Unnamed: 0,UPC,Category,Units,Sales,Date,subcat
0,1234,Food,5.0,20.2,1-1-2014,Dairy
1,1234,Food,2.0,8.0,1-2-2014,Dairy
2,1234,Food,3.0,13.0,1-3-2014,Dairy
3,789,Food,1.0,2.0,1-1-2014,Dairy
4,789,Food,2.0,3.8,1-2-2014,Dairy
5,789,Food,,,1-3-2014,Dairy
6,789,Food,1.0,1.8,1-5-2014,Dairy


In [231]:
sales.pop('subcat')

0    Dairy
1    Dairy
2    Dairy
3    Dairy
4    Dairy
5    Dairy
6    Dairy
Name: subcat, dtype: object

In [232]:
sales

Unnamed: 0,UPC,Category,Units,Sales,Date
0,1234,Food,5.0,20.2,1-1-2014
1,1234,Food,2.0,8.0,1-2-2014
2,1234,Food,3.0,13.0,1-3-2014
3,789,Food,1.0,2.0,1-1-2014
4,789,Food,2.0,3.8,1-2-2014
5,789,Food,,,1-3-2014
6,789,Food,1.0,1.8,1-5-2014


Para quitar una columna con el método `.drop`, simplemente páselo (o una lista de nombres de columna) junto con la configuración del parámetro `axis` en 1:

In [236]:
# completar
#Quitamos la columna category
df = sales.drop('Category', axis=1)
df

Unnamed: 0,UPC,Units,Sales,Date
0,1234,5.0,20.2,1-1-2014
1,1234,2.0,8.0,1-2-2014
2,1234,3.0,13.0,1-3-2014
3,789,1.0,2.0,1-1-2014
4,789,2.0,3.8,1-2-2014
5,789,,,1-3-2014
6,789,1.0,1.8,1-5-2014


#### Los dos métodos finales para eliminar columnas

In [237]:
cols = ['Sales', 'Date']

In [238]:
sales.reindex(columns=cols)

Unnamed: 0,Sales,Date
0,20.2,1-1-2014
1,8.0,1-2-2014
2,13.0,1-3-2014
3,2.0,1-1-2014
4,3.8,1-2-2014
5,,1-3-2014
6,1.8,1-5-2014


In [239]:
sales[cols]

Unnamed: 0,Sales,Date
0,20.2,1-1-2014
1,8.0,1-2-2014
2,13.0,1-3-2014
3,2.0,1-1-2014
4,3.8,1-2-2014
5,,1-3-2014
6,1.8,1-5-2014


#### Recortes


In [240]:
sales.head()

Unnamed: 0,UPC,Category,Units,Sales,Date
0,1234,Food,5.0,20.2,1-1-2014
1,1234,Food,2.0,8.0,1-2-2014
2,1234,Food,3.0,13.0,1-3-2014
3,789,Food,1.0,2.0,1-1-2014
4,789,Food,2.0,3.8,1-2-2014


In [241]:
sales.tail(2)

Unnamed: 0,UPC,Category,Units,Sales,Date
5,789,Food,,,1-3-2014
6,789,Food,1.0,1.8,1-5-2014


Usemos un índice basado en cadenas para que quede más claro qué hacen las opciones de recorte:

In [265]:
# completar
df = sales.loc[:, sales.columns != 'Category']

In [266]:
sales['Category']

0    Food
1    Food
2    Food
3    Food
4    Food
5    Food
6    Food
Name: Category, dtype: object

In [287]:
df

Unnamed: 0,UPC,Category,Units,Sales,Date
0,1234,Food,5.0,20.2,1-1-2014
1,1234,Food,2.0,8.0,1-2-2014
2,1234,Food,3.0,13.0,1-3-2014
3,789,Food,1.0,2.0,1-1-2014
4,789,Food,2.0,3.8,1-2-2014
5,789,Food,,,1-3-2014
6,789,Food,1.0,1.8,1-5-2014


Para dividir por posición, usa el atributo `.iloc`. Aquí tomamos filas en las posiciones dos hasta cuatro, pero sin incluirlas:

In [288]:
df.iloc[2:4]

Unnamed: 0,UPC,Category,Units,Sales,Date
2,1234,Food,3.0,13.0,1-3-2014
3,789,Food,1.0,2.0,1-1-2014


También podemos proporcionar posiciones de columna que también queremos mantener. Las posiciones de las columnas deben seguir una coma en la operación de índice. Aquí mantenemos las filas desde dos hasta pero sin incluir la fila cuatro. También tomamos columnas desde cero hasta pero sin incluir uno (solo la columna en la posición de índice cero).

Esto se expresa en la siguiente figura:


<img src="recorte-pandas.png" alt="Drawing" style="width: 500px;"/>

A continuación se muestra un resumen de las construcciones de  de data frame por posición y etiqueta.


```
.iloc [i: j]            Posición de filas i hasta pero sin incluir j (semiabierto)
.iloc [:, i: j]         Posición de las columnas i hasta pero sin incluir j (semiabierto)
.iloc [[i, k, m]]       Filas en i, k y m (no es un intervalo)
.loc [a: b]             Filas desde la etiqueta de índice a hasta b (cerrado)
.loc [:, c: d]          Columnas de la etiqueta de columna c a d (cerrado)
.loc [: [b, d, f]]      Columnas en las etiquetas b, d y f (no es un intervalo)

```

<img src="recorte-ejemplo.png" alt="Drawing" style="width: 600px;"/>

In [289]:
df = df.drop(['Category'], axis=1)
df

Unnamed: 0,UPC,Units,Sales,Date
0,1234,5.0,20.2,1-1-2014
1,1234,2.0,8.0,1-2-2014
2,1234,3.0,13.0,1-3-2014
3,789,1.0,2.0,1-1-2014
4,789,2.0,3.8,1-2-2014
5,789,,,1-3-2014
6,789,1.0,1.8,1-5-2014


In [290]:
df.iloc[2:4, 0:1]

Unnamed: 0,UPC
2,1234
3,789


También hay soporte para dividir datos por etiquetas. Usando el atributo `.loc`, podemos tomar valores de índice desde la `a` a la `d`:

In [301]:
# completar
df.loc[0:1]

Unnamed: 0,UPC,Units,Sales,Date
0,1234,5.0,20.2,1-1-2014
1,1234,2.0,8.0,1-2-2014


Y al igual que `.iloc`, `.loc` tiene la capacidad de especificar columnas por etiqueta. En este ejemplo, solo tomamos la columna `Units` y, por lo tanto, devuelve una serie:

In [302]:
# completar
df.loc[:, "Units"]

0    5.0
1    2.0
2    3.0
3    1.0
4    2.0
5    NaN
6    1.0
Name: Units, dtype: float64

Sacamos las columnas `UPC` y `Sales`, pero con solo los últimos 4 valores:

In [303]:
# Completar
df.loc[df.index[-4:], ["UPC", "Sales"]]

Unnamed: 0,UPC,Sales
3,789,2.0
4,789,3.8
5,789,
6,789,1.8


### Merge/Join


In [304]:
data = {
        'emp_id': ['1', '2', '3', '4', '5'],
        'primer_nombre': ['Jason', 'Andy', 'Allen', 'John', 'Amy'],
        'ultimo_nombre': ['Larkin', 'Jacob', 'A', 'AA', 'Jackson']}
df_1 = pd.DataFrame(data, columns = ['emp_id', 'primer_nombre', 'ultimo_nombre'])
print (df_1)

  emp_id primer_nombre ultimo_nombre
0      1         Jason        Larkin
1      2          Andy         Jacob
2      3         Allen             A
3      4          John            AA
4      5           Amy       Jackson


In [305]:
data = {
        'emp_id': ['4', '5', '6', '7'],
        'primer_nombre': ['James', 'Shize', 'Kim', 'Jose'],
        'ultimo_nombre': ['Alexander', 'Suma', 'Mike', 'G']}
df_2 = pd.DataFrame(data, columns = ['emp_id', 'primer_nombre', 'ultimo_nombre'])
print (df_2)

  emp_id primer_nombre ultimo_nombre
0      4         James     Alexander
1      5         Shize          Suma
2      6           Kim          Mike
3      7          Jose             G


In [306]:
# usando concat
df = pd.concat([df_1, df_2])
print(df)

  emp_id primer_nombre ultimo_nombre
0      1         Jason        Larkin
1      2          Andy         Jacob
2      3         Allen             A
3      4          John            AA
4      5           Amy       Jackson
0      4         James     Alexander
1      5         Shize          Suma
2      6           Kim          Mike
3      7          Jose             G


In [307]:
# Juntando dos dataframes a lo largo de las columnas
pd.concat([df_1,df_2], axis=1)

Unnamed: 0,emp_id,primer_nombre,ultimo_nombre,emp_id.1,primer_nombre.1,ultimo_nombre.1
0,1,Jason,Larkin,4.0,James,Alexander
1,2,Andy,Jacob,5.0,Shize,Suma
2,3,Allen,A,6.0,Kim,Mike
3,4,John,AA,7.0,Jose,G
4,5,Amy,Jackson,,,


Combinamos dos dataframes basados en el valor `emp_id` en este caso, solo se unirán los `emp_id` presentes en ambas tablas.

In [308]:
print(pd.merge(df_1,df_2, on='emp_id'))

  emp_id primer_nombre_x ultimo_nombre_x primer_nombre_y ultimo_nombre_y
0      4            John              AA           James       Alexander
1      5             Amy         Jackson           Shize            Suma


### Grouping


Pandas nos brinda la capacidad de agrupar data frames por valores de columna y luego fusionarlos nuevamente en un resultado con el método `.groupby`.
Pandas `group by` nos permitirá lograr lo siguiente:

- Aplicar una función de agregación a cada grupo de forma independiente
- Según algunos criterios, divide los datos en grupos.
- Combinar los resultados del `group by` en una estructura de datos.


<img src="Groupby.png" alt="Drawing" style="width: 700px;"/>

Como ejemplo, en el data frame `scores`, calcularemos las puntuaciones medias de cada maestro. Primero llamamos a `.groupby` y entonces invocamos a `.median` en el resultado:

In [310]:
scores = pd.DataFrame({
    'name':['Adam', 'Bob', 'Dave', 'Fred'],
    'age': [15, 16, 16, 15],
    'test1': [95, 81, 89, None],
    'test2': [80, 82, 84, 88],
    'teacher': ['Ashby', 'Ashby', 'Jones', 'Jones']})

In [315]:
# completar
scores.groupby("teacher").median()

Unnamed: 0_level_0,age,test1,test2
teacher,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Ashby,15.5,88.0,81.0
Jones,15.5,89.0,86.0


Esto incluyó la columna `age`, para ignorar que podemos separar solo las columnas de prueba:

In [316]:
# completar
scores.groupby("teacher")["test1","test2"].median()

Unnamed: 0_level_0,test1,test2
teacher,Unnamed: 1_level_1,Unnamed: 2_level_1
Ashby,88.0,81.0
Jones,89.0,86.0


Para encontrar los valores medianos de cada grupo de edad para cada maestro, simplemente agrupa por maestro y edad:


In [317]:
# completar
scores.groupby(['teacher', 'age']).median()

Unnamed: 0_level_0,Unnamed: 1_level_0,test1,test2
teacher,age,Unnamed: 2_level_1,Unnamed: 3_level_1
Ashby,15,95.0,80.0
Ashby,16,81.0,82.0
Jones,15,,88.0
Jones,16,89.0,84.0


Si queremos los puntajes mínimos y máximos de las pruebas por maestro, usamos el método `.agg` y pasamos una lista de funciones para llamar:

In [318]:
# completar
scores.groupby('teacher').agg({'test1': ['min', 'max'], 'test2': ['min', 'max']})

Unnamed: 0_level_0,test1,test1,test2,test2
Unnamed: 0_level_1,min,max,min,max
teacher,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Ashby,81.0,95.0,80,82
Jones,89.0,89.0,84,88


**Ejercicio**

In [333]:
df = pd.DataFrame({'Nombre' : ['jack', 'jane', 'jack', 'jane', 'jack', 'jane', 'jack', 'jane'],
                   'Estado' : ['SFO', 'SFO', 'NYK', 'CA', 'NYK', 'NYK', 'SFO', 'CA'],
                   'Genero':['A','A','B','A','C','B','C','A'],
                   'Edad' : np.random.uniform(24, 50, size=8),
                   'Salario' : np.random.uniform(3000, 5000, size=8),})

Ten en cuenta que las columnas se ordenan automáticamente en su orden alfabético para un orden personalizado, usa el siguiente código_

`df = pd.DataFrame (data, columns = ['Nombre', 'Estado', 'Edad', 'Salario'])`

* Calcula la suma por nombres.

* Encuentra la edad máxima y el salario por nombre/ estado. Puedes usar todas las funciones agregadas, como mínimo, máximo, media, conteo, suma acumulada.

In [334]:
# Tus  respuestas
suma= df.groupby('Nombre').sum()
print(suma)
en_max_sala = df.groupby(['Nombre', 'Estado']).agg({'Edad': 'max', 'Salario': 'max'})
print(en_max_sala)

              Edad       Salario
Nombre                          
jack    164.098437  15707.418260
jane    122.163798  16328.954491
                    Edad      Salario
Nombre Estado                        
jack   NYK     49.671905  3605.053564
       SFO     45.582972  4954.878367
jane   CA      40.979483  4857.399383
       NYK     26.578474  3937.016031
       SFO     28.361886  4473.557978


#### Tablas pivot

Pandas proporciona una función `pivot_table` para crear una tabla pivot (dinámica )de estilo de hoja de cálculo de MS-Excel. Puede tomar los siguientes argumentos:

- `data`: objeto DataFrame
- `values`: columna para agregar
- `index`: etiquetas de fila
- `columns`: etiquetas de columna
- `aggfunc`: función de agregación que se usará en valores, el valor predeterminado es `NumPy.mean`.

Usando una tabla pivot, podemos generalizar ciertos comportamientos grupales. Para obtener las puntuaciones medias de los profesores, podemos ejecutar lo siguiente:

In [328]:
# completar
puntuaciones_medias = pd.pivot_table(scores, values=['test1', 'test2'], index='teacher', aggfunc='mean')
puntuaciones_medias

Unnamed: 0_level_0,test1,test2
teacher,Unnamed: 1_level_1,Unnamed: 2_level_1
Ashby,88.0,81
Jones,89.0,86


Si queremos agregar por maestro y edad, simplemente usamos una lista con ambos para el parámetro `index`:

In [323]:
scores.pivot_table(index=['teacher', 'age'],
                   values=['test1', 'test2'],
                  aggfunc='median')

Unnamed: 0_level_0,Unnamed: 1_level_0,test1,test2
teacher,age,Unnamed: 2_level_1,Unnamed: 3_level_1
Ashby,15,95.0,80
Ashby,16,81.0,82
Jones,15,,88
Jones,16,89.0,84


Si queremos aplicar múltiples funciones, simplemente usa una lista de ellas. Aquí, analizamos los puntajes mínimos y máximos de las pruebas por maestro:

In [324]:
scores.pivot_table(index='teacher',
                   values=['test1', 'test2'],
                   aggfunc=[min, max])

Unnamed: 0_level_0,min,min,max,max
Unnamed: 0_level_1,test1,test2,test1,test2
teacher,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Ashby,81.0,80,95.0,82
Jones,89.0,84,89.0,88


Podemos ver que la tabla pivot y de grupo por comportamiento son muy similares. Hay del estilo declarativo de `.pivot_table` y el estilo  semántico de los grupos.

Una característica adicional de las tablas pivots es la capacidad de agregar filas de resumen. Simplemente estableciendo `margins= True` obtenemos esta funcionalidad:

In [325]:
scores.pivot_table(index='teacher',
                   values=['test1', 'test2'],
                   aggfunc='median', margins=True)

Unnamed: 0_level_0,test1,test2
teacher,Unnamed: 1_level_1,Unnamed: 2_level_1
Ashby,88.0,81
Jones,89.0,86
All,89.0,82


<img src="pivot.png" alt="Drawing" style="width: 700px;"/>

In [326]:
scores.pivot_table(index= ['teacher', 'age'],
                  values=['test1', 'test2'],
                   aggfunc=[len, sum], margins=True)

Unnamed: 0_level_0,Unnamed: 1_level_0,len,len,sum,sum
Unnamed: 0_level_1,Unnamed: 1_level_1,test1,test2,test1,test2
teacher,age,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Ashby,15.0,1,1,95.0,80
Ashby,16.0,1,1,81.0,82
Jones,15.0,1,1,0.0,88
Jones,16.0,1,1,89.0,84
All,,3,3,265.0,246


<img src="pivot-parameters.png" alt="Drawing" style="width: 700px;"/>

**Ejercicio** Del dataframe anterior agrupa por estado y nombre y encuentre la edad media para cada grado.


In [None]:
## Tu respuesta

In [336]:
pd.pivot_table(df, values='Edad', index=['Estado', 'Nombre'], aggfunc=np.mean)

Unnamed: 0_level_0,Unnamed: 1_level_0,Edad
Estado,Nombre,Unnamed: 2_level_1
CA,jane,33.611719
NYK,jack,46.630153
NYK,jane,26.578474
SFO,jack,35.419065
SFO,jane,28.361886
