### Pandas


Pandas es un paquete Python de código abierto que proporciona estructuras de datos rápidas, flexibles y expresivas diseñadas para que trabajar con datos "relacionales" o "etiquetados" sea fácil e intuitivo.

### Estructuras de datos
Pandas presenta dos nuevas estructuras de datos en Python: Series y DataFrame, ambas construidas sobre NumPy (esto significa que es rápido).


#### Serie

Este es un objeto unidimensional similar a la columna en una hoja de cálculo o tabla SQL. De forma predeterminada, a cada elemento se le asignará una etiqueta de índice de `0` a `N`.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [None]:
s = pd.Series([1,3,4,np.nan, 5, 6], index = ['A', 'B', 'C', 'D', 'E', 'F'])
print(s)

A    1.0
B    3.0
C    4.0
D    NaN
E    5.0
F    6.0
dtype: float64


Si creas una serie utilizando el diccionario, la clave se convertirá en el índice de forma predeterminada.

In [None]:
dict_ejemplo = {'A': 1, 'B':2, 'C':3, 'D':np.nan, 'E': 5, 'F': 6}
dict_ejemplo

{'A': 1, 'B': 2, 'C': 3, 'D': nan, 'E': 5, 'F': 6}

In [None]:
s = pd.Series(dict_ejemplo)
print(s)

A    1.0
B    2.0
C    3.0
D    NaN
E    5.0
F    6.0
dtype: float64


La contraparte bidimensional de las series unidimensionales es el DataFrame.

### DataFrame

Es un objeto bidimensional similar a una hoja de cálculo o una tabla SQL. Este es el objeto Pandas más utilizado.


In [None]:
data = {'Genero': ['F', 'M', 'M'],
        'Emp_ID': ['E01', 'E02', 'E03'],
        'Edad': [25, 27, 25]}
# Si queremos el orden de las columnas, especificamos en el parametro columns
df = pd.DataFrame(data, columns=['Emp_ID', 'Genero', 'Edad'])
df

Unnamed: 0,Emp_ID,Genero,Edad
0,E01,F,25
1,E02,M,27
2,E03,M,25


#### Lectura y escritura de datos

Veremos tres formatos de archivo de uso común: csv, archivo de texto y Excel.

In [None]:
# Leyendo desde un archivo csv
df=pd.read_csv('mtcars.csv')
df.head()

Unnamed: 0,model,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
0,Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
1,Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
2,Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
3,Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1
4,Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2


In [None]:
# Escribir un csv
# index = False - no escribe los valores de indice, el valor predeterminado es True
# completar

In [None]:
df.to_csv('new_mtcars.csv', index=False)

In [None]:
# Leyendo desde un archivo .txt
# df=pd.read_csv('Data/mtcars.txt', sep='\t')
# completar

In [None]:
# Leer el archivo de texto
df = pd.read_csv('mtcars.txt', sep='\t')
# Mostrar las primeras filas del DataFrame
print(df.head())

               model   mpg  cyl   disp   hp  drat     wt   qsec  vs  am  gear  \
0          Mazda RX4  21.0    6  160.0  110  3.90  2.620  16.46   0   1     4   
1      Mazda RX4 Wag  21.0    6  160.0  110  3.90  2.875  17.02   0   1     4   
2         Datsun 710  22.8    4  108.0   93  3.85  2.320  18.61   1   1     4   
3     Hornet 4 Drive  21.4    6  258.0  110  3.08  3.215  19.44   1   0     3   
4  Hornet Sportabout  18.7    8  360.0  175  3.15  3.440  17.02   0   0     3   

   carb  
0     4  
1     4  
2     1  
3     1  
4     2  


In [None]:
# Leyendo un archivo Excel
#df=pd.read_excel('Data/mtcars.xlsx','Sheet2')
# Completar

In [None]:
# Leer el archivo Excel
df = pd.read_excel('mtcars.xlsx', sheet_name='Sheet2')
# Mostrar las primeras filas del DataFrame
print(df.head())

               model   mpg  cyl   disp   hp  drat     wt   qsec  vs  am  gear  \
0          Mazda RX4  21.0    6  160.0  110  3.90  2.620  16.46   0   1     4   
1      Mazda RX4 Wag  21.0    6  160.0  110  3.90  2.875  17.02   0   1     4   
2         Datsun 710  22.8    4  108.0   93  3.85  2.320  18.61   1   1     4   
3     Hornet 4 Drive  21.4    6  258.0  110  3.08  3.215  19.44   1   0     3   
4  Hornet Sportabout  18.7    8  360.0  175  3.15  3.440  17.02   0   0     3   

   carb  
0     4  
1     4  
2     1  
3     1  
4     2  


### Resumen de estadísticas básicas


In [None]:
#df = pd.read_csv('Data/iris.csv')
# completar

In [None]:
# Leer el archivo CSV
df = pd.read_csv('iris.csv')
# Mostrar las primeras filas del DataFrame
print(df.head())

   Sepal.Length  Sepal.Width  Petal.Length  Petal.Width Species
0           5.1          3.5           1.4          0.2  setosa
1           4.9          3.0           1.4          0.2  setosa
2           4.7          3.2           1.3          0.2  setosa
3           4.6          3.1           1.5          0.2  setosa
4           5.0          3.6           1.4          0.2  setosa


#### Covarianza


In [None]:
# covarianza: devuelve la covarianza entre columnas adecuadas
# completar

In [None]:
# Leer el archivo CSV
df = pd.read_csv('iris.csv')
# Calcular la covarianza de las columnas
covariance = df.cov()
print(covariance)

              Sepal.Length  Sepal.Width  Petal.Length  Petal.Width
Sepal.Length      0.685694    -0.042434      1.274315     0.516271
Sepal.Width      -0.042434     0.189979     -0.329656    -0.121639
Petal.Length      1.274315    -0.329656      3.116278     1.295609
Petal.Width       0.516271    -0.121639      1.295609     0.581006


  covariance = df.cov()


#### Correlación


In [None]:
# completar

In [None]:
# Calcular la correlación de las columnas
correlation = df.corr()
print(correlation)

              Sepal.Length  Sepal.Width  Petal.Length  Petal.Width
Sepal.Length      1.000000    -0.117570      0.871754     0.817941
Sepal.Width      -0.117570     1.000000     -0.428440    -0.366126
Petal.Length      0.871754    -0.428440      1.000000     0.962865
Petal.Width       0.817941    -0.366126      0.962865     1.000000


  correlation = df.corr()


### Visualización de datos
Pandas DataFrame viene con funciones integradas para ver los datos contenidos:

* Mirando los `n` primeros registros, el valor predeterminado de `n` es 5 si no se especifica:  `df.head(n=2)`.

* Mirando los `n` registros inferiores: `df.tail()`

* Obtener los nombres de las columnas: `df.columns`

* Obtener los tipos de datos de las columnas: `df.types`

* Obtener el índice del dataframe: `df.index`

* Obtener valores únicos: `df[column_name].unique()`

* Obtener valores: `df.values`

* Ordenar el dataframe: `df.sort_values(by =['Column1', 'Column2'], ascending=[True,True'])`

* Seleccionar/ver por el nombre de la columna: `df[column_name]`

* Seleccionar/ver por número de fila `df[0:3]`

* Selección por índice:

- `df.loc[0:3] # índice de 0 a 3`
- `df.loc[0:3,[‘column1’, ‘column2’]] # índice de 0 a 3 para las columnas específicas`

* Selección por posición

- `df.iloc[0:2] # usando el rango, primeras 2 filas`
- `df.iloc[2,3,6] # posición específica`
-  `df.iloc[0:2,0:2] # primeras 2 filas y primeras 2 columnas`

* Selección sin que esté en el índice

- `print(df.ix[1,1]) # valor de la primera fila y la primera columna`
- `print(df.ix[:,2]) # todas las filas de la columna en la segunda posición`

* Alternativa más rápida a `iloc` para obtener valores escalares: `print(df.iat[1,1])`

* Transponer el dataframe: `df.T`

* Filtrar DataFrame según la condición de valor para una columna: `df[df['column_name'] > 7.5]`

* Filtrar DataFrame basado en una condición de valor en una columna: `df[df['column_name'].isin(['condition_value1', 'condition_value2'])]`

* Filtro basado en múltiples condiciones en múltiples columnas usando el operador AND: `df[(df['column1']>7.5) & (df['column2']>3)]`

* Filtro basado en múltiples condiciones en múltiples columnas usando el operador OR: `df[(df[‘column1’]>7.5) | (df['column2']>3)]`.

In [None]:
# completar

In [None]:
# Leer el archivo CSV
df = pd.read_csv('iris.csv')

In [None]:
# completar

In [None]:
# Mirando los n primeros registros
print(df.head(n=2))

   Sepal.Length  Sepal.Width  Petal.Length  Petal.Width Species
0           5.1          3.5           1.4          0.2  setosa
1           4.9          3.0           1.4          0.2  setosa


In [None]:
# completar

In [None]:
# Mirando los n registros inferiores
print(df.tail())

     Sepal.Length  Sepal.Width  Petal.Length  Petal.Width    Species
145           6.7          3.0           5.2          2.3  virginica
146           6.3          2.5           5.0          1.9  virginica
147           6.5          3.0           5.2          2.0  virginica
148           6.2          3.4           5.4          2.3  virginica
149           5.9          3.0           5.1          1.8  virginica


In [None]:
# print ("Nombres de las columnas:" , df.columns)

In [None]:
# Obtener los nombres de las columnas
print("Nombres de las columnas:", df.columns)

Nombres de las columnas: Index(['Sepal.Length', 'Sepal.Width', 'Petal.Length', 'Petal.Width',
       'Species'],
      dtype='object')


In [None]:
# print ("Indice del DataFrame : ", df.index)

In [None]:
# Obtener el índice del dataframe
print("Índice del DataFrame:", df.index)

Índice del DataFrame: RangeIndex(start=0, stop=32, step=1)


In [None]:
# print(df.values)

In [None]:
# Obtener valores
print(df.values)

[['Mazda RX4' 21.0 6 160.0 110 3.9 2.62 16.46 0 1 4 4]
 ['Mazda RX4 Wag' 21.0 6 160.0 110 3.9 2.875 17.02 0 1 4 4]
 ['Datsun 710' 22.8 4 108.0 93 3.85 2.32 18.61 1 1 4 1]
 ['Hornet 4 Drive' 21.4 6 258.0 110 3.08 3.215 19.44 1 0 3 1]
 ['Hornet Sportabout' 18.7 8 360.0 175 3.15 3.44 17.02 0 0 3 2]
 ['Valiant' 18.1 6 225.0 105 2.76 3.46 20.22 1 0 3 1]
 ['Duster 360' 14.3 8 360.0 245 3.21 3.57 15.84 0 0 3 4]
 ['Merc 240D' 24.4 4 146.7 62 3.69 3.19 20.0 1 0 4 2]
 ['Merc 230' 22.8 4 140.8 95 3.92 3.15 22.9 1 0 4 2]
 ['Merc 280' 19.2 6 167.6 123 3.92 3.44 18.3 1 0 4 4]
 ['Merc 280C' 17.8 6 167.6 123 3.92 3.44 18.9 1 0 4 4]
 ['Merc 450SE' 16.4 8 275.8 180 3.07 4.07 17.4 0 0 3 3]
 ['Merc 450SL' 17.3 8 275.8 180 3.07 3.73 17.6 0 0 3 3]
 ['Merc 450SLC' 15.2 8 275.8 180 3.07 3.78 18.0 0 0 3 3]
 ['Cadillac Fleetwood' 10.4 8 472.0 205 2.93 5.25 17.98 0 0 3 4]
 ['Lincoln Continental' 10.4 8 460.0 215 3.0 5.424 17.82 0 0 3 4]
 ['Chrysler Imperial' 14.7 8 440.0 230 3.23 5.345 17.42 0 0 3 4]
 ['Fiat 128

In [None]:
# Valores para una especifica columna
# Completar

In [None]:
# Obtener los tipos de datos de las columnas
print(df.dtypes)

model     object
mpg      float64
cyl        int64
disp     float64
hp         int64
drat     float64
wt       float64
qsec     float64
vs         int64
am         int64
gear       int64
carb       int64
dtype: object


In [None]:
# df['Species'].unique()

In [None]:
# Obtener valores únicos
print(df['Species'].unique())

In [None]:
# df['Sepal.Length'].unique()

In [None]:
df=['Sepal.Length'].unique()

In [None]:
# df.sort_values(by = ['Species', 'Sepal.Length'], ascending=[True, True])

In [None]:
# Ordenar el dataframe
df = df.sort_values(by=['Species', 'SepalLengthCm'], ascending=[True, True])

In [None]:
#df['Species']

In [None]:
print(df['Species'])

In [None]:
# completar

In [None]:
# Transponer el dataframe
print(df.T)

In [None]:
# Filtrar DataFrame según la condición de valor para una columna
print(df[df['SepalLengthCm'] > 7.5])

In [None]:
# Filtrar DataFrame basado en una condición de valor en una columna
print(df[df['Species'].isin(['Iris-setosa', 'Iris-virginica'])])

Selección diferente por opciones de etiqueta

- `loc:` solo funciona en el índice
- `iloc:` trabaja en posición
- `iat:` Obtener valores escalares. es un `iloc` muy rapido.

In [None]:
# selección por indice
# completar

In [None]:
df = pd.read_csv('Data/iris.csv')
# Selección por índice usando loc
print(df.loc[0:3])  # Índice de 0 a 3
print(df.loc[0:3, ['Species', 'SepalLengthCm']])  # Índice de 0 a 3 para las columnas específicas

In [None]:
# selección por indice de nombres de etiquetas específicas
# completar

In [None]:
# Seleccionar filas y columnas específicas por nombre
selected_data = df.loc[0:3, ['Species', 'SepalLengthCm']]
print(selected_data)

In [None]:
# Selección por posición
# completar

In [None]:
# Seleccionar filas y columnas específicas por posición
selected_data = df.iloc[0:2, 0:2]
print(selected_data)

In [None]:
# Seleccion por posicion entre filas dadas como rango
# completar

In [None]:
# Seleccionar un rango de filas usando iloc
selected_rows = df.iloc[5:10]
print(selected_rows)

**Ejercicio**

¿Qué produce `df.iloc[0:3, 0:3]` ?

In [None]:
## Tu respuesta

El comando `df.iloc[0:3, 0:3]` selecciona una subsección del DataFrame `df` utilizando índices de posición (no etiquetas de índice). Específicamente, selecciona las primeras tres filas y las primeras tres columnas del DataFrame.

El resultado será un nuevo DataFrame que contiene solo estas filas y columnas. Tenga en cuenta que la indexación en Python comienza en 0 y es exclusiva en el extremo superior, por lo que `0:3` selecciona las posiciones 0, 1 y 2.

In [None]:
# seleccion por posicion entre numeros de fila especificos dados
# Completar

In [None]:
# Seleccionar filas específicas por posición usando iloc
selected_rows = df.iloc[[2, 4, 7, 10]]
print(selected_rows)

Selección por índice de fila y columna (el índice comienza con 0).

El siguiente caso obtendrá el valor `[índice de la primera fila, índice de la primera columna]`.

In [None]:
# obtener valores escalares. es un iloc muy rapido
# print(df.iat[1,1])

In [None]:
print(df.iat[1,1])

In [None]:
# Obtencion de datos sin que este en el indice
#print(df.iloc[1,1])

In [None]:
print(df.iloc[1,1])

In [None]:
# selecciona columnas por posicion
#print (df.iloc[:, 2])

In [None]:
print (df.iloc[:, 2])

In [None]:
# Transpuesta
# df.T

In [None]:
df.T

#### Indexado Booleano

In [None]:
# Completar

In [None]:
# Seleccionar todas las filas donde 'SepalLengthCm' es mayor que 5.0
selected_rows = df[df['SepalLengthCm'] > 5.0]
print(selected_rows)

### Operaciones básicas con Pandas

* Convertir cadenas a series de fechas: `pd.to_datetime(pd.Series(['2017-04-01','2017-04-02','2017-04-03']))`.

* Cambiar el nombre de una columna específica: `df.rename(columns={‘old_columnname’:‘new_columnname'}, inplace=True)`

* Cambiar el nombre de todas las columnas del DataFrame: `df.columns = ['col1_new_name','col2_new_name'...]`

* Marcar duplicados: `df.duplicated()`

* Quitar duplicados:`df = df.drop_duplicates()`

* Quitar duplicados en una columna específica: `df.drop_duplicates(['column_name'])`

* Quitar los duplicados en una columna específica, pero se conserva la primera o la última observación en el conjunto de duplicados: `df.drop_duplicates(['column_name'], keep = 'first') # cambiar al ultimo para conservar la ultima observación del duplicado`.

* Crear una nueva columna a partir de una columna existente: `df['new_column_name'] = df['new_column_name'] + 5`

* Crear una nueva columna a partir de los elementos de dos columnas: `df['new_column_name'] = df['existing_column1'] + '_' + df['existing_column2']`

* Agregar una lista o una nueva columna a DataFrame: `df['new_column_name'] = pd.Series(mylist)`

* Descartar las filas y columnas faltantes que tienen valores faltantes: `df.dropna()`

* Reemplaza todos los valores faltantes con 0 (o puede usar cualquier int o str): `df.fillna(value=0)`

* Reemplaza los valores faltantes con la última observación válida (útil en datos de series de tiempo). Por ejemplo, la temperatura no cambia drásticamente en comparación con una observación anterior. Una forma es llenar de NA forward-backward más alla de la media.

    1) 'pad' / 'ffill' - forward fill

    2) 'bfill'/'backfill' - backward fill

    Límite: si se especifica el método, este es el número máximo de valores de NaN consecutivos para completar forward/backward fill: `df.fillna (method = 'ffill', inplace= True, limit = 1)`

* Verifica la condición del valor faltante y devuelva el valor Booleano de `True` o `False` para cada celda: `pd.isnull(df)`

* Reemplaza todos los valores faltantes para una columna dada con la media: `mean=df['column_name].mean(); df['column_name'].fillna(mean)`

* Devuelve la media para cada columna: `df.mean()`

* Retorna el máximo para cada columna: `df.max()`

* Retorno el mínimo para cada columna: `df.min()`

* Devuelve la suma para cada columna: `df.sum()`

* Conteo para cada columna: `df.count()`

* Devuelve la suma acumulada para cada columna: `df.cumsum()`

* Aplica una función a lo largo de cualquier eje del DataFrame: `df.apply(np.cumsum)`

* Itera sobre cada elemento de una serie y realizar la acción deseada: `df['column_name'].map(lambda x: 1+x) # esto itera sobre la columna y agrega el valor 1 a cada elemento`

* Aplica una función a cada elemento del dataframe:`func = lambda x: x + 1 # función para agregar una constante 1 a cada elemento del dataframe df.applymap(func)`.

In [None]:
cadena_fechas = ('2017-04-01','2017-04-02','2017-04-03','2017-04-04')
pd.to_datetime(pd.Series(cadena_fechas))

0   2017-04-01
1   2017-04-02
2   2017-04-03
3   2017-04-04
dtype: datetime64[ns]

In [None]:
#df.rename(columns = {'Sepal.Length': 'Sepal_Length'}, inplace=True)
df.rename(columns = {'Sepal.Length': 'Sepal_Length'}, inplace=True)

In [None]:
#df.columns = ['Sepal_Length', 'Sepal_Width', 'Petal_Length', 'Petal_Width', 'Species']
df.columns = ['Sepal_Length', 'Sepal_Width', 'Petal_Length', 'Petal_Width', 'Species']

In [None]:
# Removemos los duplicados

data_1 = {'primer_nombre': ['Amy', 'Amy', 'Jason', 'Nick', 'Stephen','Amy'],
        'ultimo_nombre': ['Jackson', 'J', 'Miller', 'Milner', 'L','J'],
        'edad': [42, 42, 36, 24, 24, 42]}
df = pd.DataFrame(data_1, columns = ['primer_nombre', 'ultimo_nombre', 'edad'])
print(df)

In [None]:
#print(df.duplicated())
print(df.duplicated())

In [None]:
# print(df.drop_duplicates())
print(df.drop_duplicates())

In [None]:
#df.drop_duplicates(['primer_nombre'], keep ='first')
df.drop_duplicates(['primer_nombre'], keep ='first')

**Ejercicio**

* Agrega las columnas siguientes: `edad_mas_5`, `nombre_completo` y `genero`
 - `edad_mas_5`viene de sumar 5 a la etiqueta `edad`
 - `nombre_completo` viene de sumar las etiquetas `primer_nombre`, `_` y `ultimo_nombre`
 - `genero` es una serie de elementos `'F','F','M','M','M','F'.`

In [None]:
# Tu respuesta

In [None]:
df = pd.DataFrame(data)

# Agregar columnas
df = df.assign(edad_mas_5=df['edad'] + 5,
               nombre_completo=df['primer_nombre'] + ' ' + df['ultimo_nombre'],
               genero=pd.Series(['F', 'F', 'M', 'M', 'M', 'F']))

# Imprimir DataFrame resultante
print(df)

#### Datos perdidos

pandas usa principalmente el valor `np.nan` para representar los datos que faltan. Por defecto no se incluye en los cálculos.

In [None]:
#df.iloc[4,2] = np.nan
#print(df)

In [None]:
#print(df.dropna())

In [None]:
#df.iloc[4,2] = np.nan
#print(df)

In [None]:
#df.fillna(value =0)

In [None]:
#df.iloc[4,2] = np.nan
#print(df)

In [None]:
#pd.isnull(df)

#### Operaciones

In [None]:
#media = df['edad'].mean()
#media
# usamos la media para reeemplazar el NaN
# completar
df['edad'].fillna(media, inplace=True)
print(df)

In [None]:
#df.fillna(method='ffill', inplace=True, limit=1)

In [None]:
#import warnings
#warnings.filterwarnings('ignore')
#df.mean()

In [None]:
#df.min()

In [None]:
#df.max()

In [None]:
#df.sum()

In [None]:
#df.count()

In [None]:
#df.cumsum()

#### Aplicación de función a elemento, columna o dataframe


In [None]:
# completar

In [None]:
# Definir una función
def duplicar_valor(x):
    return x * 2

# Aplicar la función a un elemento específico
elemento = df.loc[0, 'edad']
resultado = duplicar_valor(elemento)
print(resultado)

In [None]:
# Map: itera sobre cada elemento de una serie
# Completar agrega una constante 1 a cada elemento de la column1

In [None]:
# Definir la función
def agregar_constante(valor):
    return valor + 1

# Aplicar la función a cada elemento de la columna utilizando map()
df['column1'] = df['column1'].map(agregar_constante)

# Imprimir DataFrame resultante
print(df)

In [None]:
#func=lambda x: x+1
#df_filtrado = df.iloc[:, 2:4]
#print(df_filtrado)

In [None]:
#print(df_filtrado.applymap(func))

**Ejemplo**

La parte del poder de pandas se da por los métodos integrados en los objetos Series y DataFrame.

In [None]:
from io import StringIO
data = StringIO('''UPC,Units,Sales,Date
1234,5,20.2,1-1-2014
1234,2,8.,1-2-2014
1234,3,13.,1-3-2014
789,1,2.,1-1-2014
789,2,3.8,1-2-2014
789,,,1-3-2014
789,1,1.8,1-5-2014''')

In [None]:
sales = pd.read_csv(data)
sales

In [None]:
sales.shape

In [None]:
sales.info()

A diferencia del objeto `Series` que prueba la pertenencia con el índice, el `DataFrame` prueba la pertenencia con las columnas. El comportamiento de iteración `(__iter__)` y el comportamiento de pertenencia `(__contains__)` es el mismo para el `DataFrame`.

#### Operaciones de índice


In [None]:
#sales.reindex([0, 4])

In [None]:
#sales.reindex(columns=['Date', 'Sales'])

La selección de columnas e índices se puede combinar para refinar aún más la selección. Además, se pueden incluir nuevas entradas para valores de índices y nombres de columna. Por defecto, usarán el parámetro opcional `fill_value` (que es NaN a menos que se especifique):

In [None]:
#sales.reindex(index=[2, 6, 8], columns=['Sales', 'MIT', 'missing'])

In [None]:
#by_date = sales.set_index('Date')
#by_date

Para agregar un índice entero creciente a un data frame, usa `.reset_index`:

In [None]:
#by_date.reset_index()

#### Obtener y establecer valores


In [None]:
#sales.iat[4, 2]


A continuación, insertamos una columna `Category` después de ` UPC`  (en la posición 1):

In [None]:
#sales.insert(1, 'Category', 'Food')
#sales

El método `.replace` es una forma poderosa de actualizar muchos valores de un data frame en las columnas. Para reemplazar todos los 789 con 790, realiza lo siguiente:

In [None]:
#sales.replace(789, 790)

In [None]:
#sales.replace({'UPC': {789:790},
#               'Sales': {789: 1.4}})

El método `replace` también acepta expresiones regulares (pueden ser incluidas en diccionarios anidados) si  el paramétro`regex` se coloca en `True`.

In [None]:
#sales.replace('(F.*d)', r'\1_stuff', regex=True)

#### Eliminación de  columnas

Hay al menos cuatro formas de eliminar una columna:

* El método `.pop`

* El método `.drop` con `axis = 1`

* El método `.reindex`

* Indexación con una lista de nuevas columnas

El método `.pop` toma el nombre de una columna y lo elimina del data frame. Opera in-place. En lugar de devolver un data frame, devuelve la columna eliminada.

In [None]:
#sales['subcat'] = 'Dairy'
#sales

In [None]:
#sales.pop('subcat')

In [None]:
#sales

Para quitar una columna con el método `.drop`, simplemente páselo (o una lista de nombres de columna) junto con la configuración del parámetro `axis` en 1:

In [None]:
# completar

In [None]:
# Quitar una columna
df = df.drop('column2', axis=1)

# Imprimir DataFrame resultante
print(df)

#### Los dos métodos finales para eliminar columnas

In [None]:
#cols = ['Sales', 'Date']

In [None]:
#sales.reindex(columns=cols)

In [None]:
#sales[cols]

#### Recortes


In [None]:
#sales.head()

In [None]:
#sales.tail(2)

Usemos un índice basado en cadenas para que quede más claro qué hacen las opciones de recorte:

In [None]:
# completar

In [None]:
df.index = df['new_index']

In [None]:
#del sales['new_index']

In [None]:
#df

Para dividir por posición, usa el atributo `.iloc`. Aquí tomamos filas en las posiciones dos hasta cuatro, pero sin incluirlas:

In [None]:
#df.iloc[2:4]

También podemos proporcionar posiciones de columna que también queremos mantener. Las posiciones de las columnas deben seguir una coma en la operación de índice. Aquí mantenemos las filas desde dos hasta pero sin incluir la fila cuatro. También tomamos columnas desde cero hasta pero sin incluir uno (solo la columna en la posición de índice cero).

Esto se expresa en la siguiente figura:


<img src="recorte-pandas.png" alt="Drawing" style="width: 500px;"/>

A continuación se muestra un resumen de las construcciones de  de data frame por posición y etiqueta.


```
.iloc [i: j]            Posición de filas i hasta pero sin incluir j (semiabierto)
.iloc [:, i: j]         Posición de las columnas i hasta pero sin incluir j (semiabierto)
.iloc [[i, k, m]]       Filas en i, k y m (no es un intervalo)
.loc [a: b]             Filas desde la etiqueta de índice a hasta b (cerrado)
.loc [:, c: d]          Columnas de la etiqueta de columna c a d (cerrado)
.loc [: [b, d, f]]      Columnas en las etiquetas b, d y f (no es un intervalo)

```

<img src="recorte-ejemplo.png" alt="Drawing" style="width: 600px;"/>

In [None]:
#df = df.drop(['Category'], axis=1)
#df

In [None]:
# df.iloc[2:4, 0:1]

También hay soporte para dividir datos por etiquetas. Usando el atributo `.loc`, podemos tomar valores de índice desde la `a` a la `d`:

In [None]:
# completar
seleccionado = df.loc['a':'d']
print(seleccionado)

Y al igual que `.iloc`, `.loc` tiene la capacidad de especificar columnas por etiqueta. En este ejemplo, solo tomamos la columna `Units` y, por lo tanto, devuelve una serie:

In [None]:
# completar
# Seleccionar la columna 'Units' por etiqueta y obtener una Serie
columna_seleccionada = df.loc[:, 'Units']

# Imprimir Serie resultante
print(columna_seleccionada)

Sacamos las columnas `UPC` y `Sales`, pero con solo los últimos 4 valores:

In [None]:
# Completar
# Seleccionar las columnas 'UPC' y 'Sales' con los últimos 4 valores
seleccionado = df.loc[-4:, ['UPC', 'Sales']]

# Imprimir DataFrame resultante
print(seleccionado)

### Merge/Join


In [None]:
data = {
        'emp_id': ['1', '2', '3', '4', '5'],
        'primer_nombre': ['Jason', 'Andy', 'Allen', 'John', 'Amy'],
        'ultimo_nombre': ['Larkin', 'Jacob', 'A', 'AA', 'Jackson']}
df_1 = pd.DataFrame(data, columns = ['emp_id', 'primer_nombre', 'ultimo_nombre'])
print (df_1)

In [None]:
data = {
        'emp_id': ['4', '5', '6', '7'],
        'primer_nombre': ['James', 'Shize', 'Kim', 'Jose'],
        'ultimo_nombre': ['Alexander', 'Suma', 'Mike', 'G']}
df_2 = pd.DataFrame(data, columns = ['emp_id', 'primer_nombre', 'ultimo_nombre'])
print (df_2)

In [None]:
# usando concat
df = pd.concat([df_1, df_2])
print(df)

In [None]:
# Juntando dos dataframes a lo largo de las columnas
pd.concat([df_1,df_2], axis=1)

Combinamos dos dataframes basados en el valor `emp_id` en este caso, solo se unirán los `emp_id` presentes en ambas tablas.

In [None]:
print(pd.merge(df_1,df_2, on='emp_id'))

### Grouping


Pandas nos brinda la capacidad de agrupar data frames por valores de columna y luego fusionarlos nuevamente en un resultado con el método `.groupby`.
Pandas `group by` nos permitirá lograr lo siguiente:

- Aplicar una función de agregación a cada grupo de forma independiente
- Según algunos criterios, divide los datos en grupos.
- Combinar los resultados del `group by` en una estructura de datos.


<img src="Groupby.png" alt="Drawing" style="width: 700px;"/>

Como ejemplo, en el data frame `scores`, calcularemos las puntuaciones medias de cada maestro. Primero llamamos a `.groupby` y entonces invocamos a `.median` en el resultado:

In [None]:
#scores = pd.DataFrame({
#    'name':['Adam', 'Bob', 'Dave', 'Fred'],
#    'age': [15, 16, 16, 15],
#    'test1': [95, 81, 89, None],
#    'test2': [80, 82, 84, 88],
#    'teacher': ['Ashby', 'Ashby', 'Jones', 'Jones']})

In [None]:
# completar
# Calcular las puntuaciones medias de cada maestro
puntuaciones_medias = scores.groupby('teacher').mean()

# Imprimir el resultado
print(puntuaciones_medias)

Esto incluyó la columna `age`, para ignorar que podemos separar solo las columnas de prueba:

In [None]:
# completar
# Separar solo las columnas de prueba
pruebas = scores[['test1', 'test2', 'teacher']]

# Calcular las puntuaciones medias de cada maestro
puntuaciones_medias = pruebas.groupby('teacher').mean()

# Imprimir el resultado
print(puntuaciones_medias)

Para encontrar los valores medianos de cada grupo de edad para cada maestro, simplemente agrupa por maestro y edad:


In [None]:
# completar
# Calcular los valores medianos de cada grupo de edad para cada maestro
valores_medianos = scores.groupby(['teacher', 'age']).median()

# Imprimir el resultado
print(valores_medianos)

Si queremos los puntajes mínimos y máximos de las pruebas por maestro, usamos el método `.agg` y pasamos una lista de funciones para llamar:

In [None]:
# completar
# Obtener los puntajes mínimos y máximos de las pruebas por maestro
puntajes_min_max = scores.groupby('teacher').agg(['min', 'max'])

# Imprimir el resultado
print(puntajes_min_max)

**Ejercicio**

In [None]:
df = pd.DataFrame({'Nombre' : ['jack', 'jane', 'jack', 'jane', 'jack', 'jane', 'jack', 'jane'],
                   'Estado' : ['SFO', 'SFO', 'NYK', 'CA', 'NYK', 'NYK', 'SFO', 'CA'],
                   'Genero':['A','A','B','A','C','B','C','A'],
                   'Edad' : np.random.uniform(24, 50, size=8),
                   'Salario' : np.random.uniform(3000, 5000, size=8),})

Ten en cuenta que las columnas se ordenan automáticamente en su orden alfabético para un orden personalizado, usa el siguiente código_

`df = pd.DataFrame (data, columns = ['Nombre', 'Estado', 'Edad', 'Salario'])`

* Calcula la suma por nombres.

* Encuentra la edad máxima y el salario por nombre/ estado. Puedes usar todas las funciones agregadas, como mínimo, máximo, media, conteo, suma acumulada.

In [None]:
# Tus  respuestas
df = pd.DataFrame(data, columns=['Nombre', 'Estado', 'Genero', 'Edad', 'Salario'])

# Suma por nombres
suma_por_nombres = df.groupby('Nombre').sum()
print(suma_por_nombres)

# Edad máxima y salario máximo por nombre/estado
max_edad_salario = df.groupby(['Nombre', 'Estado']).agg({'Edad': 'max', 'Salario': 'max'})
print(max_edad_salario)

#### Tablas pivot

Pandas proporciona una función `pivot_table` para crear una tabla pivot (dinámica )de estilo de hoja de cálculo de MS-Excel. Puede tomar los siguientes argumentos:

- `data`: objeto DataFrame
- `values`: columna para agregar
- `index`: etiquetas de fila
- `columns`: etiquetas de columna
- `aggfunc`: función de agregación que se usará en valores, el valor predeterminado es `NumPy.mean`.

Usando una tabla pivot, podemos generalizar ciertos comportamientos grupales. Para obtener las puntuaciones medias de los profesores, podemos ejecutar lo siguiente:

In [None]:
# completar
# Obtener las puntuaciones medias de los profesores utilizando una tabla pivot
puntuaciones_medias = scores.pivot_table(values=['test1', 'test2'], index='teacher', aggfunc='mean')

# Imprimir el resultado
print(puntuaciones_medias)

Si queremos agregar por maestro y edad, simplemente usamos una lista con ambos para el parámetro `index`:

In [None]:
#scores.pivot_table(index=['teacher', 'age'],
#                   values=['test1', 'test2'],
#                   aggfunc='median')

Si queremos aplicar múltiples funciones, simplemente usa una lista de ellas. Aquí, analizamos los puntajes mínimos y máximos de las pruebas por maestro:

In [None]:
#scores.pivot_table(index='teacher',
#                   values=['test1', 'test2'],
#                   aggfunc=[min, max])

Podemos ver que la tabla pivot y de grupo por comportamiento son muy similares. Hay del estilo declarativo de `.pivot_table` y el estilo  semántico de los grupos.

Una característica adicional de las tablas pivots es la capacidad de agregar filas de resumen. Simplemente estableciendo `margins= True` obtenemos esta funcionalidad:

In [None]:
#scores.pivot_table(index='teacher',
#                   values=['test1', 'test2'],
#                   aggfunc='median', margins=True)

<img src="pivot.png" alt="Drawing" style="width: 700px;"/>

In [None]:
#scores.pivot_table(index= ['teacher', 'age'],
#                   values=['test1', 'test2'],
#                   aggfunc=[len, sum], margins=True)

<img src="pivot-parameters.png" alt="Drawing" style="width: 700px;"/>

**Ejercicio** Del dataframe anterior agrupa por estado y nombre y encuentre la edad media para cada grado.


In [None]:
## Tu respuesta

In [None]:
df = pd.DataFrame(data, columns=['Nombre', 'Estado', 'Genero', 'Edad', 'Salario'])

# Agrupar por estado y nombre, y encontrar la edad media para cada grupo
edad_media_por_estado_nombre = df.pivot_table(values='Edad', index=['Estado', 'Nombre'], aggfunc='mean')

# Imprimir el resultado
print(edad_media_por_estado_nombre)