<a href="https://colab.research.google.com/github/alexandralima1602/-C8280-./blob/main/Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### Pandas


Pandas es un paquete Python de código abierto que proporciona estructuras de datos rápidas, flexibles y expresivas diseñadas para que trabajar con datos "relacionales" o "etiquetados" sea fácil e intuitivo.

### Estructuras de datos
Pandas presenta dos nuevas estructuras de datos en Python: Series y DataFrame, ambas construidas sobre NumPy (esto significa que es rápido).


#### Serie

Este es un objeto unidimensional similar a la columna en una hoja de cálculo o tabla SQL. De forma predeterminada, a cada elemento se le asignará una etiqueta de índice de `0` a `N`.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [None]:
s = pd.Series([1,3,4,np.nan, 5, 6], index = ['A', 'B', 'C', 'D', 'E', 'F'])
print(s)

A    1.0
B    3.0
C    4.0
D    NaN
E    5.0
F    6.0
dtype: float64


Si creas una serie utilizando el diccionario, la clave se convertirá en el índice de forma predeterminada.

In [None]:
dict_ejemplo = {'A': 1, 'B':2, 'C':3, 'D':np.nan, 'E': 5, 'F': 6}
dict_ejemplo

{'A': 1, 'B': 2, 'C': 3, 'D': nan, 'E': 5, 'F': 6}

In [None]:
s = pd.Series(dict_ejemplo)
print(s)

A    1.0
B    2.0
C    3.0
D    NaN
E    5.0
F    6.0
dtype: float64


La contraparte bidimensional de las series unidimensionales es el DataFrame.

### DataFrame

Es un objeto bidimensional similar a una hoja de cálculo o una tabla SQL. Este es el objeto Pandas más utilizado.


In [None]:
data = {'Genero': ['F', 'M', 'M'],
        'Emp_ID': ['E01', 'E02', 'E03'],
        'Edad': [25, 27, 25]}
# Si queremos el orden de las columnas, especificamos en el parametro columns
df = pd.DataFrame(data, columns=['Emp_ID', 'Genero', 'Edad'])
df

Unnamed: 0,Emp_ID,Genero,Edad
0,E01,F,25
1,E02,M,27
2,E03,M,25


#### Lectura y escritura de datos

Veremos tres formatos de archivo de uso común: csv, archivo de texto y Excel.

In [None]:
# Leyendo desde un archivo csv
df=pd.read_csv('/content/mtcars.csv')
df.head()

Unnamed: 0,model,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
0,Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
1,Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
2,Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
3,Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1
4,Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2


In [None]:
# Escribir un csv
#index = False - no escribe los valores de indice, el valor predeterminado es True
# completar
print(df.head())

# Escritura en un archivo Excel

df.to_csv('/content/mtcars.csv', index=False)


               model   mpg  cyl   disp   hp  drat     wt   qsec  vs  am  gear  \
0          Mazda RX4  21.0    6  160.0  110  3.90  2.620  16.46   0   1     4   
1      Mazda RX4 Wag  21.0    6  160.0  110  3.90  2.875  17.02   0   1     4   
2         Datsun 710  22.8    4  108.0   93  3.85  2.320  18.61   1   1     4   
3     Hornet 4 Drive  21.4    6  258.0  110  3.08  3.215  19.44   1   0     3   
4  Hornet Sportabout  18.7    8  360.0  175  3.15  3.440  17.02   0   0     3   

   carb  
0     4  
1     4  
2     1  
3     1  
4     2  


In [None]:
# Leyendo desde un archivo .txt
# df=pd.read_csv('Data/mtcars.txt', sep='\t')
# completar
df = pd.read_csv('/content/mtcars.txt', sep='\t')
df

Unnamed: 0,model,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
0,Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
1,Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
2,Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
3,Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1
4,Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2
5,Valiant,18.1,6,225.0,105,2.76,3.46,20.22,1,0,3,1
6,Duster 360,14.3,8,360.0,245,3.21,3.57,15.84,0,0,3,4
7,Merc 240D,24.4,4,146.7,62,3.69,3.19,20.0,1,0,4,2
8,Merc 230,22.8,4,140.8,95,3.92,3.15,22.9,1,0,4,2
9,Merc 280,19.2,6,167.6,123,3.92,3.44,18.3,1,0,4,4


In [None]:
# Leyendo un archivo Excel
#df=pd.read_excel('Data/mtcars.xlsx','Sheet2')
# Completar
df=pd.read_excel('/content/mtcars.xlsx','Sheet2')
df

Unnamed: 0,model,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
0,Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
1,Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
2,Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
3,Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1
4,Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2
5,Valiant,18.1,6,225.0,105,2.76,3.46,20.22,1,0,3,1
6,Duster 360,14.3,8,360.0,245,3.21,3.57,15.84,0,0,3,4
7,Merc 240D,24.4,4,146.7,62,3.69,3.19,20.0,1,0,4,2
8,Merc 230,22.8,4,140.8,95,3.92,3.15,22.9,1,0,4,2
9,Merc 280,19.2,6,167.6,123,3.92,3.44,18.3,1,0,4,4


### Resumen de estadísticas básicas


In [None]:
#df = pd.read_csv('Data/iris.csv')
# completar
df = pd.read_csv('/content/iris.csv')

# Resumen de estadísticas básicas
resumen = df.describe()
print(resumen)


       Sepal.Length  Sepal.Width  Petal.Length  Petal.Width
count    150.000000   150.000000    150.000000   150.000000
mean       5.843333     3.057333      3.758000     1.199333
std        0.828066     0.435866      1.765298     0.762238
min        4.300000     2.000000      1.000000     0.100000
25%        5.100000     2.800000      1.600000     0.300000
50%        5.800000     3.000000      4.350000     1.300000
75%        6.400000     3.300000      5.100000     1.800000
max        7.900000     4.400000      6.900000     2.500000


#### Covarianza


In [None]:
# covarianza: devuelve la covarianza entre columnas adecuadas
# completar
covarianza = df.cov()
print(covarianza)


             mpg         cyl          disp           hp       drat  \
mpg    36.324103   -9.172379   -633.097208  -320.732056   2.195064   
cyl    -9.172379    3.189516    199.660282   101.931452  -0.668367   
disp -633.097208  199.660282  15360.799829  6721.158669 -47.064019   
hp   -320.732056  101.931452   6721.158669  4700.866935 -16.451109   
drat    2.195064   -0.668367    -47.064019   -16.451109   0.285881   
wt     -5.116685    1.367371    107.684204    44.192661  -0.372721   
qsec    4.509149   -1.886855    -96.051681   -86.770081   0.087141   
vs      2.017137   -0.729839    -44.377621   -24.987903   0.118649   
am      1.803931   -0.465726    -36.564012    -8.320565   0.190151   
gear    2.135685   -0.649194    -50.802621    -6.358871   0.275988   
carb   -5.363105    1.520161     79.068750    83.036290  -0.078407   

              wt       qsec         vs         am       gear       carb  
mpg    -5.116685   4.509149   2.017137   1.803931   2.135685  -5.363105  
cyl     1.3

  covarianza = df.cov()


#### Correlación


In [None]:
# completar
correlacion = df.corr()
print(correlacion)

           mpg       cyl      disp        hp      drat        wt      qsec  \
mpg   1.000000 -0.852162 -0.847551 -0.776168  0.681172 -0.867659  0.418684   
cyl  -0.852162  1.000000  0.902033  0.832447 -0.699938  0.782496 -0.591242   
disp -0.847551  0.902033  1.000000  0.790949 -0.710214  0.887980 -0.433698   
hp   -0.776168  0.832447  0.790949  1.000000 -0.448759  0.658748 -0.708223   
drat  0.681172 -0.699938 -0.710214 -0.448759  1.000000 -0.712441  0.091205   
wt   -0.867659  0.782496  0.887980  0.658748 -0.712441  1.000000 -0.174716   
qsec  0.418684 -0.591242 -0.433698 -0.708223  0.091205 -0.174716  1.000000   
vs    0.664039 -0.810812 -0.710416 -0.723097  0.440278 -0.554916  0.744535   
am    0.599832 -0.522607 -0.591227 -0.243204  0.712711 -0.692495 -0.229861   
gear  0.480285 -0.492687 -0.555569 -0.125704  0.699610 -0.583287 -0.212682   
carb -0.550925  0.526988  0.394977  0.749812 -0.090790  0.427606 -0.656249   

            vs        am      gear      carb  
mpg   0.664039  

  correlacion = df.corr()


### Visualización de datos
Pandas DataFrame viene con funciones integradas para ver los datos contenidos:

* Mirando los `n` primeros registros, el valor predeterminado de `n` es 5 si no se especifica:  `df.head(n=2)`.

* Mirando los `n` registros inferiores: `df.tail()`

* Obtener los nombres de las columnas: `df.columns`

* Obtener los tipos de datos de las columnas: `df.types`

* Obtener el índice del dataframe: `df.index`

* Obtener valores únicos: `df[column_name].unique()`

* Obtener valores: `df.values`

* Ordenar el dataframe: `df.sort_values(by =['Column1', 'Column2'], ascending=[True,True'])`

* Seleccionar/ver por el nombre de la columna: `df[column_name]`

* Seleccionar/ver por número de fila `df[0:3]`

* Selección por índice:

- `df.loc[0:3] # índice de 0 a 3`
- `df.loc[0:3,[‘column1’, ‘column2’]] # índice de 0 a 3 para las columnas específicas`

* Selección por posición

- `df.iloc[0:2] # usando el rango, primeras 2 filas`
- `df.iloc[2,3,6] # posición específica`
-  `df.iloc[0:2,0:2] # primeras 2 filas y primeras 2 columnas`

* Selección sin que esté en el índice

- `print(df.ix[1,1]) # valor de la primera fila y la primera columna`
- `print(df.ix[:,2]) # todas las filas de la columna en la segunda posición`

* Alternativa más rápida a `iloc` para obtener valores escalares: `print(df.iat[1,1])`

* Transponer el dataframe: `df.T`

* Filtrar DataFrame según la condición de valor para una columna: `df[df['column_name'] > 7.5]`

* Filtrar DataFrame basado en una condición de valor en una columna: `df[df['column_name'].isin(['condition_value1', 'condition_value2'])]`

* Filtro basado en múltiples condiciones en múltiples columnas usando el operador AND: `df[(df['column1']>7.5) & (df['column2']>3)]`

* Filtro basado en múltiples condiciones en múltiples columnas usando el operador OR: `df[(df[‘column1’]>7.5) | (df['column2']>3)]`.

In [None]:
# completar


In [None]:
# completar

In [None]:
# completar

In [None]:
# print ("Nombres de las columnas:" , df.columns)
df = pd.read_csv('iris.csv')
# Imprimir los nombres de las columnas
print("Nombres de las columnas:", df.columns)


Nombres de las columnas: Index(['Sepal.Length', 'Sepal.Width', 'Petal.Length', 'Petal.Width',
       'Species'],
      dtype='object')


In [None]:
# print ("Indice del DataFrame : ", df.index)
print("Índice del DataFrame:", df.index)


Índice del DataFrame: RangeIndex(start=0, stop=150, step=1)


In [None]:
# print(df.values)
print(df.values)

[[5.1 3.5 1.4 0.2 'setosa']
 [4.9 3.0 1.4 0.2 'setosa']
 [4.7 3.2 1.3 0.2 'setosa']
 [4.6 3.1 1.5 0.2 'setosa']
 [5.0 3.6 1.4 0.2 'setosa']
 [5.4 3.9 1.7 0.4 'setosa']
 [4.6 3.4 1.4 0.3 'setosa']
 [5.0 3.4 1.5 0.2 'setosa']
 [4.4 2.9 1.4 0.2 'setosa']
 [4.9 3.1 1.5 0.1 'setosa']
 [5.4 3.7 1.5 0.2 'setosa']
 [4.8 3.4 1.6 0.2 'setosa']
 [4.8 3.0 1.4 0.1 'setosa']
 [4.3 3.0 1.1 0.1 'setosa']
 [5.8 4.0 1.2 0.2 'setosa']
 [5.7 4.4 1.5 0.4 'setosa']
 [5.4 3.9 1.3 0.4 'setosa']
 [5.1 3.5 1.4 0.3 'setosa']
 [5.7 3.8 1.7 0.3 'setosa']
 [5.1 3.8 1.5 0.3 'setosa']
 [5.4 3.4 1.7 0.2 'setosa']
 [5.1 3.7 1.5 0.4 'setosa']
 [4.6 3.6 1.0 0.2 'setosa']
 [5.1 3.3 1.7 0.5 'setosa']
 [4.8 3.4 1.9 0.2 'setosa']
 [5.0 3.0 1.6 0.2 'setosa']
 [5.0 3.4 1.6 0.4 'setosa']
 [5.2 3.5 1.5 0.2 'setosa']
 [5.2 3.4 1.4 0.2 'setosa']
 [4.7 3.2 1.6 0.2 'setosa']
 [4.8 3.1 1.6 0.2 'setosa']
 [5.4 3.4 1.5 0.4 'setosa']
 [5.2 4.1 1.5 0.1 'setosa']
 [5.5 4.2 1.4 0.2 'setosa']
 [4.9 3.1 1.5 0.2 'setosa']
 [5.0 3.2 1.2 0.2 's

In [None]:
# Valores para una especifica columna
# Completar
# Obtener los valores de una columna específica
columna_especifica = 'Sepal.Length'
valores_columna = df[columna_especifica].values

# Imprimir los valores de la columna específica
print("Valores de la columna", columna_especifica, ":", valores_columna)


Valores de la columna Sepal.Length : [5.1 4.9 4.7 4.6 5.  5.4 4.6 5.  4.4 4.9 5.4 4.8 4.8 4.3 5.8 5.7 5.4 5.1
 5.7 5.1 5.4 5.1 4.6 5.1 4.8 5.  5.  5.2 5.2 4.7 4.8 5.4 5.2 5.5 4.9 5.
 5.5 4.9 4.4 5.1 5.  4.5 4.4 5.  5.1 4.8 5.1 4.6 5.3 5.  7.  6.4 6.9 5.5
 6.5 5.7 6.3 4.9 6.6 5.2 5.  5.9 6.  6.1 5.6 6.7 5.6 5.8 6.2 5.6 5.9 6.1
 6.3 6.1 6.4 6.6 6.8 6.7 6.  5.7 5.5 5.5 5.8 6.  5.4 6.  6.7 6.3 5.6 5.5
 5.5 6.1 5.8 5.  5.6 5.7 5.7 6.2 5.1 5.7 6.3 5.8 7.1 6.3 6.5 7.6 4.9 7.3
 6.7 7.2 6.5 6.4 6.8 5.7 5.8 6.4 6.5 7.7 7.7 6.  6.9 5.6 7.7 6.3 6.7 7.2
 6.2 6.1 6.4 7.2 7.4 7.9 6.4 6.3 6.1 7.7 6.3 6.4 6.  6.9 6.7 6.9 5.8 6.8
 6.7 6.7 6.3 6.5 6.2 5.9]


In [None]:
# df['Species'].unique()
# Obtener los valores únicos de la columna 'Species'
valores_unicos = df['Species'].unique()
print(valores_unicos)


['setosa' 'versicolor' 'virginica']


In [None]:
# df['Sepal.Length'].unique()

# Crear un DataFrame de ejemplo


# Obtener los valores únicos de la columna 'Sepal.Length'
valores_unicos = df['Sepal.Length'].unique()

# Imprimir los valores únicos
print("Valores únicos de la columna 'Sepal.Length':", valores_unicos)


Valores únicos de la columna 'Sepal.Length': [5.1 4.9 4.7 4.6 5.  5.4 4.4 4.8 4.3 5.8 5.7 5.2 5.5 4.5 5.3 7.  6.4 6.9
 6.5 6.3 6.6 5.9 6.  6.1 5.6 6.7 6.2 6.8 7.1 7.6 7.3 7.2 7.7 7.4 7.9]


In [None]:
# df.sort_values(by = ['Species', 'Sepal.Length'], ascending=[True, True])
df_sorted = df.sort_values(by=['Species', 'Sepal.Length'], ascending=[True, True])

# Imprimir el DataFrame ordenado
print(df_sorted)


     Sepal.Length  Sepal.Width  Petal.Length  Petal.Width    Species
13            4.3          3.0           1.1          0.1     setosa
8             4.4          2.9           1.4          0.2     setosa
38            4.4          3.0           1.3          0.2     setosa
42            4.4          3.2           1.3          0.2     setosa
41            4.5          2.3           1.3          0.3     setosa
..            ...          ...           ...          ...        ...
117           7.7          3.8           6.7          2.2  virginica
118           7.7          2.6           6.9          2.3  virginica
122           7.7          2.8           6.7          2.0  virginica
135           7.7          3.0           6.1          2.3  virginica
131           7.9          3.8           6.4          2.0  virginica

[150 rows x 5 columns]


In [None]:
df['Species']


0         setosa
1         setosa
2         setosa
3         setosa
4         setosa
         ...    
145    virginica
146    virginica
147    virginica
148    virginica
149    virginica
Name: Species, Length: 150, dtype: object

In [None]:
# completar
# Seleccionar y mostrar la columna 'Species'
species_column = df['Species']
print(species_column)


0         setosa
1         setosa
2         setosa
3         setosa
4         setosa
         ...    
145    virginica
146    virginica
147    virginica
148    virginica
149    virginica
Name: Species, Length: 150, dtype: object


Selección diferente por opciones de etiqueta

- `loc:` solo funciona en el índice
- `iloc:` trabaja en posición
- `iat:` Obtener valores escalares. es un `iloc` muy rapido.

In [None]:
# selección por indice
# completar
# Selección por etiquetas usando loc
etiquetas_seleccion = ['Setosa', 'Versicolor']
seleccion_loc = df.loc[df['Species'].isin(etiquetas_seleccion)]
print("Selección por etiquetas usando loc:")
print(seleccion_loc)




Selección por etiquetas usando loc:
Empty DataFrame
Columns: [Sepal.Length, Sepal.Width, Petal.Length, Petal.Width, Species]
Index: []


In [None]:
# selección por indice de nombres de etiquetas específicas
# completar
nombres_etiquetas_seleccion = ['Iris-setosa', 'Iris-versicolor']

selec = df.loc[df['Species'].isin(nombres_etiquetas_seleccion)]
print(selec)


Empty DataFrame
Columns: [Sepal.Length, Sepal.Width, Petal.Length, Petal.Width, Species]
Index: []


In [None]:
# Selección por posición
# completar
# Selección por posición usando iloc
posicion_seleccion = df.iloc[0:3, 0:2]
print("Selección por posición usando iloc:")
print(posicion_seleccion)


In [None]:
# Seleccion por posicion entre filas dadas como rango
# completar
fila_inicio = 2
fila_fin = 5

# Realizar la selección basada en el rango de filas usando iloc
seleccion = df.iloc[fila_inicio:fila_fin+1]
print(seleccion)


   Sepal.Length  Sepal.Width  Petal.Length  Petal.Width Species
2           4.7          3.2           1.3          0.2  setosa
3           4.6          3.1           1.5          0.2  setosa
4           5.0          3.6           1.4          0.2  setosa
5           5.4          3.9           1.7          0.4  setosa


**Ejercicio**

¿Qué produce `df.iloc[0:3, 0:3]` ?

 Se refiere a la selección de las primeras tres filas y las primeras tres columnas del DataFrame llamado "df". Esto creará un subconjunto del DataFrame original que contendrá las filas 0, 1, 2 y las columnas 0, 1, 2.

In [None]:
## Tu respuesta
df.iloc[0:3, 0:3]

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length
0,5.1,3.5,1.4
1,4.9,3.0,1.4
2,4.7,3.2,1.3


In [None]:
# seleccion por posicion entre numeros de fila especificos dados
# Completar
subc= df.iloc[0:3, 0:3]
print(subc)


   Sepal.Length  Sepal.Width  Petal.Length
0           5.1          3.5           1.4
1           4.9          3.0           1.4
2           4.7          3.2           1.3


Selección por índice de fila y columna (el índice comienza con 0).

El siguiente caso obtendrá el valor `[índice de la primera fila, índice de la primera columna]`.

In [None]:
# obtener valores escalares. es un iloc muy rapido
print(df.iat[1,1])


3.0


In [None]:
# Obtencion de datos sin que este en el indice
print(df.iloc[1,1])

3.0


In [None]:
# selecciona columnas por posicion
print (df.iloc[:, 2])

0      1.4
1      1.4
2      1.3
3      1.5
4      1.4
      ... 
145    5.2
146    5.0
147    5.2
148    5.4
149    5.1
Name: Petal.Length, Length: 150, dtype: float64


In [None]:
# Transpuesta
df.T

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,140,141,142,143,144,145,146,147,148,149
Sepal.Length,5.1,4.9,4.7,4.6,5.0,5.4,4.6,5.0,4.4,4.9,...,6.7,6.9,5.8,6.8,6.7,6.7,6.3,6.5,6.2,5.9
Sepal.Width,3.5,3.0,3.2,3.1,3.6,3.9,3.4,3.4,2.9,3.1,...,3.1,3.1,2.7,3.2,3.3,3.0,2.5,3.0,3.4,3.0
Petal.Length,1.4,1.4,1.3,1.5,1.4,1.7,1.4,1.5,1.4,1.5,...,5.6,5.1,5.1,5.9,5.7,5.2,5.0,5.2,5.4,5.1
Petal.Width,0.2,0.2,0.2,0.2,0.2,0.4,0.3,0.2,0.2,0.1,...,2.4,2.3,1.9,2.3,2.5,2.3,1.9,2.0,2.3,1.8
Species,setosa,setosa,setosa,setosa,setosa,setosa,setosa,setosa,setosa,setosa,...,virginica,virginica,virginica,virginica,virginica,virginica,virginica,virginica,virginica,virginica


#### Indexado Booleano

In [None]:
# Completar
# Documentos de ejemplo
documentos = [
    {'titulo': 'Documento 1', 'contenido': 'Este es el contenido del documento 1.'},
    {'titulo': 'Documento 2', 'contenido': 'Aquí está el contenido del documento 2.'},
    {'titulo': 'Documento 3', 'contenido': 'Contenido del documento 3.'},
    {'titulo': 'Documento 4', 'contenido': 'Contenido del cuarto documento.'}
]

# Consulta de ejemplo
consulta = lambda doc: doc['titulo'].startswith('Documento') and 'contenido' in doc and 'contenido' not in doc['titulo']

# Realizar la indexación booleana
resultados = list(filter(consulta, documentos))
print("Documentos que coinciden con la consulta:")
for resultado in resultados:
    print(resultado['titulo'])


Documentos que coinciden con la consulta:
Documento 1
Documento 2
Documento 3
Documento 4


### Operaciones básicas con Pandas

* Convertir cadenas a series de fechas: `pd.to_datetime(pd.Series(['2017-04-01','2017-04-02','2017-04-03']))`.

* Cambiar el nombre de una columna específica: `df.rename(columns={‘old_columnname’:‘new_columnname'}, inplace=True)`

* Cambiar el nombre de todas las columnas del DataFrame: `df.columns = ['col1_new_name','col2_new_name'...]`

* Marcar duplicados: `df.duplicated()`

* Quitar duplicados:`df = df.drop_duplicates()`

* Quitar duplicados en una columna específica: `df.drop_duplicates(['column_name'])`

* Quitar los duplicados en una columna específica, pero se conserva la primera o la última observación en el conjunto de duplicados: `df.drop_duplicates(['column_name'], keep = 'first') # cambiar al ultimo para conservar la ultima observación del duplicado`.

* Crear una nueva columna a partir de una columna existente: `df['new_column_name'] = df['new_column_name'] + 5`

* Crear una nueva columna a partir de los elementos de dos columnas: `df['new_column_name'] = df['existing_column1'] + '_' + df['existing_column2']`

* Agregar una lista o una nueva columna a DataFrame: `df['new_column_name'] = pd.Series(mylist)`

* Descartar las filas y columnas faltantes que tienen valores faltantes: `df.dropna()`

* Reemplaza todos los valores faltantes con 0 (o puede usar cualquier int o str): `df.fillna(value=0)`

* Reemplaza los valores faltantes con la última observación válida (útil en datos de series de tiempo). Por ejemplo, la temperatura no cambia drásticamente en comparación con una observación anterior. Una forma es llenar de NA forward-backward más alla de la media.

    1) 'pad' / 'ffill' - forward fill

    2) 'bfill'/'backfill' - backward fill

    Límite: si se especifica el método, este es el número máximo de valores de NaN consecutivos para completar forward/backward fill: `df.fillna (method = 'ffill', inplace= True, limit = 1)`

* Verifica la condición del valor faltante y devuelva el valor Booleano de `True` o `False` para cada celda: `pd.isnull(df)`

* Reemplaza todos los valores faltantes para una columna dada con la media: `mean=df['column_name].mean(); df['column_name'].fillna(mean)`

* Devuelve la media para cada columna: `df.mean()`

* Retorna el máximo para cada columna: `df.max()`

* Retorno el mínimo para cada columna: `df.min()`

* Devuelve la suma para cada columna: `df.sum()`

* Conteo para cada columna: `df.count()`

* Devuelve la suma acumulada para cada columna: `df.cumsum()`

* Aplica una función a lo largo de cualquier eje del DataFrame: `df.apply(np.cumsum)`

* Itera sobre cada elemento de una serie y realizar la acción deseada: `df['column_name'].map(lambda x: 1+x) # esto itera sobre la columna y agrega el valor 1 a cada elemento`

* Aplica una función a cada elemento del dataframe:`func = lambda x: x + 1 # función para agregar una constante 1 a cada elemento del dataframe df.applymap(func)`.

In [None]:
cadena_fechas = ('2017-04-01','2017-04-02','2017-04-03','2017-04-04')
pd.to_datetime(pd.Series(cadena_fechas))

0   2017-04-01
1   2017-04-02
2   2017-04-03
3   2017-04-04
dtype: datetime64[ns]

In [None]:
df.rename(columns = {'Sepal.Length': 'Sepal_Length'}, inplace=True)

In [None]:
df.columns = ['Sepal_Length', 'Sepal_Width', 'Petal_Length', 'Petal_Width', 'Species']


In [None]:
# Removemos los duplicados

data_1 = {'primer_nombre': ['Amy', 'Amy', 'Jason', 'Nick', 'Stephen','Amy'],
        'ultimo_nombre': ['Jackson', 'J', 'Miller', 'Milner', 'L','J'],
        'edad': [42, 42, 36, 24, 24, 42]}
df = pd.DataFrame(data_1, columns = ['primer_nombre', 'ultimo_nombre', 'edad'])
print(df)

  primer_nombre ultimo_nombre  edad
0           Amy       Jackson    42
1           Amy             J    42
2         Jason        Miller    36
3          Nick        Milner    24
4       Stephen             L    24
5           Amy             J    42


In [None]:
print(df.duplicated())

0    False
1    False
2    False
3    False
4    False
5     True
dtype: bool


In [None]:
print(df.drop_duplicates())

  primer_nombre ultimo_nombre  edad
0           Amy       Jackson    42
1           Amy             J    42
2         Jason        Miller    36
3          Nick        Milner    24
4       Stephen             L    24


In [None]:
df.drop_duplicates(['primer_nombre'], keep ='first')

Unnamed: 0,primer_nombre,ultimo_nombre,edad
0,Amy,Jackson,42
2,Jason,Miller,36
3,Nick,Milner,24
4,Stephen,L,24


**Ejercicio**

* Agrega las columnas siguientes: `edad_mas_5`, `nombre_completo` y `genero`
 - `edad_mas_5`viene de sumar 5 a la etiqueta `edad`
 - `nombre_completo` viene de sumar las etiquetas `primer_nombre`, `_` y `ultimo_nombre`
 - `genero` es una serie de elementos `'F','F','M','M','M','F'.`

In [None]:
# Tu respuesta
data = {
    'primer_nombre': ['John', 'Jane', 'Michael', 'Emily', 'David', 'Sarah'],
    'ultimo_nombre': ['Doe', 'Smith', 'Johnson', 'Brown', 'Jones', 'Wilson'],
    'edad': [25, 30, 35, 40, 45, 50]
}
df = pd.DataFrame(data)

df['edad_mas_5'] = df['edad'] + 5

df['nombre_completo'] = df['primer_nombre'] + ' ' + df['ultimo_nombre']

df['genero'] = pd.Series(['F', 'F', 'M', 'M', 'M', 'F'])
print(df)


  primer_nombre ultimo_nombre  edad  edad_mas_5  nombre_completo genero
0          John           Doe    25          30         John Doe      F
1          Jane         Smith    30          35       Jane Smith      F
2       Michael       Johnson    35          40  Michael Johnson      M
3         Emily         Brown    40          45      Emily Brown      M
4         David         Jones    45          50      David Jones      M
5         Sarah        Wilson    50          55     Sarah Wilson      F


#### Datos perdidos

pandas usa principalmente el valor `np.nan` para representar los datos que faltan. Por defecto no se incluye en los cálculos.

In [None]:
df.iloc[4,2] = np.nan
print(df)

  primer_nombre ultimo_nombre  edad  edad_mas_5  nombre_completo genero
0          John           Doe  25.0          30         John Doe      F
1          Jane         Smith  30.0          35       Jane Smith      F
2       Michael       Johnson  35.0          40  Michael Johnson      M
3         Emily         Brown  40.0          45      Emily Brown      M
4         David         Jones   NaN          50      David Jones      M
5         Sarah        Wilson  50.0          55     Sarah Wilson      F


In [None]:
print(df.dropna())

  primer_nombre ultimo_nombre  edad  edad_mas_5  nombre_completo genero
0          John           Doe  25.0          30         John Doe      F
1          Jane         Smith  30.0          35       Jane Smith      F
2       Michael       Johnson  35.0          40  Michael Johnson      M
3         Emily         Brown  40.0          45      Emily Brown      M
5         Sarah        Wilson  50.0          55     Sarah Wilson      F


In [None]:
df.iloc[4,2] = np.nan
print(df)

  primer_nombre ultimo_nombre  edad  edad_mas_5  nombre_completo genero
0          John           Doe  25.0          30         John Doe      F
1          Jane         Smith  30.0          35       Jane Smith      F
2       Michael       Johnson  35.0          40  Michael Johnson      M
3         Emily         Brown  40.0          45      Emily Brown      M
4         David         Jones   NaN          50      David Jones      M
5         Sarah        Wilson  50.0          55     Sarah Wilson      F


In [None]:
df.fillna(value =0)

Unnamed: 0,primer_nombre,ultimo_nombre,edad,edad_mas_5,nombre_completo,genero
0,John,Doe,25.0,30,John Doe,F
1,Jane,Smith,30.0,35,Jane Smith,F
2,Michael,Johnson,35.0,40,Michael Johnson,M
3,Emily,Brown,40.0,45,Emily Brown,M
4,David,Jones,0.0,50,David Jones,M
5,Sarah,Wilson,50.0,55,Sarah Wilson,F


In [None]:
df.iloc[4,2] = np.nan
print(df)

  primer_nombre ultimo_nombre  edad  edad_mas_5  nombre_completo genero
0          John           Doe  25.0          30         John Doe      F
1          Jane         Smith  30.0          35       Jane Smith      F
2       Michael       Johnson  35.0          40  Michael Johnson      M
3         Emily         Brown  40.0          45      Emily Brown      M
4         David         Jones   NaN          50      David Jones      M
5         Sarah        Wilson  50.0          55     Sarah Wilson      F


In [None]:
pd.isnull(df)

Unnamed: 0,primer_nombre,ultimo_nombre,edad,edad_mas_5,nombre_completo,genero
0,False,False,False,False,False,False
1,False,False,False,False,False,False
2,False,False,False,False,False,False
3,False,False,False,False,False,False
4,False,False,True,False,False,False
5,False,False,False,False,False,False


#### Operaciones

In [None]:
media = df['edad'].mean()
#media
# usamos la media para reeemplazar el NaN
# completar
data = {
    'primer_nombre': ['John', 'Jane', 'Michael', 'Emily', 'David', 'Sarah'],
    'ultimo_nombre': ['Doe', 'Smith', 'Johnson', 'Brown', 'Jones', 'Wilson'],
    'edad': [25, np.nan, 35, np.nan, 45, 50]
}
df = pd.DataFrame(data)
media = df['edad'].mean()
df['edad'].fillna(media, inplace=True)
print(df)


  primer_nombre ultimo_nombre   edad
0          John           Doe  25.00
1          Jane         Smith  38.75
2       Michael       Johnson  35.00
3         Emily         Brown  38.75
4         David         Jones  45.00
5         Sarah        Wilson  50.00


In [None]:
df.fillna(method='ffill', inplace=True, limit=1)


In [None]:
import warnings
warnings.filterwarnings('ignore')
df.mean()

edad    38.75
dtype: float64

In [None]:
df.min()

primer_nombre    David
ultimo_nombre    Brown
edad              25.0
dtype: object

In [None]:
df.max()

primer_nombre     Sarah
ultimo_nombre    Wilson
edad               50.0
dtype: object

In [None]:
df.sum()

primer_nombre     JohnJaneMichaelEmilyDavidSarah
ultimo_nombre    DoeSmithJohnsonBrownJonesWilson
edad                                       232.5
dtype: object

In [None]:
df.count()

primer_nombre    6
ultimo_nombre    6
edad             6
dtype: int64

In [None]:
df.cumsum()

Unnamed: 0,primer_nombre,ultimo_nombre,edad
0,John,Doe,25.0
1,JohnJane,DoeSmith,63.75
2,JohnJaneMichael,DoeSmithJohnson,98.75
3,JohnJaneMichaelEmily,DoeSmithJohnsonBrown,137.5
4,JohnJaneMichaelEmilyDavid,DoeSmithJohnsonBrownJones,182.5
5,JohnJaneMichaelEmilyDavidSarah,DoeSmithJohnsonBrownJonesWilson,232.5


#### Aplicación de función a elemento, columna o dataframe


In [None]:
# completar

def sumar_5(valor):
    return valor + 5

data = {
    'primer_nombre': ['John', 'Jane', 'Michael', 'Emily', 'David', 'Sarah'],
    'ultimo_nombre': ['Doe', 'Smith', 'Johnson', 'Brown', 'Jones', 'Wilson'],
    'edad': [25, 30, 35, 40, 45, 50]
}
df = pd.DataFrame(data)

df['edad_mas_5'] = df['edad'].apply(sumar_5)

df['nombre_completo'] = df['primer_nombre'] + ' ' + df['ultimo_nombre']

df['genero'] = pd.Series(['F', 'F', 'M', 'M', 'M', 'F'])

print(df)



  primer_nombre ultimo_nombre  edad  edad_mas_5  nombre_completo genero
0          John           Doe    25          30         John Doe      F
1          Jane         Smith    30          35       Jane Smith      F
2       Michael       Johnson    35          40  Michael Johnson      M
3         Emily         Brown    40          45      Emily Brown      M
4         David         Jones    45          50      David Jones      M
5         Sarah        Wilson    50          55     Sarah Wilson      F


In [None]:
# Map: itera sobre cada elemento de una serie
# Completar agrega una constante 1 a cada elemento de la column1
serie = pd.Series([10, 20, 30, 40, 50])
def agregar_constante(valor):
    return valor + 1
serie_actualizada = serie.map(agregar_constante)
print(serie_actualizada)



0    11
1    21
2    31
3    41
4    51
dtype: int64


In [None]:
func=lambda x: x+1
df_filtrado = df.iloc[:, 2:4]
print(df_filtrado)

   edad  edad_mas_5
0    25          30
1    30          35
2    35          40
3    40          45
4    45          50
5    50          55


In [None]:
print(df_filtrado.applymap(func))

   edad  edad_mas_5
0    26          31
1    31          36
2    36          41
3    41          46
4    46          51
5    51          56


**Ejemplo**

La parte del poder de pandas se da por los métodos integrados en los objetos Series y DataFrame.

In [None]:
from io import StringIO
data = StringIO('''UPC,Units,Sales,Date
1234,5,20.2,1-1-2014
1234,2,8.,1-2-2014
1234,3,13.,1-3-2014
789,1,2.,1-1-2014
789,2,3.8,1-2-2014
789,,,1-3-2014
789,1,1.8,1-5-2014''')

In [None]:
sales = pd.read_csv(data)
sales

Unnamed: 0,UPC,Units,Sales,Date
0,1234,5.0,20.2,1-1-2014
1,1234,2.0,8.0,1-2-2014
2,1234,3.0,13.0,1-3-2014
3,789,1.0,2.0,1-1-2014
4,789,2.0,3.8,1-2-2014
5,789,,,1-3-2014
6,789,1.0,1.8,1-5-2014


In [None]:
sales.shape

(7, 4)

In [None]:
sales.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7 entries, 0 to 6
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   UPC     7 non-null      int64  
 1   Units   6 non-null      float64
 2   Sales   6 non-null      float64
 3   Date    7 non-null      object 
dtypes: float64(2), int64(1), object(1)
memory usage: 352.0+ bytes


A diferencia del objeto `Series` que prueba la pertenencia con el índice, el `DataFrame` prueba la pertenencia con las columnas. El comportamiento de iteración `(__iter__)` y el comportamiento de pertenencia `(__contains__)` es el mismo para el `DataFrame`.

#### Operaciones de índice


In [None]:
sales.reindex([0, 4])

Unnamed: 0,UPC,Units,Sales,Date
0,1234,5.0,20.2,1-1-2014
4,789,2.0,3.8,1-2-2014


In [None]:
sales.reindex(columns=['Date', 'Sales'])

Unnamed: 0,Date,Sales
0,1-1-2014,20.2
1,1-2-2014,8.0
2,1-3-2014,13.0
3,1-1-2014,2.0
4,1-2-2014,3.8
5,1-3-2014,
6,1-5-2014,1.8


La selección de columnas e índices se puede combinar para refinar aún más la selección. Además, se pueden incluir nuevas entradas para valores de índices y nombres de columna. Por defecto, usarán el parámetro opcional `fill_value` (que es NaN a menos que se especifique):

In [None]:
sales.reindex(index=[2, 6, 8], columns=['Sales', 'MIT', 'missing'])

Unnamed: 0,Sales,MIT,missing
2,13.0,,
6,1.8,,
8,,,


In [None]:
by_date = sales.set_index('Date')
by_date

Unnamed: 0_level_0,UPC,Units,Sales
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1-1-2014,1234,5.0,20.2
1-2-2014,1234,2.0,8.0
1-3-2014,1234,3.0,13.0
1-1-2014,789,1.0,2.0
1-2-2014,789,2.0,3.8
1-3-2014,789,,
1-5-2014,789,1.0,1.8


Para agregar un índice entero creciente a un data frame, usa `.reset_index`:

In [None]:
by_date.reset_index()

Unnamed: 0,Date,UPC,Units,Sales
0,1-1-2014,1234,5.0,20.2
1,1-2-2014,1234,2.0,8.0
2,1-3-2014,1234,3.0,13.0
3,1-1-2014,789,1.0,2.0
4,1-2-2014,789,2.0,3.8
5,1-3-2014,789,,
6,1-5-2014,789,1.0,1.8


#### Obtener y establecer valores


In [None]:
sales.iat[4, 2]

3.8


A continuación, insertamos una columna `Category` después de ` UPC`  (en la posición 1):

In [None]:
sales.insert(1, 'Category', 'Food')
sales

Unnamed: 0,UPC,Category,Units,Sales,Date
0,1234,Food,5.0,20.2,1-1-2014
1,1234,Food,2.0,8.0,1-2-2014
2,1234,Food,3.0,13.0,1-3-2014
3,789,Food,1.0,2.0,1-1-2014
4,789,Food,2.0,3.8,1-2-2014
5,789,Food,,,1-3-2014
6,789,Food,1.0,1.8,1-5-2014


El método `.replace` es una forma poderosa de actualizar muchos valores de un data frame en las columnas. Para reemplazar todos los 789 con 790, realiza lo siguiente:

In [None]:
sales.replace(789, 790)

Unnamed: 0,UPC,Category,Units,Sales,Date
0,1234,Food,5.0,20.2,1-1-2014
1,1234,Food,2.0,8.0,1-2-2014
2,1234,Food,3.0,13.0,1-3-2014
3,790,Food,1.0,2.0,1-1-2014
4,790,Food,2.0,3.8,1-2-2014
5,790,Food,,,1-3-2014
6,790,Food,1.0,1.8,1-5-2014


In [None]:
sales.replace({'UPC': {789:790},
                'Sales': {789: 1.4}})

Unnamed: 0,UPC,Category,Units,Sales,Date
0,1234,Food,5.0,20.2,1-1-2014
1,1234,Food,2.0,8.0,1-2-2014
2,1234,Food,3.0,13.0,1-3-2014
3,790,Food,1.0,2.0,1-1-2014
4,790,Food,2.0,3.8,1-2-2014
5,790,Food,,,1-3-2014
6,790,Food,1.0,1.8,1-5-2014


El método `replace` también acepta expresiones regulares (pueden ser incluidas en diccionarios anidados) si  el paramétro`regex` se coloca en `True`.

In [None]:
sales.replace('(F.*d)', r'\1_stuff', regex=True)

Unnamed: 0,UPC,Category,Units,Sales,Date
0,1234,Food_stuff,5.0,20.2,1-1-2014
1,1234,Food_stuff,2.0,8.0,1-2-2014
2,1234,Food_stuff,3.0,13.0,1-3-2014
3,789,Food_stuff,1.0,2.0,1-1-2014
4,789,Food_stuff,2.0,3.8,1-2-2014
5,789,Food_stuff,,,1-3-2014
6,789,Food_stuff,1.0,1.8,1-5-2014


#### Eliminación de  columnas

Hay al menos cuatro formas de eliminar una columna:

* El método `.pop`

* El método `.drop` con `axis = 1`

* El método `.reindex`

* Indexación con una lista de nuevas columnas

El método `.pop` toma el nombre de una columna y lo elimina del data frame. Opera in-place. En lugar de devolver un data frame, devuelve la columna eliminada.

In [None]:
sales['subcat'] = 'Dairy'
sales

Unnamed: 0,UPC,Category,Units,Sales,Date,subcat
0,1234,Food,5.0,20.2,1-1-2014,Dairy
1,1234,Food,2.0,8.0,1-2-2014,Dairy
2,1234,Food,3.0,13.0,1-3-2014,Dairy
3,789,Food,1.0,2.0,1-1-2014,Dairy
4,789,Food,2.0,3.8,1-2-2014,Dairy
5,789,Food,,,1-3-2014,Dairy
6,789,Food,1.0,1.8,1-5-2014,Dairy


In [None]:
sales.pop('subcat')

0    Dairy
1    Dairy
2    Dairy
3    Dairy
4    Dairy
5    Dairy
6    Dairy
Name: subcat, dtype: object

In [None]:
sales

Unnamed: 0,UPC,Category,Units,Sales,Date
0,1234,Food,5.0,20.2,1-1-2014
1,1234,Food,2.0,8.0,1-2-2014
2,1234,Food,3.0,13.0,1-3-2014
3,789,Food,1.0,2.0,1-1-2014
4,789,Food,2.0,3.8,1-2-2014
5,789,Food,,,1-3-2014
6,789,Food,1.0,1.8,1-5-2014


Para quitar una columna con el método `.drop`, simplemente páselo (o una lista de nombres de columna) junto con la configuración del parámetro `axis` en 1:

In [None]:
# completar

# DataFrame ejemplo
data = {
    'A': [1, 2, 3],
    'B': [4, 5, 6],
    'C': [7, 8, 9]
}
df = pd.DataFrame(data)

# Quitar una columna
df = df.drop('B', axis=1)
print(df)


   A  C
0  1  7
1  2  8
2  3  9


#### Los dos métodos finales para eliminar columnas

In [None]:
cols = ['Sales', 'Date']

In [None]:
sales.reindex(columns=cols)

Unnamed: 0,Sales,Date
0,20.2,1-1-2014
1,8.0,1-2-2014
2,13.0,1-3-2014
3,2.0,1-1-2014
4,3.8,1-2-2014
5,,1-3-2014
6,1.8,1-5-2014


In [None]:
sales[cols]

Unnamed: 0,Sales,Date
0,20.2,1-1-2014
1,8.0,1-2-2014
2,13.0,1-3-2014
3,2.0,1-1-2014
4,3.8,1-2-2014
5,,1-3-2014
6,1.8,1-5-2014


#### Recortes


In [None]:
sales.head()

Unnamed: 0,UPC,Category,Units,Sales,Date
0,1234,Food,5.0,20.2,1-1-2014
1,1234,Food,2.0,8.0,1-2-2014
2,1234,Food,3.0,13.0,1-3-2014
3,789,Food,1.0,2.0,1-1-2014
4,789,Food,2.0,3.8,1-2-2014


In [None]:
sales.tail(2)

Unnamed: 0,UPC,Category,Units,Sales,Date
5,789,Food,,,1-3-2014
6,789,Food,1.0,1.8,1-5-2014


Usemos un índice basado en cadenas para que quede más claro qué hacen las opciones de recorte:

In [None]:
data = StringIO('''UPC,Units,Sales,Date
1234,5,20.2,1-1-2014
1234,2,8.,1-2-2014
1234,3,13.,1-3-2014
789,1,2.,1-1-2014
789,2,3.8,1-2-2014
789,,,1-3-2014
789,1,1.8,1-5-2014''')

df = pd.read_csv(data, parse_dates=['Date'])

# Recorte utilizando un índice basado en cadenas
df = df.loc[:, ['UPC', 'Units', 'Sales']]

print(df)


    UPC  Units  Sales
0  1234    5.0   20.2
1  1234    2.0    8.0
2  1234    3.0   13.0
3   789    1.0    2.0
4   789    2.0    3.8
5   789    NaN    NaN
6   789    1.0    1.8


In [None]:
import pandas as pd
from io import StringIO

# Datos de ejemplo
data = StringIO('''UPC,Units,Sales,Date
1234,5,20.2,1-1-2014
1234,2,8.,1-2-2014
1234,3,13.,1-3-2014
789,1,2.,1-1-2014
789,2,3.8,1-2-2014
789,,,1-3-2014
789,1,1.8,1-5-2014''')

sales = pd.read_csv(data)

sales['Date'] = pd.to_datetime(sales['Date'])

sales.set_index('Date', inplace=True)

print(sales)


             UPC  Units  Sales
Date                          
2014-01-01  1234    5.0   20.2
2014-01-02  1234    2.0    8.0
2014-01-03  1234    3.0   13.0
2014-01-01   789    1.0    2.0
2014-01-02   789    2.0    3.8
2014-01-03   789    NaN    NaN
2014-01-05   789    1.0    1.8


In [None]:
df

Unnamed: 0,UPC,Units,Sales,Date
0,1234,5.0,20.2,2014-01-01
1,1234,2.0,8.0,2014-01-02
2,1234,3.0,13.0,2014-01-03
3,789,1.0,2.0,2014-01-01
4,789,2.0,3.8,2014-01-02
5,789,,,2014-01-03
6,789,1.0,1.8,2014-01-05


Para dividir por posición, usa el atributo `.iloc`. Aquí tomamos filas en las posiciones dos hasta cuatro, pero sin incluirlas:

In [None]:
df.iloc[2:4]

Unnamed: 0,UPC,Units,Sales,Date
2,1234,3.0,13.0,2014-01-03
3,789,1.0,2.0,2014-01-01


También podemos proporcionar posiciones de columna que también queremos mantener. Las posiciones de las columnas deben seguir una coma en la operación de índice. Aquí mantenemos las filas desde dos hasta pero sin incluir la fila cuatro. También tomamos columnas desde cero hasta pero sin incluir uno (solo la columna en la posición de índice cero).

Esto se expresa en la siguiente figura:


<img src="recorte-pandas.png" alt="Drawing" style="width: 500px;"/>

A continuación se muestra un resumen de las construcciones de  de data frame por posición y etiqueta.


```
.iloc [i: j]            Posición de filas i hasta pero sin incluir j (semiabierto)
.iloc [:, i: j]         Posición de las columnas i hasta pero sin incluir j (semiabierto)
.iloc [[i, k, m]]       Filas en i, k y m (no es un intervalo)
.loc [a: b]             Filas desde la etiqueta de índice a hasta b (cerrado)
.loc [:, c: d]          Columnas de la etiqueta de columna c a d (cerrado)
.loc [: [b, d, f]]      Columnas en las etiquetas b, d y f (no es un intervalo)

```

<img src="recorte-ejemplo.png" alt="Drawing" style="width: 600px;"/>

In [None]:
#df = df.drop(['Category'], axis=1)
#df
import pandas as pd
df = pd.DataFrame({'Category': ['A', 'B', 'C', 'D'],
                   'Value': [1, 2, 3, 4]})
df = df.drop(df.columns[[0]], axis=1)

print(df)


   Value
0      1
1      2
2      3
3      4


In [None]:
df.iloc[2:4, 0:1]

Unnamed: 0,Value
2,3
3,4


También hay soporte para dividir datos por etiquetas. Usando el atributo `.loc`, podemos tomar valores de índice desde la `a` a la `d`:

In [None]:
# completar
df = pd.DataFrame({'Index': ['a', 'b', 'c', 'd', 'e'],
                   'Value': [1, 2, 3, 4, 5]})
df.set_index('Index', inplace=True)
subset = df.loc['a':'d']
print(subset)


       Value
Index       
a          1
b          2
c          3
d          4


Y al igual que `.iloc`, `.loc` tiene la capacidad de especificar columnas por etiqueta. En este ejemplo, solo tomamos la columna `Units` y, por lo tanto, devuelve una serie:

In [None]:
# completar

from io import StringIO

data = StringIO('''UPC,Units,Sales,Date
1234,5,20.2,1-1-2014
1234,2,8.,1-2-2014
1234,3,13.,1-3-2014
789,1,2.,1-1-2014
789,2,3.8,1-2-2014
789,,,1-3-2014
789,1,1.8,1-5-2014''')

df = pd.read_csv(data)

units_column = df.loc[:, 'Units']  # Selecciona la columna 'Units' utilizando .loc

print(units_column)



0    5.0
1    2.0
2    3.0
3    1.0
4    2.0
5    NaN
6    1.0
Name: Units, dtype: float64


Sacamos las columnas `UPC` y `Sales`, pero con solo los últimos 4 valores:

In [None]:
# Completar
last_four_rows = df.iloc[-4:, [0, 2]]  # Selecciona las columnas 'UPC' (0) y 'Sales' (2) de las últimas cuatro filas

print(last_four_rows)


   UPC  Sales
3  789    2.0
4  789    3.8
5  789    NaN
6  789    1.8


### Merge/Join


In [None]:
data = {
        'emp_id': ['1', '2', '3', '4', '5'],
        'primer_nombre': ['Jason', 'Andy', 'Allen', 'John', 'Amy'],
        'ultimo_nombre': ['Larkin', 'Jacob', 'A', 'AA', 'Jackson']}
df_1 = pd.DataFrame(data, columns = ['emp_id', 'primer_nombre', 'ultimo_nombre'])
print (df_1)

  emp_id primer_nombre ultimo_nombre
0      1         Jason        Larkin
1      2          Andy         Jacob
2      3         Allen             A
3      4          John            AA
4      5           Amy       Jackson


In [None]:
data = {
        'emp_id': ['4', '5', '6', '7'],
        'primer_nombre': ['James', 'Shize', 'Kim', 'Jose'],
        'ultimo_nombre': ['Alexander', 'Suma', 'Mike', 'G']}
df_2 = pd.DataFrame(data, columns = ['emp_id', 'primer_nombre', 'ultimo_nombre'])
print (df_2)

  emp_id primer_nombre ultimo_nombre
0      4         James     Alexander
1      5         Shize          Suma
2      6           Kim          Mike
3      7          Jose             G


In [None]:
# usando concat
df = pd.concat([df_1, df_2])
print(df)

  emp_id primer_nombre ultimo_nombre
0      1         Jason        Larkin
1      2          Andy         Jacob
2      3         Allen             A
3      4          John            AA
4      5           Amy       Jackson
0      4         James     Alexander
1      5         Shize          Suma
2      6           Kim          Mike
3      7          Jose             G


In [None]:
# Juntando dos dataframes a lo largo de las columnas
pd.concat([df_1,df_2], axis=1)

Unnamed: 0,emp_id,primer_nombre,ultimo_nombre,emp_id.1,primer_nombre.1,ultimo_nombre.1
0,1,Jason,Larkin,4.0,James,Alexander
1,2,Andy,Jacob,5.0,Shize,Suma
2,3,Allen,A,6.0,Kim,Mike
3,4,John,AA,7.0,Jose,G
4,5,Amy,Jackson,,,


Combinamos dos dataframes basados en el valor `emp_id` en este caso, solo se unirán los `emp_id` presentes en ambas tablas.

In [None]:
print(pd.merge(df_1,df_2, on='emp_id'))

  emp_id primer_nombre_x ultimo_nombre_x primer_nombre_y ultimo_nombre_y
0      4            John              AA           James       Alexander
1      5             Amy         Jackson           Shize            Suma


### Grouping


Pandas nos brinda la capacidad de agrupar data frames por valores de columna y luego fusionarlos nuevamente en un resultado con el método `.groupby`.
Pandas `group by` nos permitirá lograr lo siguiente:

- Aplicar una función de agregación a cada grupo de forma independiente
- Según algunos criterios, divide los datos en grupos.
- Combinar los resultados del `group by` en una estructura de datos.


<img src="Groupby.png" alt="Drawing" style="width: 700px;"/>

Como ejemplo, en el data frame `scores`, calcularemos las puntuaciones medias de cada maestro. Primero llamamos a `.groupby` y entonces invocamos a `.median` en el resultado:

In [None]:
#scores = pd.DataFrame({
#    'name':['Adam', 'Bob', 'Dave', 'Fred'],
#    'age': [15, 16, 16, 15],
#    'test1': [95, 81, 89, None],
#    'test2': [80, 82, 84, 88],
#    'teacher': ['Ashby', 'Ashby', 'Jones', 'Jones']})

In [None]:
# completar

scores = pd.DataFrame({
    'name': ['Adam', 'Bob', 'Dave', 'Fred'],
    'age': [15, 16, 16, 15],
    'test1': [95, 81, 89, None],
    'test2': [80, 82, 84, 88],
    'teacher': ['Ashby', 'Ashby', 'Jones', 'Jones']
})

grouped_scores = scores.groupby('teacher').median()
print(grouped_scores)


          age  test1  test2
teacher                    
Ashby    15.5   88.0   81.0
Jones    15.5   89.0   86.0


Esto incluyó la columna `age`, para ignorar que podemos separar solo las columnas de prueba:

In [None]:
# completar

grouped_scores = scores.groupby('teacher')['test1', 'test2'].mean()
print(grouped_scores)


         test1  test2
teacher              
Ashby     88.0   81.0
Jones     89.0   86.0


Para encontrar los valores medianos de cada grupo de edad para cada maestro, simplemente agrupa por maestro y edad:


In [None]:
# completar
grouped_scores = scores.groupby(['teacher', 'age']).median()
print(grouped_scores)


             test1  test2
teacher age              
Ashby   15    95.0   80.0
        16    81.0   82.0
Jones   15     NaN   88.0
        16    89.0   84.0


Si queremos los puntajes mínimos y máximos de las pruebas por maestro, usamos el método `.agg` y pasamos una lista de funciones para llamar:

In [None]:
# completar

grouped_scores = scores.groupby('teacher')['test1', 'test2'].agg(['min', 'max'])
print(grouped_scores)


        test1       test2    
          min   max   min max
teacher                      
Ashby    81.0  95.0    80  82
Jones    89.0  89.0    84  88


**Ejercicio**

In [None]:
df = pd.DataFrame({'Nombre' : ['jack', 'jane', 'jack', 'jane', 'jack', 'jane', 'jack', 'jane'],
                   'Estado' : ['SFO', 'SFO', 'NYK', 'CA', 'NYK', 'NYK', 'SFO', 'CA'],
                   'Genero':['A','A','B','A','C','B','C','A'],
                   'Edad' : np.random.uniform(24, 50, size=8),
                   'Salario' : np.random.uniform(3000, 5000, size=8),})

Ten en cuenta que las columnas se ordenan automáticamente en su orden alfabético para un orden personalizado, usa el siguiente código_

`df = pd.DataFrame (data, columns = ['Nombre', 'Estado', 'Edad', 'Salario'])`

* Calcula la suma por nombres.

* Encuentra la edad máxima y el salario por nombre/ estado. Puedes usar todas las funciones agregadas, como mínimo, máximo, media, conteo, suma acumulada.

In [None]:
# Tus  respuestas
# Calcula la suma por nombres
suma_nombres = df.groupby('Nombre')['Edad', 'Salario'].sum()
print("Suma por nombres:")
print(suma_nombres)
print()




Suma por nombres:
              Edad       Salario
Nombre                          
jack    154.090221  15936.830513
jane    156.716355  16454.417975



In [None]:
# Encuentra la edad máxima y el salario por nombre/estado
maximo_edad_salario = df.groupby(['Nombre', 'Estado'])['Edad', 'Salario'].agg({'Edad': 'max', 'Salario': 'max'})
print("Edad máxima y salario por nombre/estado:")
print(maximo_edad_salario)

Edad máxima y salario por nombre/estado:
                    Edad      Salario
Nombre Estado                        
jack   NYK     43.920244  4278.379443
       SFO     42.274488  4381.978474
jane   CA      41.641413  4442.176199
       NYK     46.952894  4567.331677
       SFO     36.301545  3250.093765


#### Tablas pivot

Pandas proporciona una función `pivot_table` para crear una tabla pivot (dinámica )de estilo de hoja de cálculo de MS-Excel. Puede tomar los siguientes argumentos:

- `data`: objeto DataFrame
- `values`: columna para agregar
- `index`: etiquetas de fila
- `columns`: etiquetas de columna
- `aggfunc`: función de agregación que se usará en valores, el valor predeterminado es `NumPy.mean`.

Usando una tabla pivot, podemos generalizar ciertos comportamientos grupales. Para obtener las puntuaciones medias de los profesores, podemos ejecutar lo siguiente:

In [None]:
# completar

scores = pd.DataFrame({
    'name': ['Adam', 'Bob', 'Dave', 'Fred'],
    'age': [15, 16, 16, 15],
    'test1': [95, 81, 89, None],
    'test2': [80, 82, 84, 88],
    'teacher': ['Ashby', 'Ashby', 'Jones', 'Jones']
})

pivot_scores = scores.pivot_table(values=['test1', 'test2'], index='teacher', aggfunc='mean')
print(pivot_scores)


         test1  test2
teacher              
Ashby     88.0     81
Jones     89.0     86


Si queremos agregar por maestro y edad, simplemente usamos una lista con ambos para el parámetro `index`:

In [None]:
scores.pivot_table(index=['teacher', 'age'],
                   values=['test1', 'test2'],
                  aggfunc='median')

Unnamed: 0_level_0,Unnamed: 1_level_0,test1,test2
teacher,age,Unnamed: 2_level_1,Unnamed: 3_level_1
Ashby,15,95.0,80
Ashby,16,81.0,82
Jones,15,,88
Jones,16,89.0,84


Si queremos aplicar múltiples funciones, simplemente usa una lista de ellas. Aquí, analizamos los puntajes mínimos y máximos de las pruebas por maestro:

In [None]:
scores.pivot_table(index='teacher',
                  values=['test1', 'test2'],
                  aggfunc=[min, max])

Unnamed: 0_level_0,min,min,max,max
Unnamed: 0_level_1,test1,test2,test1,test2
teacher,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Ashby,81.0,80,95.0,82
Jones,89.0,84,89.0,88


Podemos ver que la tabla pivot y de grupo por comportamiento son muy similares. Hay del estilo declarativo de `.pivot_table` y el estilo  semántico de los grupos.

Una característica adicional de las tablas pivots es la capacidad de agregar filas de resumen. Simplemente estableciendo `margins= True` obtenemos esta funcionalidad:

In [None]:
scores.pivot_table(index='teacher',
                   values=['test1', 'test2'],
                   aggfunc='median', margins=True)

Unnamed: 0_level_0,test1,test2
teacher,Unnamed: 1_level_1,Unnamed: 2_level_1
Ashby,88.0,81
Jones,89.0,86
All,89.0,82


<img src="pivot.png" alt="Drawing" style="width: 700px;"/>

In [None]:
scores.pivot_table(index= ['teacher', 'age'],
                   values=['test1', 'test2'],
                   aggfunc=[len, sum], margins=True)

Unnamed: 0_level_0,Unnamed: 1_level_0,len,len,sum,sum
Unnamed: 0_level_1,Unnamed: 1_level_1,test1,test2,test1,test2
teacher,age,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Ashby,15.0,1,1,95.0,80
Ashby,16.0,1,1,81.0,82
Jones,15.0,1,1,0.0,88
Jones,16.0,1,1,89.0,84
All,,3,3,265.0,246


<img src="pivot-parameters.png" alt="Drawing" style="width: 700px;"/>

**Ejercicio** Del dataframe anterior agrupa por estado y nombre y encuentre la edad media para cada grado.


In [None]:
## Tu respuesta

grouped_scores = scores.groupby(['teacher', 'name'])[['test1', 'test2']].mean()
print(grouped_scores)



              test1  test2
teacher name              
Ashby   Adam   95.0   80.0
        Bob    81.0   82.0
Jones   Dave   89.0   84.0
        Fred    NaN   88.0
