### Pandas


Pandas es un paquete Python de código abierto que proporciona estructuras de datos rápidas, flexibles y expresivas diseñadas para que trabajar con datos "relacionales" o "etiquetados" sea fácil e intuitivo.

### Estructuras de datos
Pandas presenta dos nuevas estructuras de datos en Python: Series y DataFrame, ambas construidas sobre NumPy (esto significa que es rápido).


#### Serie

Este es un objeto unidimensional similar a la columna en una hoja de cálculo o tabla SQL. De forma predeterminada, a cada elemento se le asignará una etiqueta de índice de `0` a `N`.

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [2]:
s = pd.Series([1,3,4,np.nan, 5, 6], index = ['A', 'B', 'C', 'D', 'E', 'F'])
print(s)

A    1.0
B    3.0
C    4.0
D    NaN
E    5.0
F    6.0
dtype: float64


Si creas una serie utilizando el diccionario, la clave se convertirá en el índice de forma predeterminada.

In [3]:
dict_ejemplo = {'A': 1, 'B':2, 'C':3, 'D':np.nan, 'E': 5, 'F': 6}
dict_ejemplo

{'A': 1, 'B': 2, 'C': 3, 'D': nan, 'E': 5, 'F': 6}

In [4]:
s = pd.Series(dict_ejemplo)
print(s)

A    1.0
B    2.0
C    3.0
D    NaN
E    5.0
F    6.0
dtype: float64


La contraparte bidimensional de las series unidimensionales es el DataFrame.

### DataFrame

Es un objeto bidimensional similar a una hoja de cálculo o una tabla SQL. Este es el objeto Pandas más utilizado.


In [5]:
data = {'Genero': ['F', 'M', 'M'],
        'Emp_ID': ['E01', 'E02', 'E03'],
        'Edad': [25, 27, 25]}
# Si queremos el orden de las columnas, especificamos en el parametro columns
df = pd.DataFrame(data, columns=['Emp_ID', 'Genero', 'Edad'])
df

Unnamed: 0,Emp_ID,Genero,Edad
0,E01,F,25
1,E02,M,27
2,E03,M,25


#### Lectura y escritura de datos

Veremos tres formatos de archivo de uso común: csv, archivo de texto y Excel.

In [8]:
# Leyendo desde un archivo csv
df=pd.read_csv('mtcars.csv')
df.head()

Unnamed: 0,model,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
0,Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
1,Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
2,Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
3,Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1
4,Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2


In [12]:
# Escribir un csv
# index = False - no escribe los valores de indice, el valor predeterminado es True
# completar
import pandas as pd

# Lectura de un archivo CSV
data = pd.read_csv('mtcars.csv')

# Escritura de un archivo CSV
data.to_csv('mtcars.csv', index=False)
data.head()

Unnamed: 0,model,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
0,Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
1,Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
2,Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
3,Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1
4,Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2


In [10]:
# Leyendo desde un archivo .txt
# df=pd.read_csv('Data/mtcars.txt', sep='\t')
# completar
import pandas as pd

# Lectura de un archivo de texto
data = pd.read_table('mtcars.txt')

# Escritura de un archivo de texto
data.to_csv('mtcars.txt', index=False, sep='\t')
data.head()

Unnamed: 0,model,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
0,Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
1,Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
2,Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
3,Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1
4,Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2


In [15]:
# Leyendo un archivo Excel
#df=pd.read_excel('Data/mtcars.xlsx','Sheet2')
# Completar
import pandas as pd

# Crear un DataFrame de ejemplo
data = pd.DataFrame({'Columna1': [1, 2, 3], 'Columna2': [4, 5, 6]})

# Escribir el DataFrame en un nuevo archivo de Excel con una hoja de trabajo llamada "Hoja1"
data.to_excel('mtcars.xlsx', index=False, sheet_name='Hoja1')
data.head()

Unnamed: 0,Columna1,Columna2
0,1,4
1,2,5
2,3,6


### Resumen de estadísticas básicas


In [17]:
#df = pd.read_csv('Data/iris.csv')
# completar
import pandas as pd

# Lectura del archivo CSV
df = pd.read_csv('mtcars.csv')

# Resumen de estadísticas básicas
summary_stats = df.describe()

print(summary_stats)


             mpg        cyl        disp          hp       drat         wt  \
count  32.000000  32.000000   32.000000   32.000000  32.000000  32.000000   
mean   20.090625   6.187500  230.721875  146.687500   3.596563   3.217250   
std     6.026948   1.785922  123.938694   68.562868   0.534679   0.978457   
min    10.400000   4.000000   71.100000   52.000000   2.760000   1.513000   
25%    15.425000   4.000000  120.825000   96.500000   3.080000   2.581250   
50%    19.200000   6.000000  196.300000  123.000000   3.695000   3.325000   
75%    22.800000   8.000000  326.000000  180.000000   3.920000   3.610000   
max    33.900000   8.000000  472.000000  335.000000   4.930000   5.424000   

            qsec         vs         am       gear     carb  
count  32.000000  32.000000  32.000000  32.000000  32.0000  
mean   17.848750   0.437500   0.406250   3.687500   2.8125  
std     1.786943   0.504016   0.498991   0.737804   1.6152  
min    14.500000   0.000000   0.000000   3.000000   1.0000  
2

#### Covarianza


In [18]:
# covarianza: devuelve la covarianza entre columnas adecuadas
# completar
import pandas as pd

# Lectura del archivo CSV
df = pd.read_csv('mtcars.csv')

# Cálculo de la covarianza entre columnas
covariance_matrix = df.cov()

print(covariance_matrix)


             mpg         cyl          disp           hp       drat  \
mpg    36.324103   -9.172379   -633.097208  -320.732056   2.195064   
cyl    -9.172379    3.189516    199.660282   101.931452  -0.668367   
disp -633.097208  199.660282  15360.799829  6721.158669 -47.064019   
hp   -320.732056  101.931452   6721.158669  4700.866935 -16.451109   
drat    2.195064   -0.668367    -47.064019   -16.451109   0.285881   
wt     -5.116685    1.367371    107.684204    44.192661  -0.372721   
qsec    4.509149   -1.886855    -96.051681   -86.770081   0.087141   
vs      2.017137   -0.729839    -44.377621   -24.987903   0.118649   
am      1.803931   -0.465726    -36.564012    -8.320565   0.190151   
gear    2.135685   -0.649194    -50.802621    -6.358871   0.275988   
carb   -5.363105    1.520161     79.068750    83.036290  -0.078407   

              wt       qsec         vs         am       gear       carb  
mpg    -5.116685   4.509149   2.017137   1.803931   2.135685  -5.363105  
cyl     1.3

  covariance_matrix = df.cov()


#### Correlación


In [20]:
# completar
import pandas as pd

# Lectura del archivo CSV
df = pd.read_csv('mtcars.csv')

# Verificar los nombres de las columnas
print(df.columns)



Index(['model', 'mpg', 'cyl', 'disp', 'hp', 'drat', 'wt', 'qsec', 'vs', 'am',
       'gear', 'carb'],
      dtype='object')


In [21]:
import pandas as pd

# Lectura del archivo CSV
df = pd.read_csv('mtcars.csv')

# Cálculo de la matriz de correlación
correlation_matrix = df.corr()

print(correlation_matrix)



           mpg       cyl      disp        hp      drat        wt      qsec  \
mpg   1.000000 -0.852162 -0.847551 -0.776168  0.681172 -0.867659  0.418684   
cyl  -0.852162  1.000000  0.902033  0.832447 -0.699938  0.782496 -0.591242   
disp -0.847551  0.902033  1.000000  0.790949 -0.710214  0.887980 -0.433698   
hp   -0.776168  0.832447  0.790949  1.000000 -0.448759  0.658748 -0.708223   
drat  0.681172 -0.699938 -0.710214 -0.448759  1.000000 -0.712441  0.091205   
wt   -0.867659  0.782496  0.887980  0.658748 -0.712441  1.000000 -0.174716   
qsec  0.418684 -0.591242 -0.433698 -0.708223  0.091205 -0.174716  1.000000   
vs    0.664039 -0.810812 -0.710416 -0.723097  0.440278 -0.554916  0.744535   
am    0.599832 -0.522607 -0.591227 -0.243204  0.712711 -0.692495 -0.229861   
gear  0.480285 -0.492687 -0.555569 -0.125704  0.699610 -0.583287 -0.212682   
carb -0.550925  0.526988  0.394977  0.749812 -0.090790  0.427606 -0.656249   

            vs        am      gear      carb  
mpg   0.664039  

  correlation_matrix = df.corr()


### Visualización de datos
Pandas DataFrame viene con funciones integradas para ver los datos contenidos:

* Mirando los `n` primeros registros, el valor predeterminado de `n` es 5 si no se especifica:  `df.head(n=2)`.

* Mirando los `n` registros inferiores: `df.tail()`

* Obtener los nombres de las columnas: `df.columns`

* Obtener los tipos de datos de las columnas: `df.types`

* Obtener el índice del dataframe: `df.index`

* Obtener valores únicos: `df[column_name].unique()`

* Obtener valores: `df.values`

* Ordenar el dataframe: `df.sort_values(by =['Column1', 'Column2'], ascending=[True,True'])`

* Seleccionar/ver por el nombre de la columna: `df[column_name]`

* Seleccionar/ver por número de fila `df[0:3]`

* Selección por índice:

- `df.loc[0:3] # índice de 0 a 3`
- `df.loc[0:3,[‘column1’, ‘column2’]] # índice de 0 a 3 para las columnas específicas`

* Selección por posición

- `df.iloc[0:2] # usando el rango, primeras 2 filas`
- `df.iloc[2,3,6] # posición específica`
-  `df.iloc[0:2,0:2] # primeras 2 filas y primeras 2 columnas`

* Selección sin que esté en el índice

- `print(df.ix[1,1]) # valor de la primera fila y la primera columna`
- `print(df.ix[:,2]) # todas las filas de la columna en la segunda posición`

* Alternativa más rápida a `iloc` para obtener valores escalares: `print(df.iat[1,1])`

* Transponer el dataframe: `df.T`

* Filtrar DataFrame según la condición de valor para una columna: `df[df['column_name'] > 7.5]`

* Filtrar DataFrame basado en una condición de valor en una columna: `df[df['column_name'].isin(['condition_value1', 'condition_value2'])]`

* Filtro basado en múltiples condiciones en múltiples columnas usando el operador AND: `df[(df['column1']>7.5) & (df['column2']>3)]`

* Filtro basado en múltiples condiciones en múltiples columnas usando el operador OR: `df[(df[‘column1’]>7.5) | (df['column2']>3)]`.

In [37]:
import pandas as pd

# Lectura del archivo CSV
df = pd.read_csv('mtcars.csv')

# Mirando los n primeros registros (valor predeterminado es 5 si no se especifica)
print(df.head())

# Mirando los n registros inferiores
print(df.tail())

# Obtener los nombres de las columnas
print("Nombres de las columnas:", df.columns)

# Obtener los tipos de datos de las columnas
print("Tipos de datos de las columnas:", df.dtypes)

# Obtener el índice del DataFrame
print("Índice del DataFrame:", df.index)

# Obtener valores únicos de una columna
print("Valores únicos de la columna 'Model':", df['model'].unique())

# Obtener valores
print("Valores del DataFrame:")
print(df.values)

# Ordenar el DataFrame por una o más columnas
sorted_df = df.sort_values(by=['model', 'hp'], ascending=[True, True])
print("DataFrame ordenado:")
print(sorted_df)

# Seleccionar/ver por el nombre de la columna
selected_column = df['model']
print("Columna 'model':")
print(selected_column)

# Seleccionar/ver por número de fila
selected_rows = df.iloc[0:3]
print("Filas 0 a 2:")
print(selected_rows)

# Selección por índice
selected_rows = df.loc[0:3]
print("Filas 0 a 3:")
print(selected_rows)

selected_data = df.loc[0:3, ['model', 'hp']]
print("Filas 0 a 3 para columnas específicas:")
print(selected_data)

# Selección por posición
selected_rows = df.iloc[0:2]
print("Primeras 2 filas:")
print(selected_rows)

selected_data = df.iloc[2, 3]
print("Valor en posición específica:")
print(selected_data)

selected_data = df.iloc[0:2, 0:2]
print("Primeras 2 filas y primeras 2 columnas:")
print(selected_data)

# Selección sin que esté en el índice
value = df.iat[1, 1]
print("Valor de la primera fila y la primera columna:")
print(value)

column_values = df.iloc[:, 2]
print("Todas las filas de la columna en la segunda posición:")
print(column_values)

# Transponer el DataFrame
transposed_df = df.T
print("DataFrame transpuesto:")
print(transposed_df)

# Filtrar DataFrame según una condición de valor para una columna
filtered_df = df[df['model'].str.len() > 7]
print("DataFrame filtrado:")
print(filtered_df)

# Filtrar DataFrame basado en una condición de valor en una columna
filtered_df = df[df['model'].isin(['condition_value1', 'condition_value2'])]
print("DataFrame filtrado basado en valores específicos:")
print(filtered_df)

# Filtro basado en múltiples condiciones en múltiples columnas usando el operador AND
filtered_df = df[df['model'].isin(['Mazda RX4', 'Toyota Corolla']) & (df['hp'] > 150)]
print("DataFrame filtrado con condiciones AND:")
print(filtered_df)

# Filtro basado en múltiples condiciones en múltiples columnas usando el operador OR
filtered_df = df[(df['model'] == 'Mazda RX4') | (df['hp'] > 3)]
print("DataFrame filtrado con condiciones OR:")
print(filtered_df)



               model   mpg  cyl   disp   hp  drat     wt   qsec  vs  am  gear  \
0          Mazda RX4  21.0    6  160.0  110  3.90  2.620  16.46   0   1     4   
1      Mazda RX4 Wag  21.0    6  160.0  110  3.90  2.875  17.02   0   1     4   
2         Datsun 710  22.8    4  108.0   93  3.85  2.320  18.61   1   1     4   
3     Hornet 4 Drive  21.4    6  258.0  110  3.08  3.215  19.44   1   0     3   
4  Hornet Sportabout  18.7    8  360.0  175  3.15  3.440  17.02   0   0     3   

   carb  
0     4  
1     4  
2     1  
3     1  
4     2  
             model   mpg  cyl   disp   hp  drat     wt  qsec  vs  am  gear  \
27    Lotus Europa  30.4    4   95.1  113  3.77  1.513  16.9   1   1     5   
28  Ford Pantera L  15.8    8  351.0  264  4.22  3.170  14.5   0   1     5   
29    Ferrari Dino  19.7    6  145.0  175  3.62  2.770  15.5   0   1     5   
30   Maserati Bora  15.0    8  301.0  335  3.54  3.570  14.6   0   1     5   
31      Volvo 142E  21.4    4  121.0  109  4.11  2.780  18.6   

Selección diferente por opciones de etiqueta

- `loc:` solo funciona en el índice
- `iloc:` trabaja en posición
- `iat:` Obtener valores escalares. es un `iloc` muy rapido.

In [38]:
# selección por indice
selected_row = df.iloc[3]
print("Fila seleccionada por indice:")
print(selected_row)

# selección por indice de nombres de etiquetas específicas
selected_row = df.loc[df['model'] == 'Mazda RX4']
print("Fila seleccionada por etiqueta de indice:")
print(selected_row)

# Selección por posición
selected_row = df.iloc[2]
print("Fila seleccionada por posición:")
print(selected_row)

# Seleccion por posicion entre filas dadas como rango
selected_rows = df.iloc[2:5]
print("Filas seleccionadas por rango de posición:")
print(selected_rows)


Fila seleccionada por indice:
model    Hornet 4 Drive
mpg                21.4
cyl                   6
disp              258.0
hp                  110
drat               3.08
wt                3.215
qsec              19.44
vs                    1
am                    0
gear                  3
carb                  1
Name: 3, dtype: object
Fila seleccionada por etiqueta de indice:
       model   mpg  cyl   disp   hp  drat    wt   qsec  vs  am  gear  carb
0  Mazda RX4  21.0    6  160.0  110   3.9  2.62  16.46   0   1     4     4
Fila seleccionada por posición:
model    Datsun 710
mpg            22.8
cyl               4
disp          108.0
hp               93
drat           3.85
wt             2.32
qsec          18.61
vs                1
am                1
gear              4
carb              1
Name: 2, dtype: object
Filas seleccionadas por rango de posición:
               model   mpg  cyl   disp   hp  drat     wt   qsec  vs  am  gear  \
2         Datsun 710  22.8    4  108.0   93  3.8

**Ejercicio**

¿Qué produce `df.iloc[0:3, 0:3]` ?

In [None]:
## Tu respuesta
# La expresión df.iloc[0:3, 0:3] selecciona un subconjunto del DataFrame df que incluye las primeras 3 filas y las primeras 3 columnas.

In [39]:
# seleccion por posicion entre numeros de fila especificos dados
# Completar
# Seleccionar por posición entre filas dadas como rango
selected_rows = df.iloc[2:5, :]  # Selecciona filas de la posición 2 a la 4 (5 excluido) y todas las columnas
print(selected_rows)


               model   mpg  cyl   disp   hp  drat     wt   qsec  vs  am  gear  \
2         Datsun 710  22.8    4  108.0   93  3.85  2.320  18.61   1   1     4   
3     Hornet 4 Drive  21.4    6  258.0  110  3.08  3.215  19.44   1   0     3   
4  Hornet Sportabout  18.7    8  360.0  175  3.15  3.440  17.02   0   0     3   

   carb  
2     1  
3     1  
4     2  


Selección por índice de fila y columna (el índice comienza con 0).

El siguiente caso obtendrá el valor `[índice de la primera fila, índice de la primera columna]`.

In [None]:
# obtener valores escalares. es un iloc muy rapido
# print(df.iat[1,1])
value = df.iat[1, 1]
print("Valor en la primera fila y la primera columna:", value)


In [None]:
# Obtencion de datos sin que este en el indice
#print(df.iloc[1,1])
data = df.iloc[1, 1]
print("Dato en la posición específica:", data)


In [None]:
# selecciona columnas por posicion
#print (df.iloc[:, 2])
column_values = df.iloc[:, 2]
print("Valores de todas las filas en la columna en la segunda posición:", column_values)


In [None]:
# Transpuesta
# df.T
transposed_df = df.T
print("DataFrame transpuesto:")
print(transposed_df)


#### Indexado Booleano

In [None]:
# Completar
filtered_df = df[df['column_name'] > 7.5]
print("DataFrame filtrado por una condición en una columna:")
print(filtered_df)


In [None]:
# Completar
filtered_df = df[df['column_name'].isin(['condition_value1', 'condition_value2'])]
print("DataFrame filtrado por múltiples condiciones en una columna:")
print(filtered_df)


In [None]:
# Completar
filtered_df = df[(df['column1'] > 7.5) & (df['column2'] > 3)]
print("DataFrame filtrado con condiciones AND:")
print(filtered_df)


In [None]:
# Completar
filtered_df = df[(df['column1'] > 7.5) | (df['column2'] > 3)]
print("DataFrame filtrado con condiciones OR:")
print(filtered_df)


### Operaciones básicas con Pandas

* Convertir cadenas a series de fechas: `pd.to_datetime(pd.Series(['2017-04-01','2017-04-02','2017-04-03']))`.

* Cambiar el nombre de una columna específica: `df.rename(columns={‘old_columnname’:‘new_columnname'}, inplace=True)`

* Cambiar el nombre de todas las columnas del DataFrame: `df.columns = ['col1_new_name','col2_new_name'...]`

* Marcar duplicados: `df.duplicated()`

* Quitar duplicados:`df = df.drop_duplicates()`

* Quitar duplicados en una columna específica: `df.drop_duplicates(['column_name'])`

* Quitar los duplicados en una columna específica, pero se conserva la primera o la última observación en el conjunto de duplicados: `df.drop_duplicates(['column_name'], keep = 'first') # cambiar al ultimo para conservar la ultima observación del duplicado`.

* Crear una nueva columna a partir de una columna existente: `df['new_column_name'] = df['new_column_name'] + 5`

* Crear una nueva columna a partir de los elementos de dos columnas: `df['new_column_name'] = df['existing_column1'] + '_' + df['existing_column2']`

* Agregar una lista o una nueva columna a DataFrame: `df['new_column_name'] = pd.Series(mylist)`

* Descartar las filas y columnas faltantes que tienen valores faltantes: `df.dropna()`

* Reemplaza todos los valores faltantes con 0 (o puede usar cualquier int o str): `df.fillna(value=0)`

* Reemplaza los valores faltantes con la última observación válida (útil en datos de series de tiempo). Por ejemplo, la temperatura no cambia drásticamente en comparación con una observación anterior. Una forma es llenar de NA forward-backward más alla de la media.

    1) 'pad' / 'ffill' - forward fill

    2) 'bfill'/'backfill' - backward fill

    Límite: si se especifica el método, este es el número máximo de valores de NaN consecutivos para completar forward/backward fill: `df.fillna (method = 'ffill', inplace= True, limit = 1)`

* Verifica la condición del valor faltante y devuelva el valor Booleano de `True` o `False` para cada celda: `pd.isnull(df)`

* Reemplaza todos los valores faltantes para una columna dada con la media: `mean=df['column_name].mean(); df['column_name'].fillna(mean)`

* Devuelve la media para cada columna: `df.mean()`

* Retorna el máximo para cada columna: `df.max()`

* Retorno el mínimo para cada columna: `df.min()`

* Devuelve la suma para cada columna: `df.sum()`

* Conteo para cada columna: `df.count()`

* Devuelve la suma acumulada para cada columna: `df.cumsum()`

* Aplica una función a lo largo de cualquier eje del DataFrame: `df.apply(np.cumsum)`

* Itera sobre cada elemento de una serie y realizar la acción deseada: `df['column_name'].map(lambda x: 1+x) # esto itera sobre la columna y agrega el valor 1 a cada elemento`

* Aplica una función a cada elemento del dataframe:`func = lambda x: x + 1 # función para agregar una constante 1 a cada elemento del dataframe df.applymap(func)`.

In [40]:
cadena_fechas = ('2017-04-01','2017-04-02','2017-04-03','2017-04-04')
pd.to_datetime(pd.Series(cadena_fechas))

0   2017-04-01
1   2017-04-02
2   2017-04-03
3   2017-04-04
dtype: datetime64[ns]

In [42]:
df.rename(columns = {'Sepal.Length': 'Sepal_Length'}, inplace=True)

In [48]:
#df.columns = ['Sepal_Length', 'Sepal_Width', 'Petal_Length', 'Petal_Width', 'Species']


In [44]:
# Removemos los duplicados

data_1 = {'primer_nombre': ['Amy', 'Amy', 'Jason', 'Nick', 'Stephen','Amy'],
        'ultimo_nombre': ['Jackson', 'J', 'Miller', 'Milner', 'L','J'],
        'edad': [42, 42, 36, 24, 24, 42]}
df = pd.DataFrame(data_1, columns = ['primer_nombre', 'ultimo_nombre', 'edad'])
print(df)

  primer_nombre ultimo_nombre  edad
0           Amy       Jackson    42
1           Amy             J    42
2         Jason        Miller    36
3          Nick        Milner    24
4       Stephen             L    24
5           Amy             J    42


In [45]:
print(df.duplicated())

0    False
1    False
2    False
3    False
4    False
5     True
dtype: bool


In [46]:
print(df.drop_duplicates())

  primer_nombre ultimo_nombre  edad
0           Amy       Jackson    42
1           Amy             J    42
2         Jason        Miller    36
3          Nick        Milner    24
4       Stephen             L    24


In [47]:
df.drop_duplicates(['primer_nombre'], keep ='first')

Unnamed: 0,primer_nombre,ultimo_nombre,edad
0,Amy,Jackson,42
2,Jason,Miller,36
3,Nick,Milner,24
4,Stephen,L,24


**Ejercicio**

* Agrega las columnas siguientes: `edad_mas_5`, `nombre_completo` y `genero`
 - `edad_mas_5`viene de sumar 5 a la etiqueta `edad`
 - `nombre_completo` viene de sumar las etiquetas `primer_nombre`, `_` y `ultimo_nombre`
 - `genero` es una serie de elementos `'F','F','M','M','M','F'.`

In [49]:
# Tu respuesta
import pandas as pd

# Crear el DataFrame inicial
df = pd.DataFrame({
    'edad': [25, 30, 40, 35, 28, 32],
    'primer_nombre': ['Juan', 'María', 'Pedro', 'Ana', 'Luis', 'Laura'],
    'ultimo_nombre': ['Pérez', 'Gómez', 'González', 'López', 'Torres', 'Martínez']
})

# Agregar la columna 'edad_mas_5'
df['edad_mas_5'] = df['edad'] + 5

# Agregar la columna 'nombre_completo'
df['nombre_completo'] = df['primer_nombre'] + ' ' + df['ultimo_nombre']

# Agregar la columna 'genero'
df['genero'] = pd.Series(['F', 'F', 'M', 'M', 'M', 'F'])

# Imprimir el DataFrame resultante
print(df)


   edad primer_nombre ultimo_nombre  edad_mas_5 nombre_completo genero
0    25          Juan         Pérez          30      Juan Pérez      F
1    30         María         Gómez          35     María Gómez      F
2    40         Pedro      González          45  Pedro González      M
3    35           Ana         López          40       Ana López      M
4    28          Luis        Torres          33     Luis Torres      M
5    32         Laura      Martínez          37  Laura Martínez      F


#### Datos perdidos

pandas usa principalmente el valor `np.nan` para representar los datos que faltan. Por defecto no se incluye en los cálculos.

In [50]:
import pandas as pd
import numpy as np

# Crear un DataFrame de ejemplo
df = pd.DataFrame({
    'A': [1, 2, np.nan, 4, 5],
    'B': [6, 7, 8, np.nan, 10],
    'C': [11, np.nan, 13, 14, 15]
})

# Imprimir el DataFrame original
print("DataFrame original:")
print(df)

# Verificar los valores nulos en el DataFrame
print("Valores nulos:")
print(pd.isnull(df))

# Eliminar filas con valores nulos
print("DataFrame sin filas con valores nulos:")
print(df.dropna())

# Rellenar valores nulos con un valor específico
print("DataFrame con valores nulos rellenados:")
print(df.fillna(value=0))


DataFrame original:
     A     B     C
0  1.0   6.0  11.0
1  2.0   7.0   NaN
2  NaN   8.0  13.0
3  4.0   NaN  14.0
4  5.0  10.0  15.0
Valores nulos:
       A      B      C
0  False  False  False
1  False  False   True
2   True  False  False
3  False   True  False
4  False  False  False
DataFrame sin filas con valores nulos:
     A     B     C
0  1.0   6.0  11.0
4  5.0  10.0  15.0
DataFrame con valores nulos rellenados:
     A     B     C
0  1.0   6.0  11.0
1  2.0   7.0   0.0
2  0.0   8.0  13.0
3  4.0   0.0  14.0
4  5.0  10.0  15.0


#### Operaciones

In [51]:
import pandas as pd
import numpy as np

# Crear un DataFrame de ejemplo
df = pd.DataFrame({
    'edad': [25, 30, np.nan, 35, 40],
    'altura': [160, 170, 175, np.nan, 180],
    'peso': [60, 70, 80, 90, 100]
})

# Calcular la media de una columna
media = df['edad'].mean()
print("Media de la columna 'edad':", media)

# Reemplazar los valores NaN con la media
df['edad'].fillna(media, inplace=True)
print("DataFrame con valores NaN reemplazados:", df)

# Calcular la media de todas las columnas
media_total = df.mean()
print("Media de todas las columnas:")
print(media_total)

# Calcular el valor mínimo de una columna
minimo = df['altura'].min()
print("Valor mínimo de la columna 'altura':", minimo)

# Calcular el valor máximo de una columna
maximo = df['peso'].max()
print("Valor máximo de la columna 'peso':", maximo)

# Calcular la suma de una columna
suma = df['peso'].sum()
print("Suma de la columna 'peso':", suma)

# Contar el número de valores no nulos en una columna
conteo = df['edad'].count()
print("Número de valores no nulos en la columna 'edad':", conteo)

# Calcular la suma acumulativa de las columnas
suma_acumulativa = df.cumsum()
print("Suma acumulativa de las columnas:")
print(suma_acumulativa)


Media de la columna 'edad': 32.5
DataFrame con valores NaN reemplazados:    edad  altura  peso
0  25.0   160.0    60
1  30.0   170.0    70
2  32.5   175.0    80
3  35.0     NaN    90
4  40.0   180.0   100
Media de todas las columnas:
edad       32.50
altura    171.25
peso       80.00
dtype: float64
Valor mínimo de la columna 'altura': 160.0
Valor máximo de la columna 'peso': 100
Suma de la columna 'peso': 400
Número de valores no nulos en la columna 'edad': 5
Suma acumulativa de las columnas:
    edad  altura  peso
0   25.0   160.0    60
1   55.0   330.0   130
2   87.5   505.0   210
3  122.5     NaN   300
4  162.5   685.0   400


#### Aplicación de función a elemento, columna o dataframe


In [None]:
# completar

In [None]:
# Map: itera sobre cada elemento de una serie
# Completar agrega una constante 1 a cada elemento de la column1


In [None]:
#func=lambda x: x+1
#df_filtrado = df.iloc[:, 2:4]
#print(df_filtrado)

In [None]:
#print(df_filtrado.applymap(func))

**Ejemplo**

La parte del poder de pandas se da por los métodos integrados en los objetos Series y DataFrame.

In [None]:
from io import StringIO
data = StringIO('''UPC,Units,Sales,Date
1234,5,20.2,1-1-2014
1234,2,8.,1-2-2014
1234,3,13.,1-3-2014
789,1,2.,1-1-2014
789,2,3.8,1-2-2014
789,,,1-3-2014
789,1,1.8,1-5-2014''')

In [None]:
sales = pd.read_csv(data)
sales

In [None]:
sales.shape

In [None]:
sales.info()

A diferencia del objeto `Series` que prueba la pertenencia con el índice, el `DataFrame` prueba la pertenencia con las columnas. El comportamiento de iteración `(__iter__)` y el comportamiento de pertenencia `(__contains__)` es el mismo para el `DataFrame`.

#### Operaciones de índice


In [None]:
# sales.reindex([0, 4])

In [None]:
#sales.reindex(columns=['Date', 'Sales'])

La selección de columnas e índices se puede combinar para refinar aún más la selección. Además, se pueden incluir nuevas entradas para valores de índices y nombres de columna. Por defecto, usarán el parámetro opcional `fill_value` (que es NaN a menos que se especifique):

In [None]:
#sales.reindex(index=[2, 6, 8], columns=['Sales', 'MIT', 'missing'])

In [None]:
#by_date = sales.set_index('Date')
#by_date

Para agregar un índice entero creciente a un data frame, usa `.reset_index`:

In [None]:
# by_date.reset_index()

#### Obtener y establecer valores


In [None]:
#sales.iat[4, 2]


A continuación, insertamos una columna `Category` después de ` UPC`  (en la posición 1):

In [None]:
#sales.insert(1, 'Category', 'Food')
# sales

El método `.replace` es una forma poderosa de actualizar muchos valores de un data frame en las columnas. Para reemplazar todos los 789 con 790, realiza lo siguiente:

In [None]:
# sales.replace(789, 790)

In [None]:
#sales.replace({'UPC': {789:790},
#                'Sales': {789: 1.4}})

El método `replace` también acepta expresiones regulares (pueden ser incluidas en diccionarios anidados) si  el paramétro`regex` se coloca en `True`.

In [None]:
#sales.replace('(F.*d)', r'\1_stuff', regex=True)

#### Eliminación de  columnas

Hay al menos cuatro formas de eliminar una columna:

* El método `.pop`

* El método `.drop` con `axis = 1`

* El método `.reindex`

* Indexación con una lista de nuevas columnas

El método `.pop` toma el nombre de una columna y lo elimina del data frame. Opera in-place. En lugar de devolver un data frame, devuelve la columna eliminada.

In [None]:
#sales['subcat'] = 'Dairy'
#sales

In [None]:
# sales.pop('subcat')

In [None]:
#sales

Para quitar una columna con el método `.drop`, simplemente páselo (o una lista de nombres de columna) junto con la configuración del parámetro `axis` en 1:

In [52]:
# completar
import pandas as pd

# Crear un DataFrame de ejemplo
df = pd.DataFrame({
    'col1': [1, 2, 3],
    'col2': [4, 5, 6],
    'col3': [7, 8, 9]
})

# Quitar una columna específica
df = df.drop('col2', axis=1)
print(df)


   col1  col3
0     1     7
1     2     8
2     3     9


#### Los dos métodos finales para eliminar columnas

In [None]:
#cols = ['Sales', 'Date']

In [None]:
# sales.reindex(columns=cols)

In [None]:
#sales[cols]

#### Recortes


In [None]:
#sales.head()

In [None]:
#sales.tail(2)

Usemos un índice basado en cadenas para que quede más claro qué hacen las opciones de recorte:

In [53]:

import pandas as pd

# Crear un DataFrame de ejemplo
sales = pd.DataFrame({
    'Producto': ['A', 'B', 'C', 'D', 'E'],
    'Ventas': [100, 200, 150, 300, 250],
}, index=['Enero', 'Febrero', 'Marzo', 'Abril', 'Mayo'])

# Recorte utilizando índice basado en cadenas
sliced_sales = sales.loc['Febrero':'Abril']
print(sliced_sales)


        Producto  Ventas
Febrero        B     200
Marzo          C     150
Abril          D     300


In [54]:
# del sales['new_index']
# Eliminar una columna específica
del sales['Producto']
print(sales)


         Ventas
Enero       100
Febrero     200
Marzo       150
Abril       300
Mayo        250


In [None]:
# df

Para dividir por posición, usa el atributo `.iloc`. Aquí tomamos filas en las posiciones dos hasta cuatro, pero sin incluirlas:

In [None]:
#df.iloc[2:4]

También podemos proporcionar posiciones de columna que también queremos mantener. Las posiciones de las columnas deben seguir una coma en la operación de índice. Aquí mantenemos las filas desde dos hasta pero sin incluir la fila cuatro. También tomamos columnas desde cero hasta pero sin incluir uno (solo la columna en la posición de índice cero).

Esto se expresa en la siguiente figura:


<img src="recorte-pandas.png" alt="Drawing" style="width: 500px;"/>

A continuación se muestra un resumen de las construcciones de  de data frame por posición y etiqueta.


```
.iloc [i: j]            Posición de filas i hasta pero sin incluir j (semiabierto)
.iloc [:, i: j]         Posición de las columnas i hasta pero sin incluir j (semiabierto)
.iloc [[i, k, m]]       Filas en i, k y m (no es un intervalo)
.loc [a: b]             Filas desde la etiqueta de índice a hasta b (cerrado)
.loc [:, c: d]          Columnas de la etiqueta de columna c a d (cerrado)
.loc [: [b, d, f]]      Columnas en las etiquetas b, d y f (no es un intervalo)

```

<img src="recorte-ejemplo.png" alt="Drawing" style="width: 600px;"/>

In [57]:
#df = df.drop(['Category'], axis=1)
#df

In [None]:
# df.iloc[2:4, 0:1]

También hay soporte para dividir datos por etiquetas. Usando el atributo `.loc`, podemos tomar valores de índice desde la `a` a la `d`:

In [58]:
# completar
# Seleccionar valores de índice desde 'a' hasta 'd'
selection = df.loc['a':'d']
print(selection)


Empty DataFrame
Columns: [col1, col3]
Index: []


Y al igual que `.iloc`, `.loc` tiene la capacidad de especificar columnas por etiqueta. En este ejemplo, solo tomamos la columna `Units` y, por lo tanto, devuelve una serie:

In [56]:
# completar
units = df.loc[:, 'Units']
print(units)



Index(['col1', 'col3'], dtype='object')


Sacamos las columnas `UPC` y `Sales`, pero con solo los últimos 4 valores:

In [None]:
# Completar
selection = df.loc[:, ['UPC', 'Sales']].tail(4)
print(selection)


### Merge/Join


In [59]:
data = {
        'emp_id': ['1', '2', '3', '4', '5'],
        'primer_nombre': ['Jason', 'Andy', 'Allen', 'John', 'Amy'],
        'ultimo_nombre': ['Larkin', 'Jacob', 'A', 'AA', 'Jackson']}
df_1 = pd.DataFrame(data, columns = ['emp_id', 'primer_nombre', 'ultimo_nombre'])
print (df_1)

  emp_id primer_nombre ultimo_nombre
0      1         Jason        Larkin
1      2          Andy         Jacob
2      3         Allen             A
3      4          John            AA
4      5           Amy       Jackson


In [60]:
data = {
        'emp_id': ['4', '5', '6', '7'],
        'primer_nombre': ['James', 'Shize', 'Kim', 'Jose'],
        'ultimo_nombre': ['Alexander', 'Suma', 'Mike', 'G']}
df_2 = pd.DataFrame(data, columns = ['emp_id', 'primer_nombre', 'ultimo_nombre'])
print (df_2)

  emp_id primer_nombre ultimo_nombre
0      4         James     Alexander
1      5         Shize          Suma
2      6           Kim          Mike
3      7          Jose             G


In [61]:
# usando concat
df = pd.concat([df_1, df_2])
print(df)

  emp_id primer_nombre ultimo_nombre
0      1         Jason        Larkin
1      2          Andy         Jacob
2      3         Allen             A
3      4          John            AA
4      5           Amy       Jackson
0      4         James     Alexander
1      5         Shize          Suma
2      6           Kim          Mike
3      7          Jose             G


In [62]:
# Juntando dos dataframes a lo largo de las columnas
pd.concat([df_1,df_2], axis=1)

Unnamed: 0,emp_id,primer_nombre,ultimo_nombre,emp_id.1,primer_nombre.1,ultimo_nombre.1
0,1,Jason,Larkin,4.0,James,Alexander
1,2,Andy,Jacob,5.0,Shize,Suma
2,3,Allen,A,6.0,Kim,Mike
3,4,John,AA,7.0,Jose,G
4,5,Amy,Jackson,,,


Combinamos dos dataframes basados en el valor `emp_id` en este caso, solo se unirán los `emp_id` presentes en ambas tablas.

In [63]:
print(pd.merge(df_1,df_2, on='emp_id'))

  emp_id primer_nombre_x ultimo_nombre_x primer_nombre_y ultimo_nombre_y
0      4            John              AA           James       Alexander
1      5             Amy         Jackson           Shize            Suma


### Grouping


Pandas nos brinda la capacidad de agrupar data frames por valores de columna y luego fusionarlos nuevamente en un resultado con el método `.groupby`.
Pandas `group by` nos permitirá lograr lo siguiente:

- Aplicar una función de agregación a cada grupo de forma independiente
- Según algunos criterios, divide los datos en grupos.
- Combinar los resultados del `group by` en una estructura de datos.


<img src="Groupby.png" alt="Drawing" style="width: 700px;"/>

Como ejemplo, en el data frame `scores`, calcularemos las puntuaciones medias de cada maestro. Primero llamamos a `.groupby` y entonces invocamos a `.median` en el resultado:

In [None]:
#scores = pd.DataFrame({
#    'name':['Adam', 'Bob', 'Dave', 'Fred'],
#    'age': [15, 16, 16, 15],
#    'test1': [95, 81, 89, None],
#    'test2': [80, 82, 84, 88],
#    'teacher': ['Ashby', 'Ashby', 'Jones', 'Jones']})

In [None]:
import pandas as pd

scores = pd.DataFrame({
    'name':['Adam', 'Bob', 'Dave', 'Fred'],
    'age': [15, 16, 16, 15],
    'test1': [95, 81, 89, None],
    'test2': [80, 82, 84, 88],
    'teacher': ['Ashby', 'Ashby', 'Jones', 'Jones']
})

# Calcular las puntuaciones medias por maestro
mean_scores = scores.groupby('teacher').median()

print(mean_scores)


Esto incluyó la columna `age`, para ignorar que podemos separar solo las columnas de prueba:

In [None]:
# completar
import pandas as pd

scores = pd.DataFrame({
    'name':['Adam', 'Bob', 'Dave', 'Fred'],
    'age': [15, 16, 16, 15],
    'test1': [95, 81, 89, None],
    'test2': [80, 82, 84, 88],
    'teacher': ['Ashby', 'Ashby', 'Jones', 'Jones']
})

# Separar solo las columnas de prueba
test_scores = scores[['test1', 'test2']]

# Calcular los valores medianos de las pruebas por maestro
median_scores = test_scores.groupby('teacher').median()

print(median_scores)


Para encontrar los valores medianos de cada grupo de edad para cada maestro, simplemente agrupa por maestro y edad:


In [None]:
# completar
import pandas as pd

scores = pd.DataFrame({
    'name':['Adam', 'Bob', 'Dave', 'Fred'],
    'age': [15, 16, 16, 15],
    'test1': [95, 81, 89, None],
    'test2': [80, 82, 84, 88],
    'teacher': ['Ashby', 'Ashby', 'Jones', 'Jones']
})

# Calcular los valores medianos de cada grupo de edad para cada maestro
median_scores = scores.groupby(['teacher', 'age']).median()

print(median_scores)


Si queremos los puntajes mínimos y máximos de las pruebas por maestro, usamos el método `.agg` y pasamos una lista de funciones para llamar:

In [None]:
# completar
import pandas as pd

scores = pd.DataFrame({
    'name':['Adam', 'Bob', 'Dave', 'Fred'],
    'age': [15, 16, 16, 15],
    'test1': [95, 81, 89, None],
    'test2': [80, 82, 84, 88],
    'teacher': ['Ashby', 'Ashby', 'Jones', 'Jones']
})

# Obtener puntajes mínimos y máximos por maestro
min_max_scores = scores.groupby('teacher').agg({'test1': ['min', 'max'], 'test2': ['min', 'max']})

print(min_max_scores)


**Ejercicio**

In [None]:
df = pd.DataFrame({'Nombre' : ['jack', 'jane', 'jack', 'jane', 'jack', 'jane', 'jack', 'jane'],
                   'Estado' : ['SFO', 'SFO', 'NYK', 'CA', 'NYK', 'NYK', 'SFO', 'CA'],
                   'Genero':['A','A','B','A','C','B','C','A'],
                   'Edad' : np.random.uniform(24, 50, size=8),
                   'Salario' : np.random.uniform(3000, 5000, size=8),})

Ten en cuenta que las columnas se ordenan automáticamente en su orden alfabético para un orden personalizado, usa el siguiente código_

`df = pd.DataFrame (data, columns = ['Nombre', 'Estado', 'Edad', 'Salario'])`

* Calcula la suma por nombres.

* Encuentra la edad máxima y el salario por nombre/ estado. Puedes usar todas las funciones agregadas, como mínimo, máximo, media, conteo, suma acumulada.

In [None]:
# Tus  respuestas
import pandas as pd
import numpy as np

data = {'Nombre': ['jack', 'jane', 'jack', 'jane', 'jack', 'jane', 'jack', 'jane'],
        'Estado': ['SFO', 'SFO', 'NYK', 'CA', 'NYK', 'NYK', 'SFO', 'CA'],
        'Genero': ['A', 'A', 'B', 'A', 'C', 'B', 'C', 'A'],
        'Edad': np.random.uniform(24, 50, size=8),
        'Salario': np.random.uniform(3000, 5000, size=8)}

df = pd.DataFrame(data, columns=['Nombre', 'Estado', 'Genero', 'Edad', 'Salario'])

suma_por_nombres = df.groupby('Nombre').sum()
print(suma_por_nombres)

max_edad_salario = df.groupby(['Nombre', 'Estado']).agg({'Edad': 'max', 'Salario': 'max'})
print(max_edad_salario)


#### Tablas pivot

Pandas proporciona una función `pivot_table` para crear una tabla pivot (dinámica )de estilo de hoja de cálculo de MS-Excel. Puede tomar los siguientes argumentos:

- `data`: objeto DataFrame
- `values`: columna para agregar
- `index`: etiquetas de fila
- `columns`: etiquetas de columna
- `aggfunc`: función de agregación que se usará en valores, el valor predeterminado es `NumPy.mean`.

Usando una tabla pivot, podemos generalizar ciertos comportamientos grupales. Para obtener las puntuaciones medias de los profesores, podemos ejecutar lo siguiente:

In [64]:
# completar
import pandas as pd

scores = pd.DataFrame({
    'name': ['Adam', 'Bob', 'Dave', 'Fred'],
    'age': [15, 16, 16, 15],
    'test1': [95, 81, 89, None],
    'test2': [80, 82, 84, 88],
    'teacher': ['Ashby', 'Ashby', 'Jones', 'Jones']
})

# Calcular las puntuaciones medias de los profesores
mean_scores = scores.pivot_table(values=['test1', 'test2'], index='teacher', aggfunc='mean')
print(mean_scores)


         test1  test2
teacher              
Ashby     88.0     81
Jones     89.0     86


Si queremos agregar por maestro y edad, simplemente usamos una lista con ambos para el parámetro `index`:

In [None]:
#scores.pivot_table(index=['teacher', 'age'],
#                   values=['test1', 'test2'],
#                   aggfunc='median')

Si queremos aplicar múltiples funciones, simplemente usa una lista de ellas. Aquí, analizamos los puntajes mínimos y máximos de las pruebas por maestro:

In [None]:
#scores.pivot_table(index='teacher',
#                   values=['test1', 'test2'],
#                   aggfunc=[min, max])

Podemos ver que la tabla pivot y de grupo por comportamiento son muy similares. Hay del estilo declarativo de `.pivot_table` y el estilo  semántico de los grupos.

Una característica adicional de las tablas pivots es la capacidad de agregar filas de resumen. Simplemente estableciendo `margins= True` obtenemos esta funcionalidad:

In [None]:
#scores.pivot_table(index='teacher',
#                   values=['test1', 'test2'],
#                   aggfunc='median', margins=True)

<img src="pivot.png" alt="Drawing" style="width: 700px;"/>

In [None]:
#scores.pivot_table(index= ['teacher', 'age'],
#                   values=['test1', 'test2'],
#                   aggfunc=[len, sum], margins=True)

<img src="pivot-parameters.png" alt="Drawing" style="width: 700px;"/>

**Ejercicio** Del dataframe anterior agrupa por estado y nombre y encuentre la edad media para cada grado.


In [None]:
## Tu respuesta
import pandas as pd

df = pd.DataFrame({
    'Nombre' : ['jack', 'jane', 'jack', 'jane', 'jack', 'jane', 'jack', 'jane'],
    'Estado' : ['SFO', 'SFO', 'NYK', 'CA', 'NYK', 'NYK', 'SFO', 'CA'],
    'Genero' : ['A','A','B','A','C','B','C','A'],
    'Edad' : np.random.uniform(24, 50, size=8),
    'Salario' : np.random.uniform(3000, 5000, size=8),
})

# Calcular la edad media para cada estado y nombre
media_edad = df.pivot_table(values='Edad', index=['Estado', 'Nombre'], aggfunc='mean')
print(media_edad)
