<a href="https://colab.research.google.com/github/Josema1304/C8280/blob/main/Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### Pandas


Pandas es un paquete Python de código abierto que proporciona estructuras de datos rápidas, flexibles y expresivas diseñadas para que trabajar con datos "relacionales" o "etiquetados" sea fácil e intuitivo.

### Estructuras de datos
Pandas presenta dos nuevas estructuras de datos en Python: Series y DataFrame, ambas construidas sobre NumPy (esto significa que es rápido).


#### Serie

Este es un objeto unidimensional similar a la columna en una hoja de cálculo o tabla SQL. De forma predeterminada, a cada elemento se le asignará una etiqueta de índice de `0` a `N`.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [None]:
s = pd.Series([1,3,4,np.nan, 5, 6], index = ['A', 'B', 'C', 'D', 'E', 'F'])
print(s)

A    1.0
B    3.0
C    4.0
D    NaN
E    5.0
F    6.0
dtype: float64


Si creas una serie utilizando el diccionario, la clave se convertirá en el índice de forma predeterminada.

In [None]:
dict_ejemplo = {'A': 1, 'B':2, 'C':3, 'D':np.nan, 'E': 5, 'F': 6}
dict_ejemplo

{'A': 1, 'B': 2, 'C': 3, 'D': nan, 'E': 5, 'F': 6}

In [None]:
s = pd.Series(dict_ejemplo)
print(s)

A    1.0
B    2.0
C    3.0
D    NaN
E    5.0
F    6.0
dtype: float64


La contraparte bidimensional de las series unidimensionales es el DataFrame.

### DataFrame

Es un objeto bidimensional similar a una hoja de cálculo o una tabla SQL. Este es el objeto Pandas más utilizado.


In [None]:
data = {'Genero': ['F', 'M', 'M'],
        'Emp_ID': ['E01', 'E02', 'E03'],
        'Edad': [25, 27, 25]}
# Si queremos el orden de las columnas, especificamos en el parametro columns
df = pd.DataFrame(data, columns=['Emp_ID', 'Genero', 'Edad'])
df

Unnamed: 0,Emp_ID,Genero,Edad
0,E01,F,25
1,E02,M,27
2,E03,M,25


#### Lectura y escritura de datos

Veremos tres formatos de archivo de uso común: csv, archivo de texto y Excel.

In [None]:
# Lectura de un archivo csv
df = pd.read_csv('mtcars.csv')
df.head()

Unnamed: 0,model,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
0,Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
1,Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
2,Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
3,Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1
4,Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2


In [None]:
# Escribir un csv
# index = False - no escribe los valores de indice, el valor predeterminado es True
# completar
import pandas as pd

# Crear un DataFrame de ejemplo
data = {
    'Name': ['John', 'Emma', 'Peter'],
    'Age': [25, 30, 35],
    'City': ['New York', 'London', 'Paris']
}

df = pd.DataFrame(data)

# Escribir el DataFrame en un archivo CSV
df.to_csv('output.csv', index=False)


In [None]:
# Leyendo desde un archivo .txt
# df=pd.read_csv('Data/mtcars.txt', sep='\t')
# completar
import pandas as pd

# Create a sample DataFrame
data = {
    'Name': ['John', 'Emma', 'Peter'],
    'Age': [25, 30, 35],
    'City': ['New York', 'London', 'Paris']
}

df = pd.DataFrame(data)

# Write the DataFrame to a CSV file
df.to_csv('output.csv', index=False)


In [None]:
# Leyendo un archivo Excel
#df=pd.read_excel('Data/mtcars.xlsx','Sheet2')
# Completar
import pandas as pd

# Reading an Excel file
df = pd.read_excel('mtcars.xlsx', sheet_name='Sheet2')


### Resumen de estadísticas básicas


In [None]:
#df = pd.read_csv('Data/iris.csv')
# completar
import pandas as pd

# Reading a CSV file
df = pd.read_csv('iris.csv')


#### Covarianza


In [None]:
# covarianza: devuelve la covarianza entre columnas adecuadas
# completar
import pandas as pd

# Create a sample DataFrame
data = {
    'A': [1, 2, 3, 4, 5],
    'B': [5, 4, 3, 2, 1],
    'C': [1, 3, 5, 7, 9]
}

df = pd.DataFrame(data)

# Calculate the covariance
cov_matrix = df.cov()

print(cov_matrix)


     A    B     C
A  2.5 -2.5   5.0
B -2.5  2.5  -5.0
C  5.0 -5.0  10.0


#### Correlación


In [None]:
# completar
import pandas as pd

# Create a sample DataFrame
data = {
    'A': [1, 2, 3, 4, 5],
    'B': [5, 4, 3, 2, 1],
    'C': [1, 3, 5, 7, 9]
}

df = pd.DataFrame(data)

# Calculate the correlation
corr_matrix = df.corr()

print(corr_matrix)


     A    B    C
A  1.0 -1.0  1.0
B -1.0  1.0 -1.0
C  1.0 -1.0  1.0


### Visualización de datos
Pandas DataFrame viene con funciones integradas para ver los datos contenidos:

* Mirando los `n` primeros registros, el valor predeterminado de `n` es 5 si no se especifica:  `df.head(n=2)`.

* Mirando los `n` registros inferiores: `df.tail()`

* Obtener los nombres de las columnas: `df.columns`

* Obtener los tipos de datos de las columnas: `df.types`

* Obtener el índice del dataframe: `df.index`

* Obtener valores únicos: `df[column_name].unique()`

* Obtener valores: `df.values`

* Ordenar el dataframe: `df.sort_values(by =['Column1', 'Column2'], ascending=[True,True'])`

* Seleccionar/ver por el nombre de la columna: `df[column_name]`

* Seleccionar/ver por número de fila `df[0:3]`

* Selección por índice:

- `df.loc[0:3] # índice de 0 a 3`
- `df.loc[0:3,[‘column1’, ‘column2’]] # índice de 0 a 3 para las columnas específicas`

* Selección por posición

- `df.iloc[0:2] # usando el rango, primeras 2 filas`
- `df.iloc[2,3,6] # posición específica`
-  `df.iloc[0:2,0:2] # primeras 2 filas y primeras 2 columnas`

* Selección sin que esté en el índice

- `print(df.ix[1,1]) # valor de la primera fila y la primera columna`
- `print(df.ix[:,2]) # todas las filas de la columna en la segunda posición`

* Alternativa más rápida a `iloc` para obtener valores escalares: `print(df.iat[1,1])`

* Transponer el dataframe: `df.T`

* Filtrar DataFrame según la condición de valor para una columna: `df[df['column_name'] > 7.5]`

* Filtrar DataFrame basado en una condición de valor en una columna: `df[df['column_name'].isin(['condition_value1', 'condition_value2'])]`

* Filtro basado en múltiples condiciones en múltiples columnas usando el operador AND: `df[(df['column1']>7.5) & (df['column2']>3)]`

* Filtro basado en múltiples condiciones en múltiples columnas usando el operador OR: `df[(df[‘column1’]>7.5) | (df['column2']>3)]`.

In [29]:
print ("Nombres de las columnas:" , df.columns)
import pandas as pd

# Assuming df is the DataFrame variable
print("Column names:", df.columns)

Nombres de las columnas: Index(['primer_nombre', 'ultimo_nombre', 'edad'], dtype='object')
Column names: Index(['primer_nombre', 'ultimo_nombre', 'edad'], dtype='object')


In [30]:
print ("Indice del DataFrame : ", df.index)
import pandas as pd

# Assuming df is the DataFrame variable
print("DataFrame index:", df.index)


Indice del DataFrame :  RangeIndex(start=0, stop=6, step=1)
DataFrame index: RangeIndex(start=0, stop=6, step=1)


In [31]:
print(df.values)
import pandas as pd

# Assuming df is the DataFrame variable
print(df.values)

[['Amy' 'Jackson' 42]
 ['Amy' 'J' 42]
 ['Jason' 'Miller' 36]
 ['Nick' 'Milner' 24]
 ['Stephen' 'L' 24]
 ['Amy' 'J' 42]]
[['Amy' 'Jackson' 42]
 ['Amy' 'J' 42]
 ['Jason' 'Miller' 36]
 ['Nick' 'Milner' 24]
 ['Stephen' 'L' 24]
 ['Amy' 'J' 42]]


In [32]:
# Valores para una especifica columna
# Completar
import pandas as pd

# Create a DataFrame
data = {
    'Name': ['John', 'Alice', 'Bob', 'Jane', 'Michael'],
    'Age': [25, 30, 22, 27, 35],
    'Salary': [50000, 60000, 45000, 55000, 70000]
}

df = pd.DataFrame(data)

# Retrieve the values for the 'Age' column
age_values = df['Age']

# Display the values
print(age_values)


0    25
1    30
2    22
3    27
4    35
Name: Age, dtype: int64


In [34]:
#df['Species'].unique()

In [35]:
# df['Sepal.Length'].unique()

In [None]:
# df.sort_values(by = ['Species', 'Sepal.Length'], ascending=[True, True])

In [None]:
#df['Species']

In [36]:
# completar
import pandas as pd

# Crear un DataFrame de ejemplo
data = {
    'Especie': ['setosa', 'versicolor', 'virginica', 'setosa', 'versicolor'],
    'Longitud.Sepal': [5.1, 5.7, 6.3, 4.9, 5.8],
    'Ancho.Sepal': [3.5, 2.8, 3.3, 3.0, 2.9]
}

df = pd.DataFrame(data)

# Obtener valores únicos de la columna 'Especie'
especie_unique = df['Especie'].unique()
print("Valores únicos de la columna 'Especie':")
print(especie_unique)

# Obtener valores únicos de la columna 'Longitud.Sepal'
longitud_sepal_unique = df['Longitud.Sepal'].unique()
print("Valores únicos de la columna 'Longitud.Sepal':")
print(longitud_sepal_unique)

# Ordenar el DataFrame por las columnas 'Especie' y 'Longitud.Sepal' en orden ascendente
df_sorted = df.sort_values(by=['Especie', 'Longitud.Sepal'], ascending=[True, True])
print("DataFrame ordenado por 'Especie' y 'Longitud.Sepal':")
print(df_sorted)

# Acceder a la columna 'Especie'
especie_column = df['Especie']
print("Columna 'Especie':")
print(especie_column)


Valores únicos de la columna 'Especie':
['setosa' 'versicolor' 'virginica']
Valores únicos de la columna 'Longitud.Sepal':
[5.1 5.7 6.3 4.9 5.8]
DataFrame ordenado por 'Especie' y 'Longitud.Sepal':
      Especie  Longitud.Sepal  Ancho.Sepal
3      setosa             4.9          3.0
0      setosa             5.1          3.5
1  versicolor             5.7          2.8
4  versicolor             5.8          2.9
2   virginica             6.3          3.3
Columna 'Especie':
0        setosa
1    versicolor
2     virginica
3        setosa
4    versicolor
Name: Especie, dtype: object


Selección diferente por opciones de etiqueta

- `loc:` solo funciona en el índice
- `iloc:` trabaja en posición
- `iat:` Obtener valores escalares. es un `iloc` muy rapido.

In [37]:
# selección por indice
# completar
import pandas as pd

# Create a DataFrame
data = {
    'Name': ['John', 'Alice', 'Bob', 'Jane', 'Michael'],
    'Age': [25, 30, 22, 27, 35],
    'Salary': [50000, 60000, 45000, 55000, 70000]
}

df = pd.DataFrame(data)

# Selection by index using loc
loc_result = df.loc[2]  # Selects the row with index label 2
print("Selection by index using loc:")
print(loc_result)

# Selection by index using iloc
iloc_result = df.iloc[2]  # Selects the row at position 2 (zero-based indexing)
print("Selection by index using iloc:")
print(iloc_result)

# Selection of scalar value using iat
iat_result = df.iat[2, 1]  # Selects the value at position (2, 1)
print("Selection of scalar value using iat:")
print(iat_result)


Selection by index using loc:
Name        Bob
Age          22
Salary    45000
Name: 2, dtype: object
Selection by index using iloc:
Name        Bob
Age          22
Salary    45000
Name: 2, dtype: object
Selection of scalar value using iat:
22


In [39]:
# selección por indice de nombres de etiquetas específicas
# completar
import pandas as pd

# Create a DataFrame
data = {
    'Name': ['John', 'Alice', 'Bob', 'Jane', 'Michael'],
    'Age': [25, 30, 22, 27, 35],
    'Salary': [50000, 60000, 45000, 55000, 70000]
}

df = pd.DataFrame(data, index=['A', 'B', 'C', 'D', 'E'])

# Selection by index of specific label names using loc
specific_rows = df.loc[['B', 'D']]  # Selects rows with index labels 'B' and 'D'
print("Selection by index of specific label names using loc:")
print(specific_rows)

Selection by index of specific label names using loc:
    Name  Age  Salary
B  Alice   30   60000
D   Jane   27   55000


In [41]:
# Selección por posición
# completar
import pandas as pd

# Create a DataFrame
data = {
    'Name': ['John', 'Alice', 'Bob', 'Jane', 'Michael'],
    'Age': [25, 30, 22, 27, 35],
    'Salary': [50000, 60000, 45000, 55000, 70000]
}

df = pd.DataFrame(data)

# Selection by position using iloc
# Select the first row
first_row = df.iloc[0]
print("Selection of the first row:")
print(first_row)

# Select rows within a specific range
range_of_rows = df.iloc[1:3]  # Selects rows at positions 1 and 2
print("Selection of rows within a specific range:")
print(range_of_rows)

# Select a specific row by position
specific_row = df.iloc[2]
print("Selection of a specific row:")
print(specific_row)


Selection of the first row:
Name       John
Age          25
Salary    50000
Name: 0, dtype: object
Selection of rows within a specific range:
    Name  Age  Salary
1  Alice   30   60000
2    Bob   22   45000
Selection of a specific row:
Name        Bob
Age          22
Salary    45000
Name: 2, dtype: object


In [42]:
# Seleccion por posicion entre filas dadas como rango
# completar
import pandas as pd

# Create a DataFrame
data = {
    'Name': ['John', 'Alice', 'Bob', 'Jane', 'Michael'],
    'Age': [25, 30, 22, 27, 35],
    'Salary': [50000, 60000, 45000, 55000, 70000]
}

df = pd.DataFrame(data)

# Selection by position between rows given as a range using iloc
selected_rows = df.iloc[1:4]  # Selects rows from position 1 to 3 (exclusive of end position)
print("Selection by position between rows given as a range:")
print(selected_rows)


Selection by position between rows given as a range:
    Name  Age  Salary
1  Alice   30   60000
2    Bob   22   45000
3   Jane   27   55000


**Ejercicio**

¿Qué produce `df.iloc[0:3, 0:3]` ?

## Tu respuesta
El código `df.iloc[0:3, 0:3]` produce un sub-marco de datos que incluye las filas y columnas especificadas por el rango del índice posicional.

Desglosemos el código:

- `0:3` para las filas: Selecciona las filas desde la posición 0 del índice hasta la posición 3, pero sin incluirla. Esto significa que selecciona las filas en las posiciones 0, 1 y 2 (un total de 3 filas).

- `0:3` para las columnas: Selecciona las columnas desde la posición de índice 0 hasta la posición de índice 3, pero sin incluirla. Esto significa que selecciona las columnas en las posiciones 0, 1 y 2 (un total de 3 columnas).

Por lo tanto, `df.iloc[0:3, 0:3]` produce un submarco de datos que incluye las 3 primeras filas y las 3 primeras columnas del marco de datos original `df`. El submarco de datos resultante tendrá dimensiones 3x3.

Tenga en cuenta que las posiciones de los índices están basadas en cero, por lo que la primera fila/columna está en la posición 0.

Si imprimes el resultado de `df.iloc[0:3, 0:3]`, verás el sub-marco de datos seleccionado conteniendo las filas y columnas especificadas.

Si necesitas alguna aclaración más, dímelo.

In [43]:
# seleccion por posicion entre numeros de fila especificos dados
# Completar
import pandas as pd

# Create a DataFrame
data = {
    'Name': ['John', 'Alice', 'Bob', 'Jane', 'Michael'],
    'Age': [25, 30, 22, 27, 35],
    'Salary': [50000, 60000, 45000, 55000, 70000]
}

df = pd.DataFrame(data)

# Selection by position among specific row numbers using iloc
row_numbers = [1, 3, 4]  # Specific row numbers to select
selected_rows = df.iloc[row_numbers]  # Selects rows at the specified row numbers
print("Selection by position among specific row numbers:")
print(selected_rows)


Selection by position among specific row numbers:
      Name  Age  Salary
1    Alice   30   60000
3     Jane   27   55000
4  Michael   35   70000


Selección por índice de fila y columna (el índice comienza con 0).

El siguiente caso obtendrá el valor `[índice de la primera fila, índice de la primera columna]`.

In [44]:
# obtener valores escalares. es un iloc muy rapido
print(df.iat[1,1])

30


In [45]:
# Obtencion de datos sin que este en el indice
print(df.iloc[1,1])

30


In [47]:
# selecciona columnas por posicion
print(df.iloc[:, 2])

0    50000
1    60000
2    45000
3    55000
4    70000
Name: Salary, dtype: int64


In [49]:
df.T

Unnamed: 0,0,1,2,3,4
Name,John,Alice,Bob,Jane,Michael
Age,25,30,22,27,35
Salary,50000,60000,45000,55000,70000


#### Indexado Booleano

In [50]:
# Completar
import pandas as pd

# Create a DataFrame
data = {
    'Name': ['John', 'Alice', 'Bob', 'Jane', 'Michael'],
    'Age': [25, 30, 22, 27, 35],
    'Salary': [50000, 60000, 45000, 55000, 70000]
}

df = pd.DataFrame(data)

# Boolean indexing
# Select rows where Age is greater than 25
condition = df['Age'] > 25
selected_rows = df[condition]
print("Selected rows based on condition:")
print(selected_rows)


Selected rows based on condition:
      Name  Age  Salary
1    Alice   30   60000
3     Jane   27   55000
4  Michael   35   70000


### Operaciones básicas con Pandas

* Convertir cadenas a series de fechas: `pd.to_datetime(pd.Series(['2017-04-01','2017-04-02','2017-04-03']))`.

* Cambiar el nombre de una columna específica: `df.rename(columns={‘old_columnname’:‘new_columnname'}, inplace=True)`

* Cambiar el nombre de todas las columnas del DataFrame: `df.columns = ['col1_new_name','col2_new_name'...]`

* Marcar duplicados: `df.duplicated()`

* Quitar duplicados:`df = df.drop_duplicates()`

* Quitar duplicados en una columna específica: `df.drop_duplicates(['column_name'])`

* Quitar los duplicados en una columna específica, pero se conserva la primera o la última observación en el conjunto de duplicados: `df.drop_duplicates(['column_name'], keep = 'first') # cambiar al ultimo para conservar la ultima observación del duplicado`.

* Crear una nueva columna a partir de una columna existente: `df['new_column_name'] = df['new_column_name'] + 5`

* Crear una nueva columna a partir de los elementos de dos columnas: `df['new_column_name'] = df['existing_column1'] + '_' + df['existing_column2']`

* Agregar una lista o una nueva columna a DataFrame: `df['new_column_name'] = pd.Series(mylist)`

* Descartar las filas y columnas faltantes que tienen valores faltantes: `df.dropna()`

* Reemplaza todos los valores faltantes con 0 (o puede usar cualquier int o str): `df.fillna(value=0)`

* Reemplaza los valores faltantes con la última observación válida (útil en datos de series de tiempo). Por ejemplo, la temperatura no cambia drásticamente en comparación con una observación anterior. Una forma es llenar de NA forward-backward más alla de la media.

    1) 'pad' / 'ffill' - forward fill

    2) 'bfill'/'backfill' - backward fill

    Límite: si se especifica el método, este es el número máximo de valores de NaN consecutivos para completar forward/backward fill: `df.fillna (method = 'ffill', inplace= True, limit = 1)`

* Verifica la condición del valor faltante y devuelva el valor Booleano de `True` o `False` para cada celda: `pd.isnull(df)`

* Reemplaza todos los valores faltantes para una columna dada con la media: `mean=df['column_name].mean(); df['column_name'].fillna(mean)`

* Devuelve la media para cada columna: `df.mean()`

* Retorna el máximo para cada columna: `df.max()`

* Retorno el mínimo para cada columna: `df.min()`

* Devuelve la suma para cada columna: `df.sum()`

* Conteo para cada columna: `df.count()`

* Devuelve la suma acumulada para cada columna: `df.cumsum()`

* Aplica una función a lo largo de cualquier eje del DataFrame: `df.apply(np.cumsum)`

* Itera sobre cada elemento de una serie y realizar la acción deseada: `df['column_name'].map(lambda x: 1+x) # esto itera sobre la columna y agrega el valor 1 a cada elemento`

* Aplica una función a cada elemento del dataframe:`func = lambda x: x + 1 # función para agregar una constante 1 a cada elemento del dataframe df.applymap(func)`.

In [None]:
cadena_fechas = ('2017-04-01','2017-04-02','2017-04-03','2017-04-04')
pd.to_datetime(pd.Series(cadena_fechas))

In [None]:
df.rename(columns = {'Sepal.Length': 'Sepal_Length'}, inplace=True)

In [None]:
df.columns = ['Sepal_Length', 'Sepal_Width', 'Petal_Length', 'Petal_Width', 'Species']


In [None]:
# Removemos los duplicados

data_1 = {'primer_nombre': ['Amy', 'Amy', 'Jason', 'Nick', 'Stephen','Amy'],
        'ultimo_nombre': ['Jackson', 'J', 'Miller', 'Milner', 'L','J'],
        'edad': [42, 42, 36, 24, 24, 42]}
df = pd.DataFrame(data_1, columns = ['primer_nombre', 'ultimo_nombre', 'edad'])
print(df)

In [22]:
print(df.duplicated())

0    False
1    False
2    False
3    False
4    False
5     True
dtype: bool


In [23]:
print(df.drop_duplicates())

  primer_nombre ultimo_nombre  edad
0           Amy       Jackson    42
1           Amy             J    42
2         Jason        Miller    36
3          Nick        Milner    24
4       Stephen             L    24


In [24]:
df.drop_duplicates(['primer_nombre'], keep ='first')

Unnamed: 0,primer_nombre,ultimo_nombre,edad
0,Amy,Jackson,42
2,Jason,Miller,36
3,Nick,Milner,24
4,Stephen,L,24


**Ejercicio**

* Agrega las columnas siguientes: `edad_mas_5`, `nombre_completo` y `genero`
 - `edad_mas_5`viene de sumar 5 a la etiqueta `edad`
 - `nombre_completo` viene de sumar las etiquetas `primer_nombre`, `_` y `ultimo_nombre`
 - `genero` es una serie de elementos `'F','F','M','M','M','F'.`

In [None]:
# Tu respuesta
import pandas as pd

# Create a DataFrame
data = {
    'first_name': ['John', 'Alice', 'Bob', 'Jane', 'Michael'],
    'last_name': ['Doe', 'Smith', 'Johnson', 'Doe', 'Williams'],
    'age': [25, 30, 22, 27, 35]
}

df = pd.DataFrame(data)

# Add the 'age_mas_5' column
df['age_mas_5'] = df['age'] + 5

# Add the 'full_name' column
df['full_name'] = df['first_name'] + '_' + df['last_name']

# Add the 'gender' column
gender = ['F', 'F', 'M', 'M', 'M', 'F']
df['gender'] = pd.Series(gender)

# Display the updated DataFrame
print(df)


#### Datos perdidos

pandas usa principalmente el valor `np.nan` para representar los datos que faltan. Por defecto no se incluye en los cálculos.

In [25]:
#df.iloc[4,2] = np.nan
print(df)

  primer_nombre ultimo_nombre  edad
0           Amy       Jackson    42
1           Amy             J    42
2         Jason        Miller    36
3          Nick        Milner    24
4       Stephen             L    24
5           Amy             J    42


In [26]:
print(df.dropna())

  primer_nombre ultimo_nombre  edad
0           Amy       Jackson    42
1           Amy             J    42
2         Jason        Miller    36
3          Nick        Milner    24
4       Stephen             L    24
5           Amy             J    42


In [27]:
#df.iloc[4,2] = np.nan
print(df)

  primer_nombre ultimo_nombre  edad
0           Amy       Jackson    42
1           Amy             J    42
2         Jason        Miller    36
3          Nick        Milner    24
4       Stephen             L    24
5           Amy             J    42


In [28]:
df.fillna(value =0)

Unnamed: 0,primer_nombre,ultimo_nombre,edad
0,Amy,Jackson,42
1,Amy,J,42
2,Jason,Miller,36
3,Nick,Milner,24
4,Stephen,L,24
5,Amy,J,42


In [53]:
#df.iloc[4,2] = np.nan
print(df)

      Name  Age  Salary
0     John   25   50000
1    Alice   30   60000
2      Bob   22   45000
3     Jane   27   55000
4  Michael   35   70000


In [54]:
pd.isnull(df)

Unnamed: 0,Name,Age,Salary
0,False,False,False
1,False,False,False
2,False,False,False
3,False,False,False
4,False,False,False


#### Operaciones

In [55]:
#media = df['edad'].mean()
#media
# usamos la media para reeemplazar el NaN
# completar
import pandas as pd
import numpy as np

# Create a DataFrame
data = {
    'age': [25, 30, np.nan, 27, 35]
}

df = pd.DataFrame(data)

# Calculate the mean of the 'age' column
mean = df['age'].mean()

# Replace NaN values with the calculated mean
df['age'].fillna(mean, inplace=True)

# Display the updated DataFrame
print(df)


     age
0  25.00
1  30.00
2  29.25
3  27.00
4  35.00


In [None]:
# df.fillna(method='ffill', inplace=True, limit=1)

In [None]:
#import warnings
#warnings.filterwarnings('ignore')
#df.mean()

In [None]:
#df.min()

In [None]:
#df.max()

In [None]:
#df.sum()

In [None]:
#df.count()

In [None]:
#df.cumsum()

#### Aplicación de función a elemento, columna o dataframe


In [57]:
# completar
import pandas as pd

# Create a DataFrame
data = {
    'A': [1, 2, 3],
    'B': [4, 5, 6],
}

df = pd.DataFrame(data)

# Apply a function to a single element
result = df['A'][0] + df['B'][0]
print(result)

5


In [58]:
# Map: itera sobre cada elemento de una serie
# Completar agrega una constante 1 a cada elemento de la column1
import pandas as pd

# Create a DataFrame
data = {
    'column1': [1, 2, 3, 4, 5]
}

df = pd.DataFrame(data)

# Map: iterate over each element of a series
df['column1'] = df['column1'].map(lambda x: x + 1)

# Display the updated DataFrame
print(df)


   column1
0        2
1        3
2        4
3        5
4        6


In [63]:
#func=lambda x: x+1
#df_filtrado = df.iloc[:, 2:4]
#print(df_filtrado)

In [64]:
#print(df_filtrado.applymap(func))

**Ejemplo**

La parte del poder de pandas se da por los métodos integrados en los objetos Series y DataFrame.

In [None]:
from io import StringIO
data = StringIO('''UPC,Units,Sales,Date
1234,5,20.2,1-1-2014
1234,2,8.,1-2-2014
1234,3,13.,1-3-2014
789,1,2.,1-1-2014
789,2,3.8,1-2-2014
789,,,1-3-2014
789,1,1.8,1-5-2014''')

In [None]:
sales = pd.read_csv(data)
sales

In [None]:
sales.shape

In [None]:
sales.info()

A diferencia del objeto `Series` que prueba la pertenencia con el índice, el `DataFrame` prueba la pertenencia con las columnas. El comportamiento de iteración `(__iter__)` y el comportamiento de pertenencia `(__contains__)` es el mismo para el `DataFrame`.

#### Operaciones de índice


In [None]:
# sales.reindex([0, 4])

In [None]:
#sales.reindex(columns=['Date', 'Sales'])

La selección de columnas e índices se puede combinar para refinar aún más la selección. Además, se pueden incluir nuevas entradas para valores de índices y nombres de columna. Por defecto, usarán el parámetro opcional `fill_value` (que es NaN a menos que se especifique):

In [None]:
#sales.reindex(index=[2, 6, 8], columns=['Sales', 'MIT', 'missing'])

In [None]:
#by_date = sales.set_index('Date')
#by_date

Para agregar un índice entero creciente a un data frame, usa `.reset_index`:

In [None]:
# by_date.reset_index()

#### Obtener y establecer valores


In [None]:
#sales.iat[4, 2]


A continuación, insertamos una columna `Category` después de ` UPC`  (en la posición 1):

In [None]:
#sales.insert(1, 'Category', 'Food')
# sales

El método `.replace` es una forma poderosa de actualizar muchos valores de un data frame en las columnas. Para reemplazar todos los 789 con 790, realiza lo siguiente:

In [None]:
# sales.replace(789, 790)

In [None]:
#sales.replace({'UPC': {789:790},
#                'Sales': {789: 1.4}})

El método `replace` también acepta expresiones regulares (pueden ser incluidas en diccionarios anidados) si  el paramétro`regex` se coloca en `True`.

In [None]:
#sales.replace('(F.*d)', r'\1_stuff', regex=True)

#### Eliminación de  columnas

Hay al menos cuatro formas de eliminar una columna:

* El método `.pop`

* El método `.drop` con `axis = 1`

* El método `.reindex`

* Indexación con una lista de nuevas columnas

El método `.pop` toma el nombre de una columna y lo elimina del data frame. Opera in-place. En lugar de devolver un data frame, devuelve la columna eliminada.

In [None]:
#sales['subcat'] = 'Dairy'
#sales

In [None]:
# sales.pop('subcat')

In [None]:
#sales

Para quitar una columna con el método `.drop`, simplemente páselo (o una lista de nombres de columna) junto con la configuración del parámetro `axis` en 1:

In [65]:
# completar
import pandas as pd

# Create a DataFrame
data = {
    'A': [1, 2, 3],
    'B': [4, 5, 6],
    'C': [7, 8, 9]
}

df = pd.DataFrame(data)

# Remove a single column
df = df.drop('B', axis=1)

# Display the updated DataFrame
print(df)


   A  C
0  1  7
1  2  8
2  3  9


#### Los dos métodos finales para eliminar columnas

In [None]:
#cols = ['Sales', 'Date']

In [None]:
# sales.reindex(columns=cols)

In [None]:
#sales[cols]

#### Recortes


In [None]:
#sales.head()

In [None]:
#sales.tail(2)

Usemos un índice basado en cadenas para que quede más claro qué hacen las opciones de recorte:

In [66]:
# completar
import pandas as pd

# Create a DataFrame with string-based index
data = {
    'column1': [1, 2, 3, 4, 5],
    'column2': [6, 7, 8, 9, 10],
    'column3': [11, 12, 13, 14, 15]
}

index = ['row1', 'row2', 'row3', 'row4', 'row5']

df = pd.DataFrame(data, index=index)

# Display the DataFrame with string-based index
print(df)


      column1  column2  column3
row1        1        6       11
row2        2        7       12
row3        3        8       13
row4        4        9       14
row5        5       10       15


In [None]:
# del sales['new_index']

In [None]:
# df

Para dividir por posición, usa el atributo `.iloc`. Aquí tomamos filas en las posiciones dos hasta cuatro, pero sin incluirlas:

In [None]:
#df.iloc[2:4]

También podemos proporcionar posiciones de columna que también queremos mantener. Las posiciones de las columnas deben seguir una coma en la operación de índice. Aquí mantenemos las filas desde dos hasta pero sin incluir la fila cuatro. También tomamos columnas desde cero hasta pero sin incluir uno (solo la columna en la posición de índice cero).

Esto se expresa en la siguiente figura:


<img src="https://github.com/Josema1304/C8280/blob/main/recorte-pandas.png?raw=1" alt="Drawing" style="width: 500px;"/>

A continuación se muestra un resumen de las construcciones de  de data frame por posición y etiqueta.


```
.iloc [i: j]            Posición de filas i hasta pero sin incluir j (semiabierto)
.iloc [:, i: j]         Posición de las columnas i hasta pero sin incluir j (semiabierto)
.iloc [[i, k, m]]       Filas en i, k y m (no es un intervalo)
.loc [a: b]             Filas desde la etiqueta de índice a hasta b (cerrado)
.loc [:, c: d]          Columnas de la etiqueta de columna c a d (cerrado)
.loc [: [b, d, f]]      Columnas en las etiquetas b, d y f (no es un intervalo)

```

<img src="https://github.com/Josema1304/C8280/blob/main/recorte-ejemplo.png?raw=1" alt="Drawing" style="width: 600px;"/>

In [None]:
#df = df.drop(['Category'], axis=1)
#df

In [None]:
# df.iloc[2:4, 0:1]

También hay soporte para dividir datos por etiquetas. Usando el atributo `.loc`, podemos tomar valores de índice desde la `a` a la `d`:

In [67]:
# completar
import pandas as pd

# Create a DataFrame with index values
data = {
    'column1': [1, 2, 3, 4, 5],
    'column2': [6, 7, 8, 9, 10],
    'column3': [11, 12, 13, 14, 15]
}

index = ['a', 'b', 'c', 'd', 'e']

df = pd.DataFrame(data, index=index)

# Split data by tags using .loc attribute
subset = df.loc['a':'d']

# Display the subset of data
print(subset)


   column1  column2  column3
a        1        6       11
b        2        7       12
c        3        8       13
d        4        9       14


Y al igual que `.iloc`, `.loc` tiene la capacidad de especificar columnas por etiqueta. En este ejemplo, solo tomamos la columna `Units` y, por lo tanto, devuelve una serie:

In [68]:
# completar
import pandas as pd

# Create a DataFrame with columns and index
data = {
    'Units': [10, 20, 30, 40, 50],
    'Sales': [100, 200, 300, 400, 500],
    'Profit': [50, 60, 70, 80, 90]
}

index = ['a', 'b', 'c', 'd', 'e']

df = pd.DataFrame(data, index=index)

# Select specific columns using .loc attribute
subset = df.loc[:, 'Units']

# Display the subset as a series
print(subset)


a    10
b    20
c    30
d    40
e    50
Name: Units, dtype: int64


Sacamos las columnas `UPC` y `Sales`, pero con solo los últimos 4 valores:

In [70]:
# Completar
import pandas as pd

# Create a DataFrame with columns and index
data = {
    'UPC': ['A123', 'B456', 'C789', 'D012', 'E345'],
    'Sales': [100, 200, 300, 400, 500],
    'Profit': [50, 60, 70, 80, 90]
}

index = ['a', 'b', 'c', 'd', 'e']

df = pd.DataFrame(data, index=index)

# Select specific columns with last 4 values using .loc attribute
subset = df.loc['b':, ['UPC', 'Sales']]

# Display the subset
print(subset)

    UPC  Sales
b  B456    200
c  C789    300
d  D012    400
e  E345    500


### Merge/Join


In [None]:
data = {
        'emp_id': ['1', '2', '3', '4', '5'],
        'primer_nombre': ['Jason', 'Andy', 'Allen', 'John', 'Amy'],
        'ultimo_nombre': ['Larkin', 'Jacob', 'A', 'AA', 'Jackson']}
df_1 = pd.DataFrame(data, columns = ['emp_id', 'primer_nombre', 'ultimo_nombre'])
print (df_1)

In [None]:
data = {
        'emp_id': ['4', '5', '6', '7'],
        'primer_nombre': ['James', 'Shize', 'Kim', 'Jose'],
        'ultimo_nombre': ['Alexander', 'Suma', 'Mike', 'G']}
df_2 = pd.DataFrame(data, columns = ['emp_id', 'primer_nombre', 'ultimo_nombre'])
print (df_2)

In [None]:
# usando concat
df = pd.concat([df_1, df_2])
print(df)

In [None]:
# Juntando dos dataframes a lo largo de las columnas
pd.concat([df_1,df_2], axis=1)

Combinamos dos dataframes basados en el valor `emp_id` en este caso, solo se unirán los `emp_id` presentes en ambas tablas.

In [None]:
print(pd.merge(df_1,df_2, on='emp_id'))

### Grouping


Pandas nos brinda la capacidad de agrupar data frames por valores de columna y luego fusionarlos nuevamente en un resultado con el método `.groupby`.
Pandas `group by` nos permitirá lograr lo siguiente:

- Aplicar una función de agregación a cada grupo de forma independiente
- Según algunos criterios, divide los datos en grupos.
- Combinar los resultados del `group by` en una estructura de datos.


<img src="https://github.com/Josema1304/C8280/blob/main/Groupby.png?raw=1" alt="Drawing" style="width: 700px;"/>

Como ejemplo, en el data frame `scores`, calcularemos las puntuaciones medias de cada maestro. Primero llamamos a `.groupby` y entonces invocamos a `.median` en el resultado:

In [None]:
#scores = pd.DataFrame({
#    'name':['Adam', 'Bob', 'Dave', 'Fred'],
#    'age': [15, 16, 16, 15],
#    'test1': [95, 81, 89, None],
#    'test2': [80, 82, 84, 88],
#    'teacher': ['Ashby', 'Ashby', 'Jones', 'Jones']})

In [72]:
# completar
import pandas as pd

# Create the DataFrame 'scores'
scores = pd.DataFrame({
    'name': ['Adam', 'Bob', 'Dave', 'Fred'],
    'age': [15, 16, 16, 16],
    'test1': [95, 81, 89, 89],
    'test2': [80, 82, 84, 88],
    'teacher': ['Ashby', 'Ashby', 'Jones', 'Jones']
})

# Calculate the average scores for each teacher using groupby and median
average_scores = scores.groupby('teacher').median()

# Display the average scores
print(average_scores)


          age  test1  test2
teacher                    
Ashby    15.5   88.0   81.0
Jones    16.0   89.0   86.0


  average_scores = scores.groupby('teacher').median()


Esto incluyó la columna `age`, para ignorar que podemos separar solo las columnas de prueba:

In [73]:
# completar
import pandas as pd

# Create the DataFrame 'scores'
scores = pd.DataFrame({
    'name': ['Adam', 'Bob', 'Dave', 'Fred'],
    'age': [15, 16, 16, 16],
    'test1': [95, 81, 89, 89],
    'test2': [80, 82, 84, 88],
    'teacher': ['Ashby', 'Ashby', 'Jones', 'Jones']
})

# Select only the test columns
test_scores = scores[['test1', 'test2', 'teacher']]

# Calculate the average scores for each teacher using groupby and median
average_scores = test_scores.groupby('teacher').median()

# Display the average scores
print(average_scores)


         test1  test2
teacher              
Ashby     88.0   81.0
Jones     89.0   86.0


Para encontrar los valores medianos de cada grupo de edad para cada maestro, simplemente agrupa por maestro y edad:


In [74]:
# completar
import pandas as pd

# Create the DataFrame 'scores'
scores = pd.DataFrame({
    'name': ['Adam', 'Bob', 'Dave', 'Fred'],
    'age': [15, 16, 16, 16],
    'test1': [95, 81, 89, 89],
    'test2': [80, 82, 84, 88],
    'teacher': ['Ashby', 'Ashby', 'Jones', 'Jones']
})

# Calculate the median values for each age group for each teacher
median_scores = scores.groupby(['teacher', 'age']).median()

# Display the median scores
print(median_scores)


             test1  test2
teacher age              
Ashby   15    95.0   80.0
        16    81.0   82.0
Jones   16    89.0   86.0


  median_scores = scores.groupby(['teacher', 'age']).median()


Si queremos los puntajes mínimos y máximos de las pruebas por maestro, usamos el método `.agg` y pasamos una lista de funciones para llamar:

In [75]:
# completar
import pandas as pd

# Create the DataFrame 'scores'
scores = pd.DataFrame({
    'name': ['Adam', 'Bob', 'Dave', 'Fred'],
    'age': [15, 16, 16, 16],
    'test1': [95, 81, 89, 89],
    'test2': [80, 82, 84, 88],
    'teacher': ['Ashby', 'Ashby', 'Jones', 'Jones']
})

# Calculate the minimum and maximum test scores per teacher
min_max_scores = scores.groupby('teacher')['test1', 'test2'].agg(['min', 'max'])

# Display the minimum and maximum scores
print(min_max_scores)


        test1     test2    
          min max   min max
teacher                    
Ashby      81  95    80  82
Jones      89  89    84  88


  min_max_scores = scores.groupby('teacher')['test1', 'test2'].agg(['min', 'max'])


**Ejercicio**

In [None]:
df = pd.DataFrame({'Nombre' : ['jack', 'jane', 'jack', 'jane', 'jack', 'jane', 'jack', 'jane'],
                   'Estado' : ['SFO', 'SFO', 'NYK', 'CA', 'NYK', 'NYK', 'SFO', 'CA'],
                   'Genero':['A','A','B','A','C','B','C','A'],
                   'Edad' : np.random.uniform(24, 50, size=8),
                   'Salario' : np.random.uniform(3000, 5000, size=8),})

Ten en cuenta que las columnas se ordenan automáticamente en su orden alfabético para un orden personalizado, usa el siguiente código_

`df = pd.DataFrame (data, columns = ['Nombre', 'Estado', 'Edad', 'Salario'])`

* Calcula la suma por nombres.

* Encuentra la edad máxima y el salario por nombre/ estado. Puedes usar todas las funciones agregadas, como mínimo, máximo, media, conteo, suma acumulada.

In [84]:
# Tus  respuestas
import pandas as pd
import numpy as np

df = pd.DataFrame({
    'Name': ['jack', 'jane', 'jack', 'jane', 'jack', 'jane', 'jack', 'jane', 'jack', 'jane'],
    'State': ['SFO', 'SFO', 'NYK', 'CA', 'NYK', 'NYK', 'NYK', 'SFO', 'CA', 'CA'],
    'Gender': ['A', 'A', 'B', 'A', 'C', 'B', 'C', 'A', 'B', 'A'],
    'Age': np.random.uniform(24, 50, size=10),
    'Salary': np.random.uniform(3000, 5000, size=10)
})

sum_by_names = df.groupby('Name').sum()
print(sum_by_names)


             Age        Salary
Name                          
jack  204.197033  21708.963377
jane  200.092515  22987.726260


  sum_by_names = df.groupby('Name').sum()


In [85]:
max_age_salary = df.groupby(['Name', 'State']).max()[['Age', 'Salary']]
print(max_age_salary)

                  Age       Salary
Name State                        
jack CA     48.719668  4922.617733
     NYK    48.987706  4658.478740
     SFO    48.012322  3710.089503
jane CA     45.589393  4786.732119
     NYK    48.303520  4784.437245
     SFO    41.441226  4707.005840


#### Tablas pivot

Pandas proporciona una función `pivot_table` para crear una tabla pivot (dinámica )de estilo de hoja de cálculo de MS-Excel. Puede tomar los siguientes argumentos:

- `data`: objeto DataFrame
- `values`: columna para agregar
- `index`: etiquetas de fila
- `columns`: etiquetas de columna
- `aggfunc`: función de agregación que se usará en valores, el valor predeterminado es `NumPy.mean`.

Usando una tabla pivot, podemos generalizar ciertos comportamientos grupales. Para obtener las puntuaciones medias de los profesores, podemos ejecutar lo siguiente:

In [79]:
# completar
import pandas as pd

# Create the DataFrame 'scores'
scores = pd.DataFrame({
    'name': ['Adam', 'Bob', 'Dave', 'Fred'],
    'age': [15, 16, 16, 16],
    'test1': [95, 81, 89, 89],
    'test2': [80, 82, 84, 88],
    'teacher': ['Ashby', 'Ashby', 'Jones', 'Jones']
})

# Create a pivot table to calculate the mean scores of the teachers
mean_scores = pd.pivot_table(scores, values=['test1', 'test2'], index='teacher', aggfunc='mean')

# Display the mean scores
print(mean_scores)


         test1  test2
teacher              
Ashby       88     81
Jones       89     86


Si queremos agregar por maestro y edad, simplemente usamos una lista con ambos para el parámetro `index`:

In [None]:
#scores.pivot_table(index=['teacher', 'age'],
#                   values=['test1', 'test2'],
#                   aggfunc='median')

Si queremos aplicar múltiples funciones, simplemente usa una lista de ellas. Aquí, analizamos los puntajes mínimos y máximos de las pruebas por maestro:

In [None]:
#scores.pivot_table(index='teacher',
#                   values=['test1', 'test2'],
#                   aggfunc=[min, max])

Podemos ver que la tabla pivot y de grupo por comportamiento son muy similares. Hay del estilo declarativo de `.pivot_table` y el estilo  semántico de los grupos.

Una característica adicional de las tablas pivots es la capacidad de agregar filas de resumen. Simplemente estableciendo `margins= True` obtenemos esta funcionalidad:

In [None]:
#scores.pivot_table(index='teacher',
#                   values=['test1', 'test2'],
#                   aggfunc='median', margins=True)

<img src="https://github.com/Josema1304/C8280/blob/main/pivot.png?raw=1" alt="Drawing" style="width: 700px;"/>

In [None]:
#scores.pivot_table(index= ['teacher', 'age'],
#                   values=['test1', 'test2'],
#                   aggfunc=[len, sum], margins=True)

<img src="https://github.com/Josema1304/C8280/blob/main/pivot-parameters.png?raw=1" alt="Drawing" style="width: 700px;"/>

**Ejercicio** Del dataframe anterior agrupa por estado y nombre y encuentre la edad media para cada grado.


In [83]:
## Tu respuesta
import pandas as pd

# Create the DataFrame 'scores'
scores = pd.DataFrame({
    'Name': ['jack', 'jane', 'jack', 'jane', 'jack', 'jane', 'jack', 'jane', 'jack', 'jane'],
    'State': ['SFO', 'SFO', 'NYK', 'CA', 'NYK', 'NYK', 'NYK', 'SFO', 'CA', 'CA'],
    'Grade': ['A', 'A', 'B', 'A', 'C', 'B', 'C', 'A', 'B', 'A'],
    'Age': [25, 28, 32, 35, 29, 31, 33, 27, 30, 26]
})

# Create a pivot table to find the average age for each grade, grouped by state and name
average_age_by_grade = pd.pivot_table(scores, values='Age', index=['State', 'Name'], columns='Grade', aggfunc='mean')

# Display the average age by grade, grouped by state and name
print(average_age_by_grade)



Grade          A     B     C
State Name                  
CA    jack   NaN  30.0   NaN
      jane  30.5   NaN   NaN
NYK   jack   NaN  32.0  31.0
      jane   NaN  31.0   NaN
SFO   jack  25.0   NaN   NaN
      jane  27.5   NaN   NaN
