<a id="A00"></a>

# Unidad 7 - Introducción a la algoritmia con Python
#### Elementos básicos de Python
 
# Demo Pandas II

En este notebook vas a encontrar ejemplos relacionados con el uso de la librería Pandas en Python. Recuerda que siempre puedes ir a la referencia si tienes alguna duda [Ir a la referencia](https://pandas.pydata.org/docs/)

Este archivo es la continuación de Pandas, iremos avanzando en algunos conceptos adicionales

##### Contenido de este archivo:

1. Importar la librería y ver la versión
    - [[enlace]](#A01)
2. Reformar (reshaping) de Dataframes
    - melt
    - pivot
    - concat (axis)
    - [[enlace]](#A02).
3. Manejo de columnas
    - Eliminación
    - Renombrado
    - [[enlace]](#A03).    
4. Gestión de los índices (index)
    - ordenar indices (sort_index)
    - reiniciar indices (reset_index)    
    - [[enlace]](#A04).
5. Operaciones sobre filas ()
    - Eliminar duplicados (drop_duplicates())
    - Muestreo por fracción (sample(frac=0.5))
    - Muestreo por cantidad (sample(n=10))
    - n elementos más grandes
    - n elementos más pequeños
    - [[enlace]](#A05). 
6. Filtrado y sub conjuntos I
    - Repaso de uso de [] o [[]]
    - Filtrado (filter(regex="Expression"))
    - Uso de querys (query(prop > min-value and prop < max-value))
    - [[enlace]](#A06).
7. Filtrado y sub conjuntos II
    - Selección de filas y columnas (loc[] | iloc[])  
    - Seleccion de valores únicos (at[] | iat[])
    - [[enlace]](#A07).   
8. Resumiendo datos
    - Repaso de value_count(), shape, describe(), sum(), count(), min(), max(), median(), quantile([0.25, 0.75]), mean(), var(), std().    
    - Detección de valores únicos
    - Aplicación de función sobre los objetos (function)
    - [[enlace]](#A08). 
9. Gestión de datos perdidos
    - Eliminar NAs
    - Imputadr NAs
    - [[enlace]](#A09).    
10. Creación de columnas o características
    - Repaso asignación completa (df['Volume'] = df.Length*df.Height*df.Depth)
    - Asignación con operaciones (df.assign(Area=lambda df: df.Length*df.Height))
    - División en n bloques (pd.qcut(df.col, n, labels=False))
    - Casos especiales para Series
        - max(axis=1), min(axis=1)
        - Ajuste los valores en los umbrales de entrada (clip(lower=-10,upper=10))
        - valores absolutos (abs())
    - [[enlace]](#A10).
11. Agrupación de datos
    - Tamaño de los grupos (size)
    - Agregaciones (agg(function))
    - Agrupamiento por columna (by='col')
    - Agrupamiento por nivel (level='ind')    
    - [[enlace]](#A11).
12. Aplicaciones sobre grupos
    - Copia de valores cambiados (shift(1 | -1))
    - Ranking de grupos:
        - rank(method='dense') Ranks with no gaps.
        - rank(method='min') Ranks. Ties get min rank.
        - rank(pct=True) Ranks rescaled to interval [0, 1].
        - rank(method='first') Ranks. Ties go to first value.
    - Acumulaciones de grupos:
        - cumsum() Cumulative sum.
        - cummax() Cumulative max.
        - cummin() Cumulative min.
        - cumprod() Cumulative product.    
    - [[enlace]](#A12).
    
 ##### windows, plotting, combine

<a id="A01"></a>

### 1. Importar la librería y ver la versión

Recuerda que debes importar siempre antes de comenzar a usarla, si no la tienes instalada tendrás un error
[[al menú]](#A00)

In [131]:
import pandas as pd
pd.__version__

'1.1.3'

<a id="A02"></a>

### 2. Reformar (reshaping) de Dataframes
    - Derretimento/ Desnormalización (df.melt)
    - pivot
    - concat (axis)
   [[enlace]](#A00)

In [132]:
# (melt) Derretimiento / desnormalización
data = {'ID': [1, 2, 3],
        'Nombre': ['Juan', 'María', 'Pedro'],
        'Edad': [25, 30, 35],
        'Ciudad': ['Madrid', 'Barcelona', 'Valencia']}

df = pd.DataFrame(data)
df

Unnamed: 0,ID,Nombre,Edad,Ciudad
0,1,Juan,25,Madrid
1,2,María,30,Barcelona
2,3,Pedro,35,Valencia


In [133]:
melted_df = pd.melt(df)
melted_df

Unnamed: 0,variable,value
0,ID,1
1,ID,2
2,ID,3
3,Nombre,Juan
4,Nombre,María
5,Nombre,Pedro
6,Edad,25
7,Edad,30
8,Edad,35
9,Ciudad,Madrid


In [134]:
# Usando pivot
data = {'ID': [1, 2, 3, 4],
        'Ciudad': ['Madrid', 'Barcelona', 'Madrid', 'Barcelona'],
        'Año': [2019, 2019, 2020, 2020],
        'Ventas': [1000, 1500, 1200, 1800]}
df = pd.DataFrame(data)
df

Unnamed: 0,ID,Ciudad,Año,Ventas
0,1,Madrid,2019,1000
1,2,Barcelona,2019,1500
2,3,Madrid,2020,1200
3,4,Barcelona,2020,1800


In [5]:
pivot_df = df.pivot(index='Año', columns='Ciudad', values='Ventas')
pivot_df

Ciudad,Barcelona,Madrid
Año,Unnamed: 1_level_1,Unnamed: 2_level_1
2019,1500,1000
2020,1800,1200


In [6]:
pivot_df = df.pivot(index='Ciudad', columns='Año', values='Ventas')
pivot_df

Año,2019,2020
Ciudad,Unnamed: 1_level_1,Unnamed: 2_level_1
Barcelona,1500,1800
Madrid,1000,1200


In [135]:
# Usando concat (axis)
data1 = {'A': ['A1', 'A2', 'A3'],
         'B': ['B1', 'B2', 'B3']}
df1 = pd.DataFrame(data1)
df1

Unnamed: 0,A,B
0,A1,B1
1,A2,B2
2,A3,B3


In [136]:
data2 = {'A': ['A4', 'A5', 'A6'],
         'B': ['B4', 'B5', 'B6']}
df2 = pd.DataFrame(data2)
df2

Unnamed: 0,A,B
0,A4,B4
1,A5,B5
2,A6,B6


In [138]:
result = pd.concat([df1, df2]) # axis=0 por defecto
result
# Se pegan las filas

Unnamed: 0,A,B
0,A1,B1
1,A2,B2
2,A3,B3
0,A4,B4
1,A5,B5
2,A6,B6


In [139]:
result = pd.concat([df1, df2], axis=1)
result
# Se pegan las columnas

Unnamed: 0,A,B,A.1,B.1
0,A1,B1,A4,B4
1,A2,B2,A5,B5
2,A3,B3,A6,B6


<a id="A03"></a>

### 3. Manejo de columnas/filas
    - Eliminación (drop)
    - Renombrado (rename)
[[enlace]](#A00)

In [140]:
# Eliminación de columnas
data = {'A': [1, 2, 3],
        'B': [4, 5, 6],
        'C': [7, 8, 9]}
df = pd.DataFrame(data)
df

Unnamed: 0,A,B,C
0,1,4,7
1,2,5,8
2,3,6,9


In [141]:
# el axis por defecto es 0 (fila) || el 0 en el drop es el indice
df_dropped_row = df.drop(0)
df_dropped_row

Unnamed: 0,A,B,C
1,2,5,8
2,3,6,9


In [142]:
# el axis 1 es para columna || el 'C' en el drop es nombre columna
df_dropped_col = df.drop('B', axis=1)
df_dropped_col

Unnamed: 0,A,C
0,1,7
1,2,8
2,3,9


In [144]:
# tambien se pueden eliminar varios al tiempo:
df_dropped_multi_row = df.drop(index=[0,1])
df_dropped_multi_row
# Sin axis

Unnamed: 0,A,B,C
2,3,6,9


In [147]:
# tambien se pueden eliminar varios al tiempo:
df_dropped_multi_col = df.drop(columns=['B', 'C'])
df_dropped_multi_col
# Sin axis

Unnamed: 0,A
0,1
1,2
2,3


In [148]:
# Renombrado de columnas
data = {'A': [1, 2, 3],
        'B': [4, 5, 6],
        'C': [7, 8, 9]}
df = pd.DataFrame(data)
df

Unnamed: 0,A,B,C
0,1,4,7
1,2,5,8
2,3,6,9


In [150]:
# se puede hacer uno por uno
df_renamed = df.rename(columns={'B': 'NB'})
df_renamed

Unnamed: 0,A,NB,C
0,1,4,7
1,2,5,8
2,3,6,9


In [151]:
# pero tambien en bloque
diccionario_nombres = {'A':'ColA', 'B':'ColB', 'C':'ColC'}
df_renamed = df.rename(columns=diccionario_nombres)
df_renamed

Unnamed: 0,ColA,ColB,ColC
0,1,4,7
1,2,5,8
2,3,6,9


<a id="A04"></a>

### 4. Gestión de los índices (index)
    - ordenar indices (sort_index)
    - reiniciar indices (reset_index)    
[[enlace]](#A00)

In [152]:
# ordenar indices (sort_index)
data = {'A': [1, 4, 2],
        'B': [6, 3, 9],
        'C': [5, 7, 8]}
df = pd.DataFrame(data, index=[2, 0, 1])

# Veamos la base inicial
print(df)
print("_____________")

# Ahora ordenamos por los índices
df_sorted = df.sort_index()
print(df_sorted)
print("_____________")

# Ahora ordenamos por los índices pero descendente
df_sorted = df.sort_index(ascending=False)
print(df_sorted)
print("_____________")

   A  B  C
2  1  6  5
0  4  3  7
1  2  9  8
_____________
   A  B  C
0  4  3  7
1  2  9  8
2  1  6  5
_____________
   A  B  C
2  1  6  5
1  2  9  8
0  4  3  7
_____________


In [153]:
# Se puede ordenar por las columnas (y sus índices)
df_sorted = df.sort_index(ascending=True, axis=1) 
print(df_sorted)
print("_____________")

df_sorted = df.sort_index(ascending=False, axis=1) 
print(df_sorted)
print("_____________")

   A  B  C
2  1  6  5
0  4  3  7
1  2  9  8
_____________
   C  B  A
2  5  6  1
0  7  3  4
1  8  9  2
_____________


In [21]:
#reiniciar indices (reset_index)

data = {'A': [1, 4, 2],
        'B': [6, 3, 9],
        'C': [5, 7, 8]}
df = pd.DataFrame(data, index=['x', 'y', 'z'])
df

Unnamed: 0,A,B,C
x,1,6,5
y,4,3,7
z,2,9,8


In [22]:
# si se desea conservar los indices previos como una columna
df_reset = df.reset_index()
df_reset

Unnamed: 0,index,A,B,C
0,x,1,6,5
1,y,4,3,7
2,z,2,9,8


In [23]:
# si se desea eliminar (drop) los indices previos
df_reset = df.reset_index(drop=True)
df_reset

Unnamed: 0,A,B,C
0,1,6,5
1,4,3,7
2,2,9,8


<a id="A05"></a>

### 5. Operaciones sobre filas ()
    - Eliminar duplicados (drop_duplicates())
    - Muestreo por fracción (sample(frac=0.5))
    - Muestreo por cantidad (sample(n=10))
    - n elementos más grandes
    - n elementos más pequeños
[[enlace]](#A00)

In [154]:
# Eliminar duplicados (drop_duplicates())
data = {'A': [1, 1, 2, 3, 2],
        'B': ['a', 'b', 'a', 'c', 'b'],
        'C': ['x', 'y', 'x', 'y', 'z']}
df = pd.DataFrame(data)
df

Unnamed: 0,A,B,C
0,1,a,x
1,1,b,y
2,2,a,x
3,3,c,y
4,2,b,z


In [155]:
# no hay duplicados "perfectos" todo el axis
df_unique = df.drop_duplicates()
df_unique

Unnamed: 0,A,B,C
0,1,a,x
1,1,b,y
2,2,a,x
3,3,c,y
4,2,b,z


In [156]:
# si se desea hacerlo por columna, se usa subset
df_unique = df.drop_duplicates(subset=['A'])
df_unique

Unnamed: 0,A,B,C
0,1,a,x
2,2,a,x
3,3,c,y


In [164]:
# opciones de muestreo

## - Muestreo por fracción (sample(frac=%))
data = {'A': [1, 2, 3, 4, 5],
        'B': ['a', 'b', 'c', 'd', 'e']}

df = pd.DataFrame(data)

# Obtener una muestra aleatoria del 30% de los datos
sample_frac = df.sample(frac=0.3)
print(sample_frac)

print("____________")

## - Muestreo por cantidad (sample(n=cantidad))
data = {'A': [1, 2, 3, 4, 5],
        'B': ['a', 'b', 'c', 'd', 'e']}

df = pd.DataFrame(data)
# Obtener una muestra aleatoria de 3 filas del DataFrame
sample_count = df.sample(n=3)
print(sample_count)

   A  B
0  1  a
1  2  b
____________
   A  B
3  4  d
2  3  c
4  5  e


In [165]:
# n elementos más grandes
data = {'A': [10, 5, 8, 12, 6, 3, 9],
        'B': ['a', 'b', 'c', 'd', 'e', 'f', 'g']}
df = pd.DataFrame(data)

In [166]:
# Obtener los 3 elementos más pequeños de la columna 'A'
smallest = df.nsmallest(n=3, columns='A')
smallest

Unnamed: 0,A,B
5,3,f
1,5,b
4,6,e


In [167]:
# Obtener los 3 elementos más grandes de la columna 'A'
largest = df.nlargest(n=3, columns='A')
largest

Unnamed: 0,A,B
3,12,d
0,10,a
6,9,g


<a id="A06"></a>

### 6. Filtrado y sub conjuntos I
    - Repaso de uso de [] o [[]]
    - Filtrado (filter(regex="Expression"))
    - Uso de querys (query(prop > min-value and prop < max-value))
[[enlace]](#A00).

##### Respaso del uso de [] y [[]]

In [171]:
data = {'A': [1, 2, 3, 4, 5],
        'B': ['a', 'b', 'c', 'd', 'e'],
        'C': ['a', 'b', 'c', 'd', 'e']}
df = pd.DataFrame(data)

# Seleccionar una columna específica
column_A = df['A']
# Se obtienen series (cuando es una única columna)
print(type(column_A))
column_A

<class 'pandas.core.series.Series'>


0    1
1    2
2    3
3    4
4    5
Name: A, dtype: int64

In [174]:
# Seleccionar múltiples columnas
columns_AB = df[['A', 'B']]
# Se obtienen dataframes (cuando son multiples columnas)
print(type(columns_AB))
columns_AB

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,A,B
0,1,a
1,2,b
2,3,c
3,4,d
4,5,e


In [175]:
# Filtrar filas basado en una condición
filtered_rows = df[df['A'] > 3]
filtered_rows

Unnamed: 0,A,B,C
3,4,d,d
4,5,e,e


##### Filtrado (filter(regex="Expression"))

In [176]:
data = {'Casas': [1, 2, 3],
        'Carros': [4, 5, 6],
        'Castillos': [7, 8, 9],
        'Rios': [10, 11, 12]}
df = pd.DataFrame(data)

# Filtrar columnas que comienzan con "C" utilizando una expresión regular
filtered_columns = df.filter(regex="^C")
filtered_columns

Unnamed: 0,Casas,Carros,Castillos
0,1,4,7
1,2,5,8
2,3,6,9


##### Algunas expresion regulares que podemos usar para el filtrado

| Expresión Regular | Descripción                              | Ejemplo de Uso                                         |
|-------------------|------------------------------------------|--------------------------------------------------------|
| `^A`              | Coincide con cadenas que comienzan con "A" | `df.filter(regex="^A")`                                |
| `B$`              | Coincide con cadenas que terminan en "B"  | `df.filter(regex="B$")`                                |
| `^[A-C]`          | Coincide con cadenas que comienzan con A, B o C  | `df.filter(regex="^[A-C]")`                     |
| `D{2}`            | Coincide con cadenas que contienen exactamente dos "D" consecutivas | `df.filter(regex="D{2}")`                     |
| `E.*F`            | Coincide con cadenas que contienen "E" seguido de cualquier número de caracteres y luego "F" | `df.filter(regex="E.*F")`                |
| `(G\|H)`          | Coincide con cadenas que contienen "G" o "H" | `df.filter(regex="(G\|H)")`                            |
| `[0-9]`           | Coincide con cualquier dígito              | `df.filter(regex="[0-9]")`                             |
| `[^A]`            | Coincide con cualquier carácter excepto "A" | `df.filter(regex="[^A]")`                              |


##### Ejemplo de filtrado sobre la fila

In [35]:
# Crear un DataFrame de ejemplo
data = {
    'Usuario': ['Juan', 'Pedro', 'Javier', 'María', 'José'],
    'Edad': [25, 30, 28, 35, 40]
}
df = pd.DataFrame(data)

# Opción 1
# Filtrar los usuarios por nombre que comienza con "J"
df_filtered = df[df['Usuario'].str.startswith('J')]
# Imprimir el DataFrame resultante
print(df_filtered)
print("__________")

# Opción 2
# Filtrar los usuarios por nombre que comienza con "J" utilizando una expresión regular
df_filtered = df[df['Usuario'].str.match('^J.*')]
# Imprimir el DataFrame resultante
print(df_filtered)

  Usuario  Edad
0    Juan    25
2  Javier    28
4    José    40
__________
  Usuario  Edad
0    Juan    25
2  Javier    28
4    José    40


### Uso de querys (query(prop > min-value and prop < max-value))

In [177]:
# Crear un DataFrame de ejemplo
data = {
    'Propiedad': [10, 20, 30, 40, 50],
    'Valor': [5, 15, 25, 35, 45]
}
df = pd.DataFrame(data)

# Definir los valores mínimo y máximo para filtrar
min_value = 15
max_value = 35

# Filtrar el DataFrame utilizando la función query
df_filtered = df.query('Propiedad > @min_value and Propiedad < @max_value')

# Imprimir el DataFrame resultante
print(df_filtered)

   Propiedad  Valor
1         20     15
2         30     25


##### Tabla de opciones para operación usando querys:

| Operador | Ejemplo de Expresión            | Descripción                                 |
|----------|--------------------------------|---------------------------------------------|
| ==       | `df.query('columna == valor')` | Igual a                                     |
| !=       | `df.query('columna != valor')` | Diferente de                                |
| >        | `df.query('columna > valor')`  | Mayor que                                   |
| <        | `df.query('columna < valor')`  | Menor que                                   |
| >=       | `df.query('columna >= valor')` | Mayor o igual que                           |
| <=       | `df.query('columna <= valor')` | Menor o igual que                           |
| in       | `df.query('columna in lista')` | En una lista de valores                      |
| not in   | `df.query('columna not in lista')` | No está en una lista de valores           |
| and      | `df.query('condición1 and condición2')` | Cumple ambas condiciones                |
| or       | `df.query('condición1 or condición2')` | Cumple al menos una de las condiciones   |
| not      | `df.query('not condición')` | No cumple la condición                      |


<a id="A07"></a>

<a id="A07"></a>

### 7. Filtrado y sub conjuntos II
    - Selección de filas y columnas (loc[] | iloc[])  
    - Seleccion de valores únicos (at[] | iat[])
[[enlace]](#A00).   

##### Selección de filas y columnas (loc[] | iloc[])  

###### uso de "loc[ ]"

In [187]:
# Crear un DataFrame de ejemplo
data = {'A': [1, 2, 3, 4, 5],
        'B': ['a', 'b', 'c', 'd', 'e'],
        'C': [10, 20, 30, 40, 50]}
df = pd.DataFrame(data)

# Ejemplos de uso de loc[]

# Seleccionar una fila por etiqueta
row_2 = df.loc[2]
print("eje 1: \n", row_2)
print("-------")

# Seleccionar varias filas por etiquetas
rows_2_4 = df.loc[[2, 4]]
print("eje 2: \n", rows_2_4)
print("-------")

# Seleccionar filas y columnas por etiquetas
subset = df.loc[1:3, ['A', 'C']]
print("eje 3: \n", subset)
print("-------")

eje 1: 
 A     3
B     c
C    30
Name: 2, dtype: object
-------
eje 2: 
    A  B   C
2  3  c  30
4  5  e  50
-------
eje 3: 
    A
1  2
2  3
3  4
-------


###### uso de "iloc[ ]"

In [189]:
# Ejemplos de uso de iloc[]

# Crear un DataFrame de ejemplo
data = {'A': [1, 2, 3, 4, 5],
        'B': ['a', 'b', 'c', 'd', 'e'],
        'C': [10, 20, 30, 40, 50]}
df = pd.DataFrame(data)

# Seleccionar una fila por posición
row_2 = df.iloc[2]
print(row_2)

# Seleccionar varias filas por posición
rows_2_4 = df.iloc[[2, 4]]
print(rows_2_4)
print("---------")
# Seleccionar filas y columnas por posición
subset = df.iloc[1:3, [0, 2]]
print(subset)


A     3
B     c
C    30
Name: 2, dtype: object
   A  B   C
2  3  c  30
4  5  e  50
---------
   A   C
1  2  20
2  3  30


##### Seleccion de valores únicos (at[] | iat[])

In [190]:
# Crear un DataFrame de ejemplo
data = {'A': [1, 2, 3, 4, 5],
        'B': ['a', 'b', 'c', 'd', 'e'],
        'C': [10, 20, 30, 40, 50]}
df = pd.DataFrame(data)
df

Unnamed: 0,A,B,C
0,1,a,10
1,2,b,20
2,3,c,30
3,4,d,40
4,5,e,50


In [41]:
# Ejemplos de uso de at[]

# Acceder a un valor por etiqueta de fila y columna
value_1 = df.at[2, 'B'] # nótese en fila/columna
print(value_1)
# Resultado: c

# Modificar un valor por etiqueta de fila y columna
df.at[3, 'C'] = 45 # nótese en fila/columna
print(df)
# Resultado:    A  B   C
#            0  1  a  10
#            1  2  b  20
#            2  3  c  30
#            3  4  d  45 <<--
#            4  5  e  50

c
   A  B   C
0  1  a  10
1  2  b  20
2  3  c  30
3  4  d  45
4  5  e  50


In [42]:
# Ejemplos de uso de iat[]

# Acceder a un valor por posición numérica de fila y columna
value_2 = df.iat[4, 0]
print(value_2)
# Resultado: 5

# Modificar un valor por posición numérica de fila y columna
df.iat[0, 2] = 15
print(df)
# Resultado:    A  B   C
#            0  1  a  15 <<--
#            1  2  b  20
#            2  3  c  30
#            3  4  d  45
#            4  5  e  50

5
   A  B   C
0  1  a  15
1  2  b  20
2  3  c  30
3  4  d  45
4  5  e  50


<a id="A08"></a>

### 8. Resumiendo datos
    - Repaso de value_count(), shape, describe(), sum(), count(), min(), max(), median(), quantile([0.25, 0.75]), mean(), var(), std().    
    - Detección de valores únicos
    - Aplicación de función sobre los objetos (function)
   [[enlace]](#A00). 

In [191]:
import pandas as pd

###### Repaso
value_count(), shape, describe(), sum(), count(), min(), max(), median(), quantile([0.25, 0.75]), mean(), var(), std().

In [192]:
# Crear un DataFrame de ejemplo
data = {'A': [1, 2, 3, 4, 5],
        'B': ['a', 'b', 'c', 'd', 'e'],
        'C': [10, 20, 30, 40, 50],
        'D': [20, 20, 40, 40, 50]}
df = pd.DataFrame(data)

# Ejemplos de uso de las funciones

# value_counts(): contar la frecuencia de valores únicos en una columna
value_counts = df['D'].value_counts()
print("value_counts\n", value_counts)

# shape: obtener las dimensiones del DataFrame (filas, columnas)
shape = df.shape
print("shape: ",shape)

# sum(): sumar los valores de una columna
sum_values = df['C'].sum()
print("sum_values: ",sum_values)

# count(): contar el número de valores no nulos en una columna
count_values = df['C'].count()
print("count_values: ",count_values)

# min(): obtener el valor mínimo de una columna
min_value = df['C'].min()
print("min_value: ",min_value)

# max(): obtener el valor máximo de una columna
max_value = df['C'].max()
print("max_value: ",max_value)

# median(): obtener la mediana de una columna
median_value = df['C'].median()
print("median_value: ",median_value)

# quantile(): obtener los cuartiles de una columna
quantiles = df['C'].quantile([0.25, 0.75])
print("quantiles: \n ",quantiles)

# mean(): obtener el promedio de una columna
mean_value = df['C'].mean()
print("mean_value: ",mean_value)

# var(): obtener la varianza de una columna
var_value = df['C'].var()
print("var_value: ",var_value)

# std(): obtener la desviación estándar de una columna
std_value = df['C'].std()
print("std_value: ",std_value)

# describe(): obtener estadísticas descriptivas del DataFrame
description = df.describe()
print("description:\n", description)


value_counts
 20    2
40    2
50    1
Name: D, dtype: int64
shape:  (5, 4)
sum_values:  150
count_values:  5
min_value:  10
max_value:  50
median_value:  30.0
quantiles: 
  0.25    20.0
0.75    40.0
Name: C, dtype: float64
mean_value:  30.0
var_value:  250.0
std_value:  15.811388300841896
description:
               A          C          D
count  5.000000   5.000000   5.000000
mean   3.000000  30.000000  34.000000
std    1.581139  15.811388  13.416408
min    1.000000  10.000000  20.000000
25%    2.000000  20.000000  20.000000
50%    3.000000  30.000000  40.000000
75%    4.000000  40.000000  40.000000
max    5.000000  50.000000  50.000000


###### Detección de valores únicos (unique)

In [193]:
# Crear un DataFrame de ejemplo
data = {'A': [1, 2, 3, 4, 5, 1, 2, 3, 4, 5]}
df = pd.DataFrame(data)

# Obtener los valores únicos en la columna 'A'
unique_values = df['A'].unique()
print(unique_values)

[1 2 3 4 5]


###### aplicación de funciones sobre columnas (Apply)

In [195]:
# Crear un DataFrame de ejemplo
data = {'A': [1, 2, 3, 4, 5],
        'B': [6, 7, 8, 9, 10]}
df = pd.DataFrame(data)

# Definir una función personalizada
def square_value(x):
    return x ** 2

def divide_value(x):
    return x / 2

# Aplicar la función sobre la columna 'A'
df['A_squared'] = df['A'].apply(square_value)
print(df)

# Aplicar la función sobre la columna 'A'
df['A_dividedByTwo'] = df['A'].apply(divide_value)
print(df)

   A   B  A_squared
0  1   6          1
1  2   7          4
2  3   8          9
3  4   9         16
4  5  10         25
   A   B  A_squared  A_dividedByTwo
0  1   6          1             0.5
1  2   7          4             1.0
2  3   8          9             1.5
3  4   9         16             2.0
4  5  10         25             2.5


<a id="A09"></a>

### 9. Gestión de datos perdidos
    - Eliminar NAs(None) 
    - Imputadr NAs (None)
[[enlace]](#A00).    

In [197]:
# Eliminar valores NA en un dataset/dataframe

# Crear un DataFrame de ejemplo con valores faltantes
data = {'A': [1, 2, None, 4, 5],
        'B': [6, None, 8, 9, 10]}
df = pd.DataFrame(data)

# Eliminar filas con NAs
df_clean = df.dropna()
print(df_clean)
print("-----")
# Eliminar columnas con NAs
df_clean = df.dropna(axis=1)
print(df_clean)

     A     B
0  1.0   6.0
3  4.0   9.0
4  5.0  10.0
-----
Empty DataFrame
Columns: []
Index: [0, 1, 2, 3, 4]


In [198]:
# Imputar valores faltantes

# Crear un DataFrame de ejemplo con valores faltantes
data = {'A': [1, 2, None, 4, 5],
        'B': [6, None, 8, 9, 10]}
df = pd.DataFrame(data)

# Imputar NAs con un valor específico
df_imputed = df.fillna(0)
print(df_imputed)

print("------")

# Imputar NAs con el promedio de la columna
df_imputed = df.fillna(df.mean())
print(df_imputed)

     A     B
0  1.0   6.0
1  2.0   0.0
2  0.0   8.0
3  4.0   9.0
4  5.0  10.0
------
     A      B
0  1.0   6.00
1  2.0   8.25
2  3.0   8.00
3  4.0   9.00
4  5.0  10.00


<a id="A10"></a>

### 10. gestión de columnas o características
    - Repaso asignación completa (df['Volume'] = df.Length*df.Height*df.Depth)
    - Asignación con operaciones (df.assign(Area=lambda df: df.Length*df.Height))
    - División en n bloques (pd.qcut(df.col, n, labels=False))
    - Casos especiales para Series
        - max(axis=1), min(axis=1)
        - Ajuste los valores en los umbrales de entrada (clip(lower=-10,upper=10))
        - valores absolutos (abs())
[[enlace]](#A00).

In [199]:
### Repaso asignación completa (df['Volume'] = df.Length*df.Height*df.Depth)

# Crear un DataFrame de ejemplo
data = {'Length': [2, 3, 4, 5],
        'Height': [6, 7, 8, 9],
        'Depth': [10, 11, 12, 13]}
df = pd.DataFrame(data)

# Calcular el volumen y asignarlo a la columna 'Volume'
df['Volume'] = df['Length'] * df['Height'] * df['Depth']

# Imprimir el DataFrame resultante
print(df)

   Length  Height  Depth  Volume
0       2       6     10     120
1       3       7     11     231
2       4       8     12     384
3       5       9     13     585


In [200]:
#### Asignación con operaciones (df.assign(Area=lambda df: df.Length*df.Height))

# Crear un DataFrame de ejemplo
data = {'Length': [2, 3, 4, 5],
        'Height': [6, 7, 8, 9]}
df = pd.DataFrame(data)

# Realizar la asignación con operaciones utilizando el método assign()
df = df.assign(Area=lambda df: df.Length * df.Height)

# Imprimir el DataFrame resultante
print(df)

   Length  Height  Area
0       2       6    12
1       3       7    21
2       4       8    32
3       5       9    45


###### ¿Lamba versus Apply?

La diferencia entre lambda y apply en pandas se encuentra en la forma en que se aplican las funciones a los datos.

lambda es una función anónima que se utiliza para definir funciones pequeñas y simples en línea. Se utiliza principalmente para aplicar una operación o transformación a cada elemento de una serie o columna de un DataFrame. La sintaxis básica de lambda es lambda argumentos: expresión.

###### Ejemplo:
df['columna_nueva'] = df['columna'].apply(lambda x: x * 2)



apply es un método de pandas que permite aplicar una función a lo largo de un eje de un DataFrame o una serie. Puede aplicar funciones más complejas y personalizadas, incluyendo funciones definidas por el usuario. apply se puede utilizar tanto en series como en columnas de un DataFrame.
Ejemplo:
    
    def funcion_personalizada(x):
    # realizar alguna operación compleja
    return x * 2

df['columna_nueva'] = df['columna'].apply(funcion_personalizada)

In [203]:
# Crear un DataFrame de ejemplo
data = {'col': [10, 20, 30, 40, 50, 60, 70, 80, 90, 100]}
df = pd.DataFrame(data)

# Dividir la columna 'col' en 3 bloques y asignar etiquetas numéricas
df['col_labels'] = pd.qcut(df['col'], 3, labels=False)

# Imprimir el DataFrame resultante
print(df)

print("\n Con labels nombrados")

# Dividir la columna 'col' en 3 bloques y asignar etiquetas nombradas
labels = ["S", "M", "L"]
df['col_labels'] = pd.qcut(df['col'], 3, labels=labels)

# Imprimir el DataFrame resultante
print(df)

   col  col_labels
0   10           0
1   20           0
2   30           0
3   40           0
4   50           1
5   60           1
6   70           1
7   80           2
8   90           2
9  100           2

 Con labels nombrados
   col col_labels
0   10          S
1   20          S
2   30          S
3   40          S
4   50          M
5   60          M
6   70          M
7   80          L
8   90          L
9  100          L


In [204]:
# Crear un df de ejemplo
data = {'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]}
df = pd.DataFrame(data)

print(df, "\n")

# Calcular el valor máximo y mínimo para cada fila
max_values = df.max(axis=1)
min_values = df.min(axis=1)

# Imprimir los resultados
print("Valor máximo por fila:")
print(max_values)
print("\nValor mínimo por fila:")
print(min_values)

   A  B  C
0  1  4  7
1  2  5  8
2  3  6  9 

Valor máximo por fila:
0    7
1    8
2    9
dtype: int64

Valor mínimo por fila:
0    1
1    2
2    3
dtype: int64


In [205]:
# Crear una Serie de ejemplo
data = {'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]}
df = pd.DataFrame(data)

print(df, "\n")

# Calcular el valor máximo y mínimo para cada columna
max_values = df.max(axis=0)
min_values = df.min(axis=0)

# Imprimir los resultados
print("Valor máximo por columna:")
print(max_values)
print("\nValor mínimo por columna:")
print(min_values)

   A  B  C
0  1  4  7
1  2  5  8
2  3  6  9 

Valor máximo por columna:
A    3
B    6
C    9
dtype: int64

Valor mínimo por columna:
A    1
B    4
C    7
dtype: int64


In [206]:
# Crear una Serie de ejemplo
data = [15, -5, 20, 10, 25]
series = pd.Series(data)

# Imprimir el inicial
print(series, "\n")

# Ajustar los valores dentro del rango -10 y 10
adjusted_series = series.clip(lower=-10, upper=10)

# Imprimir el resultado
print(adjusted_series)

0    15
1    -5
2    20
3    10
4    25
dtype: int64 

0    10
1    -5
2    10
3    10
4    10
dtype: int64


In [117]:
# Crear una Serie de ejemplo
data = [-2, 4, -6, 8, -10]
series = pd.Series(data)

# Imprimir el inicial
print(series, "\n")

# Calcular los valores absolutos
abs_series = series.abs()

# Imprimir el resultado
print(abs_series)

0    -2
1     4
2    -6
3     8
4   -10
dtype: int64 

0     2
1     4
2     6
3     8
4    10
dtype: int64


<a id="A11"></a>

### 11. Agrupación de datos
    - Agrupamiento por columna (by='col')
    - Agrupamiento por nivel (level='ind')    
    - Tamaño de los grupos (size)
    - Agregaciones (agg(function))
[[enlace]](#A00).

In [207]:
### Agrupamiento por columna (by='col')

# Crear un DataFrame de ejemplo
data = {'col1': ['A', 'A', 'B', 'B', 'A'],
        'col2': [1, 2, 3, 4, 5],
        'col3': [6, 7, 8, 9, 10]}
df = pd.DataFrame(data)

# Agrupar por la columna 'col1' y calcular la suma de las demás columnas
grouped_df = df.groupby(by='col1').sum() ## sum, mean, std, ... otros

# Imprimir el resultado
print(grouped_df)

      col2  col3
col1            
A        8    23
B        7    17


In [119]:
### Agrupamiento por nivel (level='ind') 

# Crear un DataFrame de ejemplo
data = {'col1': ['A', 'A', 'B', 'B'],
        'col2': ['X', 'Y', 'X', 'Y'],
        'col3': [1, 2, 3, 4],
        'col4': [5, 6, 7, 8]}
df = pd.DataFrame(data)

# Definir un índice jerárquico con dos niveles
df.set_index(['col1', 'col2'], inplace=True)

# Agrupar por nivel 'col1'
grouped_df = df.groupby(level='col1').sum()

# Imprimir el resultado
print(grouped_df)


      col3  col4
col1            
A        3    11
B        7    15


In [209]:
### Veamos un ejemplo menos genérico:

# Crear un DataFrame de ejemplo
data = {'País': ['Estados Unidos', 'Estados Unidos', 'Canadá', 'Canadá'],
        'Ciudad': ['Nueva York', 'Los Ángeles', 'Toronto', 'Montreal'],
        'Población': [8623000, 3990456, 2930000, 1704694]}
df = pd.DataFrame(data)

# Definir un índice jerárquico con dos niveles
df.set_index(['País', 'Ciudad'], inplace=True)

# Agrupar por nivel 'País'
grouped_df = df.groupby(level='País').sum()

# Imprimir el resultado
print(grouped_df)

                Población
País                     
Canadá            4634694
Estados Unidos   12613456


In [210]:
### Tamaño de los grupos (size)
# Crear un DataFrame de ejemplo
data = {'País': ['Estados Unidos', 'Estados Unidos', 'Canadá', 'Canadá'],
        'Ciudad': ['Nueva York', 'Los Ángeles', 'Toronto', 'Montreal'],
        'Población': [8623000, 3990456, 2930000, 1704694]}
df = pd.DataFrame(data)

# Obtener el tamaño de los grupos por país
group_sizes = df.groupby('País').size()

# Imprimir el resultado
print(group_sizes)

País
Canadá            2
Estados Unidos    2
dtype: int64


In [213]:
#### Agregaciones (agg(function))

# Crear un DataFrame de ejemplo
data = {'Grupo': ['A', 'A', 'B', 'B', 'A'],
        'Valor1': [10, 20, 30, 40, 50],
        'Valor2': [5, 15, 25, 35, 45]}
df = pd.DataFrame(data)

# Aplicar agregaciones a los grupos
aggregated_data = df.groupby('Grupo').agg({'Valor1': 'sum', 'Valor2': 'mean'})

# Imprimir el resultado
print(aggregated_data)

       Valor1     Valor2
Grupo                   
A          80  21.666667
B          70  35.000000


In [212]:
### ahora usando agg de manera general:

import pandas as pd

# Crear un DataFrame de ejemplo
data = {'Nombre': ['Juan', 'María', 'Pedro', 'Ana', 'Carlos'],
        'Edad': [25, 30, 22, 27, 35],
        'Altura': [175, 160, 180, 165, 170],
        'Peso': [70, 55, 80, 60, 75]}
df = pd.DataFrame(data)

# Aplicar varias agregaciones a diferentes columnas
aggregated_data = df.agg({'Edad': ['mean', 'min', 'max', 'std'],
                          'Altura': ['mean', 'min', 'max', 'std'],
                          'Peso': ['mean', 'min', 'max', 'std']})

# Imprimir el resultado
print(aggregated_data)


           Edad      Altura       Peso
mean  27.800000  170.000000  68.000000
min   22.000000  160.000000  55.000000
max   35.000000  180.000000  80.000000
std    4.969909    7.905694  10.368221


<a id="A12"></a>

### 12. Aplicaciones sobre grupos
    - Copia de valores cambiados o desplazados (shift(1 | -1))
    - Ranking de grupos:
        - rank(method='dense') Ranks with no gaps.
        - rank(method='min') Ranks. Ties get min rank.
        - rank(pct=True) Ranks rescaled to interval [0, 1].
        - rank(method='first') Ranks. Ties go to first value.
    - Acumulaciones de grupos:
        - cumsum() Cumulative sum.
        - cummax() Cumulative max.
        - cummin() Cumulative min.
        - cumprod() Cumulative product.    
[[enlace]](#A00).

In [214]:
### Copia de valores cambiados o desplazados (shift(1 | -1))

# Crear un DataFrame de ejemplo
data = {'Fecha': pd.date_range(start='2022-01-01', end='2022-01-05'),
        'Ventas': [100, 150, 200, 120, 180]}
df = pd.DataFrame(data)

# Crear una nueva columna con los valores desplazados hacia abajo
df['Ventas_anterior'] = df['Ventas'].shift(1)

# Crear una nueva columna con los valores desplazados hacia arriba
df['Ventas_siguiente'] = df['Ventas'].shift(-1)

# Imprimir el DataFrame resultante
print(df)

       Fecha  Ventas  Ventas_anterior  Ventas_siguiente
0 2022-01-01     100              NaN             150.0
1 2022-01-02     150            100.0             200.0
2 2022-01-03     200            150.0             120.0
3 2022-01-04     120            200.0             180.0
4 2022-01-05     180            120.0               NaN


In [215]:
#### Ranking

# Crear un DataFrame de ejemplo
data = {'Grupo': ['A', 'A', 'B', 'B', 'C', 'C'],
        'Valores': [10, 20, 15, 25, 30, 40]}
df = pd.DataFrame(data)

# Realizar el ranking de grupos usando el método 'dense'
df['Ranking_dense'] = df.groupby('Grupo')['Valores'].rank(method='dense')

# Realizar el ranking de grupos usando el método 'min'
df['Ranking_min'] = df.groupby('Grupo')['Valores'].rank(method='min')

# Realizar el ranking de grupos con valores porcentuales
df['Ranking_pct'] = df.groupby('Grupo')['Valores'].rank(pct=True)

# Realizar el ranking de grupos usando el método 'first'
df['Ranking_first'] = df.groupby('Grupo')['Valores'].rank(method='first')

# Imprimir el DataFrame resultante
print(df)

  Grupo  Valores  Ranking_dense  Ranking_min  Ranking_pct  Ranking_first
0     A       10            1.0          1.0          0.5            1.0
1     A       20            2.0          2.0          1.0            2.0
2     B       15            1.0          1.0          0.5            1.0
3     B       25            2.0          2.0          1.0            2.0
4     C       30            1.0          1.0          0.5            1.0
5     C       40            2.0          2.0          1.0            2.0


#### Tabla de métodos para Ranking


| Método     | Descripción                                                                                                 |
|:-----------|:-----------------------------------------------------------------------------------------------------------|
| 'average'  | Asigna rangos promedio en caso de empates. Por ejemplo, si hay dos valores con el mismo rango, se les asignará el promedio de esos rangos.        |
| 'min'      | Asigna el rango mínimo en caso de empates. Por ejemplo, si hay dos valores con el mismo rango, se les asignará el rango más bajo.                   |
| 'max'      | Asigna el rango máximo en caso de empates. Por ejemplo, si hay dos valores con el mismo rango, se les asignará el rango más alto.                    |
| 'first'    | Asigna el rango en función del orden de aparición de los valores. En caso de empates, se asigna el rango del primer valor encontrado.                    |
| 'dense'    | Asigna rangos sin espacios. Por ejemplo, si hay dos valores con el mismo rango, se les asignarán rangos consecutivos sin espacios entre ellos.         |
| 'ordinal'  | Asigna rangos en función del orden de aparición de los valores, sin tener en cuenta los empates. Por ejemplo, si hay dos valores con el mismo rango, se les asignarán rangos consecutivos sin espacios. |
| 'pct'      | Asigna rangos rescalados en el intervalo [0, 1], donde 0 representa el valor mínimo y 1 representa el valor máximo.                                                  |
                                              |


In [130]:
### Acumulaciones de grupos:

# Crear DataFrame de ejemplo
data = {
    'Grupo': ['A', 'A', 'B', 'B', 'C', 'C'],
    'Valor': [10, 5, 7, 12, 8, 3]
}
df = pd.DataFrame(data)

# Cumulative sum por grupo
df['CumulativeSum'] = df.groupby('Grupo')['Valor'].cumsum()

# Cumulative max por grupo
df['CumulativeMax'] = df.groupby('Grupo')['Valor'].cummax()

# Cumulative min por grupo
df['CumulativeMin'] = df.groupby('Grupo')['Valor'].cummin()

# Cumulative product por grupo
df['CumulativeProduct'] = df.groupby('Grupo')['Valor'].cumprod()

# Imprimir DataFrame resultante
print(df)

  Grupo  Valor  CumulativeSum  CumulativeMax  CumulativeMin  CumulativeProduct
0     A     10             10             10             10                 10
1     A      5             15             10              5                 50
2     B      7              7              7              7                  7
3     B     12             19             12              7                 84
4     C      8              8              8              8                  8
5     C      3             11              8              3                 24


#### Tabla de métodos para acumulacion

<style>
table {
    align: left;
}
</style>

| Método         | Descripción                                    |
|:-------------- |:---------------------------------------------- |
| `cumsum()`     | Calcula la suma acumulativa de los valores      |
| `cummax()`     | Obtiene el máximo acumulativo de los valores    |
| `cummin()`     | Obtiene el mínimo acumulativo de los valores    |
| `cumprod()`    | Calcula el producto acumulativo de los valores  |

