# Pandas DataFrame Cheat Sheet

In [10]:
import pandas as pd

df_pk = pd.read_csv('./data/Pokemon.csv', encoding='latin1') #encoding= 'latin1' para evitar errores de codificaci√≥n ya que el archivo contiene caracteres especiales

df_pk

Unnamed: 0,#,Name,Type 1,Type 2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Stage,Legendary
0,1,Bulbasaur,Grass,Poison,318,45,49,49,65,65,45,1,False
1,2,Ivysaur,Grass,Poison,405,60,62,63,80,80,60,2,False
2,3,Venusaur,Grass,Poison,525,80,82,83,100,100,80,3,False
3,4,Charmander,Fire,,309,39,52,43,60,50,65,1,False
4,5,Charmeleon,Fire,,405,58,64,58,80,65,80,2,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...
146,147,Dratini,Dragon,,300,41,64,45,50,50,50,1,False
147,148,Dragonair,Dragon,,420,61,84,65,70,70,70,2,False
148,149,Dragonite,Dragon,Flying,600,91,134,95,100,100,80,3,False
149,150,Mewtwo,Psychic,,680,106,110,90,154,90,130,1,True


üì¶ Creaci√≥n de DataFrames
| M√©todo                                              | Explicaci√≥n                                      | Ejemplo                                               |
| --------------------------------------------------- | ------------------------------------------------ | ----------------------------------------------------- |
| `pd.DataFrame({'A':[1,2],'B':[3,4]})`               | Crear DataFrame desde diccionario                | `pd.DataFrame({'A':[1,2],'B':[3,4]})`                 |
| `pd.DataFrame([[1,2],[3,4]], columns=['A','B'])`    | Crear desde lista de listas con columnas         | `pd.DataFrame([[1,2],[3,4]], columns=['A','B'])`      |
| `pd.DataFrame.from_dict(dict_data, orient='index')` | Crear desde diccionario de listas o diccionarios | `pd.DataFrame.from_dict({'a':[1,2]}, orient='index')` |


üîç Atributos principales
| Atributo   | Explicaci√≥n                   | Ejemplo      |
| ---------- | ----------------------------- | ------------ |
| `.shape`   | Dimensiones (filas, columnas) | `df.shape`   |
| `.size`    | N√∫mero total de elementos     | `df.size`    |
| `.ndim`    | N√∫mero de dimensiones         | `df.ndim`    |
| `.columns` | Nombres de columnas           | `df.columns` |
| `.index`   | √çndice de filas               | `df.index`   |
| `.dtypes`  | Tipos de datos por columna    | `df.dtypes`  |
| `.values`  | Valores como ndarray          | `df.values`  |
| `.empty`   | True si est√° vac√≠o            | `df.empty`   |


‚öôÔ∏è Selecci√≥n y acceso
| M√©todo / Operaci√≥n     | Explicaci√≥n                         | Ejemplo                |
| ---------------------- | ----------------------------------- | ---------------------- |
| `df['A']`              | Acceder a columna                   | `df['A']`              |
| `df[['A','B']]`        | Acceder a varias columnas           | `df[['A','B']]`        |
| `df.loc[0]`            | Acceder por etiqueta / √≠ndice       | `df.loc[0]`            |
| `df.loc[0,'A']`        | Acceder por fila y columna          | `df.loc[0,'A']`        |
| `df.iloc[0]`           | Acceder por posici√≥n                | `df.iloc[0]`           |
| `df.iloc[0,1]`         | Acceder por fila y columna posici√≥n | `df.iloc[0,1]`         |
| `df.loc[0:2, 'A':'B']` | Slicing por etiquetas               | `df.loc[0:2, 'A':'B']` |
| `df.iloc[0:2,0:2]`     | Slicing por posiciones              | `df.iloc[0:2,0:2]`     |


üîÑ Operaciones de filtrado
| M√©todo / Operaci√≥n              | Explicaci√≥n                 | Ejemplo                         |
| ------------------------------- | --------------------------- | ------------------------------- |
| `df[df['A']>1]`                 | Filtrar filas por condici√≥n | `df[df['A']>1]`                 |
| `df[(df['A']>1) & (df['B']<4)]` | Condiciones combinadas      | `df[(df['A']>1) & (df['B']<4)]` |
| `df.query('A>1 & B<4')`         | Filtrado con query string   | `df.query('A>1 & B<4')`         |
| `df[df.isnull()]`               | Filas con valores nulos     | `df[df.isnull().any(axis=1)]`   |


üî¢ Estad√≠stica y resumen
| M√©todo                  | Explicaci√≥n                    | Ejemplo                  |
| ----------------------- | ------------------------------ | ------------------------ |
| `.head(n)` / `.tail(n)` | Primeros / √∫ltimos n filas     | `df.head(3)`             |
| `.info()`               | Informaci√≥n general            | `df.info()`              |
| `.describe()`           | Estad√≠sticas resumidas         | `df.describe()`          |
| `.value_counts()`       | Conteo de valores (Series)     | `df['A'].value_counts()` |
| `.mean()` / `.median()` | Media / mediana                | `df['A'].mean()`         |
| `.min()` / `.max()`     | M√≠nimo / m√°ximo                | `df.min()`               |
| `.sum()` / `.cumsum()`  | Suma / suma acumulada          | `df.sum()`               |
| `.std()` / `.var()`     | Desviaci√≥n est√°ndar / varianza | `df.std()`               |
| `.corr()`               | Correlaci√≥n entre columnas     | `df.corr()`              |


In [11]:
df_pk = pd.read_csv('./data/Pokemon.csv', encoding='latin1') #encoding= 'latin1' para evitar errores de codificaci√≥n ya que el archivo contiene caracteres especiales

df_pk

Unnamed: 0,#,Name,Type 1,Type 2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Stage,Legendary
0,1,Bulbasaur,Grass,Poison,318,45,49,49,65,65,45,1,False
1,2,Ivysaur,Grass,Poison,405,60,62,63,80,80,60,2,False
2,3,Venusaur,Grass,Poison,525,80,82,83,100,100,80,3,False
3,4,Charmander,Fire,,309,39,52,43,60,50,65,1,False
4,5,Charmeleon,Fire,,405,58,64,58,80,65,80,2,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...
146,147,Dratini,Dragon,,300,41,64,45,50,50,50,1,False
147,148,Dragonair,Dragon,,420,61,84,65,70,70,70,2,False
148,149,Dragonite,Dragon,Flying,600,91,134,95,100,100,80,3,False
149,150,Mewtwo,Psychic,,680,106,110,90,154,90,130,1,True


In [20]:
display(df_pk.loc[150])
df_pk.loc[150, "HP"] = df_pk.loc[150,"Attack"] + df_pk.loc[150,"Defense"]
display(df_pk.loc[150])

#                151
Name             Mew
Type 1       Psychic
Type 2           NaN
Total            600
HP               100
Attack           100
Defense          100
Sp. Atk          100
Sp. Def          100
Speed            100
Stage              1
Legendary      False
(150, HP)        200
Name: 150, dtype: object

#                151
Name             Mew
Type 1       Psychic
Type 2           NaN
Total            600
HP               200
Attack           100
Defense          100
Sp. Atk          100
Sp. Def          100
Speed            100
Stage              1
Legendary      False
(150, HP)        200
Name: 150, dtype: object

In [4]:
#Los m√©todos estad√≠sticos de un DataFrame son los anteriores mencionados anteriormente. 

#Los usos pr√°cticos de estos m√©todos son los siguientes:

#Estad√≠sticas resumidas:
print("Estad√≠sticas descriptivas del DataFrame:")
print(df_pk.describe()) #si no pasamos ning√∫n par√°metro, describe() devuelve estad√≠sticas descriptivas solo para las columnas num√©ricas del DataFrame.
# Los par√°metros de describe() son include y exclude, que permiten especificar qu√© tipos de datos incluir o excluir en el resumen estad√≠stico.
#Por ejemplo, para incluir todas las columnas, se puede usar include='all':
print("\nEstad√≠sticas incluyendo todas las columnas:")
print(df_pk.describe(include='all'))
#Para excluir columnas de tipo objeto (cadenas de texto), se puede usar exclude=['object']:
print("\nEstad√≠sticas excluyendo columnas de tipo objeto:")
print(df_pk.describe(exclude=['object']))

Estad√≠sticas descriptivas del DataFrame:
                #      Total          HP      Attack     Defense     Sp. Atk  \
count  151.000000  151.00000  151.000000  151.000000  151.000000  151.000000   
mean    76.000000  407.07947   64.211921   72.549669   68.225166   67.139073   
std     43.734045   99.74384   28.590117   26.596162   26.916704   28.534199   
min      1.000000  195.00000   10.000000    5.000000    5.000000   15.000000   
25%     38.500000  320.00000   45.000000   51.000000   50.000000   45.000000   
50%     76.000000  405.00000   60.000000   70.000000   65.000000   65.000000   
75%    113.500000  490.00000   80.000000   90.000000   84.000000   87.500000   
max    151.000000  680.00000  250.000000  134.000000  180.000000  154.000000   

          Sp. Def       Speed       Stage  
count  151.000000  151.000000  151.000000  
mean    66.019868   68.933775    1.582781  
std     24.197926   26.746880    0.676832  
min     20.000000   15.000000    1.000000  
25%     49.000000

In [5]:
#Conteo de valores de una columna espec√≠fica:
print("\nConteo de valores en la columna 'Type 1':")
print(df_pk['Type 1'].value_counts())
#value_counts() devuelve una serie con el conteo de ocurrencias de cada valor √∫nico en la columna especificada.
# Los par√°metros de value_counts() incluyen normalize (para obtener proporciones en lugar de conteos), 
# sort (para ordenar los resultados), ascending (para ordenar en orden ascendente) y dropna (para incluir o excluir valores nulos).
#Por ejemplo, para obtener proporciones en lugar de conteos:
print("\nProporciones de valores en la columna 'Type 1':")
print(df_pk['Type 1'].value_counts(normalize=True)) 
#Para ordenar los resultados en orden ascendente:
print("\nConteo de valores en la columna 'Type 1' ordenados ascendentemente:")
print(df_pk['Type 1'].value_counts(sort=True, ascending=True))
#Para incluir valores nulos en el conteo:
print("\nConteo de valores en la columna 'Type 2' incluyendo nulos:")
print(df_pk['Type 2'].value_counts(dropna=False))


Conteo de valores en la columna 'Type 1':
Type 1
Water       28
Normal      22
Poison      14
Fire        12
Grass       12
Bug         12
Electric     9
Rock         9
Ground       8
Psychic      8
Fighting     7
Dragon       3
Ghost        3
Fairy        2
Ice          2
Name: count, dtype: int64

Proporciones de valores en la columna 'Type 1':
Type 1
Water       0.185430
Normal      0.145695
Poison      0.092715
Fire        0.079470
Grass       0.079470
Bug         0.079470
Electric    0.059603
Rock        0.059603
Ground      0.052980
Psychic     0.052980
Fighting    0.046358
Dragon      0.019868
Ghost       0.019868
Fairy       0.013245
Ice         0.013245
Name: proportion, dtype: float64

Conteo de valores en la columna 'Type 1' ordenados ascendentemente:
Type 1
Ice          2
Fairy        2
Dragon       3
Ghost        3
Fighting     7
Ground       8
Psychic      8
Electric     9
Rock         9
Grass       12
Fire        12
Bug         12
Poison      14
Normal      22
Water    

In [6]:
#Media y mediana de una columna num√©rica:
print("\nMedia y mediana de la columna 'HP':")
print("Media:", df_pk['HP'].mean())
print("Mediana:", df_pk['HP'].median())
# La principal diferencia entre la media y la mediana es que la media es sensible a valores at√≠picos, mientras que la mediana no lo es.
# Por ejemplo, si una columna tiene valores extremadamente altos o bajos, la media puede verse afectada significativamente, 
# mientras que la mediana proporcionar√° una mejor representaci√≥n del valor central de los datos.
#Los par√°metros de mean() y median() incluyen skipna (para omitir o incluir valores nulos en el c√°lculo).
#Si quisi√©ramos calcular la media entre dos filas espec√≠ficas, podr√≠amos usar:
print("\nMedia de la columna 'HP' entre las filas 0 y 1:")
print(df_pk.loc[[0, 1], 'HP'].mean())
#Si quisi√©ramos calcular la mediana entre dos columnas espec√≠ficas, podr√≠amos usar:
print("\nMediana entre las columnas 'Attack' y 'Defense':")
print(df_pk[['Attack', 'Defense']].median())
#Si quisi√©ramos calcular la media entre dos filas y dos columnas espec√≠ficas:
print("\nMedia entre las filas 0 y 1 y las columnas 'Attack' y 'Defense':")
print(df_pk.loc[[0, 1], ['Attack', 'Defense']].mean())
#Si quisi√©ramos calcular la mediana de la columna Atack entre los Pokemon Gastly, Haunter y Gengar:
print("\nMediana de la columna 'Attack' entre los Pok√©mon Gastly, Haunter y Gengar:")
print(df_pk.loc[df_pk['Name'].isin(['Gastly', 'Haunter', 'Gengar']), 'Attack'].median())
#Si quisi√©ramos calcular la mediana de la columna Sp. Atk  entre los √≠ndices #150 y #151:
df_pk.set_index('#', inplace=True)
print("\nMediana de la columna 'Sp. Atk' entre los √≠ndices 150 y 151:")
print(df_pk.loc[[150, 151], 'Sp. Atk'].median())



Media y mediana de la columna 'HP':
Media: 64.21192052980132
Mediana: 60.0

Media de la columna 'HP' entre las filas 0 y 1:
52.5

Mediana entre las columnas 'Attack' y 'Defense':
Attack     70.0
Defense    65.0
dtype: float64

Media entre las filas 0 y 1 y las columnas 'Attack' y 'Defense':
Attack     55.5
Defense    56.0
dtype: float64

Mediana de la columna 'Attack' entre los Pok√©mon Gastly, Haunter y Gengar:
50.0

Mediana de la columna 'Sp. Atk' entre los √≠ndices 150 y 151:
127.0


In [7]:
# Minimo y m√°ximo de una columna num√©rica:
print("\nM√≠nimo y m√°ximo de la columna 'Speed':")
print("M√≠nimo:", df_pk['Speed'].min())
print("M√°ximo:", df_pk['Speed'].max())
# Los par√°metros de min() y max() incluyen skipna (para omitir o incluir valores nulos en el c√°lculo).
#Si quisi√©ramos calcular el m√≠nimo entre dos filas espec√≠ficas, podr√≠amos usar:
print("\nM√≠nimo de la columna 'Speed' entre las filas 0 y 1:")
print(df_pk.loc[[0, 1], 'Speed'].min())
#Si quisi√©ramos calcular el m√°ximo entre dos columnas espec√≠ficas, podr√≠amos usar:
print("\nM√°ximo entre las columnas 'Attack' y 'Defense':")
print(df_pk[['Attack', 'Defense']].max())
#Y si quisi√©ramos calcular el m√≠nimo entre dos filas y dos columnas espec√≠ficas:
print("\nM√≠nimo entre las filas 0 y 1 y las columnas 'Attack' y 'Defense':")
print(df_pk.loc[[0, 1], ['Attack', 'Defense']].min())

#Si quisi√©ramos obtener el ataque m√°x de pokemones de tipo 'Fire':
print("\nAtaque m√°ximo de pokemones de tipo 'Fire':")
fire_max_attack = df_pk[df_pk['Type 1'] == 'Fire']['Attack'].max()
print(fire_max_attack)

# Si quisi√©ramos obtener la defensa del pok√©mon con mayor velocidad:
print("\nDefensa del pok√©mon con mayor velocidad:") 
max_speed_defense = df_pk.loc[df_pk['Speed'].idxmax(), 'Defense']
print(max_speed_defense)


M√≠nimo y m√°ximo de la columna 'Speed':
M√≠nimo: 15
M√°ximo: 140

M√≠nimo de la columna 'Speed' entre las filas 0 y 1:


KeyError: '[0] not in index'

In [None]:
# sum y cumsum de una columna num√©rica:
print("\nSuma y suma acumulada de la columna 'Total':")
print("Suma:", df_pk['Total'].sum())
print("Suma acumulada:")
print(df_pk['Total'].cumsum())
# Los par√°metros de sum() y cumsum() incluyen skipna (para omitir o incluir valores nulos en el c√°lculo).
#Si quisi√©ramos calcular la suma entre dos filas espec√≠ficas, podr√≠amos usar:
print("\nSuma de la columna 'Total' entre las filas 0 y 1:")
print(df_pk.loc[[0, 1], 'Total'].sum())
#Si quisi√©ramos calcular la suma acumulada entre dos columnas espec√≠ficas, podr√≠amos usar:
print("\nSuma acumulada entre las columnas 'Attack' y 'Defense':")
print(df_pk[['Attack', 'Defense']].cumsum())
#Y si quisi√©ramos calcular la suma entre dos filas y dos columnas espec√≠ficas:
print("\nSuma entre las filas 0 y 1 y las columnas 'Attack' y 'Defense':")
print(df_pk.loc[[0, 1], ['Attack', 'Defense']].sum())


Suma y suma acumulada de la columna 'Total':
Suma: 61469
Suma acumulada:
0        318
1        723
2       1248
3       1557
4       1962
       ...  
146    59169
147    59589
148    60189
149    60869
150    61469
Name: Total, Length: 151, dtype: int64

Suma de la columna 'Total' entre las filas 0 y 1:
723

Suma acumulada entre las columnas 'Attack' y 'Defense':
     Attack  Defense
0        49       49
1       111      112
2       193      195
3       245      238
4       309      296
..      ...      ...
146   10527     9952
147   10611    10017
148   10745    10112
149   10855    10202
150   10955    10302

[151 rows x 2 columns]

Suma entre las filas 0 y 1 y las columnas 'Attack' y 'Defense':
Attack     111
Defense    112
dtype: int64


In [None]:
# std y var de una columna num√©rica, que calculan la desviaci√≥n est√°ndar y la varianza, respectivamente:
print("\nDesviaci√≥n est√°ndar y varianza de la columna 'Sp. Atk':")
print("Desviaci√≥n est√°ndar:", df_pk['Sp. Atk'].std())
print("Varianza:", df_pk['Sp. Atk'].var())
# Los par√°metros de std() y var() incluyen skipna (para omitir o incluir valores nulos en el c√°lculo).
#La desviaci√≥n est√°ndar mide la dispersi√≥n de los datos con respecto a la media, mientras que la varianza es el cuadrado de la desviaci√≥n est√°ndar.
# En otras palabras, la desviaci√≥n est√°ndar es la ra√≠z cuadrada de la varianza. Y la varianza proporciona una medida de cu√°nto var√≠an los datos en promedio con respecto a la media.
# Estas funciones son √∫tiles para entender la distribuci√≥n de los datos en una columna num√©rica.
#  Que pueden ser √∫tiles para identificar la variabilidad y la consistencia de los datos.

#La variabilidad de datos con alta desviaci√≥n est√°ndar indica que los valores est√°n m√°s dispersos, mientras que una baja desviaci√≥n est√°ndar indica que los valores est√°n m√°s agrupados alrededor de la media.
#La consistencia de datos con baja varianza indica que los valores son m√°s similares entre s√≠, mientras que una alta varianza indica que los valores son m√°s diferentes entre s√≠.


Desviaci√≥n est√°ndar y varianza de la columna 'Sp. Atk':
Desviaci√≥n est√°ndar: 28.534199301913564
Varianza: 814.2005298013245


In [None]:
# corr de un DataFrame, que calcula la matriz de correlaci√≥n entre las columnas num√©ricas, esto es, c√≥mo se relacionan entre s√≠:
print("\nMatriz de correlaci√≥n entre las columnas num√©ricas:")
print(df_pk.corr())
# Los par√°metros de corr() incluyen method (para especificar el m√©todo de correlaci√≥n: 'pearson', 'kendall' o 'spearman').
# Por ejemplo, para calcular la correlaci√≥n usando el m√©todo de Spearman:
print("\nMatriz de correlaci√≥n usando el m√©todo de Spearman:")
print(df_pk.corr(method='spearman'))
# La correlaci√≥n de Pearson mide la relaci√≥n lineal entre dos variables, mientras que la correlaci√≥n de Spearman mide la relaci√≥n monot√≥nica (no necesariamente lineal) entre dos variables.
# Estas funciones son √∫tiles para entender las relaciones entre diferentes columnas num√©ricas en un DataFrame.
# Pueden ayudar a identificar qu√© variables est√°n relacionadas entre s√≠ y c√≥mo se relacionan, lo que puede ser √∫til para el an√°lisis exploratorio de datos y la selecci√≥n de caracter√≠sticas en modelos predictivos.



Matriz de correlaci√≥n entre las columnas num√©ricas:


ValueError: could not convert string to float: 'Bulbasaur'

In [None]:
df_pk

Unnamed: 0_level_0,Name,Type 1,Type 2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Stage,Legendary
#,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
1,Bulbasaur,Grass,Poison,318,45,49,49,65,65,45,1,False
2,Ivysaur,Grass,Poison,405,60,62,63,80,80,60,2,False
3,Venusaur,Grass,Poison,525,80,82,83,100,100,80,3,False
4,Charmander,Fire,,309,39,52,43,60,50,65,1,False
5,Charmeleon,Fire,,405,58,64,58,80,65,80,2,False
...,...,...,...,...,...,...,...,...,...,...,...,...
147,Dratini,Dragon,,300,41,64,45,50,50,50,1,False
148,Dragonair,Dragon,,420,61,84,65,70,70,70,2,False
149,Dragonite,Dragon,Flying,600,91,134,95,100,100,80,3,False
150,Mewtwo,Psychic,,680,106,110,90,154,90,130,1,True


‚öôÔ∏è Manipulaci√≥n y limpieza
| M√©todo                       | Explicaci√≥n                           | Ejemplo                        |
| ---------------------------- | ------------------------------------- | ------------------------------ |
| `.sort_values('A')`          | Ordenar por columna                   | `df.sort_values('A')`          |
| `.sort_index()`              | Ordenar por √≠ndice                    | `df.sort_index()`              |
| `.rename(columns={'A':'X'})` | Renombrar columnas                    | `df.rename(columns={'A':'X'})` |
| `.drop('A', axis=1)`         | Eliminar columna                      | `df.drop('A', axis=1)`         |
| `.drop([0,1], axis=0)`       | Eliminar filas                        | `df.drop([0,1], axis=0)`       |
| `.fillna(valor)`             | Rellenar nulos                        | `df.fillna(0)`                 |
| `.dropna()`                  | Eliminar nulos                        | `df.dropna()`                  |
| `.astype(tipo)`              | Cambiar tipo de columna               | `df['A'].astype(float)`        |
| `.apply(func, axis=0)`       | Aplicar funci√≥n a columnas            | `df.apply(np.sqrt)`            |
| `.applymap(func)`            | Aplicar funci√≥n a todos los elementos | `df.applymap(lambda x: x*2)`   |
| `.set_index()`               | Establece una o m√°s col como el √≠nd del Df| `df.set_index('A', inplace = )`|
| `.reset_index()`             | Restablece el √≠nd del Df a los valores predet. (enteros secuenciales)| `df.reset_index()`             |

In [None]:
df_pk = pd.read_csv('./data/Pokemon.csv', encoding='latin1') #encoding= 'latin1' para evitar errores de codificaci√≥n ya que el archivo contiene caracteres especiales

df_pk

Unnamed: 0,#,Name,Type 1,Type 2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Stage,Legendary
0,1,Bulbasaur,Grass,Poison,318,45,49,49,65,65,45,1,False
1,2,Ivysaur,Grass,Poison,405,60,62,63,80,80,60,2,False
2,3,Venusaur,Grass,Poison,525,80,82,83,100,100,80,3,False
3,4,Charmander,Fire,,309,39,52,43,60,50,65,1,False
4,5,Charmeleon,Fire,,405,58,64,58,80,65,80,2,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...
146,147,Dratini,Dragon,,300,41,64,45,50,50,50,1,False
147,148,Dragonair,Dragon,,420,61,84,65,70,70,70,2,False
148,149,Dragonite,Dragon,Flying,600,91,134,95,100,100,80,3,False
149,150,Mewtwo,Psychic,,680,106,110,90,154,90,130,1,True


In [None]:
# set_index() se utiliza para establecer una o m√°s columnas como el √≠ndice del DataFrame.
df_pk.set_index('#', inplace=True)
#inplace=True para modificar el DataFrame original,set_index() tiene los sigueintes par√°metros principales:
#keys: columna(s) a usar como √≠ndice    
#drop: si es True (por defecto) elimina la(s) columna(s) usada(s) como √≠ndice del DataFrame original
#append: si es True, a√±ade la(s) columna(s) como un nuevo nivel al √≠ndice existente
#inplace: si es True, modifica el DataFrame original en lugar de devolver uno nuevo
print("\nDataFrame con la columna '#' como √≠ndice:")
df_pk.head()


DataFrame con la columna '#' como √≠ndice:


Unnamed: 0_level_0,Name,Type 1,Type 2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Stage,Legendary
#,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
1,Bulbasaur,Grass,Poison,318,45,49,49,65,65,45,1,False
2,Ivysaur,Grass,Poison,405,60,62,63,80,80,60,2,False
3,Venusaur,Grass,Poison,525,80,82,83,100,100,80,3,False
4,Charmander,Fire,,309,39,52,43,60,50,65,1,False
5,Charmeleon,Fire,,405,58,64,58,80,65,80,2,False


In [None]:
#Si quisieramos restablecer el √≠ndice a los valores predeterminados (enteros secuenciales), podr√≠amos usar reset_index():
df_pk.reset_index(inplace=True)
# par√°metros de reset_index(): 
# level: nivel(es) del √≠ndice a restablecer (si el √≠ndice es multi-nivel), por defecto es None, lo que significa que se restablece todo el √≠ndice y va desde 0 hasta n-1
# drop: si es True, elimina el √≠ndice actual en lugar de convertirlo en una columna
# inplace: si es True, modifica el DataFrame original en lugar de devolver uno nuevo
df_pk


Unnamed: 0,index,#,Name,Type 1,Type 2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Stage,Legendary
0,0,1,Bulbasaur,Grass,Poison,318,45,49,49,65,65,45,1,False
1,1,2,Ivysaur,Grass,Poison,405,60,62,63,80,80,60,2,False
2,2,3,Venusaur,Grass,Poison,525,80,82,83,100,100,80,3,False
3,3,4,Charmander,Fire,,309,39,52,43,60,50,65,1,False
4,4,5,Charmeleon,Fire,,405,58,64,58,80,65,80,2,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
146,146,147,Dratini,Dragon,,300,41,64,45,50,50,50,1,False
147,147,148,Dragonair,Dragon,,420,61,84,65,70,70,70,2,False
148,148,149,Dragonite,Dragon,Flying,600,91,134,95,100,100,80,3,False
149,149,150,Mewtwo,Psychic,,680,106,110,90,154,90,130,1,True


üîÑ Combinaci√≥n de DataFrames
| M√©todo                                 | Explicaci√≥n         | Ejemplo                         |
| -------------------------------------- | ------------------- | ------------------------------- |
| `pd.concat([df1, df2], axis=0)`        | Concatenar filas    | `pd.concat([df1, df2], axis=0)` |
| `pd.concat([df1, df2], axis=1)`        | Concatenar columnas | `pd.concat([df1, df2], axis=1)` |
| `df.merge(df2, on='key', how='inner')` | Merge / join        | `df.merge(df2, on='key')`       |
| `df.join(df2)`                         | Join por √≠ndice     | `df.join(df2)`                  |


‚è± Series temporales (si √≠ndice datetime)
| M√©todo                  | Explicaci√≥n         | Ejemplo                   |
| ----------------------- | ------------------- | ------------------------- |
| `.resample('M').mean()` | Agrupar por periodo | `df.resample('M').mean()` |
| `.shift(n)`             | Desplazar filas     | `df.shift(1)`             |
| `.rolling(n).mean()`    | Media m√≥vil         | `df.rolling(3).mean()`    |
| `.expanding().sum()`    | Suma acumulativa    | `df.expanding().sum()`    |

üíæ Entrada / salida
| M√©todo                          | Explicaci√≥n             | Ejemplo                         |
| ------------------------------- | ----------------------- | ------------------------------- |
| `pd.read_csv('archivo.csv')`    | Leer CSV                | `pd.read_csv('archivo.csv')`    |
| `.to_csv('archivo.csv')`        | Exportar CSV            | `df.to_csv('archivo.csv')`      |
| `pd.read_excel('archivo.xlsx')` | Leer Excel              | `pd.read_excel('archivo.xlsx')` |
| `.to_excel('archivo.xlsx')`     | Exportar Excel          | `df.to_excel('archivo.xlsx')`   |
| `.to_dict()`                    | Convertir a diccionario | `df.to_dict()`                  |
| `.to_numpy()`                   | Convertir a NumPy array | `df.to_numpy()`                 |
| `.to_json()`                    | Exportar JSON           | `df.to_json('archivo.json')`    |


# ‚úèÔ∏è C√≥mo manipular y editar valores en un DataFrame de Pandas

A continuaci√≥n se muestran las formas m√°s comunes de modificar datos en un DataFrame, usando como ejemplo el `data`:

```python
import pandas as pd

superficie = pd.Series({
    'Madrid': 604.3,
    'Par√≠s': 105.4,
    'Roma': 1285,
    'Berl√≠n': 891.8,
    'Londres': 1572
})

poblacion = pd.Series({
    'Madrid': 3266000,
    'Par√≠s': 2161000,
    'Roma': 2873000,
    'Berl√≠n': 3645000,
    'Londres': 8982000
})

data = pd.DataFrame({'area': superficie, 'pob': poblacion})
data["densidad"] = data["pob"] / data["area"]
```

## 1Ô∏è‚É£ Modificar una columna completa

### Sobrescribir toda la columna
```data["densidad"] = data["pob"] / data["area"]```

### Crear o modificar otra columna
```data["densidad_relativa"] = data["densidad"] / data["densidad"].max()```

## 2Ô∏è‚É£ Modificar una fila completa

### Cambiar todos los valores de Roma
```data.loc["Roma"] = [1300, 2900000, 2223]```

## 3Ô∏è‚É£ Modificar una celda espec√≠fica

###  Con loc
```data.loc["Madrid", "area"] = 610```

###  Con at (m√°s r√°pido para un √∫nico valor)
```data.at["Madrid", "pob"] = 3270000```

## 4Ô∏è‚É£ Modificar valores condicionalmente (m√°scaras)

###  Incrementar densidad en un 10% si es mayor de 5000
```data.loc[data["densidad"] > 5000, "densidad"] *= 1.1```

###  Clasificar ciudades seg√∫n densidad
```data.loc[data["densidad"] < 3000, "clasificaci√≥n"] = "baja"```
```data.loc[data["densidad"] >= 3000, "clasificaci√≥n"] = "alta"```

## 5Ô∏è‚É£ Modificar usando .apply() sobre columnas

### Redondear densidad a entero
```data["densidad"] = data["densidad"].apply(int)```

###  A√±adir 100 a todas las √°reas
```data["area"] = data["area"].apply(lambda x: x + 100)```

## 6Ô∏è‚É£ Modificar usando replace()

###  Cambiar nombres de ciudades
```data.index = data.index.str.replace("Madrid", "Madrid-Capital")```

## 7Ô∏è‚É£ Modificar usando mask() o where()

###  Donde la densidad es baja, poner NaN
```data["densidad_mascarada"] = data["densidad"].mask(data["densidad"] < 3000)```

###  Donde es alta, multiplicar por 2
```data["densidad_filtrada"] = data["densidad"].where(data["densidad"] < 5000, data["densidad"]*2)```

# üß† Ejemplos de uso de m√°scaras en Pandas

A partir del DataFrame base:

| Ciudad  | area   | pob      | densidad |
|----------|--------|----------|-----------|
| Madrid   | 604.3  | 3266000  | 5405.05   |
| Par√≠s    | 105.4  | 2161000  | 20497.16  |
| Roma     | 1285.0 | 2873000  | 2236.55   |
| Berl√≠n   | 891.8  | 3645000  | 4087.61   |
| Londres  | 1572.0 | 8982000  | 5712.79   |

---

## üìã Tabla de ejemplos

| N¬∫ | Tipo de m√°scara | Ejemplo de c√≥digo| Descripci√≥n  | Resultado esperado |
|----|------------------|-------------------|--------------------|--------------------|
| 1 | **Condici√≥n simple** | `data[data["densidad"] > 5000]` | Filtra filas seg√∫n una condici√≥n. | Madrid, Par√≠s y Londres |
| 2 | **Combinaci√≥n l√≥gica** | `data[(data["densidad"] > 4000) & (data["area"] < 1000)]` | Usa `&`, `| Madrid y Par√≠s |
| 3 | **Con .loc** | `data.loc[data["pob"] > 3000000, ["area", "densidad"]]` | Filtra filas y columnas a la vez.| Filas con >3M habs (Madrid, Berl√≠n, Londres) mostrando solo `area` y `densidad` |
| 4 | **Con query()** | `data.query("densidad > 5000 and area < 1000")` | Sintaxis estilo SQL.| Madrid y Par√≠s |
| 5 | **Asignaci√≥n condicional** | `data.loc[data["densidad"]<3000,"clasificaci√≥n"]="baja"`<br>`data.loc[data["densidad"]>=3000,"clasificaci√≥n"]="alta"` | Modifica columnas seg√∫n una condici√≥n.| Columna `clasificaci√≥n`: Roma ‚Üí baja, resto ‚Üí alta |
| 6 | **np.where()** | `data["tipo_area"]=np.where(data["area"]>1000,"amplia","compacta")` | Condicional vectorizado (tipo ternario).| Roma y Londres ‚Üí ‚Äúamplia‚Äù; resto ‚Üí ‚Äúcompacta‚Äù |
| 7 | **Condici√≥n en √≠ndice (str)** | `data[data.index.str.contains("r", case=False)]` | Filtra seg√∫n el nombre del √≠ndice. | Madrid, Par√≠s, Roma, Berl√≠n |
| 8 | **isin()** | `data[data.index.isin(["Madrid","Londres"])]` | Selecciona valores pertenecientes a un conjunto.| Muestra solo Madrid y Londres |
| 9 | **Negaci√≥n (~)** | `data[~(data["area"]>1000)]` | Niega una condici√≥n.| Madrid, Par√≠s, Berl√≠n |
| 10 | **M√°scaras encadenadas** | `mask=(data["densidad"]>4000)`<br>`submask=data["pob"]<4000000`<br>`data[mask & submask]` | Filtros progresivos.| Madrid y Par√≠s |
| 11 | **Funci√≥n con apply()** | `data[data["pob"].apply(lambda x: x%2==0)]` | Aplica funciones personalizadas.| Filas con poblaci√≥n par (todas en este caso) |
| 12 | **between()** | `data[data["densidad"].between(3000,6000)]` | Filtra por rangos de valores.| Madrid, Berl√≠n, Londres |
| 13 | **where()** | `data["densidad_filtrada"]=data["densidad"].where(data["densidad"]>5000)` | Reemplaza los que **no cumplen** con `NaN`.| Valores ‚â§5000 ‚Üí `NaN`, resto ‚Üí densidad |
| 14 | **mask()** | `data["densidad_mascarada"]=data["densidad"].mask(data["densidad"]>5000)` | Opuesto a `.where()`: reemplaza los que **s√≠ cumplen**.| Valores >5000 ‚Üí `NaN`, resto ‚Üí densidad |
| 15 | **np.logical_and()** | `data[np.logical_and(data["area"]<1000,data["pob"]>3000000)]` | Usa `np.logical_and`, `np.logical_or`, `np.logical_not`.| Madrid |
| 16 | **Eliminar con drop()** | `data.drop(data[data["densidad"]<3000].index)` | Usa el √≠ndice de la m√°scara para borrar filas.| Elimina Roma |
| 17 | **Agregaci√≥n condicionada** | `data.loc[data["densidad"]>5000,"pob"].mean()` | Calcula estad√≠sticas sobre subconjuntos.| Media ‚âà 4800000 (Madrid, Par√≠s, Londres) |
| 18 | **Con MultiIndex (conceptual)** | `data[data.index.get_level_values(1).str.contains("r")]` | Filtra seg√∫n valores de niveles del √≠ndice.| Ejemplo conceptual para MultiIndex |
| 19 | **Valores nulos** | `data[data["densidad"].notna()]` | Filtra datos faltantes. | Devuelve todas (ning√∫n NaN inicial) |
| 20 | **Modificaci√≥n condicional** | `data.loc[(data["densidad"]>5000)&(data["area"]<1000),"densidad"]*=1.1` | Modifica valores de forma condicional.| Incrementa densidad un 10% para Madrid y Par√≠s |

---

## üìé Notas

- Los operadores `&`, `|`, `~` **requieren par√©ntesis** en Pandas.  
- `where()` y `mask()` **mantienen el mismo tama√±o del DataFrame**, rellenando con `NaN`.  
- `np.where()` **devuelve arrays** que se alinean perfectamente con columnas de Pandas.  
- `.query()` y `.isin()` son excelentes para c√≥digo legible o filtros de texto.  
- Los m√©todos como `.between()` y `.notna()` son m√°s expresivos y r√°pidos que combinaciones l√≥gicas.
- Recordemos, antetodo, que el resultado de las m√°scaras siempre es una Serie booleana del mismo tama√±o que el DataFrame original
    - Cuando aplicas esa Serie booleana entre corchetes [], Pandas devuelve **solo las filas** donde la m√°scara es True
    - Si s√≥lo quieres los nombres de los √≠ndices que han sido True, se puede usar .index con la m√°scara: `data.index[mask]`

---