# PANDAS - Aplicaciones fundamentales

Manual de uso con las aplicaciones que no pueden faltar a la hora de manejar DataFrames para la Ciencia de Datos. 

Abajo, un índice de temas tentativo.

Crear un dataframe
- a partir de un csv
- a partir de un excel
- a partir de un diccionario
- otros métodos

Concatenar DataFrames / Series

Separar DF y/o Series de un DF

Agregar, editar y eliminar columnas de un DF

Agregar, editar y eliminar filas de un DF

Buscar por Columna

Buscar por Fila

Buscar un dato específico

Agregar índices específicos

Agregar nombres a las columnas

Group by

Links que voy juntando con data muy buena:
- https://sparkbyexamples.com/pandas/pandas-select-rows-by-index/
- https://www.kaggle.com/datasets/arshid/iris-flower-dataset?select=IRIS.csv
- https://www.shanelynn.ie/pandas-drop-delete-dataframe-rows-columns/

<p style="text-align: center; color: #FAFAFA; border: 2px solid gold; background-color: #202020; border-radius: 15px; font-size: 2em; width: 400px; margin: auto; padding: 10px;">
    Acá arrancamos!
</p>

In [2]:
import pandas as pd

In [3]:
df = pd.read_csv('IRIS.csv')
df.describe()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
count,150.0,150.0,150.0,150.0
mean,5.843333,3.054,3.758667,1.198667
std,0.828066,0.433594,1.76442,0.763161
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


In [4]:
df.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


In [5]:
songs = {
    'album':
    [
        'Thriller', 'Back in Black', 'The Dark Side of the Moon', 'The Bodyguard', 'Bat Out of Hell'
    ],
    'Released': [
        1982, 1980, 1973, 1992, 1977
    ],
    'Length': [
        '00:42:19', '00:42:11', '00:42:49', '00:57:44', '00:46:33'
    ]
}

df2 = pd.DataFrame(songs)
df2

Unnamed: 0,album,Released,Length
0,Thriller,1982,00:42:19
1,Back in Black,1980,00:42:11
2,The Dark Side of the Moon,1973,00:42:49
3,The Bodyguard,1992,00:57:44
4,Bat Out of Hell,1977,00:46:33


## Seleccionando FILAS

In [6]:
indices = ['Uno', 'Dos', 'Tres', 'Cuatro', 'Cinco']
df2.index = indices

In [7]:
df2

Unnamed: 0,album,Released,Length
Uno,Thriller,1982,00:42:19
Dos,Back in Black,1980,00:42:11
Tres,The Dark Side of the Moon,1973,00:42:49
Cuatro,The Bodyguard,1992,00:57:44
Cinco,Bat Out of Hell,1977,00:46:33


In [8]:
# Selecciono toda una fila, por índice
df2.iloc[1]

album       Back in Black
Released             1980
Length           00:42:11
Name: Dos, dtype: object

In [9]:
# Selecciono varias filas por índice
df2.iloc[[1, 3]]

Unnamed: 0,album,Released,Length
Dos,Back in Black,1980,00:42:11
Cuatro,The Bodyguard,1992,00:57:44


In [10]:
# Selecciono varias filas por rango de índice
df2.iloc[0:3]

Unnamed: 0,album,Released,Length
Uno,Thriller,1982,00:42:19
Dos,Back in Black,1980,00:42:11
Tres,The Dark Side of the Moon,1973,00:42:49


In [11]:
# O selecciono un elemento por fila, columna
df2.iloc[1, 2]

'00:42:11'

Puedo hacer lo mismo, pero con labels en lugar de índices

In [12]:
# Selecciono fila por NOMBRE del índice
df2.loc['Cuatro']

album       The Bodyguard
Released             1992
Length           00:57:44
Name: Cuatro, dtype: object

In [13]:
df2.loc['Dos', 'Released']

1980

Aplican los mismos métodos: seleccionar varias filas pasándole una lista o un slice

## Seleccionando COLUMNAS

In [14]:
# Selecciono una columna
df2['Released']

Uno       1982
Dos       1980
Tres      1973
Cuatro    1992
Cinco     1977
Name: Released, dtype: int64

In [15]:
# Selecciono varias, y puedo elegir el orden que quiero
df2[['Length', 'album']]

Unnamed: 0,Length,album
Uno,00:42:19,Thriller
Dos,00:42:11,Back in Black
Tres,00:42:49,The Dark Side of the Moon
Cuatro,00:57:44,The Bodyguard
Cinco,00:46:33,Bat Out of Hell


Puedo filtrar:

In [16]:
df2[df2['Released'] < 1980]

Unnamed: 0,album,Released,Length
Tres,The Dark Side of the Moon,1973,00:42:49
Cinco,Bat Out of Hell,1977,00:46:33


## Agregando más registros al DF

In [17]:
nueva_linea_dict = {
    'album': 'Dahlia',
    'Released': 1982,
    'Length': '00:43:15'
}

nueva_linea_lista = ['Slipknot', 2001, '00:41:53']

In [18]:
# Para agregar una lista, hago esto:
df2.loc[len(df2)] = nueva_linea_lista
df2

Unnamed: 0,album,Released,Length
Uno,Thriller,1982,00:42:19
Dos,Back in Black,1980,00:42:11
Tres,The Dark Side of the Moon,1973,00:42:49
Cuatro,The Bodyguard,1992,00:57:44
Cinco,Bat Out of Hell,1977,00:46:33
5,Slipknot,2001,00:41:53


In [19]:
# Para agregar un diccionario, hago esto:
df_row = pd.DataFrame(nueva_linea_dict, index=[0])
df4 = pd.concat([df2, df_row], ignore_index=True)
df4

Unnamed: 0,album,Released,Length
0,Thriller,1982,00:42:19
1,Back in Black,1980,00:42:11
2,The Dark Side of the Moon,1973,00:42:49
3,The Bodyguard,1992,00:57:44
4,Bat Out of Hell,1977,00:46:33
5,Slipknot,2001,00:41:53
6,Dahlia,1982,00:43:15


In [20]:
otro_dict = {
    'album': [
        'Pepe1', 'Pepe2', 'Pepe3'
    ],
    'Released': [
        2005, 2010, 2015
    ],
    'Length': [
        '00:50:01',
        '00:50:02',
        '00:50:03'
    ]
}

otro_dict_a_df = pd.DataFrame(otro_dict)
df4 = pd.concat([df4, otro_dict_a_df], ignore_index=True)
df4

Unnamed: 0,album,Released,Length
0,Thriller,1982,00:42:19
1,Back in Black,1980,00:42:11
2,The Dark Side of the Moon,1973,00:42:49
3,The Bodyguard,1992,00:57:44
4,Bat Out of Hell,1977,00:46:33
5,Slipknot,2001,00:41:53
6,Dahlia,1982,00:43:15
7,Pepe1,2005,00:50:01
8,Pepe2,2010,00:50:02
9,Pepe3,2015,00:50:03


## Eliminando Registros del DF

In [21]:
df4_copia = df4.copy()
df4_copia

Unnamed: 0,album,Released,Length
0,Thriller,1982,00:42:19
1,Back in Black,1980,00:42:11
2,The Dark Side of the Moon,1973,00:42:49
3,The Bodyguard,1992,00:57:44
4,Bat Out of Hell,1977,00:46:33
5,Slipknot,2001,00:41:53
6,Dahlia,1982,00:43:15
7,Pepe1,2005,00:50:01
8,Pepe2,2010,00:50:02
9,Pepe3,2015,00:50:03


In [22]:
# Borro 1 registro, por etiqueta del INDEX
df4_copia.drop(labels=5, axis=0)

Unnamed: 0,album,Released,Length
0,Thriller,1982,00:42:19
1,Back in Black,1980,00:42:11
2,The Dark Side of the Moon,1973,00:42:49
3,The Bodyguard,1992,00:57:44
4,Bat Out of Hell,1977,00:46:33
6,Dahlia,1982,00:43:15
7,Pepe1,2005,00:50:01
8,Pepe2,2010,00:50:02
9,Pepe3,2015,00:50:03


In [23]:
# Elimino las lineas que quiero
df4_copia.drop(labels=[5, 9, 10], axis=0)

# Se descajetan los INDEX, puedo agregar .reset_index(drop=True)

KeyError: '[10] not found in axis'

In [24]:
# Elimino un RANGO
df4_copia.drop(labels=range(2, 7), axis=0)

# NOTAR QUE LOS CAMBIOS "NO SE GUARDAN", HABRÍA QUE USAR INLINE = TRUE

Unnamed: 0,album,Released,Length
0,Thriller,1982,00:42:19
1,Back in Black,1980,00:42:11
7,Pepe1,2005,00:50:01
8,Pepe2,2010,00:50:02
9,Pepe3,2015,00:50:03


Para borrar columnas hacemos lo mismo pero con `axis=1`)

In [25]:
df4_copia.drop(labels='Length', axis=1)

Unnamed: 0,album,Released
0,Thriller,1982
1,Back in Black,1980
2,The Dark Side of the Moon,1973
3,The Bodyguard,1992
4,Bat Out of Hell,1977
5,Slipknot,2001
6,Dahlia,1982
7,Pepe1,2005
8,Pepe2,2010
9,Pepe3,2015


Para agregar nombre a las columnas de un DF o modificarlas:

In [26]:
columnas_nuevas = ['Album', 'Lanzado', 'Longitud']
df4_copia.columns = columnas_nuevas
df4_copia

Unnamed: 0,Album,Lanzado,Longitud
0,Thriller,1982,00:42:19
1,Back in Black,1980,00:42:11
2,The Dark Side of the Moon,1973,00:42:49
3,The Bodyguard,1992,00:57:44
4,Bat Out of Hell,1977,00:46:33
5,Slipknot,2001,00:41:53
6,Dahlia,1982,00:43:15
7,Pepe1,2005,00:50:01
8,Pepe2,2010,00:50:02
9,Pepe3,2015,00:50:03


## Cómo hacer para cambiar un solo dato sabiendo qué celda es?

Por ejemplo, quiero cambiar el año de lanzamiento del disco de Slipknot. Sé, entonces, que `Album = Slipknot` y quer quiero cambiar el valor de la columna `Lanzado`.

Se usa el comando `df.at[indice de la fila, nombre de la columna]`. Pero cómo averiguamos el valor del índice de la fila?

Podemos hacer esta query: `df.index[ df4_copia['Album'] == 'Slipknot' ][0]`. Usando *INDEX* nos va a devolver una lista (de un elemento en este caso) de aquellas filas en donde se cumple la condición propuesta (`df4_copia['Album'] == 'Slipknot'`).

Le agregamos el `[0]` para que nos retorne el valor y no la lista. Finalmente, unimos ambas cosas:

`df.at[ df4_copia.index[ df4_copia['Album'] == 'Slipknot' ][0], 'Lanzado' ] = 2000`

![Esquema para modificar una celda](esquema%20modificar%20una%20celda.png)

In [28]:
df4_copia.at[df4_copia.index[df4_copia['Album'] == 'Slipknot'][0], 'Lanzado'] = 2001
df4_copia

Unnamed: 0,Album,Lanzado,Longitud
0,Thriller,1982,00:42:19
1,Back in Black,1980,00:42:11
2,The Dark Side of the Moon,1973,00:42:49
3,The Bodyguard,1992,00:57:44
4,Bat Out of Hell,1977,00:46:33
5,Slipknot,2001,00:41:53
6,Dahlia,1982,00:43:15
7,Pepe1,2005,00:50:01
8,Pepe2,2010,00:50:02
9,Pepe3,2015,00:50:03


## Grabar un DF a un CSV

In [29]:
df4_copia.to_csv('df4.csv')

In [30]:
df4_copia.to_excel('df4.xlsx')