## pandas - Introducción
<div align="center">
   <img src="attachment:f61f9d6d-2325-48aa-9c81-e0972302ab44.png" width="500">
</div>

**pandas** (_Panel Data_) es una librería que se utiliza principalmente para **manipulación** y **análisis de datos**. Esta conformada por estructuras parecidas a un "panel de datos" que permite entender y dar forma a datos estructurados.

**pandas** está construida sobre **NumPy**, esto quiere decir que comparten sintáxis y gran cantidad de funciones/métodos.

Consta principalmente de dos estructuras:
- _**pd.Series()**_: "arrays" de una dimensión.

- _**pd.DataFrame()**_: Estructura de datos de dos dimensiones **similar** a una tabla de Excel o una base de datos relacional en SQL. Está conformada por _**pd.Series()**_, se puede interpretar como una matriz de datos.

Para instalar **pandas** podemos ejecutar la siguiente linea en la terminal de **Anaconda**:
```
pip install pandas
```

Si queremos la última versión podemos ejecutar:
```
pip install -U pandas
```

Por lo general, al importar la librería **pandas** se abrevia como **pd**.

In [84]:
import pandas as pd

In [85]:
# Versión de pandas

print(f"pandas=={pd.__version__}")

pandas==2.2.3


### Series

Las _**pd.Series()**_ son un tipo de dato similar a un array de una dimensión de **NumPy** o a una lista.

Para inicializar una _**pd.Series()**_ necesitamos un objeto iterable, como una lista o una tupla.

In [86]:
#lista python
precios = [36.44, 24.33]

In [87]:
# array de numpy
import numpy as np
np.array([36.44, 24.33])

array([36.44, 24.33])

In [88]:
pd.Series([36.44, 24.33])

0    36.44
1    24.33
dtype: float64

In [89]:
pd.Series([36, 24])

0    36
1    24
dtype: int64

In [90]:
# pd.Series() vacia

pd.Series([], dtype = "float64")

Series([], dtype: float64)

In [91]:
# Para inicializar una pd.Series() con datos podemos usar una lista

serie = pd.Series(["a", "b", "c", "d"], name = "letras")

serie

# pandas mostrará la pd.Series() con el índice de los elementos

0    a
1    b
2    c
3    d
Name: letras, dtype: object

In [92]:
# Podemos sacar los valores de la pd.Series() usando .values

serie.values

array(['a', 'b', 'c', 'd'], dtype=object)

In [93]:
type(serie.values)

numpy.ndarray

In [94]:
serie.values.shape

(4,)

In [95]:
# Podemos sacar el índice usando .index.values

serie.index.values

array([0, 1, 2, 3])

In [96]:
# También podemos sacarlo como un diccionario con .to_dict()

serie.to_dict()

{0: 'a', 1: 'b', 2: 'c', 3: 'd'}

### DataFrame

Un **pd.DataFrame()** es una estructura de datos bidimensional compuesta por **filas y columnas**, las filas se identifican con un índice y las columnas con una etiqueta o nombre de columna. Los elementos dentro del **pd.DataFrame()** pueden ser enteros, booleanos, cadenas, listas, tuplas...

Los **pd.DataFrames()** pueden ser creados a partir de múltiple tipos de datos de entrada:

- **list**
- **dict**
- **.csv**
- **.xlsx**
- **np.array**
- **Tablas de SQL**
- **JSON**

In [97]:
# pd.DataFrame() vacio

pd.DataFrame()

In [98]:
# import pandas
# pandas.DataFrame()

# import pandas as pd

# Crear un pd.DataFrame() a partir de una lista

# Generamos una lista
lista = list(range(100, 105))

# Inicializamos un DataFrame vacio
df = pd.DataFrame()

# Añadimos una columna, parecido a la sintaxis de los diccionarios en Python

df["nueva_columna1"] = lista
df["nueva_columna2"] = lista
# df["total_price"] = df["unit_price"] * df["quantity"]

df

Unnamed: 0,nueva_columna1,nueva_columna2
0,100,100
1,101,101
2,102,102
3,103,103
4,104,104


In [99]:
#  si intentamos insertar datos de diferentes longitudes dará error porque no coincide la cantidad filas que debería haber 
# df["nueva_columna1"] =  list(range(100, 120))
# df["nueva_columna2"] =  list(range(100, 105))

In [100]:
# Crear un pd.DataFrame() a partir de una lista de listas (matriz)

matriz = [[1, 2, 3],
          [4, 5, 6],
          [7, 8, 9]]

# Creamos el objeto DataFrame y como parámetro de entrada usamos la matriz
pd.DataFrame(matriz)

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


In [101]:
# Se puede agregar el nombre de las columnas con el parametro "columns"

pd.DataFrame(matriz, columns = ["col_1", "col_2", "col_3"])

Unnamed: 0,col_1,col_2,col_3
0,1,2,3
1,4,5,6
2,7,8,9


In [102]:
# Crear un pd.DataFrame() a partir de un diccionario

diccionario = {num : l for num, l in enumerate("abcdefg", start = 10)}

diccionario

{10: 'a', 11: 'b', 12: 'c', 13: 'd', 14: 'e', 15: 'f', 16: 'g'}

In [103]:
# Usamos el método .items() para llenar el DataFrame

pd.DataFrame(diccionario.items())

Unnamed: 0,0,1
0,10,a
1,11,b
2,12,c
3,13,d
4,14,e
5,15,f
6,16,g


In [104]:
# Se puede agregar el nombre de las columnas con el parametro "columns"

pd.DataFrame(diccionario.items(), columns = ["num", "letra"])

Unnamed: 0,num,letra
0,10,a
1,11,b
2,12,c
3,13,d
4,14,e
5,15,f
6,16,g


In [105]:
# Crear un pd.DataFrame() a partir de un .csv

pd.read_csv(filepath_or_buffer = "../Data/iris.csv")

# pandas toma la primera linea del .csv como cabecera y la usa como los nombres de las columnas

Unnamed: 0,Largo Sepalo,Ancho Sepalo,Largo Petalo,Ancho Petalo,Clase
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica


In [106]:
# Necesario instalar: pip install openpyxl

# Crear un pd.DataFrame() a partir de un .xlsx

pd.read_excel(io = "../Data/iris.xlsx")

# pandas toma la primera linea del .xlsx como cabecera y la usa como los nombres de las columnas

Unnamed: 0,Largo Sepalo,Ancho Sepalo,Largo Petalo,Ancho Petalo,Clase
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica


In [107]:
# Vamos a guardar el DataFrame en la variable df para ver que atributos y metodos tiene.

df = pd.read_csv(filepath_or_buffer = "../Data/iris.csv")

df

Unnamed: 0,Largo Sepalo,Ancho Sepalo,Largo Petalo,Ancho Petalo,Clase
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica


In [108]:
# .head() nos muestra las primeras filas del DataFrame, por defecto muestra las primeras 5

df.head()

Unnamed: 0,Largo Sepalo,Ancho Sepalo,Largo Petalo,Ancho Petalo,Clase
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


In [109]:
df.head(10)

Unnamed: 0,Largo Sepalo,Ancho Sepalo,Largo Petalo,Ancho Petalo,Clase
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
5,5.4,3.9,1.7,0.4,Iris-setosa
6,4.6,3.4,1.4,0.3,Iris-setosa
7,5.0,3.4,1.5,0.2,Iris-setosa
8,4.4,2.9,1.4,0.2,Iris-setosa
9,4.9,3.1,1.5,0.1,Iris-setosa


In [110]:
# .tail() nos muestra las ultimas filas del DataFrame, por defecto muestra las ultimas 5

df.tail()

Unnamed: 0,Largo Sepalo,Ancho Sepalo,Largo Petalo,Ancho Petalo,Clase
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica
149,5.9,3.0,5.1,1.8,Iris-virginica


In [111]:
df.tail(10)

Unnamed: 0,Largo Sepalo,Ancho Sepalo,Largo Petalo,Ancho Petalo,Clase
140,6.7,3.1,5.6,2.4,Iris-virginica
141,6.9,3.1,5.1,2.3,Iris-virginica
142,5.8,2.7,5.1,1.9,Iris-virginica
143,6.8,3.2,5.9,2.3,Iris-virginica
144,6.7,3.3,5.7,2.5,Iris-virginica
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica
149,5.9,3.0,5.1,1.8,Iris-virginica


In [153]:
# Los DataFrames también tienen el método .shape

df.shape

(150, 5)

In [154]:
# Como los DataFrames tienen obligatoriamente un indice, podemos hacer que nos lo retorne

df.index.values

array([  0,   1,   2,   3,   4,   5,   6,   7,   8,   9,  10,  11,  12,
        13,  14,  15,  16,  17,  18,  19,  20,  21,  22,  23,  24,  25,
        26,  27,  28,  29,  30,  31,  32,  33,  34,  35,  36,  37,  38,
        39,  40,  41,  42,  43,  44,  45,  46,  47,  48,  49,  50,  51,
        52,  53,  54,  55,  56,  57,  58,  59,  60,  61,  62,  63,  64,
        65,  66,  67,  68,  69,  70,  71,  72,  73,  74,  75,  76,  77,
        78,  79,  80,  81,  82,  83,  84,  85,  86,  87,  88,  89,  90,
        91,  92,  93,  94,  95,  96,  97,  98,  99, 100, 101, 102, 103,
       104, 105, 106, 107, 108, 109, 110, 111, 112, 113, 114, 115, 116,
       117, 118, 119, 120, 121, 122, 123, 124, 125, 126, 127, 128, 129,
       130, 131, 132, 133, 134, 135, 136, 137, 138, 139, 140, 141, 142,
       143, 144, 145, 146, 147, 148, 149])

In [155]:
# Igual con las columnas

df.columns

Index(['Largo Sepalo', 'Ancho Sepalo', 'Largo Petalo', 'Ancho Petalo',
       'Clase'],
      dtype='object')

In [157]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Largo Sepalo  150 non-null    float64
 1   Ancho Sepalo  150 non-null    float64
 2   Largo Petalo  150 non-null    float64
 3   Ancho Petalo  150 non-null    float64
 4   Clase         150 non-null    object 
dtypes: float64(4), object(1)
memory usage: 6.0+ KB


### Indexing y Slicing para DataFrames

In [115]:
# Para seleccionar una columna podemos hacer "indexing" usando el nombre de la columna

df["Largo Sepalo"]

0      5.1
1      4.9
2      4.7
3      4.6
4      5.0
      ... 
145    6.7
146    6.3
147    6.5
148    6.2
149    5.9
Name: Largo Sepalo, Length: 150, dtype: float64

In [158]:
type(df["Largo Sepalo"])

pandas.core.series.Series

In [159]:
type(df["Largo Sepalo"].values)

numpy.ndarray

In [161]:
df["Clase"]

0      Iris-virginica
1      Iris-virginica
2      Iris-virginica
3      Iris-virginica
4      Iris-virginica
            ...      
145       Iris-setosa
146       Iris-setosa
147       Iris-setosa
148       Iris-setosa
149       Iris-setosa
Name: Clase, Length: 150, dtype: object

In [168]:
# obtener varias columnas en el orden que queramos:
#df.head()
df_width = df[['Ancho Petalo', 'Ancho Sepalo']].copy()
df_width

Unnamed: 0,Ancho Petalo,Ancho Sepalo
0,2.0,3.8
1,2.3,2.6
2,2.2,3.8
3,2.0,2.8
4,2.3,3.0
...,...,...
145,0.3,2.3
146,0.2,2.9
147,0.2,3.0
148,0.2,3.2


In [164]:
# Para seleccionar varias columnas podemos pasar una lista de columnas

df[["Largo Sepalo", "Ancho Petalo", "Clase"]].head(3)

Unnamed: 0,Largo Sepalo,Ancho Petalo,Clase
0,7.9,2.0,Iris-virginica
1,7.7,2.3,Iris-virginica
2,7.7,2.2,Iris-virginica


In [169]:
# Para seleccionar el elemento de indice 2 de la columna "Largo Sepalo"
# Con esta notación el primer elemento es el nombre de la columna y el segundo es el indice del DataFrame
# Esto es diferente de lo que se hacia en NumPy


df["Largo Sepalo"][2]

np.float64(7.7)

In [170]:
# Existe el método .iat que hace lo mismo (index at)

df["Largo Sepalo"].iat[2]

np.float64(7.7)

In [178]:
df = pd.read_csv('../Data/iris.csv')
df.head()

Unnamed: 0,Largo Sepalo,Ancho Sepalo,Largo Petalo,Ancho Petalo,Clase
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


In [180]:
# acceso a índice implícito
# devuelve una Serie con los datos de la fila 0, utilizando como índice los nombres de las columnas
df.iloc[0]

Largo Sepalo            5.1
Ancho Sepalo            3.5
Largo Petalo            1.4
Ancho Petalo            0.2
Clase           Iris-setosa
Name: 0, dtype: object

In [181]:
# También podemos usar el método .iloc
# Con .iloc debemos darle las coordenadas, como si se tratara de una matriz
# Esta notación se comporta igual que los arrays de NumPy
# No utiliza el nombre de la columna, sino su índice

df.iloc[2, 3]

np.float64(0.2)

In [182]:
# Si queremos usar el indice + el nombre de la columna podemos usar .at
# Este método nos deja sobreescribir valores dentro del DataFrame

df.at[0, "Largo Sepalo"]

np.float64(5.1)

In [122]:
# También podemos usar .loc que nos da el mismo resultado
# Este método NO nos deja sobreescribir valores dentro del DataFrame

df.loc[0, "Largo Sepalo"]

np.float64(5.1)

### Funciones de agregación en DataFrames

**pandas** comparte los mismos métodos que los arrays de **NumPy**, la diferencia es que si lo aplicamos a un _**pd.DataFrame()**_ tendremos el resultado por columna o fila y el resultado será en la mayoría de los casos un _**pd.Series()**_.

|Método         |Descripción                                                         |
|---------------|--------------------------------------------------------------------|
|**.sum()**     |Retorna la suma de la fila/columna.                                 |
|**.cumsum()**  |Retorna la suma acumulada de la fila/columna.                       |
|**.min()**     |Retorna el mínimo de la fila/columna.                               |
|**.max()**     |Retorna el máximo de la fila/columna.                               |
|**.mean()**    |Retorna la media de la fila/columna.                                |
|**.median()**  |Retorna la mediana de la fila/columna.                              |
|**.count()**   |Retorna el total de elementos no nulos de la fila/columna.          |
|**.describe()**|Retorna un DataFrame con la información estadística de cada columna.|
|**.info()**    |Retorna nombre, cantidad de NaN's y tipo de dato de cada columna.   |

Para que se aplique por **fila/columna** debemos indicar el parámetro _**axis**_ en cada función.

In [123]:
# .sum() retorna la suma de cada columna de sus elementos (Solo aplica para columnas que se puedan sumar)
# En este ejemplo la suma es vertical, es decir, se suma la columna completa.
# Tiene el parámetro "axis" y por defecto axis = 0
    
df.sum()

# El resultado es una serie, tiene como tamaño el mismo número de columnas que el DataFrame

Largo Sepalo                                                876.5
Ancho Sepalo                                                458.1
Largo Petalo                                                563.8
Ancho Petalo                                                179.8
Clase           Iris-setosaIris-setosaIris-setosaIris-setosaIr...
dtype: object

In [185]:
# equivale a axis=0: suma todos los valores la columna
df['Ancho Petalo'].sum()

np.float64(179.8)

In [189]:
# una Serie es una columna, es un vector de una dimension, por lo que no usa el axis=1, da error
# df['Ancho Petalo'].sum(axis=1)

In [190]:
df.iloc[:, :-1]

Unnamed: 0,Largo Sepalo,Ancho Sepalo,Largo Petalo,Ancho Petalo
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
...,...,...,...,...
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3


In [191]:
# Si intentamos hacer axis = 1 nos dará error por que estamos intentando sumar números con cadenas.
# Para que funcione podemos eliminar la última columna usando slicing.

df.iloc[:, :-1].sum(axis = 1)

# El resultado es una serie, tiene de tamaño el mismo número de filas que el DataFrame

0      10.2
1       9.5
2       9.4
3       9.4
4      10.2
       ... 
145    17.2
146    15.7
147    16.7
148    17.3
149    15.8
Length: 150, dtype: float64

In [125]:
# .cumsum() suma acumulada

df.cumsum()

Unnamed: 0,Largo Sepalo,Ancho Sepalo,Largo Petalo,Ancho Petalo,Clase
0,5.1,3.5,1.4,0.2,Iris-setosa
1,10.0,6.5,2.8,0.4,Iris-setosaIris-setosa
2,14.7,9.7,4.1,0.6,Iris-setosaIris-setosaIris-setosa
3,19.3,12.8,5.6,0.8,Iris-setosaIris-setosaIris-setosaIris-setosa
4,24.3,16.4,7.0,1.0,Iris-setosaIris-setosaIris-setosaIris-setosaIr...
...,...,...,...,...,...
145,851.6,446.2,543.1,171.8,Iris-setosaIris-setosaIris-setosaIris-setosaIr...
146,857.9,448.7,548.1,173.7,Iris-setosaIris-setosaIris-setosaIris-setosaIr...
147,864.4,451.7,553.3,175.7,Iris-setosaIris-setosaIris-setosaIris-setosaIr...
148,870.6,455.1,558.7,178.0,Iris-setosaIris-setosaIris-setosaIris-setosaIr...


In [192]:
df[['Largo Sepalo', 'Ancho Sepalo']].cumsum()

Unnamed: 0,Largo Sepalo,Ancho Sepalo
0,5.1,3.5
1,10.0,6.5
2,14.7,9.7
3,19.3,12.8
4,24.3,16.4
...,...,...
145,851.6,446.2
146,857.9,448.7
147,864.4,451.7
148,870.6,455.1


In [197]:
# Acceder a la última columna
df.iloc[:, -1]

0         Iris-setosa
1         Iris-setosa
2         Iris-setosa
3         Iris-setosa
4         Iris-setosa
            ...      
145    Iris-virginica
146    Iris-virginica
147    Iris-virginica
148    Iris-virginica
149    Iris-virginica
Name: Clase, Length: 150, dtype: object

In [198]:
# Hay el mismo número de repeticiones de cada clase de flor, por tanto las 3 clases son la moda.
df.iloc[:, -1].mode()

0        Iris-setosa
1    Iris-versicolor
2     Iris-virginica
Name: Clase, dtype: object

In [199]:
# .min() muestra el minimo de cada fila/columna

df.min()

Largo Sepalo            4.3
Ancho Sepalo            2.0
Largo Petalo            1.0
Ancho Petalo            0.1
Clase           Iris-setosa
dtype: object

In [200]:
# .max() muestra el maximo de cada fila/columna

df.max()

Largo Sepalo               7.9
Ancho Sepalo               4.4
Largo Petalo               6.9
Ancho Petalo               2.5
Clase           Iris-virginica
dtype: object

In [201]:
# .mean() muestra la media de cada fila/columna

df.iloc[:, :-1].mean()

Largo Sepalo    5.843333
Ancho Sepalo    3.054000
Largo Petalo    3.758667
Ancho Petalo    1.198667
dtype: float64

In [129]:
# .median() muestra la mediana de cada fila/columna 

df.iloc[:, :-1].median()

Largo Sepalo    5.80
Ancho Sepalo    3.00
Largo Petalo    4.35
Ancho Petalo    1.30
dtype: float64

In [130]:
# .count() cuenta el número de elementos que no son NaN de cada fila/columna

df.count()

Largo Sepalo    150
Ancho Sepalo    150
Largo Petalo    150
Ancho Petalo    150
Clase           150
dtype: int64

In [131]:
# .describe() muestra la descripción estadística del DataFrame, retorna un pd.DataFrame()

df.describe()

Unnamed: 0,Largo Sepalo,Ancho Sepalo,Largo Petalo,Ancho Petalo
count,150.0,150.0,150.0,150.0
mean,5.843333,3.054,3.758667,1.198667
std,0.828066,0.433594,1.76442,0.763161
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


In [204]:
# incluir también las de tipo texto
df.describe(include='all')

Unnamed: 0,Largo Sepalo,Ancho Sepalo,Largo Petalo,Ancho Petalo,Clase
count,150.0,150.0,150.0,150.0,150
unique,,,,,3
top,,,,,Iris-setosa
freq,,,,,50
mean,5.843333,3.054,3.758667,1.198667,
std,0.828066,0.433594,1.76442,0.763161,
min,4.3,2.0,1.0,0.1,
25%,5.1,2.8,1.6,0.3,
50%,5.8,3.0,4.35,1.3,
75%,6.4,3.3,5.1,1.8,


In [205]:
# En caso de tener muchas columnas, se puede invertir la matriz de estadísticas
df.describe(include='all').T

Unnamed: 0,count,unique,top,freq,mean,std,min,25%,50%,75%,max
Largo Sepalo,150.0,,,,5.843333,0.828066,4.3,5.1,5.8,6.4,7.9
Ancho Sepalo,150.0,,,,3.054,0.433594,2.0,2.8,3.0,3.3,4.4
Largo Petalo,150.0,,,,3.758667,1.76442,1.0,1.6,4.35,5.1,6.9
Ancho Petalo,150.0,,,,1.198667,0.763161,0.1,0.3,1.3,1.8,2.5
Clase,150.0,3.0,Iris-setosa,50.0,,,,,,,


In [206]:
# .info() muestra información del tipo de cada columna, memoria que utliza el dataframe, número de columnas y tamaño del índice

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Largo Sepalo  150 non-null    float64
 1   Ancho Sepalo  150 non-null    float64
 2   Largo Petalo  150 non-null    float64
 3   Ancho Petalo  150 non-null    float64
 4   Clase         150 non-null    object 
dtypes: float64(4), object(1)
memory usage: 6.0+ KB


### Manipulación de DataFrame

Estos son métodos que nos ayudan a manipular los elementos del _**pd.DataFrame()**_. Podemos ordernar, contar o eliminar elementos.

|Método             |Descripción                                                                                                           |
|-------------------|----------------------------------------------------------------------------------------------------------------------|
|**.sort_values()** |Ordena el DataFrame teniendo como referencia una o varias columnas.                                                   |
|**.reset_index()** |Toma la "columna" de índice y lo añade al DataFrame como columna. Reinicia el índice del DataFrame, empezando desde 0.|
|**.unique()**      |Retorna un array con los elementos únicos de una columna.                                                             |
|**.nunique()**     |Retorna el total de elementos únicos de una columna.                                                                  |
|**.value_counts()**|Retorna una _**pd.Series**_, mostrando los elementos únicos y su frecuencia. Muy parecido a la función _**Counter()**_|
|**.drop()**        |Elimina filas o columnas del DataFrame.                                                                               |

Ninguna de las operaciones es **in-place**.

In [None]:
# si queremos modificar el dataframe original, usamos inplace=True
# Precaución, ya que se modifica el dataframe
# df.sort_values("Largo Sepalo", inplace=True)

In [133]:
# .sort_values(column) ordena los valores del DataFrame usando como referencia una o varias columnas
# Por defecto ordena de menor a mayor
# Esta operación no es in-place

df.sort_values("Largo Sepalo")

Unnamed: 0,Largo Sepalo,Ancho Sepalo,Largo Petalo,Ancho Petalo,Clase
13,4.3,3.0,1.1,0.1,Iris-setosa
8,4.4,2.9,1.4,0.2,Iris-setosa
42,4.4,3.2,1.3,0.2,Iris-setosa
38,4.4,3.0,1.3,0.2,Iris-setosa
41,4.5,2.3,1.3,0.3,Iris-setosa
...,...,...,...,...,...
122,7.7,2.8,6.7,2.0,Iris-virginica
117,7.7,3.8,6.7,2.2,Iris-virginica
118,7.7,2.6,6.9,2.3,Iris-virginica
135,7.7,3.0,6.1,2.3,Iris-virginica


In [134]:
# Ordenando por varias columnas

df.sort_values(["Largo Sepalo", "Largo Petalo"])

Unnamed: 0,Largo Sepalo,Ancho Sepalo,Largo Petalo,Ancho Petalo,Clase
13,4.3,3.0,1.1,0.1,Iris-setosa
38,4.4,3.0,1.3,0.2,Iris-setosa
42,4.4,3.2,1.3,0.2,Iris-setosa
8,4.4,2.9,1.4,0.2,Iris-setosa
41,4.5,2.3,1.3,0.3,Iris-setosa
...,...,...,...,...,...
135,7.7,3.0,6.1,2.3,Iris-virginica
117,7.7,3.8,6.7,2.2,Iris-virginica
122,7.7,2.8,6.7,2.0,Iris-virginica
118,7.7,2.6,6.9,2.3,Iris-virginica


In [209]:
# Por defecto es ASC
# top 10 filas con "Largo Sepalo" de valor más alto
df_top10_by_sepal = df.sort_values("Largo Sepalo", ascending=False)[:10]
df_top10_by_sepal

Unnamed: 0,Largo Sepalo,Ancho Sepalo,Largo Petalo,Ancho Petalo,Clase
131,7.9,3.8,6.4,2.0,Iris-virginica
122,7.7,2.8,6.7,2.0,Iris-virginica
118,7.7,2.6,6.9,2.3,Iris-virginica
117,7.7,3.8,6.7,2.2,Iris-virginica
135,7.7,3.0,6.1,2.3,Iris-virginica
105,7.6,3.0,6.6,2.1,Iris-virginica
130,7.4,2.8,6.1,1.9,Iris-virginica
107,7.3,2.9,6.3,1.8,Iris-virginica
109,7.2,3.6,6.1,2.5,Iris-virginica
129,7.2,3.0,5.8,1.6,Iris-virginica


In [135]:
# Ordenando de mayor a menor, usando el parámetro "ascending"
# Por defecto ascending = True

df.sort_values(["Largo Sepalo", "Largo Petalo"], ascending = False)

Unnamed: 0,Largo Sepalo,Ancho Sepalo,Largo Petalo,Ancho Petalo,Clase
131,7.9,3.8,6.4,2.0,Iris-virginica
118,7.7,2.6,6.9,2.3,Iris-virginica
117,7.7,3.8,6.7,2.2,Iris-virginica
122,7.7,2.8,6.7,2.0,Iris-virginica
135,7.7,3.0,6.1,2.3,Iris-virginica
...,...,...,...,...,...
41,4.5,2.3,1.3,0.3,Iris-setosa
8,4.4,2.9,1.4,0.2,Iris-setosa
38,4.4,3.0,1.3,0.2,Iris-setosa
42,4.4,3.2,1.3,0.2,Iris-setosa


In [None]:
# Ordenar por Largo Sepalo de forma DESCENDENTE y después por Largo Petalo de forma ASCENDENTE
# Observar que en todos aquellos que se repite "Largo Sepalo" la columna "Largo Petalo" aparece ordenada ASCENDENTEMENTE
# Ideal para ordenar por AÑO y MES, o MES y DIA en dataset con fechas
# También se puede usar la columna Clase 
df.sort_values(["Largo Sepalo", "Largo Petalo"], ascending = [False, True]).head(20)

Unnamed: 0,Largo Sepalo,Ancho Sepalo,Largo Petalo,Ancho Petalo,Clase
131,7.9,3.8,6.4,2.0,Iris-virginica
135,7.7,3.0,6.1,2.3,Iris-virginica
117,7.7,3.8,6.7,2.2,Iris-virginica
122,7.7,2.8,6.7,2.0,Iris-virginica
118,7.7,2.6,6.9,2.3,Iris-virginica
105,7.6,3.0,6.6,2.1,Iris-virginica
130,7.4,2.8,6.1,1.9,Iris-virginica
107,7.3,2.9,6.3,1.8,Iris-virginica
129,7.2,3.0,5.8,1.6,Iris-virginica
125,7.2,3.2,6.0,1.8,Iris-virginica


In [136]:
# Si queremos que se quede ordenado podemos sobreescribir el DataFrame

df = df.sort_values(["Largo Sepalo", "Largo Petalo"], ascending = False)

In [137]:
# Cada vez que ordenamos el DataFrame usando como guía una columna probablemente el índice se desordene

df

Unnamed: 0,Largo Sepalo,Ancho Sepalo,Largo Petalo,Ancho Petalo,Clase
131,7.9,3.8,6.4,2.0,Iris-virginica
118,7.7,2.6,6.9,2.3,Iris-virginica
117,7.7,3.8,6.7,2.2,Iris-virginica
122,7.7,2.8,6.7,2.0,Iris-virginica
135,7.7,3.0,6.1,2.3,Iris-virginica
...,...,...,...,...,...
41,4.5,2.3,1.3,0.3,Iris-setosa
8,4.4,2.9,1.4,0.2,Iris-setosa
38,4.4,3.0,1.3,0.2,Iris-setosa
42,4.4,3.2,1.3,0.2,Iris-setosa


In [138]:
# .reset_index() resetea el índice
# Crea una columna nueva con el índice anterior
# Esta operación no es in-place

df.reset_index()

Unnamed: 0,index,Largo Sepalo,Ancho Sepalo,Largo Petalo,Ancho Petalo,Clase
0,131,7.9,3.8,6.4,2.0,Iris-virginica
1,118,7.7,2.6,6.9,2.3,Iris-virginica
2,117,7.7,3.8,6.7,2.2,Iris-virginica
3,122,7.7,2.8,6.7,2.0,Iris-virginica
4,135,7.7,3.0,6.1,2.3,Iris-virginica
...,...,...,...,...,...,...
145,41,4.5,2.3,1.3,0.3,Iris-setosa
146,8,4.4,2.9,1.4,0.2,Iris-setosa
147,38,4.4,3.0,1.3,0.2,Iris-setosa
148,42,4.4,3.2,1.3,0.2,Iris-setosa


In [139]:
# Si no queremos que se cree esa nueva columna podemos agregar al método

df.reset_index(drop = True)

Unnamed: 0,Largo Sepalo,Ancho Sepalo,Largo Petalo,Ancho Petalo,Clase
0,7.9,3.8,6.4,2.0,Iris-virginica
1,7.7,2.6,6.9,2.3,Iris-virginica
2,7.7,3.8,6.7,2.2,Iris-virginica
3,7.7,2.8,6.7,2.0,Iris-virginica
4,7.7,3.0,6.1,2.3,Iris-virginica
...,...,...,...,...,...
145,4.5,2.3,1.3,0.3,Iris-setosa
146,4.4,2.9,1.4,0.2,Iris-setosa
147,4.4,3.0,1.3,0.2,Iris-setosa
148,4.4,3.2,1.3,0.2,Iris-setosa


In [140]:
# Para "guardar" los cambios podemos sobreescribir el DataFrame

df = df.reset_index(drop = True)

In [141]:
df

Unnamed: 0,Largo Sepalo,Ancho Sepalo,Largo Petalo,Ancho Petalo,Clase
0,7.9,3.8,6.4,2.0,Iris-virginica
1,7.7,2.6,6.9,2.3,Iris-virginica
2,7.7,3.8,6.7,2.2,Iris-virginica
3,7.7,2.8,6.7,2.0,Iris-virginica
4,7.7,3.0,6.1,2.3,Iris-virginica
...,...,...,...,...,...
145,4.5,2.3,1.3,0.3,Iris-setosa
146,4.4,2.9,1.4,0.2,Iris-setosa
147,4.4,3.0,1.3,0.2,Iris-setosa
148,4.4,3.2,1.3,0.2,Iris-setosa


In [142]:
# .unique() retorna un array con los elementos únicos de una columna

df["Clase"].unique()

array(['Iris-virginica', 'Iris-versicolor', 'Iris-setosa'], dtype=object)

In [143]:
df["Largo Petalo"].unique()

array([6.4, 6.9, 6.7, 6.1, 6.6, 6.3, 6. , 5.8, 5.9, 4.7, 5.7, 5.4, 5.1,
       4.9, 5.5, 4.8, 5.6, 5.2, 5. , 4.4, 4.6, 5.3, 4.5, 4.3, 4. , 4.2,
       4.1, 3.9, 1.2, 3.5, 1.7, 1.5, 3.6, 3.8, 3.7, 1.4, 1.3, 3. , 1.9,
       1.6, 3.3, 1. , 1.1])

In [144]:
# .nunique() retorna el total de elementos únicos de una columna

df["Clase"].nunique()

3

In [145]:
df["Largo Petalo"].nunique()

43

In [146]:
# .value_counts() lo utilizamos para contar los valores únicos de las columnas
# se utiliza para detectar rápidamente y hay desbalanceo de clases en problemas de clasificación
df["Clase"].value_counts()

Clase
Iris-virginica     50
Iris-versicolor    50
Iris-setosa        50
Name: count, dtype: int64

In [147]:
# Podemos "Normalizar" el resultado usando el parámetro "normalize"
# Esto nos mostrará en porcentaje la cantidad que representa cada valor, es decir, su frecuencia.

df["Clase"].value_counts(normalize = True)

Clase
Iris-virginica     0.333333
Iris-versicolor    0.333333
Iris-setosa        0.333333
Name: proportion, dtype: float64

In [148]:
df["Largo Petalo"].value_counts(normalize = True)

Largo Petalo
1.5    0.093333
1.4    0.080000
5.1    0.053333
4.5    0.053333
1.6    0.046667
1.3    0.046667
5.6    0.040000
4.9    0.033333
4.7    0.033333
4.0    0.033333
4.2    0.026667
4.4    0.026667
4.8    0.026667
5.0    0.026667
1.7    0.026667
4.6    0.020000
3.9    0.020000
5.5    0.020000
5.7    0.020000
5.8    0.020000
6.1    0.020000
4.1    0.020000
5.4    0.013333
5.9    0.013333
6.7    0.013333
6.0    0.013333
5.2    0.013333
3.3    0.013333
1.9    0.013333
3.5    0.013333
1.2    0.013333
4.3    0.013333
5.3    0.013333
6.4    0.006667
6.9    0.006667
6.6    0.006667
6.3    0.006667
3.6    0.006667
3.8    0.006667
3.7    0.006667
3.0    0.006667
1.0    0.006667
1.1    0.006667
Name: proportion, dtype: float64

In [149]:
# .drop() lo usamos para eliminar filas o columnas
# Toma como parámetro las filas/columnas que queremos eliminar
# Si queremos eliminar filas usamos axis = 0
# Si queremos eliminar columnas usamos axis = 1
# Esta operación no es in-place

df.drop(2)

# En este ejemplo eliminamos la fila de índice 2

Unnamed: 0,Largo Sepalo,Ancho Sepalo,Largo Petalo,Ancho Petalo,Clase
0,7.9,3.8,6.4,2.0,Iris-virginica
1,7.7,2.6,6.9,2.3,Iris-virginica
3,7.7,2.8,6.7,2.0,Iris-virginica
4,7.7,3.0,6.1,2.3,Iris-virginica
5,7.6,3.0,6.6,2.1,Iris-virginica
...,...,...,...,...,...
145,4.5,2.3,1.3,0.3,Iris-setosa
146,4.4,2.9,1.4,0.2,Iris-setosa
147,4.4,3.0,1.3,0.2,Iris-setosa
148,4.4,3.2,1.3,0.2,Iris-setosa


In [150]:
df.drop("Clase", axis = 1)

# En este ejemplo eliminamos la columna "Clase".

Unnamed: 0,Largo Sepalo,Ancho Sepalo,Largo Petalo,Ancho Petalo
0,7.9,3.8,6.4,2.0
1,7.7,2.6,6.9,2.3
2,7.7,3.8,6.7,2.2
3,7.7,2.8,6.7,2.0
4,7.7,3.0,6.1,2.3
...,...,...,...,...
145,4.5,2.3,1.3,0.3
146,4.4,2.9,1.4,0.2
147,4.4,3.0,1.3,0.2
148,4.4,3.2,1.3,0.2


In [151]:
# En este ejemplo eliminamos las filas del 0 al 49

df.drop([i for i in range(50)])

# Ninguna de estas operaciones es in-place

Unnamed: 0,Largo Sepalo,Ancho Sepalo,Largo Petalo,Ancho Petalo,Clase
50,6.3,2.3,4.4,1.3,Iris-versicolor
51,6.2,3.4,5.4,2.3,Iris-virginica
52,6.2,2.8,4.8,1.8,Iris-virginica
53,6.2,2.2,4.5,1.5,Iris-versicolor
54,6.2,2.9,4.3,1.3,Iris-versicolor
...,...,...,...,...,...
145,4.5,2.3,1.3,0.3,Iris-setosa
146,4.4,2.9,1.4,0.2,Iris-setosa
147,4.4,3.0,1.3,0.2,Iris-setosa
148,4.4,3.2,1.3,0.2,Iris-setosa


In [152]:
# Si la fila/columna no existe nos dará error

df.drop("Flor", axis = 1)

KeyError: "['Flor'] not found in axis"

In [None]:
################################################################################################################################