## pandas

**`pandas`** es una de las librerías más utilizadas para el análisis de datos en Python.

Proporciona una estructura que permite trabajar los datos y aplicar procesamiento a grandes bases de datos de forma eficiente.

Consta principalmente de dos estructuras:
- **`Series`**: Arreglos de una dimensión.


- **`DataFrame`**: Estructura de datos de dos dimensiones similar a una tabla de Excel o una base de datos relacional en SQL. Está conformada por **`Series`**.

```python 
import pandas as pd
```

### Series

Las **`Series`** son un tipo de dato similar a un arreglo de una dimensión de **`NumPy`** o a una lista.

Para inicializar una **`Serie`** necesitamos un objeto iterable.

```python
serie = pd.Series(["a", "b", "c", "d"])
```

In [123]:
import pandas as pd

In [124]:
# pd.Series() vacia

pd.Series([], dtype = "float64")

Series([], dtype: float64)

In [125]:
serie = pd.Series(["a", "b", "c", "d"], name = "letras")

serie

0    a
1    b
2    c
3    d
Name: letras, dtype: object

In [126]:
serie = pd.Series([1,2,3,4], name = "numeros", index = ["a", "b", "c", "d"])

serie

a    1
b    2
c    3
d    4
Name: numeros, dtype: int64

In [6]:
type(serie)

pandas.core.series.Series

In [7]:
type(serie.values)

numpy.ndarray

In [8]:
len([i for i in dir(pd.Series()) if i.startswith("_")])

215

In [9]:
len([i for i in dir(pd.Series()) if not i.startswith("_")])

203

In [10]:
serie["c"]

3

In [11]:
serie.loc["c"] # hace lo mismo, busca el valor "c"

3

In [12]:
serie

a    1
b    2
c    3
d    4
Name: numeros, dtype: int64

In [13]:
serie.iloc[2]

3

In [14]:
diccionario = {"a" : 1, "b": 2, "c":3, "d":4}

In [15]:
diccionario["c"]

3

In [16]:
serie.max()

4

In [17]:
serie.mean()

2.5

### DataFrame

Un **`DataFrame`** es una estructura de datos bidimensional compuesta por **filas y columnas**, las filas se identifican con un índice y las columnas con una etiqueta o nombre de columna. Los elementos dentro del table pueden ser enteros, booleanos, cadenas, listas, tuplas...

Los **`DataFrames`** pueden ser creados a partir de múltiple tipos de datos de entrada:

- **`list()`**


- **`dict()`**


- **`.csv`**


- **`.xlsx`**


- **`np.arrays()`**


- **`Tablas de SQL`**


- **`JSON`**

In [18]:
# pd.DataFrame() vacio

pd.DataFrame()

In [19]:
# Crear un pd.DataFrame() a partir de una lista

lista = list(range(100, 105))

df = pd.DataFrame()

df["nueva_columna"] = lista

df

Unnamed: 0,nueva_columna
0,100
1,101
2,102
3,103
4,104


In [20]:
# Crear un pd.DataFrame() a partir de una lista de listas (matriz)

lista = [[1, 2, 3],
         [4, 5, 6],
         [7, 8, 9]]

pd.DataFrame(lista)

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


In [21]:
# Se puede agregar el nombre de las columnas con el parametro "columns"

pd.DataFrame(lista, columns = ["col_1", "col_2", "col_3"])

Unnamed: 0,col_1,col_2,col_3
0,1,2,3
1,4,5,6
2,7,8,9


In [22]:
# Crear un pd.DataFrame() a partir de un diccionario

diccionario = {num : l for num, l in enumerate("abcdefg", start = 10)}

diccionario

{10: 'a', 11: 'b', 12: 'c', 13: 'd', 14: 'e', 15: 'f', 16: 'g'}

In [23]:
pd.DataFrame(diccionario.items())

Unnamed: 0,0,1
0,10,a
1,11,b
2,12,c
3,13,d
4,14,e
5,15,f
6,16,g


In [24]:
# Se puede agregar el nombre de las columnas con el parametro "columns"

pd.DataFrame(diccionario.items(), columns = ["num", "letra"])

Unnamed: 0,num,letra
0,10,a
1,11,b
2,12,c
3,13,d
4,14,e
5,15,f
6,16,g


In [25]:
# Crear un pd.DataFrame() a partir de un .csv

pd.read_csv("Data/iris.csv")

# pandas toma la primera linea del .csv como cabecera y la usa como los nombres de las columnas

Unnamed: 0,Largo Sepalo,Ancho Sepalo,Largo Petalo,Ancho Petalo,Clase
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica


In [26]:
# Crear un pd.DataFrame() a partir de un .xlsx

pd.read_excel("Data/iris.xlsx")

# pandas toma la primera linea del .xlsx como cabecera y la usa como los nombres de las columnas

Unnamed: 0,Largo Sepalo,Ancho Sepalo,Largo Petalo,Ancho Petalo,Clase
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica


In [27]:
# Vamos a crear un dataframe con cinco columnas. 

# El dataframe lo vamos a crear desde una matriz de numpy identidad 5x5
# Donde cada columna tendrá el nombre, columna_1, columna_2, etc

In [28]:
import numpy as np

In [29]:
matriz_identidad = np.eye(5)

nrows, ncols = matriz_identidad.shape

In [30]:
pd.DataFrame(matriz_identidad, columns = [f"column_{idx+1}" for idx in range(nrows)])

Unnamed: 0,column_1,column_2,column_3,column_4,column_5
0,1.0,0.0,0.0,0.0,0.0
1,0.0,1.0,0.0,0.0,0.0
2,0.0,0.0,1.0,0.0,0.0
3,0.0,0.0,0.0,1.0,0.0
4,0.0,0.0,0.0,0.0,1.0


In [31]:
# Vamos a guardar el DataFrame en la variable df para ver que atributos y metodos tiene.

df = pd.read_csv("Data/iris.csv")

df

Unnamed: 0,Largo Sepalo,Ancho Sepalo,Largo Petalo,Ancho Petalo,Clase
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica


In [32]:
# .head() nos muestra las primeras filas del DataFrame, por defecto muestra las primeras 5

df.head()

Unnamed: 0,Largo Sepalo,Ancho Sepalo,Largo Petalo,Ancho Petalo,Clase
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


In [33]:
df.head(10)

Unnamed: 0,Largo Sepalo,Ancho Sepalo,Largo Petalo,Ancho Petalo,Clase
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
5,5.4,3.9,1.7,0.4,Iris-setosa
6,4.6,3.4,1.4,0.3,Iris-setosa
7,5.0,3.4,1.5,0.2,Iris-setosa
8,4.4,2.9,1.4,0.2,Iris-setosa
9,4.9,3.1,1.5,0.1,Iris-setosa


In [34]:
# .tail() nos muestra las ultimas filas del DataFrame, por defecto muestra las ultimas 5

df.tail()

Unnamed: 0,Largo Sepalo,Ancho Sepalo,Largo Petalo,Ancho Petalo,Clase
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica
149,5.9,3.0,5.1,1.8,Iris-virginica


In [35]:
# Los DataFrames también tienen el método .shape

df.shape

(150, 5)

In [36]:
# Como los DataFrames tienen obligatoriamente un indice, podemos hacer que nos lo retorne

df.index

RangeIndex(start=0, stop=150, step=1)

In [37]:
# Igual con las columnas

df.columns

Index(['Largo Sepalo', 'Ancho Sepalo', 'Largo Petalo', 'Ancho Petalo',
       'Clase'],
      dtype='object')

In [38]:
df.columns = [col.lower().replace(" ", "_") for col in df.columns]

In [39]:
# .describe() muestra la descripción estadística del DataFrame, retorna un pd.DataFrame()

df.describe()

Unnamed: 0,largo_sepalo,ancho_sepalo,largo_petalo,ancho_petalo
count,150.0,150.0,150.0,150.0
mean,5.843333,3.054,3.758667,1.198667
std,0.828066,0.433594,1.76442,0.763161
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


In [40]:
# .info() muestra información del tipo de cada columna, memoria que utliza el dataframe, número de columnas y tamaño del índice

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   largo_sepalo  150 non-null    float64
 1   ancho_sepalo  150 non-null    float64
 2   largo_petalo  150 non-null    float64
 3   ancho_petalo  150 non-null    float64
 4   clase         150 non-null    object 
dtypes: float64(4), object(1)
memory usage: 6.0+ KB


In [41]:
# .count() cuenta el número de elementos que no son NaN de cada columna

df.count()

largo_sepalo    150
ancho_sepalo    150
largo_petalo    150
ancho_petalo    150
clase           150
dtype: int64

In [42]:
# .sum() retorna la suma de cada columna de sus elementos (Solo aplica para columnas que se puedan sumar)
    
df.sum()

largo_sepalo                                                876.5
ancho_sepalo                                                458.1
largo_petalo                                                563.8
ancho_petalo                                                179.8
clase           Iris-setosaIris-setosaIris-setosaIris-setosaIr...
dtype: object

In [43]:
df.mean(numeric_only=True)

largo_sepalo    5.843333
ancho_sepalo    3.054000
largo_petalo    3.758667
ancho_petalo    1.198667
dtype: float64

In [44]:
df.max()

largo_sepalo               7.9
ancho_sepalo               4.4
largo_petalo               6.9
ancho_petalo               2.5
clase           Iris-virginica
dtype: object

In [45]:
df.min()

largo_sepalo            4.3
ancho_sepalo            2.0
largo_petalo            1.0
ancho_petalo            0.1
clase           Iris-setosa
dtype: object

In [46]:
type(df.min())

pandas.core.series.Series

In [47]:
df

Unnamed: 0,largo_sepalo,ancho_sepalo,largo_petalo,ancho_petalo,clase
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica


In [48]:
# .sum(axis = 1) retorna la suma horizantal de cada fila
# Por defecto axis = 0

df.iloc[:, :-1].sum(axis = 1)

0      10.2
1       9.5
2       9.4
3       9.4
4      10.2
       ... 
145    17.2
146    15.7
147    16.7
148    17.3
149    15.8
Length: 150, dtype: float64

In [49]:
# .cumsum() Suma acumulada

df.cumsum()

Unnamed: 0,largo_sepalo,ancho_sepalo,largo_petalo,ancho_petalo,clase
0,5.1,3.5,1.4,0.2,Iris-setosa
1,10.0,6.5,2.8,0.4,Iris-setosaIris-setosa
2,14.7,9.7,4.1,0.6,Iris-setosaIris-setosaIris-setosa
3,19.3,12.8,5.6,0.8,Iris-setosaIris-setosaIris-setosaIris-setosa
4,24.3,16.4,7.0,1.0,Iris-setosaIris-setosaIris-setosaIris-setosaIr...
...,...,...,...,...,...
145,851.6,446.2,543.1,171.8,Iris-setosaIris-setosaIris-setosaIris-setosaIr...
146,857.9,448.7,548.1,173.7,Iris-setosaIris-setosaIris-setosaIris-setosaIr...
147,864.4,451.7,553.3,175.7,Iris-setosaIris-setosaIris-setosaIris-setosaIr...
148,870.6,455.1,558.7,178.0,Iris-setosaIris-setosaIris-setosaIris-setosaIr...


In [50]:
# .min() muestra el minimo de cada columna

df.min()

largo_sepalo            4.3
ancho_sepalo            2.0
largo_petalo            1.0
ancho_petalo            0.1
clase           Iris-setosa
dtype: object

In [51]:
# .max() muestra el maximo de cada columna

df.max()

largo_sepalo               7.9
ancho_sepalo               4.4
largo_petalo               6.9
ancho_petalo               2.5
clase           Iris-virginica
dtype: object

In [52]:
# .mean() muestra la media de cada columna

df.iloc[:, :-1].mean()

largo_sepalo    5.843333
ancho_sepalo    3.054000
largo_petalo    3.758667
ancho_petalo    1.198667
dtype: float64

In [53]:
# .median() muestra la mediana de cada columna 
# La mediana es el valor que ocupa el lugar central de todos los datos cuando éstos están ordenados de menor a mayor.

df.iloc[:, :-1].median()

largo_sepalo    5.80
ancho_sepalo    3.00
largo_petalo    4.35
ancho_petalo    1.30
dtype: float64

In [54]:
df

Unnamed: 0,largo_sepalo,ancho_sepalo,largo_petalo,ancho_petalo,clase
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica


In [55]:
# Para seleccionar una columna podemos hacer "indexing"

df["largo_sepalo"]

0      5.1
1      4.9
2      4.7
3      4.6
4      5.0
      ... 
145    6.7
146    6.3
147    6.5
148    6.2
149    5.9
Name: largo_sepalo, Length: 150, dtype: float64

In [56]:
df["clase"]

0         Iris-setosa
1         Iris-setosa
2         Iris-setosa
3         Iris-setosa
4         Iris-setosa
            ...      
145    Iris-virginica
146    Iris-virginica
147    Iris-virginica
148    Iris-virginica
149    Iris-virginica
Name: clase, Length: 150, dtype: object

In [57]:
sorted(df.columns)

['ancho_petalo', 'ancho_sepalo', 'clase', 'largo_petalo', 'largo_sepalo']

In [58]:
df[sorted(df.columns)]

Unnamed: 0,ancho_petalo,ancho_sepalo,clase,largo_petalo,largo_sepalo
0,0.2,3.5,Iris-setosa,1.4,5.1
1,0.2,3.0,Iris-setosa,1.4,4.9
2,0.2,3.2,Iris-setosa,1.3,4.7
3,0.2,3.1,Iris-setosa,1.5,4.6
4,0.2,3.6,Iris-setosa,1.4,5.0
...,...,...,...,...,...
145,2.3,3.0,Iris-virginica,5.2,6.7
146,1.9,2.5,Iris-virginica,5.0,6.3
147,2.0,3.0,Iris-virginica,5.2,6.5
148,2.3,3.4,Iris-virginica,5.4,6.2


In [59]:
df[[col for col in df.columns if "_" in col]]

Unnamed: 0,largo_sepalo,ancho_sepalo,largo_petalo,ancho_petalo
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
...,...,...,...,...
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3


In [60]:
df[["clase", "ancho_petalo"]].head(3)

Unnamed: 0,clase,ancho_petalo
0,Iris-setosa,0.2
1,Iris-setosa,0.2
2,Iris-setosa,0.2


In [61]:
# Si quiero seleccionario varias columnas debo pasar una lista de columnas

df[["largo_sepalo", "ancho_petalo", "clase"]].head(3)

Unnamed: 0,largo_sepalo,ancho_petalo,clase
0,5.1,0.2,Iris-setosa
1,4.9,0.2,Iris-setosa
2,4.7,0.2,Iris-setosa


In [62]:
# Si quiero el elemento de indice 2 de la columna "Largo Sepalo"

df["largo_sepalo"][2]

4.7

In [63]:
df["largo_sepalo"] #.iloc[2]

0      5.1
1      4.9
2      4.7
3      4.6
4      5.0
      ... 
145    6.7
146    6.3
147    6.5
148    6.2
149    5.9
Name: largo_sepalo, Length: 150, dtype: float64

In [64]:
# Existe un método .iat que hace lo mismo (index at)

df["largo_sepalo"].iat[2]

4.7

In [65]:
# También podemos usar el método .iloc
# Con .iloc debemos darle las coordenadas, como si se tratara de una matriz

df.iloc[2][3]

  df.iloc[2][3]


0.2

In [66]:
df.iloc[2, 3]

0.2

In [67]:
df

Unnamed: 0,largo_sepalo,ancho_sepalo,largo_petalo,ancho_petalo,clase
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica


In [68]:
# Si queremos usar el indice + el nombre de la columna podemos usar .at
# Este método nos deja sobreescribir valores dentro del DataFrame

df.at[0, "largo_petalo"]

1.4

In [69]:
# También podemos usar .loc que nos da el mismo resultado
# Este método NO nos deja sobreescribir valores dentro del DataFrame

df.loc[0, "largo_petalo"]

1.4

In [70]:
# .sort_values(column) ordena los valores del DataFrame usando como referencia una o varias columnas
# Por defecto ordena de menor a mayor
# Esta operación no es in-place

df.sort_values(by = "largo_sepalo")

Unnamed: 0,largo_sepalo,ancho_sepalo,largo_petalo,ancho_petalo,clase
13,4.3,3.0,1.1,0.1,Iris-setosa
42,4.4,3.2,1.3,0.2,Iris-setosa
38,4.4,3.0,1.3,0.2,Iris-setosa
8,4.4,2.9,1.4,0.2,Iris-setosa
41,4.5,2.3,1.3,0.3,Iris-setosa
...,...,...,...,...,...
122,7.7,2.8,6.7,2.0,Iris-virginica
118,7.7,2.6,6.9,2.3,Iris-virginica
117,7.7,3.8,6.7,2.2,Iris-virginica
135,7.7,3.0,6.1,2.3,Iris-virginica


In [71]:
df.sort_values(by = "largo_sepalo", ascending=False).head(10)

Unnamed: 0,largo_sepalo,ancho_sepalo,largo_petalo,ancho_petalo,clase
131,7.9,3.8,6.4,2.0,Iris-virginica
135,7.7,3.0,6.1,2.3,Iris-virginica
122,7.7,2.8,6.7,2.0,Iris-virginica
117,7.7,3.8,6.7,2.2,Iris-virginica
118,7.7,2.6,6.9,2.3,Iris-virginica
105,7.6,3.0,6.6,2.1,Iris-virginica
130,7.4,2.8,6.1,1.9,Iris-virginica
107,7.3,2.9,6.3,1.8,Iris-virginica
125,7.2,3.2,6.0,1.8,Iris-virginica
109,7.2,3.6,6.1,2.5,Iris-virginica


In [72]:
# Ordenando por varias columnas

df.sort_values(by = ["largo_sepalo", "ancho_sepalo"])

Unnamed: 0,largo_sepalo,ancho_sepalo,largo_petalo,ancho_petalo,clase
13,4.3,3.0,1.1,0.1,Iris-setosa
8,4.4,2.9,1.4,0.2,Iris-setosa
38,4.4,3.0,1.3,0.2,Iris-setosa
42,4.4,3.2,1.3,0.2,Iris-setosa
41,4.5,2.3,1.3,0.3,Iris-setosa
...,...,...,...,...,...
118,7.7,2.6,6.9,2.3,Iris-virginica
122,7.7,2.8,6.7,2.0,Iris-virginica
135,7.7,3.0,6.1,2.3,Iris-virginica
117,7.7,3.8,6.7,2.2,Iris-virginica


In [73]:
# Ordenando de mayor a menor

df.sort_values(["largo_sepalo", "largo_petalo"], ascending = False)

Unnamed: 0,largo_sepalo,ancho_sepalo,largo_petalo,ancho_petalo,clase
131,7.9,3.8,6.4,2.0,Iris-virginica
118,7.7,2.6,6.9,2.3,Iris-virginica
117,7.7,3.8,6.7,2.2,Iris-virginica
122,7.7,2.8,6.7,2.0,Iris-virginica
135,7.7,3.0,6.1,2.3,Iris-virginica
...,...,...,...,...,...
41,4.5,2.3,1.3,0.3,Iris-setosa
8,4.4,2.9,1.4,0.2,Iris-setosa
38,4.4,3.0,1.3,0.2,Iris-setosa
42,4.4,3.2,1.3,0.2,Iris-setosa


In [74]:
df.sort_values(["largo_sepalo", "largo_petalo"], ascending = [False, True])

Unnamed: 0,largo_sepalo,ancho_sepalo,largo_petalo,ancho_petalo,clase
131,7.9,3.8,6.4,2.0,Iris-virginica
135,7.7,3.0,6.1,2.3,Iris-virginica
117,7.7,3.8,6.7,2.2,Iris-virginica
122,7.7,2.8,6.7,2.0,Iris-virginica
118,7.7,2.6,6.9,2.3,Iris-virginica
...,...,...,...,...,...
41,4.5,2.3,1.3,0.3,Iris-setosa
38,4.4,3.0,1.3,0.2,Iris-setosa
42,4.4,3.2,1.3,0.2,Iris-setosa
8,4.4,2.9,1.4,0.2,Iris-setosa


In [75]:
# Si queremos que sea in-place podemos cambiar un parametro

In [76]:
df = df.sort_values(["largo_sepalo", "largo_petalo"], ascending = [False, True])

In [77]:
df

Unnamed: 0,largo_sepalo,ancho_sepalo,largo_petalo,ancho_petalo,clase
131,7.9,3.8,6.4,2.0,Iris-virginica
135,7.7,3.0,6.1,2.3,Iris-virginica
117,7.7,3.8,6.7,2.2,Iris-virginica
122,7.7,2.8,6.7,2.0,Iris-virginica
118,7.7,2.6,6.9,2.3,Iris-virginica
...,...,...,...,...,...
41,4.5,2.3,1.3,0.3,Iris-setosa
38,4.4,3.0,1.3,0.2,Iris-setosa
42,4.4,3.2,1.3,0.2,Iris-setosa
8,4.4,2.9,1.4,0.2,Iris-setosa


In [78]:
df.loc[131]
df.iloc[0]

largo_sepalo               7.9
ancho_sepalo               3.8
largo_petalo               6.4
ancho_petalo               2.0
clase           Iris-virginica
Name: 131, dtype: object

In [79]:
df

Unnamed: 0,largo_sepalo,ancho_sepalo,largo_petalo,ancho_petalo,clase
131,7.9,3.8,6.4,2.0,Iris-virginica
135,7.7,3.0,6.1,2.3,Iris-virginica
117,7.7,3.8,6.7,2.2,Iris-virginica
122,7.7,2.8,6.7,2.0,Iris-virginica
118,7.7,2.6,6.9,2.3,Iris-virginica
...,...,...,...,...,...
41,4.5,2.3,1.3,0.3,Iris-setosa
38,4.4,3.0,1.3,0.2,Iris-setosa
42,4.4,3.2,1.3,0.2,Iris-setosa
8,4.4,2.9,1.4,0.2,Iris-setosa


In [80]:
# .reset_index() resetea el indice
# Crea una columna nueva con el indice anterior
# Esta operación no es in-place

df.reset_index()

Unnamed: 0,index,largo_sepalo,ancho_sepalo,largo_petalo,ancho_petalo,clase
0,131,7.9,3.8,6.4,2.0,Iris-virginica
1,135,7.7,3.0,6.1,2.3,Iris-virginica
2,117,7.7,3.8,6.7,2.2,Iris-virginica
3,122,7.7,2.8,6.7,2.0,Iris-virginica
4,118,7.7,2.6,6.9,2.3,Iris-virginica
...,...,...,...,...,...,...
145,41,4.5,2.3,1.3,0.3,Iris-setosa
146,38,4.4,3.0,1.3,0.2,Iris-setosa
147,42,4.4,3.2,1.3,0.2,Iris-setosa
148,8,4.4,2.9,1.4,0.2,Iris-setosa


In [81]:
# Si no queremos que se cree esa nueva columna podemos agregar al método

df.reset_index(drop = True)

Unnamed: 0,largo_sepalo,ancho_sepalo,largo_petalo,ancho_petalo,clase
0,7.9,3.8,6.4,2.0,Iris-virginica
1,7.7,3.0,6.1,2.3,Iris-virginica
2,7.7,3.8,6.7,2.2,Iris-virginica
3,7.7,2.8,6.7,2.0,Iris-virginica
4,7.7,2.6,6.9,2.3,Iris-virginica
...,...,...,...,...,...
145,4.5,2.3,1.3,0.3,Iris-setosa
146,4.4,3.0,1.3,0.2,Iris-setosa
147,4.4,3.2,1.3,0.2,Iris-setosa
148,4.4,2.9,1.4,0.2,Iris-setosa


In [82]:
# Para hacer esta operación in-place podemos cambiar un parametro

df.reset_index(drop = True, inplace = True)

In [83]:
df

Unnamed: 0,largo_sepalo,ancho_sepalo,largo_petalo,ancho_petalo,clase
0,7.9,3.8,6.4,2.0,Iris-virginica
1,7.7,3.0,6.1,2.3,Iris-virginica
2,7.7,3.8,6.7,2.2,Iris-virginica
3,7.7,2.8,6.7,2.0,Iris-virginica
4,7.7,2.6,6.9,2.3,Iris-virginica
...,...,...,...,...,...
145,4.5,2.3,1.3,0.3,Iris-setosa
146,4.4,3.0,1.3,0.2,Iris-setosa
147,4.4,3.2,1.3,0.2,Iris-setosa
148,4.4,2.9,1.4,0.2,Iris-setosa


In [84]:
# Eliminar filas o columnas
# Para esto tenemos el método .drop()
# Toma como parametro las filas/columnas que queremos eliminar
# Si quiero eliminar filas debo agregar axis = 0
# Si quiero eliminar columnas debo agregar axis = 1
# Esta operación no es in-place

df.drop(2)

Unnamed: 0,largo_sepalo,ancho_sepalo,largo_petalo,ancho_petalo,clase
0,7.9,3.8,6.4,2.0,Iris-virginica
1,7.7,3.0,6.1,2.3,Iris-virginica
3,7.7,2.8,6.7,2.0,Iris-virginica
4,7.7,2.6,6.9,2.3,Iris-virginica
5,7.6,3.0,6.6,2.1,Iris-virginica
...,...,...,...,...,...
145,4.5,2.3,1.3,0.3,Iris-setosa
146,4.4,3.0,1.3,0.2,Iris-setosa
147,4.4,3.2,1.3,0.2,Iris-setosa
148,4.4,2.9,1.4,0.2,Iris-setosa


In [85]:
df.drop("clase", axis = 1)

Unnamed: 0,largo_sepalo,ancho_sepalo,largo_petalo,ancho_petalo
0,7.9,3.8,6.4,2.0
1,7.7,3.0,6.1,2.3
2,7.7,3.8,6.7,2.2
3,7.7,2.8,6.7,2.0
4,7.7,2.6,6.9,2.3
...,...,...,...,...
145,4.5,2.3,1.3,0.3
146,4.4,3.0,1.3,0.2
147,4.4,3.2,1.3,0.2
148,4.4,2.9,1.4,0.2


In [86]:
# Si la fila/columna no existe, nos dará error

df.drop("Flor", axis = 1)

KeyError: "['Flor'] not found in axis"

In [None]:
df["clase2"] = df["clase"]

df.head(3)

In [87]:
# Si queremos que la operación sea in-place podemos agregar el parametro

df.drop("Clase2", axis = 1, inplace = True)

KeyError: "['Clase2'] not found in axis"

In [88]:
df.head(3)

Unnamed: 0,largo_sepalo,ancho_sepalo,largo_petalo,ancho_petalo,clase
0,7.9,3.8,6.4,2.0,Iris-virginica
1,7.7,3.0,6.1,2.3,Iris-virginica
2,7.7,3.8,6.7,2.2,Iris-virginica


In [93]:
df

Unnamed: 0,largo_sepalo,ancho_sepalo,largo_petalo,ancho_petalo,clase
0,7.9,3.8,6.4,2.0,Iris-virginica
1,7.7,3.0,6.1,2.3,Iris-virginica
2,7.7,3.8,6.7,2.2,Iris-virginica
3,7.7,2.8,6.7,2.0,Iris-virginica
4,7.7,2.6,6.9,2.3,Iris-virginica
...,...,...,...,...,...
145,4.5,2.3,1.3,0.3,Iris-setosa
146,4.4,3.0,1.3,0.2,Iris-setosa
147,4.4,3.2,1.3,0.2,Iris-setosa
148,4.4,2.9,1.4,0.2,Iris-setosa


In [95]:
df["clase"].unique()

array(['Iris-virginica', 'Iris-versicolor', 'Iris-setosa'], dtype=object)

In [97]:
type(df["clase"])

pandas.core.series.Series

In [94]:
# .value_counts() Se usa para contar los valores únicos de las columnas (Series)

df["clase"].value_counts()

clase
Iris-virginica     50
Iris-versicolor    50
Iris-setosa        50
Name: count, dtype: int64

In [98]:
# Podemos "Normalizar" el resultado

df["clase"].value_counts(normalize = True)

clase
Iris-virginica     0.333333
Iris-versicolor    0.333333
Iris-setosa        0.333333
Name: proportion, dtype: float64

In [99]:
df["clase"].nunique()

3

In [100]:
df.columns

Index(['largo_sepalo', 'ancho_sepalo', 'largo_petalo', 'ancho_petalo',
       'clase'],
      dtype='object')

### Filtros

In [107]:
# Para aplicar un filtro usamos los operadores de comparación

df["largo_sepalo"] > 7

0       True
1       True
2       True
3       True
4       True
       ...  
145    False
146    False
147    False
148    False
149    False
Name: largo_sepalo, Length: 150, dtype: bool

In [108]:
# Esto retorna una Serie con Verdaderos y Falsos
# Si quisieramos aplicar ese filtro al DataFrame hariamos un "indexing" con el operador

df[df["largo_sepalo"] > 7]

# Esto nos retorna el DataFrame solo con las filas que cumplen la condición

Unnamed: 0,largo_sepalo,ancho_sepalo,largo_petalo,ancho_petalo,clase
0,7.9,3.8,6.4,2.0,Iris-virginica
1,7.7,3.0,6.1,2.3,Iris-virginica
2,7.7,3.8,6.7,2.2,Iris-virginica
3,7.7,2.8,6.7,2.0,Iris-virginica
4,7.7,2.6,6.9,2.3,Iris-virginica
5,7.6,3.0,6.6,2.1,Iris-virginica
6,7.4,2.8,6.1,1.9,Iris-virginica
7,7.3,2.9,6.3,1.8,Iris-virginica
8,7.2,3.0,5.8,1.6,Iris-virginica
9,7.2,3.2,6.0,1.8,Iris-virginica


In [None]:
# |, &, ~. Or, and, not

In [111]:
df[(df["largo_sepalo"] > 7) | (df["ancho_petalo"] < 2)]

Unnamed: 0,largo_sepalo,ancho_sepalo,largo_petalo,ancho_petalo,clase
0,7.9,3.8,6.4,2.0,Iris-virginica
1,7.7,3.0,6.1,2.3,Iris-virginica
2,7.7,3.8,6.7,2.2,Iris-virginica
3,7.7,2.8,6.7,2.0,Iris-virginica
4,7.7,2.6,6.9,2.3,Iris-virginica
...,...,...,...,...,...
145,4.5,2.3,1.3,0.3,Iris-setosa
146,4.4,3.0,1.3,0.2,Iris-setosa
147,4.4,3.2,1.3,0.2,Iris-setosa
148,4.4,2.9,1.4,0.2,Iris-setosa


In [None]:
# tengan un ancho petalo < 1.5 y sean de la clase Iris-setosa

In [None]:
df[(df["ancho_petalo"] < 1.5) & (df["clase"] == "Iris-setosa")]

In [None]:
df[(df["largo_sepalo"] > 7) | (df["ancho_petalo"] < 2)]

In [114]:
df['largo_sepalo'].between(5, 7) # me saca la máscara de los valores entre esos dos

0      False
1      False
2      False
3      False
4      False
       ...  
145    False
146    False
147    False
148    False
149    False
Name: largo_sepalo, Length: 150, dtype: bool

In [117]:
df['clase'].isin(["Iris-virginica", "Iris-setosa"]) # is in verifica que esté en una lista devalores

0      True
1      True
2      True
3      True
4      True
       ... 
145    True
146    True
147    True
148    True
149    True
Name: clase, Length: 150, dtype: bool

Para aplicar más de un filtro debemos usar los operadores **`&`** y **`|`** y agrupar las condición en parentesis **`()`**.

In [None]:
df[(df["Largo Sepalo"] > 7) & (df["Ancho Petalo"] == 2)]

In [None]:
df[(df["Clase"] == "Iris-virginica") | (df["Clase"] == "Iris-versicolor")]

In [None]:
################################################################################################################################