## pandas

**`pandas`** es una de las librerías más utilizadas para el análisis de datos en Python.

Proporciona una estructura que permite trabajar los datos y aplicar procesamiento a grandes bases de datos de forma eficiente.

Consta principalmente de dos estructuras:
- **`Series`**: Arreglos de una dimensión.


- **`DataFrame`**: Estructura de datos de dos dimensiones similar a una tabla de Excel o una base de datos relacional en SQL. Está conformada por **`Series`**.

```python 
import pandas as pd
```

### Series

Las **`Series`** son un tipo de dato similar a un arreglo de una dimensión de **`NumPy`** o a una lista.

Para inicializar una **`Serie`** necesitamos un objeto iterable.

```python
serie = pd.Series(["a", "b", "c", "d"])
```

In [1]:
import pandas as pd

In [2]:
# pd.Series() vacia

pd.Series([], dtype = "float64")

Series([], dtype: float64)

In [3]:
serie = pd.Series(["a", "b", "c", "d"], name = "letras")

serie

0    a
1    b
2    c
3    d
Name: letras, dtype: object

In [4]:
len([i for i in dir(pd.Series()) if i.startswith("_")])

  len([i for i in dir(pd.Series()) if i.startswith("_")])


212

In [5]:
[i for i in dir(pd.Series()) if not i.startswith("_")]

  [i for i in dir(pd.Series()) if not i.startswith("_")]


['T',
 'abs',
 'add',
 'add_prefix',
 'add_suffix',
 'agg',
 'aggregate',
 'align',
 'all',
 'any',
 'append',
 'apply',
 'argmax',
 'argmin',
 'argsort',
 'array',
 'asfreq',
 'asof',
 'astype',
 'at',
 'at_time',
 'attrs',
 'autocorr',
 'axes',
 'backfill',
 'between',
 'between_time',
 'bfill',
 'bool',
 'clip',
 'combine',
 'combine_first',
 'compare',
 'convert_dtypes',
 'copy',
 'corr',
 'count',
 'cov',
 'cummax',
 'cummin',
 'cumprod',
 'cumsum',
 'describe',
 'diff',
 'div',
 'divide',
 'divmod',
 'dot',
 'drop',
 'drop_duplicates',
 'droplevel',
 'dropna',
 'dtype',
 'dtypes',
 'duplicated',
 'empty',
 'eq',
 'equals',
 'ewm',
 'expanding',
 'explode',
 'factorize',
 'ffill',
 'fillna',
 'filter',
 'first',
 'first_valid_index',
 'flags',
 'floordiv',
 'ge',
 'get',
 'groupby',
 'gt',
 'hasnans',
 'head',
 'hist',
 'iat',
 'idxmax',
 'idxmin',
 'iloc',
 'index',
 'infer_objects',
 'info',
 'interpolate',
 'is_monotonic',
 'is_monotonic_decreasing',
 'is_monotonic_increasing',

### DataFrame

Un **`DataFrame`** es una estructura de datos bidimensional compuesta por **filas y columnas**, las filas se identifican con un índice y las columnas con una etiqueta o nombre de columna. Los elementos dentro del table pueden ser enteros, booleanos, cadenas, listas, tuplas...

Los **`DataFrames`** pueden ser creados a partir de múltiple tipos de datos de entrada:

- **`list()`**


- **`dict()`**


- **`.csv`**


- **`.xlsx`**


- **`np.arrays()`**


- **`Tablas de SQL`**


- **`JSON`**

In [6]:
# pd.DataFrame() vacio

pd.DataFrame()

In [7]:
# Crear un pd.DataFrame() a partir de una lista

lista = list(range(100, 105))

df = pd.DataFrame()

df["nueva_columna"] = lista

df

Unnamed: 0,nueva_columna
0,100
1,101
2,102
3,103
4,104


In [8]:
# Crear un pd.DataFrame() a partir de una lista de listas (matriz)

lista = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]

pd.DataFrame(lista)

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


In [9]:
# Se puede agregar el nombre de las columnas con el parametro "columns"

pd.DataFrame(lista, columns = ["col_1", "col_2", "col_3"])

Unnamed: 0,col_1,col_2,col_3
0,1,2,3
1,4,5,6
2,7,8,9


In [10]:
# Crear un pd.DataFrame() a partir de un diccionario

diccionario = {num : l for num, l in enumerate("abcdefg", start = 10)}

diccionario

{10: 'a', 11: 'b', 12: 'c', 13: 'd', 14: 'e', 15: 'f', 16: 'g'}

In [11]:
pd.DataFrame(diccionario.items())

Unnamed: 0,0,1
0,10,a
1,11,b
2,12,c
3,13,d
4,14,e
5,15,f
6,16,g


In [12]:
# Se puede agregar el nombre de las columnas con el parametro "columns"

pd.DataFrame(diccionario.items(), columns = ["num", "letra"])

Unnamed: 0,num,letra
0,10,a
1,11,b
2,12,c
3,13,d
4,14,e
5,15,f
6,16,g


In [14]:
# Crear un pd.DataFrame() a partir de un .csv

pd.read_csv("Data/iris.csv")

# pandas toma la primera linea del .csv como cabecera y la usa como los nombres de las columnas

Unnamed: 0,Largo Sepalo,Ancho Sepalo,Largo Petalo,Ancho Petalo,Clase
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica


In [15]:
# Crear un pd.DataFrame() a partir de un .xlsx

pd.read_excel("Data/iris.xlsx")

# pandas toma la primera linea del .xlsx como cabecera y la usa como los nombres de las columnas

Unnamed: 0,Largo Sepalo,Ancho Sepalo,Largo Petalo,Ancho Petalo,Clase
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica


In [16]:
# Vamos a guardar el DataFrame en la variable df para ver que atributos y metodos tiene.

df = pd.read_csv("Data/iris.csv")

df

Unnamed: 0,Largo Sepalo,Ancho Sepalo,Largo Petalo,Ancho Petalo,Clase
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica


In [17]:
# .head() nos muestra las primeras filas del DataFrame, por defecto muestra las primeras 5

df.head()

Unnamed: 0,Largo Sepalo,Ancho Sepalo,Largo Petalo,Ancho Petalo,Clase
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


In [18]:
df.head(10)

Unnamed: 0,Largo Sepalo,Ancho Sepalo,Largo Petalo,Ancho Petalo,Clase
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
5,5.4,3.9,1.7,0.4,Iris-setosa
6,4.6,3.4,1.4,0.3,Iris-setosa
7,5.0,3.4,1.5,0.2,Iris-setosa
8,4.4,2.9,1.4,0.2,Iris-setosa
9,4.9,3.1,1.5,0.1,Iris-setosa


In [19]:
# .tail() nos muestra las ultimas filas del DataFrame, por defecto muestra las ultimas 5

df.tail()

Unnamed: 0,Largo Sepalo,Ancho Sepalo,Largo Petalo,Ancho Petalo,Clase
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica
149,5.9,3.0,5.1,1.8,Iris-virginica


In [20]:
# Los DataFrames también tienen el método .shape

df.shape

(150, 5)

In [21]:
# Como los DataFrames tienen obligatoriamente un indice, podemos hacer que nos lo retorne

df.index

RangeIndex(start=0, stop=150, step=1)

In [22]:
# Igual con las columnas

df.columns

Index(['Largo Sepalo', 'Ancho Sepalo', 'Largo Petalo', 'Ancho Petalo',
       'Clase'],
      dtype='object')

In [23]:
# .describe() muestra la descripción estadística del DataFrame, retorna un pd.DataFrame()

df.describe()

Unnamed: 0,Largo Sepalo,Ancho Sepalo,Largo Petalo,Ancho Petalo
count,150.0,150.0,150.0,150.0
mean,5.843333,3.054,3.758667,1.198667
std,0.828066,0.433594,1.76442,0.763161
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


In [24]:
# .info() muestra información del tipo de cada columna, memoria que utliza el dataframe, número de columnas y tamaño del índice

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Largo Sepalo  150 non-null    float64
 1   Ancho Sepalo  150 non-null    float64
 2   Largo Petalo  150 non-null    float64
 3   Ancho Petalo  150 non-null    float64
 4   Clase         150 non-null    object 
dtypes: float64(4), object(1)
memory usage: 6.0+ KB


In [24]:
# .count() cuenta el número de elementos que no son NaN de cada columna

df.count()

Largo Sepalo    150
Ancho Sepalo    150
Largo Petalo    150
Ancho Petalo    150
Clase           150
dtype: int64

In [25]:
# .sum() retorna la suma de cada columna de sus elementos (Solo aplica para columnas que se puedan sumar)
    
df.sum()

Largo Sepalo                                                876.5
Ancho Sepalo                                                458.1
Largo Petalo                                                563.8
Ancho Petalo                                                179.8
Clase           Iris-setosaIris-setosaIris-setosaIris-setosaIr...
dtype: object

In [26]:
# .sum(axis = 1) retorna la suma horizantal de cada fila
# Por defecto axis = 0

df.sum(axis = 1)

  df.sum(axis = 1)


0      10.2
1       9.5
2       9.4
3       9.4
4      10.2
       ... 
145    17.2
146    15.7
147    16.7
148    17.3
149    15.8
Length: 150, dtype: float64

In [29]:
df

Unnamed: 0,Largo Sepalo,Ancho Sepalo,Largo Petalo,Ancho Petalo,Clase
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica


In [27]:
# .cumsum() Suma acumulada hacia abajo

df.cumsum()

Unnamed: 0,Largo Sepalo,Ancho Sepalo,Largo Petalo,Ancho Petalo,Clase
0,5.1,3.5,1.4,0.2,Iris-setosa
1,10.0,6.5,2.8,0.4,Iris-setosaIris-setosa
2,14.7,9.7,4.1,0.6,Iris-setosaIris-setosaIris-setosa
3,19.3,12.8,5.6,0.8,Iris-setosaIris-setosaIris-setosaIris-setosa
4,24.3,16.4,7.0,1.0,Iris-setosaIris-setosaIris-setosaIris-setosaIr...
...,...,...,...,...,...
145,851.6,446.2,543.1,171.8,Iris-setosaIris-setosaIris-setosaIris-setosaIr...
146,857.9,448.7,548.1,173.7,Iris-setosaIris-setosaIris-setosaIris-setosaIr...
147,864.4,451.7,553.3,175.7,Iris-setosaIris-setosaIris-setosaIris-setosaIr...
148,870.6,455.1,558.7,178.0,Iris-setosaIris-setosaIris-setosaIris-setosaIr...


In [30]:
# .min() muestra el minimo de cada columna

df.min()

Largo Sepalo            4.3
Ancho Sepalo            2.0
Largo Petalo            1.0
Ancho Petalo            0.1
Clase           Iris-setosa
dtype: object

In [31]:
# .max() muestra el maximo de cada columna

df.max()

Largo Sepalo               7.9
Ancho Sepalo               4.4
Largo Petalo               6.9
Ancho Petalo               2.5
Clase           Iris-virginica
dtype: object

In [32]:
# .mean() muestra la media de cada columna

df.mean()

  df.mean()


Largo Sepalo    5.843333
Ancho Sepalo    3.054000
Largo Petalo    3.758667
Ancho Petalo    1.198667
dtype: float64

In [33]:
# .median() muestra la mediana de cada columna 
# La mediana es el valor que ocupa el lugar central de todos los datos cuando éstos están ordenados de menor a mayor.

df.median()

  df.median()


Largo Sepalo    5.80
Ancho Sepalo    3.00
Largo Petalo    4.35
Ancho Petalo    1.30
dtype: float64

In [34]:
# Para seleccionar una columna podemos hacer "indexing"

df["Largo Sepalo"]

0      5.1
1      4.9
2      4.7
3      4.6
4      5.0
      ... 
145    6.7
146    6.3
147    6.5
148    6.2
149    5.9
Name: Largo Sepalo, Length: 150, dtype: float64

In [35]:
df["Clase"]

0         Iris-setosa
1         Iris-setosa
2         Iris-setosa
3         Iris-setosa
4         Iris-setosa
            ...      
145    Iris-virginica
146    Iris-virginica
147    Iris-virginica
148    Iris-virginica
149    Iris-virginica
Name: Clase, Length: 150, dtype: object

In [36]:
# Si quiero seleccionario varias columnas debo pasar una lista de columnas

df[["Largo Sepalo", "Ancho Petalo", "Clase"]].head(3)

Unnamed: 0,Largo Sepalo,Ancho Petalo,Clase
0,5.1,0.2,Iris-setosa
1,4.9,0.2,Iris-setosa
2,4.7,0.2,Iris-setosa


In [37]:
# Si quiero el elemento de indice 2 de la columna "Largo Sepalo"

df["Largo Sepalo"][2]

4.7

In [38]:
# Existe un método .iat que hace lo mismo (index at)

df["Largo Sepalo"].iat[2]

4.7

In [39]:
# También podemos usar el método .iloc
# Con .iloc debemos darle las coordenadas, como si se tratara de una matriz

df.iloc[2][3]

0.2

In [40]:
df.iloc[2, 3]

0.2

In [41]:
# Si queremos usar el indice + el nombre de la columna podemos usar .at
# Este método nos deja sobreescribir valores dentro del DataFrame

df.at[0, "Largo Sepalo"] = 6.1 # cambiar el valor
df

Unnamed: 0,Largo Sepalo,Ancho Sepalo,Largo Petalo,Ancho Petalo,Clase
0,6.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica


In [42]:
# También podemos usar .loc que nos da el mismo resultado
# Este método NO nos deja sobreescribir valores dentro del DataFrame

df.loc[0, "Largo Sepalo"]

6.1

In [43]:
# .sort_values(column) ordena los valores del DataFrame usando como referencia una o varias columnas
# Por defecto ordena de menor a mayor
# Esta operación no es in-place

df.sort_values("Largo Sepalo")

Unnamed: 0,Largo Sepalo,Ancho Sepalo,Largo Petalo,Ancho Petalo,Clase
13,4.3,3.0,1.1,0.1,Iris-setosa
38,4.4,3.0,1.3,0.2,Iris-setosa
8,4.4,2.9,1.4,0.2,Iris-setosa
42,4.4,3.2,1.3,0.2,Iris-setosa
41,4.5,2.3,1.3,0.3,Iris-setosa
...,...,...,...,...,...
117,7.7,3.8,6.7,2.2,Iris-virginica
118,7.7,2.6,6.9,2.3,Iris-virginica
122,7.7,2.8,6.7,2.0,Iris-virginica
135,7.7,3.0,6.1,2.3,Iris-virginica


In [44]:
# Ordenando por varias columnas

df.sort_values(["Largo Sepalo", "Largo Petalo"])

Unnamed: 0,Largo Sepalo,Ancho Sepalo,Largo Petalo,Ancho Petalo,Clase
13,4.3,3.0,1.1,0.1,Iris-setosa
38,4.4,3.0,1.3,0.2,Iris-setosa
42,4.4,3.2,1.3,0.2,Iris-setosa
8,4.4,2.9,1.4,0.2,Iris-setosa
41,4.5,2.3,1.3,0.3,Iris-setosa
...,...,...,...,...,...
135,7.7,3.0,6.1,2.3,Iris-virginica
117,7.7,3.8,6.7,2.2,Iris-virginica
122,7.7,2.8,6.7,2.0,Iris-virginica
118,7.7,2.6,6.9,2.3,Iris-virginica


In [45]:
# Ordenando de mayor a menor

df.sort_values(["Largo Sepalo", "Largo Petalo"], ascending = False)

Unnamed: 0,Largo Sepalo,Ancho Sepalo,Largo Petalo,Ancho Petalo,Clase
131,7.9,3.8,6.4,2.0,Iris-virginica
118,7.7,2.6,6.9,2.3,Iris-virginica
117,7.7,3.8,6.7,2.2,Iris-virginica
122,7.7,2.8,6.7,2.0,Iris-virginica
135,7.7,3.0,6.1,2.3,Iris-virginica
...,...,...,...,...,...
41,4.5,2.3,1.3,0.3,Iris-setosa
8,4.4,2.9,1.4,0.2,Iris-setosa
38,4.4,3.0,1.3,0.2,Iris-setosa
42,4.4,3.2,1.3,0.2,Iris-setosa


In [46]:
# Si queremos que sea in-place podemos cambiar un parametro

df.sort_values(["Largo Sepalo", "Largo Petalo"], ascending = False, inplace = True)

In [47]:
df

Unnamed: 0,Largo Sepalo,Ancho Sepalo,Largo Petalo,Ancho Petalo,Clase
131,7.9,3.8,6.4,2.0,Iris-virginica
118,7.7,2.6,6.9,2.3,Iris-virginica
117,7.7,3.8,6.7,2.2,Iris-virginica
122,7.7,2.8,6.7,2.0,Iris-virginica
135,7.7,3.0,6.1,2.3,Iris-virginica
...,...,...,...,...,...
41,4.5,2.3,1.3,0.3,Iris-setosa
8,4.4,2.9,1.4,0.2,Iris-setosa
38,4.4,3.0,1.3,0.2,Iris-setosa
42,4.4,3.2,1.3,0.2,Iris-setosa


In [48]:
# .reset_index() resetea el indice
# Crea una columna nueva con el indice anterior
# Esta operación no es in-place

df.reset_index()

Unnamed: 0,index,Largo Sepalo,Ancho Sepalo,Largo Petalo,Ancho Petalo,Clase
0,131,7.9,3.8,6.4,2.0,Iris-virginica
1,118,7.7,2.6,6.9,2.3,Iris-virginica
2,117,7.7,3.8,6.7,2.2,Iris-virginica
3,122,7.7,2.8,6.7,2.0,Iris-virginica
4,135,7.7,3.0,6.1,2.3,Iris-virginica
...,...,...,...,...,...,...
145,41,4.5,2.3,1.3,0.3,Iris-setosa
146,8,4.4,2.9,1.4,0.2,Iris-setosa
147,38,4.4,3.0,1.3,0.2,Iris-setosa
148,42,4.4,3.2,1.3,0.2,Iris-setosa


In [49]:
# Si no queremos que se cree esa nueva columna podemos agregar al método

df.reset_index(drop = True)

Unnamed: 0,Largo Sepalo,Ancho Sepalo,Largo Petalo,Ancho Petalo,Clase
0,7.9,3.8,6.4,2.0,Iris-virginica
1,7.7,2.6,6.9,2.3,Iris-virginica
2,7.7,3.8,6.7,2.2,Iris-virginica
3,7.7,2.8,6.7,2.0,Iris-virginica
4,7.7,3.0,6.1,2.3,Iris-virginica
...,...,...,...,...,...
145,4.5,2.3,1.3,0.3,Iris-setosa
146,4.4,2.9,1.4,0.2,Iris-setosa
147,4.4,3.0,1.3,0.2,Iris-setosa
148,4.4,3.2,1.3,0.2,Iris-setosa


In [50]:
# Para hacer esta operación in-place podemos cambiar un parametro

df.reset_index(drop = True, inplace = True)

In [51]:
df

Unnamed: 0,Largo Sepalo,Ancho Sepalo,Largo Petalo,Ancho Petalo,Clase
0,7.9,3.8,6.4,2.0,Iris-virginica
1,7.7,2.6,6.9,2.3,Iris-virginica
2,7.7,3.8,6.7,2.2,Iris-virginica
3,7.7,2.8,6.7,2.0,Iris-virginica
4,7.7,3.0,6.1,2.3,Iris-virginica
...,...,...,...,...,...
145,4.5,2.3,1.3,0.3,Iris-setosa
146,4.4,2.9,1.4,0.2,Iris-setosa
147,4.4,3.0,1.3,0.2,Iris-setosa
148,4.4,3.2,1.3,0.2,Iris-setosa


In [52]:
# Eliminar filas o columnas
# Para esto tenemos el método .drop()
# Toma como parametro las filas/columnas que queremos eliminar
# Si quiero eliminar filas debo agregar axis = 0
# Si quiero eliminar columnas debo agregar axis = 1
# Esta operación no es in-place

df.drop(2)

Unnamed: 0,Largo Sepalo,Ancho Sepalo,Largo Petalo,Ancho Petalo,Clase
0,7.9,3.8,6.4,2.0,Iris-virginica
1,7.7,2.6,6.9,2.3,Iris-virginica
3,7.7,2.8,6.7,2.0,Iris-virginica
4,7.7,3.0,6.1,2.3,Iris-virginica
5,7.6,3.0,6.6,2.1,Iris-virginica
...,...,...,...,...,...
145,4.5,2.3,1.3,0.3,Iris-setosa
146,4.4,2.9,1.4,0.2,Iris-setosa
147,4.4,3.0,1.3,0.2,Iris-setosa
148,4.4,3.2,1.3,0.2,Iris-setosa


In [53]:
df.drop("Clase", axis = 1)

Unnamed: 0,Largo Sepalo,Ancho Sepalo,Largo Petalo,Ancho Petalo
0,7.9,3.8,6.4,2.0
1,7.7,2.6,6.9,2.3
2,7.7,3.8,6.7,2.2
3,7.7,2.8,6.7,2.0
4,7.7,3.0,6.1,2.3
...,...,...,...,...
145,4.5,2.3,1.3,0.3
146,4.4,2.9,1.4,0.2
147,4.4,3.0,1.3,0.2
148,4.4,3.2,1.3,0.2


In [54]:
# Si la fila/columna no existe, nos dará error

df.drop("Flor", axis = 1)

KeyError: "['Flor'] not found in axis"

In [55]:
df["Clase2"] = df["Clase"]

df.head(3)

Unnamed: 0,Largo Sepalo,Ancho Sepalo,Largo Petalo,Ancho Petalo,Clase,Clase2
0,7.9,3.8,6.4,2.0,Iris-virginica,Iris-virginica
1,7.7,2.6,6.9,2.3,Iris-virginica,Iris-virginica
2,7.7,3.8,6.7,2.2,Iris-virginica,Iris-virginica


In [56]:
# Si queremos que la operación sea in-place podemos agregar el parametro

df.drop("Clase2", axis = 1, inplace = True)

In [57]:
df.head(3)

Unnamed: 0,Largo Sepalo,Ancho Sepalo,Largo Petalo,Ancho Petalo,Clase
0,7.9,3.8,6.4,2.0,Iris-virginica
1,7.7,2.6,6.9,2.3,Iris-virginica
2,7.7,3.8,6.7,2.2,Iris-virginica


In [58]:
# Si queremos agregar una fila #PROXIMAMENTE APPEND = .CONCAT

df = df.append({"Largo Sepalo" : 0, "Ancho Sepalo" : 0, "Largo Petalo" : 0, "Ancho Petalo" : 0, "Clase" : "Nueva-Flor"},
               ignore_index = True)

  df = df.append({"Largo Sepalo" : 0, "Ancho Sepalo" : 0, "Largo Petalo" : 0, "Ancho Petalo" : 0, "Clase" : "Nueva-Flor"},


In [61]:
df = df.append({"Largo Sepalo" : 3000, "Ancho Sepalo" : 40, "Largo Petalo" : 20, "Ancho Petalo" : 50, "Clase" : "Flor"},
               ignore_index = True)

  df = df.append({"Largo Sepalo" : 3000, "Ancho Sepalo" : 40, "Largo Petalo" : 20, "Ancho Petalo" : 50, "Clase" : "Flor"},


In [62]:
df.tail()

Unnamed: 0,Largo Sepalo,Ancho Sepalo,Largo Petalo,Ancho Petalo,Clase
147,4.4,3.0,1.3,0.2,Iris-setosa
148,4.4,3.2,1.3,0.2,Iris-setosa
149,4.3,3.0,1.1,0.1,Iris-setosa
150,0.0,0.0,0.0,0.0,Nueva-Flor
151,3000.0,40.0,20.0,50.0,Flor


In [63]:
# .value_counts() Se usa para contar los valores únicos de las columnas (Series)

df["Clase"].value_counts()

Iris-virginica     50
Iris-versicolor    50
Iris-setosa        50
Nueva-Flor          1
Flor                1
Name: Clase, dtype: int64

In [64]:
# Podemos "Normalizar" el resultado

df["Clase"].value_counts(normalize = True)

Iris-virginica     0.328947
Iris-versicolor    0.328947
Iris-setosa        0.328947
Nueva-Flor         0.006579
Flor               0.006579
Name: Clase, dtype: float64

In [65]:
# .unique() retorna un array con los valores únicos de las columnas
df["Clase"].unique()

array(['Iris-virginica', 'Iris-versicolor', 'Iris-setosa', 'Nueva-Flor',
       'Flor'], dtype=object)

### Filtros

In [66]:
# Para aplicar un filtro usamos los operadores de comparación

df["Largo Sepalo"] > 7

0       True
1       True
2       True
3       True
4       True
       ...  
147    False
148    False
149    False
150    False
151     True
Name: Largo Sepalo, Length: 152, dtype: bool

In [67]:
# Esto retorna una Serie con Verdaderos y Falsos
# Si quisieramos aplicar ese filtro al DataFrame hariamos un "indexing" con el operador

df[df["Largo Sepalo"] > 7]

# Esto nos retorna el DataFrame solo con las filas que cumplen la condición

Unnamed: 0,Largo Sepalo,Ancho Sepalo,Largo Petalo,Ancho Petalo,Clase
0,7.9,3.8,6.4,2.0,Iris-virginica
1,7.7,2.6,6.9,2.3,Iris-virginica
2,7.7,3.8,6.7,2.2,Iris-virginica
3,7.7,2.8,6.7,2.0,Iris-virginica
4,7.7,3.0,6.1,2.3,Iris-virginica
5,7.6,3.0,6.6,2.1,Iris-virginica
6,7.4,2.8,6.1,1.9,Iris-virginica
7,7.3,2.9,6.3,1.8,Iris-virginica
8,7.2,3.6,6.1,2.5,Iris-virginica
9,7.2,3.2,6.0,1.8,Iris-virginica


In [68]:
df[(df["Largo Sepalo"] > 7) | (df["Ancho Petalo"] < 2)]

Unnamed: 0,Largo Sepalo,Ancho Sepalo,Largo Petalo,Ancho Petalo,Clase
0,7.9,3.8,6.4,2.0,Iris-virginica
1,7.7,2.6,6.9,2.3,Iris-virginica
2,7.7,3.8,6.7,2.2,Iris-virginica
3,7.7,2.8,6.7,2.0,Iris-virginica
4,7.7,3.0,6.1,2.3,Iris-virginica
...,...,...,...,...,...
147,4.4,3.0,1.3,0.2,Iris-setosa
148,4.4,3.2,1.3,0.2,Iris-setosa
149,4.3,3.0,1.1,0.1,Iris-setosa
150,0.0,0.0,0.0,0.0,Nueva-Flor


Para aplicar más de un filtro debemos usar los operadores **`&`** y **`|`** y agrupar las condición en parentesis **`()`**.

In [69]:
df[(df["Largo Sepalo"] > 7) & (df["Ancho Petalo"] == 2)]

Unnamed: 0,Largo Sepalo,Ancho Sepalo,Largo Petalo,Ancho Petalo,Clase
0,7.9,3.8,6.4,2.0,Iris-virginica
3,7.7,2.8,6.7,2.0,Iris-virginica


In [70]:
df[(df["Clase"] == "Iris-virginica") | (df["Clase"] == "Iris-versicolor")]

Unnamed: 0,Largo Sepalo,Ancho Sepalo,Largo Petalo,Ancho Petalo,Clase
0,7.9,3.8,6.4,2.0,Iris-virginica
1,7.7,2.6,6.9,2.3,Iris-virginica
2,7.7,3.8,6.7,2.2,Iris-virginica
3,7.7,2.8,6.7,2.0,Iris-virginica
4,7.7,3.0,6.1,2.3,Iris-virginica
...,...,...,...,...,...
110,5.1,2.5,3.0,1.1,Iris-versicolor
118,5.0,2.0,3.5,1.0,Iris-versicolor
119,5.0,2.3,3.3,1.0,Iris-versicolor
128,4.9,2.5,4.5,1.7,Iris-virginica


In [None]:
################################################################################################################################