# Introducción

El objetivo de esta entrega es introducirlos a operaciones con las filas y columnas en un dataframe. También conocer funciones y atributos que nos ayudaran a manipular y obtener información de las filas y columnas.

Repositorio de GitHub: https://bit.ly/3wTjGfV

Perfil de LinkedIn: https://bit.ly/3CPkKCu


**Continuamos trabajando con el toy data_set Iris**

In [1]:
import pandas as pd
import numpy as np
from sklearn import datasets

In [6]:
iris = datasets.load_iris()
ds = pd.DataFrame(data= np.c_[iris['data'], iris['target']],
                     columns= iris['feature_names'] + ['target'])

In [46]:
ds.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,0.0
1,4.9,3.0,1.4,0.2,0.0
2,4.7,3.2,1.3,0.2,0.0
3,4.6,3.1,1.5,0.2,0.0
4,5.0,3.6,1.4,0.2,0.0


### **Working with Columns**

**Obtener los indices o etiquetas de la columna**

In [35]:
# Indice
idx=ds.columns
idx

Index(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)', 'target'],
      dtype='object')

In [40]:
# Etiqueta
etiqueta=ds.columns[0]
etiqueta

'sepal length (cm)'

In [39]:
# Listado
colum_list=ds.columns.tolist()
colum_list

['sepal length (cm)',
 'sepal width (cm)',
 'petal length (cm)',
 'petal width (cm)',
 'target']

In [44]:
# Array 
a=ds.columns.values
a

array(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)', 'target'], dtype=object)

**Cambiar la etiqueta de las columnas**

In [48]:
ds=ds.rename(columns={'sepal length (cm)':'longitud del sépalo (cm)'})
ds.columns[0]

'longitud del sépalo (cm)'

In [53]:
ds.columns=['1','2','3','4','5']
ds.columns

Index(['1', '2', '3', '4', '5'], dtype='object')

In [59]:
# Reestablezco el nombre de las columnas.
ds.columns=['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)', 'target']
ds.columns

Index(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)', 'target'],
      dtype='object')

**Seleccionar Columnas**

In [67]:
# Obtengo una serie a partir de una columna.
serie=ds['sepal length (cm)']
serie[0:3]

0    5.1
1    4.9
2    4.7
Name: sepal length (cm), dtype: float64

In [68]:
# Obtengo un data frame a partir de una columna.

data_frame=ds[['sepal length (cm)']]
data_frame.head(3)

Unnamed: 0,sepal length (cm)
0,5.1
1,4.9
2,4.7


In [70]:
# Cambiar orden de las columnas y quitar columnas del dataframe
ds=ds[['sepal width (cm)','sepal length (cm)']]
ds.head(2)

Unnamed: 0,sepal width (cm),sepal length (cm)
0,3.5,5.1
1,3.0,4.9


Unnamed: 0,sepal length (cm),petal length (cm),petal width (cm),target
0,5.1,1.4,0.2,0.0
1,4.9,1.4,0.2,0.0
2,4.7,1.3,0.2,0.0


**Agregar una columna al dataset**

In [44]:
ds['new_column']=ds['petal length (cm)']*2
ds.head(3)

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target,new_column
0,5.1,3.5,1.4,0.2,0.0,2.8
1,4.9,3.0,1.4,0.2,0.0,2.8
2,4.7,3.2,1.3,0.2,0.0,2.6


**Borrar columnas**

In [28]:
ds=ds.drop(['sepal length (cm)','petal length (cm)'],axis=1)
# otra opción: df.drop(['sepal length (cm)','petal length (cm)'],axis=1,inplace=True)
ds.head(3)

Unnamed: 0,sepal width (cm),petal width (cm),target
0,3.5,0.2,0.0
1,3.0,0.2,0.0
2,3.2,0.2,0.0


In [29]:
# Obtener y borrar una columna del dataset
s=ds.pop('sepal width (cm)')
ds.head(3)

Unnamed: 0,petal width (cm),target
0,0.2,0.0
1,0.2,0.0
2,0.2,0.0


## ***Ejercitación:***
     
   1.Ingresa a <a href="https://colab.research.google.com/?hl=es">Colab</a>
   
   2.Carga el dataset iris.
   
   3.Cambia el nombre de la columna "target" a Objetivo
   
   4.Hubo un cambio de planes la columna objetivo no es relevante para el caso de estudio, vamos a eliminarla!
   
   ***A continuación pueden ver la solución***
   
   ![Alt Text](https://acegif.com/wp-content/uploads/cat-typing-2.gif)


In [10]:
#2
iris = datasets.load_iris()
ds_exersice = pd.DataFrame(data= np.c_[iris['data'], iris['target']],
                     columns= iris['feature_names'] + ['target'])

In [11]:
#3
ds_exersice.rename(columns={'target':'objetivo'},inplace=True)
ds_exersice.head(3)

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),objetivo
0,5.1,3.5,1.4,0.2,0.0
1,4.9,3.0,1.4,0.2,0.0
2,4.7,3.2,1.3,0.2,0.0


In [12]:
#4
ds_exersice.drop('objetivo',axis=1,inplace=True)
ds_exersice.head(3)

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2


**Dar valor a una columna segun x criterio**

 Un experto en iris nos informa que un valor en centimetros de la columna "petal length" mayor a 3.5 es totalmente excepcional y debemos tenerlos en cuenta como una mutación genetica. Vamos a clasificarlos para tenerlos en cuenta!


In [7]:
ds['petal length (cm)']=ds['petal length (cm)'].where(ds['petal length (cm)']<=3.5,other='Mutación Genética')

In [8]:
# Valores mutados.
ds.tail(3)

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
147,6.5,3.0,Mutación Genética,2.0,2.0
148,6.2,3.4,Mutación Genética,2.3,2.0
149,5.9,3.0,Mutación Genética,1.8,2.0


**Conversión de tipo de datos**

In [151]:
ds['target'].dtype

dtype('float64')

In [152]:
# Convertimos un dato float a int
ds['target']=ds['target'].astype(int)
ds['target'].dtype

dtype('int32')

In [153]:
ds['target']=ds['target'].astype(str)
ds['target'].dtype

dtype('O')

Si bien lo convertimos en un tipo de dato String o str. Pandas lo toma como un objeto Python, por este movio la 'O'. Otros ejemplos:
<a href="https://stackoverflow.com/questions/37561991/what-is-dtypeo-in-pandas">stackoverflow</a>

![image-3.png](attachment:image-3.png)

In [154]:
ds['target']=ds['target'].astype(float)
ds['target'].dtype

dtype('float64')

In [163]:
 #Redondear una columna a x decimales.
ds['sepal length (cm)']=ds['sepal length (cm)'].round(decimals=0)
ds.tail(3)

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
147,6.0,3.0,5.2,2.0,2.0
148,6.0,3.4,5.4,2.3,2.0
149,6.0,3.0,5.1,1.8,2.0


### **Working with Rows**

**Obtener el indice de las filas**

In [190]:
# en nuestro ejemplo empieza en 0 hasta el 150(sin incluirlo) de 1 en 1
ds.index

RangeIndex(start=0, stop=150, step=1)

**Establecer una columna como indice**

In [9]:
ds.set_index('target',inplace=True)
ds.head(3)

Unnamed: 0_level_0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
target,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0.0,5.1,3.5,1.4,0.2
0.0,4.9,3.0,1.4,0.2
0.0,4.7,3.2,1.3,0.2


In [199]:
# Restablece el indice como columna.
ds=ds.reset_index()
ds.head(3)

Unnamed: 0,index,target,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,0,0.0,5.1,3.5,1.4,0.2
1,1,0.0,4.9,3.0,1.4,0.2
2,2,0.0,4.7,3.2,1.3,0.2


**Cambiar el nombre del indice**

In [231]:
ds.set_index('sepal length (cm)',inplace=True)
ds.index.names=['Nuevo indice']
ds.head(3)

Unnamed: 0_level_0,sepal width (cm),petal length (cm),petal width (cm),target
Nuevo indice,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
5.1,3.5,1.4,0.2,0.0
4.9,3.0,1.4,0.2,0.0
4.7,3.2,1.3,0.2,0.0


**Borrar una fila**

In [232]:
# Borrar todas las filas con valor de indice = 4.9
ds=ds.drop(4.9)
ds.head(3)

Unnamed: 0_level_0,sepal width (cm),petal length (cm),petal width (cm),target
Nuevo indice,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
5.1,3.5,1.4,0.2,0.0
4.7,3.2,1.3,0.2,0.0
4.6,3.1,1.5,0.2,0.0


**Selección de filas**

*Volvemos a trabajar con el dataset original*

In [253]:
ds[:] # Selecciona todo el dataframe
ds[::2] # Selecciona todas las filas de 2 en 2.
ds[-1:] # Selecciona la ultima fila
ds[0:3] # Selecciona las primeras 3 filas (0 a 2)

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,0.0
1,4.9,3.0,1.4,0.2,0.0
2,4.7,3.2,1.3,0.2,0.0


**Filtro segun valores:** 

*Operadores and "&" y or "|"*

In [268]:
ds[(ds['sepal length (cm)']>2) & (ds['sepal length (cm)'] <5)].head(3)


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
1,4.9,3.0,1.4,0.2,0.0
2,4.7,3.2,1.3,0.2,0.0
3,4.6,3.1,1.5,0.2,0.0


In [279]:
ds[(ds['sepal width (cm)']>4) | (ds['petal width (cm)']>2)].shape[0]
#Cantidad de filas:

26

### ***Ejercicio:***

    1. Mostra las ultimas 5 filas (sin utilizar .tail())
    2. Mostra las primeras 30 filas de 5 en 5. (es decir solo deberias mostrar 10 filas)
    3.¿Cuántas filas con target != 0 hay?
    
    

In [294]:
# 1-
ds[-5:]

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
145,6.7,3.0,5.2,2.3,2.0
146,6.3,2.5,5.0,1.9,2.0
147,6.5,3.0,5.2,2.0,2.0
148,6.2,3.4,5.4,2.3,2.0
149,5.9,3.0,5.1,1.8,2.0


In [297]:
# 2-
ds[0:31:5]

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,0.0
5,5.4,3.9,1.7,0.4,0.0
10,5.4,3.7,1.5,0.2,0.0
15,5.7,4.4,1.5,0.4,0.0
20,5.4,3.4,1.7,0.2,0.0
25,5.0,3.0,1.6,0.2,0.0
30,4.8,3.1,1.6,0.2,0.0


In [300]:
# 3-
ds[ds['target']!=0].shape[0]

100

**Agregar filas al data set**

In [329]:
ds=ds.append(ds[0:5])
ds.shape[0]

154

**Borrar filas duplicadas**

In [331]:
ds=ds.drop_duplicates()
ds.shape[0]

149

In [318]:
iris = datasets.load_iris()
ds = pd.DataFrame(data= np.c_[iris['data'], iris['target']],
                     columns= iris['feature_names'] + ['target'])

<h1 style="text-align: center;">Fin de la Parte II</h1>
<h2 style="text-align: center;">Felicitaciones si llegaste hasta este punto</h2>

<p>Espero que esta entrega les haya sido útil, recien estamos adentrandonos en Pandas. Agregué más ejercitación para hacerlo mas interactivo y que puedan practicar.</p>

En la proxima entrega vamos a ver como trabajar con celdas y realizar algunas "consultas" al estilo SQL en Pandas.

Perfil de LinkedIn: https://bit.ly/3CPkKCu

Repositorio de GitHub: https://bit.ly/3wTjGfV

Franco Medina



![Alt Text](https://media4.giphy.com/media/3oz8xAFtqoOUUrsh7W/giphy.gif?cid=ecf05e473rqop7b1z83w2uewpc7n36szekbyp5lufbraxl1o&rid=giphy.gif&ct=g)  
