<a href="https://colab.research.google.com/github/johnreyes96/modeling-and-simulation/blob/master/src/main/python/classes/StatisticsPandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Estadística Descriptiva y Pandas

## 1. Estadística Descriptiva

La Estadística Descriptiva nos sirve para comenzar a analizar y entender un conjunto de datos. En el caso de datos numéricos, lo hace obteniendo *valores estadísticos* que, de alguna forma, reemplazan a nuestros datos. Por ejemplo, es muy difícil leer y *entender* la edad de 1000 personas. Pero con un grupo reducido de valores estadísticos (mínimo, máximo, media y desviación estándar, etc.) podemos aproximarnos a ese conjunto de una manera mucho más comprensible. Veamos dos medidas muy importantes:

**Promedio**

Dados $n$ números $x_1,x_2,...,x_n$, el promedio o media es 

$$\overline{x} = \frac{1}{n}\sum_{i=1}^{n} x_i = \frac{x_1 + x_2 + ... + x_n}{n}$$

**Desviación Estándar**

La varianza y la desviación estándar nos dan una idea de cuán "dispersos" están los valores con respecto a su promedio.

$$ Var = \frac{\sum_{i=1}^{n} (x_i -\overline{x})^2}{n - 1}$$

La desviación estándar es la raiz cuadrada de la varianza. En general se usa la letra griega $\sigma$ para representarla o las siglas $SD$:

$$ SD = \sqrt{\frac{\sum_{i=1}^{n} (x_i -\overline{x})^2}{n - 1}}$$

$$ SD = \sqrt{Var}$$


**Comentarios**:
1. Dado un conjunto de números, el promedio suele ser considerado el número más representativo de ese conjunto. Esto no siempre es así. Pensá o googleá por qué.
2. Al conjunto de números $x_1,...,x_n$ los pueden encontrar por el nombre de *población* o *muestra* (¡Ojo que no estamos diciendo que *población* y *muestra* sean lo mismo!).

### 1.1 Aplicación de las ecuaciones

In [None]:
#Promedio
x_s = [1,2,3,1,2,2,3,4,1,2,3,4,1,2,4]

promedio = sum(x_s)/len(x_s) 
print (promedio)

2.3333333333333335


In [None]:
#Varianza y desviación estandar 
a = 0
for x in x_s:
  a = a + (x-promedio)**2
  
varianza = a/(len(x_s)-1)
desviacion = varianza**0.5

print(varianza)
print(desviacion)

1.2380952380952384
1.1126972805283737


### 1.2 Estadística con NumPy

Veamos cómo se calculan, en NumPy, el promedio, varianza y desviación estándar sobre un arreglo.

In [8]:
import numpy as np

x_s = np.array([1,2,3,1,2,2,3,4,1,2,3,4,1,2,4])

# Promedio
print(x_s.mean())

# Varianza
print(x_s.var(ddof = 1))

# Desviación estándar
print(x_s.std(ddof = 1))

2.3333333333333335
1.238095238095238
1.1126972805283735


¿Qué es el parámetro `ddof` de esa función?

¿Qué son los grados de libertad?

En la estadística inferencial, el término grados de libertad se define normalmente como el número de observaciones que son libres de variar, dada una o más restricciones matemáticas, en un conjunto de valores utilizados para estimar alguna característica de la población.

Dicho de otra manera, los grados de libertad son el número de observaciones independientes menos el número de restricciones asociado a esas observaciones.

Grados de libertad en el cálculo de la varianza muestral
Seguramente, la primera vez donde nos encontramos este concepto es a la hora de calcular la varianza de una muestra, medida que representa la variabilidad de un conjunto de datos de una muestra y que se calcula mediante la siguiente fórmula:

  \begin{align*}s^2 = \frac{1}{n-1} \sum_{i=1}^n (x_i - \overline{x})^2\end{align*}

donde

- $x_i$ es valor la observación número i.
- $x̄$ es la media de la muestra.
- $n$ es el número de observaciones en la muestra.

En esta formula, los grados de libertad se encuentran en el denominador y equivalen al número de observaciones menos 1 $(n – 1)$, por lo que solo tenemos una única restricción. 

Esta restricción se debe a que para calcular la varianza muestral es necesario calcular previamente la media de la muestra $(x̄)$, por lo que el último valor y única observación que no es libre de variar, se puede obtener fácilmente utilizando el resto de observaciones.



##Ejemplo


El primer día, puede usar cualquiera de los 7 sombreros. El segundo día, puede elegir entre los 6 sombreros restantes, el tercer día puede elegir entre 5 sombreros y así sucesivamente.

Cuando llega al día 6, todavía tiene la opción de escoger entre 2 sombreros que no ha usado todavía esa semana. Pero después de escoger su sombrero para el día 6, no tiene ninguna opción disponible para el sombrero que utilizará el día 7. Debe usar el sombrero restante. Tenía $7-1 = 6$ días de libertad de “sombreros” respecto a la variación del sombrero que podía utilizar.

Ese es el tipo de idea que apoya el concepto de grados de libertad en estadística. Los grados de libertad se definen frecuentemente como el número de observaciones (piezas de información) en los datos que pueden variar libremente al estimar parámetros estadísticos.

##Ejemplo

Imaginemos que tenemos una muestra con 5 observaciones, sabemos que la media muestral corresponde a 8 y queremos calcular la varianza muestral. La restricción que se debe cumplir consiste en que la suma de todos los datos $(x_1 + x_2 + x_3 + x_4 + x_5)$ debe ser igual a $n × x̄$, en este caso, $5 × 8 = 40$.

Otra manera de verlo es que la suma de las desviaciones de las observaciones con respecto a la media $(x_1 – x̄, x_2 – x̄, x_3 – x̄, x_4 – x̄, x_5 – x̄)$ debe ser igual a cero.

Con esta restricción, tenemos que los primeros 4 valores pueden ser cualquier número, pero para que los 5 valores sumen 40, el último valor no puede variar. Por lo tanto, tenemos 4 grados de libertad.

Así, si los primeros 4 valores son $6, 6, 8, 10$, sabemos automáticamente que el último valor corresponde a 10, ya que la suma de los 5 números debe ser igual a 40. Así de simple.






NumPy también puede calcular percentil, cuantil, mínimos y máximos:

In [None]:
x_s = np.array([1,2,3,1,2,2,3,4,1,2,3,4,1,2,4])

print(np.percentile(x_s,75))
print(np.quantile(x_s,0.5))
print(np.min(x_s))
print(np.max(x_s))

3.0
2.0
1
4




### 1.3 Generación de muestras al azar

Una cosa sumamente útil que podemos hacer con NumPy es generar muestras al azar. Esto no permite simular situaciones. Estas funciones las encontramos dentro del paquete `random` de NumPy, cuya documentación pueden encontrar [aquí](https://docs.scipy.org/doc/numpy-1.15.0/reference/routines.random.html).

In [None]:
muestras_dado = np.random.randint(1,7, size = 15)
print(muestras_dado)

### También se puede
muestras_dado = np.random.choice([1,2,3,4,5,6], size = 15)
print(muestras_dado)

[2 1 6 2 4 4 6 1 2 2 4 1 3 2 1]
[3 6 5 6 3 1 6 2 2 5 1 3 6 5 5]


**Ejercicio 1:** ¿Cuál será el promedio de los valores obtenidos al tirar muchas veces un dado? Vamos a tratar de responder esta pregunta **simulando** un dado. Para ello:
* Obtener muestras al azar de un dado.
* Calcular su promedio y desviación estándar.

¿A partir de qué cantidad de muestras el promedio se "estabiliza"?

In [None]:
dados = np.random.choice([1,2,3,4,5,6], size = 10000)
desviacion = dados.std()
promedio = dados.mean()

#print(dados)
#print(dados)
print(desviacion)
print(promedio)

1.7234112422750407
3.4787


**Ejercicio 2:** Simular un dado cargado para favorecer un valor de su elección. Por ejemplo, el seis. Para ello, consultar la ayuda de la función `np.random.choice`. ¿Cómo se modifica el promedio y la desviación estándar?

In [None]:
dados = np.random.choice([1,2,3,4,5,6,6,6,6,6,6,6,6,6,6,6,6,6], size = 50)
desviacion = dados.std()
promedio = dados.mean()

print(dados)
print(desviacion)
print(promedio)

[2 6 6 4 5 6 6 6 6 2 1 4 2 6 6 6 6 1 3 2 6 6 6 6 1 6 6 2 6 4 5 6 6 6 6 3 6
 5 3 6 6 6 6 6 6 6 6 4 3 6]
1.6894969665554302
4.84


Crear un arreglo que asigne probabilidades a cada valor del dado. Recordar que las probabilidades deben sumar 1

In [None]:
probabilidades = np.array([1,1,1,1,1,6])
probabilidades = probabilidades/probabilidades.sum()
print(probabilidades)

[0.09090909 0.09090909 0.09090909 0.09090909 0.09090909 0.54545455]


Generar las muestras

In [None]:
muestras_dado_cargado = np.random.choice([1,2,3,4,5,6],p = probabilidades, size = 1000)

print(muestras_dado_cargado.mean())
print(muestras_dado_cargado.std())

4.598
1.8128419677401557


## 2. Pandas 

Pandas es la librería más conocida de Python para manipular y analizar datos. Está montada sobre NumPy, por lo cual muchas funcionalidades son similares. Utilizaremos Pandas para trabajar con datasets estructurados (y bueno, ¡bastante más!). 

Así como NumPy nos proveé de los *arreglos* y con ellos accedemos a muchas nuevas funcionalidades, Pandas nos provee de los *Data Frames* y las *Series*. El objeto más utilizado es el primero, los Data Frames. 

### 2.1 Primeros pasos

Importamos la librería.

In [9]:
import pandas as pd

Como primer paso, vamos a crear nuestro propio dataset. 

Nota: la población está en número de habitantes y la superficie en km2.





In [None]:
data_dic = {"Departamento":["Tolima","Antioquia","Cundinamarca","Choco","Nariño","Cauca","Risaralda","Bolivar","Quindio","Caldas","Santander",
                           "Santa Fe"],"Poblacion":[2890151,1525084,3670828,105559,199633,308876,673307,738929,
                                                   111593,638645,273964,314537],"Superficie":
           [20780,307521,102606,99633,509108,165321,53219,148827,29801,203013,243943,133007]}

In [None]:
# Creamos el DataFrame
data_pandas = pd.DataFrame(data_dic)
data_pandas

Unnamed: 0,Departamento,Poblacion,Superficie
0,Tolima,2890151,20780
1,Antioquia,1525084,307521
2,Cundinamarca,3670828,102606
3,Choco,105559,99633
4,Nariño,199633,509108
5,Cauca,308876,165321
6,Risaralda,673307,53219
7,Bolivar,738929,148827
8,Quindio,111593,29801
9,Caldas,638645,203013


Devuelve los primeros elementos de la estructura (los primeros valores en el caso de una serie y las primeras filas en el caso de un dataframe). Por defecto, se trata de los 5 primeros elementos, pero podemos especificar el número que deseamos como argumento de la función.


In [None]:
data_pandas.head()

Unnamed: 0,Departamento,Poblacion,Superficie
0,Tolima,2890151,20780
1,Antioquia,1525084,307521
2,Cundinamarca,3670828,102606
3,Choco,105559,99633
4,Nariño,199633,509108


Son semejantes a los anteriores, pero muestran los últimos elementos de la estructura. Si no indicamos otra cosa como argumento, serán los 5 últimos elementos los que se muestren.

In [None]:
data_pandas.tail()

Unnamed: 0,Departamento,Poblacion,Superficie
7,Bolivar,738929,148827
8,Quindio,111593,29801
9,Caldas,638645,203013
10,Santander,273964,243943
11,Santa Fe,314537,133007


Este método devuelve una estructura conteniendo los valores presentes en la serie y el número de ocurrencias de cada uno. Estos valores se muestran en orden decreciente

In [None]:
data_pandas.count()

Departamento    12
Poblacion       12
Superficie      12
dtype: int64

Devuelve el número de filas y columnas del DataFrame.

In [None]:
data_pandas.shape

(12, 3)

Agregar al Dataset la información correspondiente a algún departamento faltante. Recuerden que, al tratarse de una nueva instancia, corresponde a una fila. **Nota:** "add row to pandas dataframe".

In [None]:
#data_dic = {"Departamento":" ","Poblacion":000,"Superficie":000}

data_dic2 = {"Departamento":"Valle","Poblacion":218181,"Superficie":618481}
data_pandas = data_pandas.append(data_dic2,  ignore_index=True)
print(data_pandas)


    Departamento  Poblacion  Superficie
0         Tolima    2890151       20780
1      Antioquia    1525084      307521
2   Cundinamarca    3670828      102606
3          Choco     105559       99633
4         Nariño     199633      509108
5          Cauca     308876      165321
6      Risaralda     673307       53219
7        Bolivar     738929      148827
8        Quindio     111593       29801
9         Caldas     638645      203013
10     Santander     273964      243943
11      Santa Fe     314537      133007
12         Valle     218181      618481


Tenemos que proporcionar el parámetro «ignore_index=True» o añadir la fila, que es la Serie con un nombre.

In [None]:
data_dic3 = pd.Series({"Departamento":"prueba","Poblacion":2481,"Superficie":6481}, name= 'x')
data_pandas = data_pandas.append(data_dic3)
print(data_pandas)

    Departamento  Poblacion  Superficie
0         Tolima    2890151       20780
1      Antioquia    1525084      307521
2   Cundinamarca    3670828      102606
3          Choco     105559       99633
4         Nariño     199633      509108
5          Cauca     308876      165321
6      Risaralda     673307       53219
7        Bolivar     738929      148827
8        Quindio     111593       29801
9         Caldas     638645      203013
10     Santander     273964      243943
11      Santa Fe     314537      133007
12         Valle     218181      618481
x         prueba       2481        6481


Devuelve una lista con los nombres de las columnas del DataFrame.

In [None]:
data_pandas.columns

Index(['Departamento', 'Poblacion', 'Superficie'], dtype='object')

Devuelve una lista con los nombres de las filas del DataFrame.

In [None]:
data_pandas.index

Index([0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 'x'], dtype='object')

Operaciones con DataFrames



In [None]:
data_pandas['Departamento']

0           Tolima
1        Antioquia
2     Cundinamarca
3            Choco
4           Nariño
5            Cauca
6        Risaralda
7          Bolivar
8          Quindio
9           Caldas
10       Santander
11        Santa Fe
12           Valle
x           prueba
Name: Departamento, dtype: object

In [None]:
data_pandas[['Departamento','Poblacion']]

Unnamed: 0,Departamento,Poblacion
0,Tolima,2890151
1,Antioquia,1525084
2,Cundinamarca,3670828
3,Choco,105559
4,Nariño,199633
5,Cauca,308876
6,Risaralda,673307
7,Bolivar,738929
8,Quindio,111593
9,Caldas,638645


In [None]:
data_pandas.Departamento

0           Tolima
1        Antioquia
2     Cundinamarca
3            Choco
4           Nariño
5            Cauca
6        Risaralda
7          Bolivar
8          Quindio
9           Caldas
10       Santander
11        Santa Fe
12           Valle
x           prueba
Name: Departamento, dtype: object

In [None]:
'PoblacioOn' in data_pandas

False

In [None]:
data_pandas[data_pandas.Poblacion > 500000]

Unnamed: 0,Departamento,Poblacion,Superficie
0,Tolima,2890151,20780
1,Antioquia,1525084,307521
2,Cundinamarca,3670828,102606
6,Risaralda,673307,53219
7,Bolivar,738929,148827
9,Caldas,638645,203013


In [None]:
data_pandas[(data_pandas.Poblacion > 500000) & (data_pandas.Superficie < 150000)]

Unnamed: 0,Departamento,Poblacion,Superficie
0,Tolima,2890151,20780
2,Cundinamarca,3670828,102606
6,Risaralda,673307,53219
7,Bolivar,738929,148827


In [None]:
data_pandas['Densidad'] = data_pandas['Poblacion'] / data_pandas['Superficie']
print(data_pandas)

    Departamento  Poblacion  Superficie    Densidad
0         Tolima    2890151       20780  139.083301
1      Antioquia    1525084      307521    4.959284
2   Cundinamarca    3670828      102606   35.775959
3          Choco     105559       99633    1.059478
4         Nariño     199633      509108    0.392123
5          Cauca     308876      165321    1.868341
6      Risaralda     673307       53219   12.651628
7        Bolivar     738929      148827    4.965020
8        Quindio     111593       29801    3.744606
9         Caldas     638645      203013    3.145833
10     Santander     273964      243943    1.123066
11      Santa Fe     314537      133007    2.364815
12         Valle     218181      618481    0.352769
x         prueba       2481        6481    0.382811


## 2.3 Iris dataset

Vamos a trabajar con el Iris Dataset, probablemente uno de los conjuntos de datos más famosos, ya que muchos ejemplos se realizan con él. Es un dataset sencillo pero ilustrativo.


1. Abrir con Pandas el archivo 'iris.csv' e imprimir sus primeros cinco elementos. Pista: `pd.read...()`.

Dataset  Github [aqui](https://gist.github.com/curran/a08a1080b88344b0c8a7).

Dataset Kaggle [aqui](https://www.kaggle.com/datasets/uciml/iris).

Montar unidad de Drive

In [1]:
from google.colab import drive
drive.mount("/content/drive")

Mounted at /content/gdrive


In [5]:
cd /content/drive/My Drive/modeling_and_simulation

/content/gdrive/My Drive/modeling_and_simulation


In [6]:
ls

Iris.csv


In [10]:
iris_data = pd.read_csv('Iris.csv')
#iris_data = pd.read_csv('/content/gdrive/My Drive/Colab Notebooks/Iris.csv')·
#example = pd.read_csv('https://aqui la direccion con el archivo example.csv')

In [None]:
iris_data

Unnamed: 0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
0,1,5.1,3.5,1.4,0.2,Iris-setosa
1,2,4.9,3.0,1.4,0.2,Iris-setosa
2,3,4.7,3.2,1.3,0.2,Iris-setosa
3,4,4.6,3.1,1.5,0.2,Iris-setosa
4,5,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...,...
145,146,6.7,3.0,5.2,2.3,Iris-virginica
146,147,6.3,2.5,5.0,1.9,Iris-virginica
147,148,6.5,3.0,5.2,2.0,Iris-virginica
148,149,6.2,3.4,5.4,2.3,Iris-virginica


Utilizando las funciones anteriores veremos cuantos datos tiene este dataset.

In [None]:
iris_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 6 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Id             150 non-null    int64  
 1   SepalLengthCm  150 non-null    float64
 2   SepalWidthCm   150 non-null    float64
 3   PetalLengthCm  150 non-null    float64
 4   PetalWidthCm   150 non-null    float64
 5   Species        150 non-null    object 
dtypes: float64(4), int64(1), object(1)
memory usage: 7.2+ KB


In [None]:
iris_data.shape

(150, 6)

In [None]:
iris_data.columns


Index(['Id', 'SepalLengthCm', 'SepalWidthCm', 'PetalLengthCm', 'PetalWidthCm',
       'Species'],
      dtype='object')

Calculando algunos valores estadisticos.

In [None]:
iris_data.mean()

  """Entry point for launching an IPython kernel.


Id               75.500000
SepalLengthCm     5.843333
SepalWidthCm      3.054000
PetalLengthCm     3.758667
PetalWidthCm      1.198667
dtype: float64

In [None]:
media = iris_data['PetalLengthCm'].mean()
print(media)

3.758666666666666


In [None]:
iris_data.var()

  """Entry point for launching an IPython kernel.


Id               1887.500000
SepalLengthCm       0.685694
SepalWidthCm        0.188004
PetalLengthCm       3.113179
PetalWidthCm        0.582414
dtype: float64

In [None]:
iris_data.std()

  """Entry point for launching an IPython kernel.


Id               43.445368
SepalLengthCm     0.828066
SepalWidthCm      0.433594
PetalLengthCm     1.764420
PetalWidthCm      0.763161
dtype: float64

In [None]:
iris_data.min()

Id                         1
SepalLengthCm            4.3
SepalWidthCm             2.0
PetalLengthCm            1.0
PetalWidthCm             0.1
Species          Iris-setosa
dtype: object

In [None]:
iris_data.max()

Id                          150
SepalLengthCm               7.9
SepalWidthCm                4.4
PetalLengthCm               6.9
PetalWidthCm                2.5
Species          Iris-virginica
dtype: object

In [None]:
iris_data.sum()

Id                                                           11325
SepalLengthCm                                                876.5
SepalWidthCm                                                 458.1
PetalLengthCm                                                563.8
PetalWidthCm                                                 179.8
Species          Iris-setosaIris-setosaIris-setosaIris-setosaIr...
dtype: object

Una de las funciones mas importantes es df.descrive, devuelve un DataFrame con un resumen estadístico de las columnas del DataFrame. Para los datos numéricos (number) se calcula la media, la desviación típica, el mínimo, el máximo y los cuartiles. Para los datos no numéricos (object) se calcula el número de valores, el número de valores distintos, la moda y su frecuencia. Si no se indica el tipo solo se consideran las columnas numéricas.

In [None]:
iris_data.describe()

Unnamed: 0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm
count,150.0,150.0,150.0,150.0,150.0
mean,75.5,5.843333,3.054,3.758667,1.198667
std,43.445368,0.828066,0.433594,1.76442,0.763161
min,1.0,4.3,2.0,1.0,0.1
25%,38.25,5.1,2.8,1.6,0.3
50%,75.5,5.8,3.0,4.35,1.3
75%,112.75,6.4,3.3,5.1,1.8
max,150.0,7.9,4.4,6.9,2.5


###Funciones iloc y loc

Existen diferentes formas de seleccionar los registros de las filas y columnas. Siendo dos de las más importantes iloc y loc. La primera permite seleccionar los elementos en base a la posición, mientras que la segunda permite seleccionar mediante etiquetas o declaraciones condicionales.

In [None]:
iris_data.iloc[0] # Primera fila

Id                         1
SepalLengthCm            5.1
SepalWidthCm             3.5
PetalLengthCm            1.4
PetalWidthCm             0.2
Species          Iris-setosa
Name: 0, dtype: object

In [None]:
iris_data.iloc[1] # Segunda fila

Id                         2
SepalLengthCm            4.9
SepalWidthCm             3.0
PetalLengthCm            1.4
PetalWidthCm             0.2
Species          Iris-setosa
Name: 1, dtype: object

In [None]:
iris_data.iloc[-1] # Última fila

Id                          150
SepalLengthCm               5.9
SepalWidthCm                3.0
PetalLengthCm               5.1
PetalWidthCm                1.8
Species          Iris-virginica
Name: 149, dtype: object

In [None]:
iris_data.iloc[:,0] # Primera columna

0        1
1        2
2        3
3        4
4        5
      ... 
145    146
146    147
147    148
148    149
149    150
Name: Id, Length: 150, dtype: int64

In [None]:
iris_data.iloc[:,1] # Segunda columna

0      5.1
1      4.9
2      4.7
3      4.6
4      5.0
      ... 
145    6.7
146    6.3
147    6.5
148    6.2
149    5.9
Name: SepalLengthCm, Length: 150, dtype: float64

In [None]:
iris_data.iloc[:,-1] # ultima columna

0         Iris-setosa
1         Iris-setosa
2         Iris-setosa
3         Iris-setosa
4         Iris-setosa
            ...      
145    Iris-virginica
146    Iris-virginica
147    Iris-virginica
148    Iris-virginica
149    Iris-virginica
Name: Species, Length: 150, dtype: object

In [None]:
iris_data.iloc[0:5] # Primeras cinco filas

Unnamed: 0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
0,1,5.1,3.5,1.4,0.2,Iris-setosa
1,2,4.9,3.0,1.4,0.2,Iris-setosa
2,3,4.7,3.2,1.3,0.2,Iris-setosa
3,4,4.6,3.1,1.5,0.2,Iris-setosa
4,5,5.0,3.6,1.4,0.2,Iris-setosa


In [None]:
iris_data.iloc[:, 0:5] # Primeras cinco columnas

Unnamed: 0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm
0,1,5.1,3.5,1.4,0.2
1,2,4.9,3.0,1.4,0.2
2,3,4.7,3.2,1.3,0.2
3,4,4.6,3.1,1.5,0.2
4,5,5.0,3.6,1.4,0.2
...,...,...,...,...,...
145,146,6.7,3.0,5.2,2.3
146,147,6.3,2.5,5.0,1.9
147,148,6.5,3.0,5.2,2.0
148,149,6.2,3.4,5.4,2.3


In [None]:
iris_data.iloc[[0,2,1]]  # Primera, tercera y segunda filas

In [None]:
iris_data.iloc[:, [0,2,1]]  # Primera, tercera y segunda columnas

Ahora el loc

In [None]:
iris_data.columns

Index(['Id', 'SepalLengthCm', 'SepalWidthCm', 'PetalLengthCm', 'PetalWidthCm',
       'Species'],
      dtype='object')

In [None]:
iris_data.loc[:, 'Id']

0        1
1        2
2        3
3        4
4        5
      ... 
145    146
146    147
147    148
148    149
149    150
Name: Id, Length: 150, dtype: int64

In [None]:
iris_data.loc[:, 'Species']

0         Iris-setosa
1         Iris-setosa
2         Iris-setosa
3         Iris-setosa
4         Iris-setosa
            ...      
145    Iris-virginica
146    Iris-virginica
147    Iris-virginica
148    Iris-virginica
149    Iris-virginica
Name: Species, Length: 150, dtype: object

In [None]:
setosa = iris_data.loc[:, 'Species'] == 'Iris-setosa'
df_setosa = iris_data.loc[setosa]
df_setosa.head()

Unnamed: 0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
0,1,5.1,3.5,1.4,0.2,Iris-setosa
1,2,4.9,3.0,1.4,0.2,Iris-setosa
2,3,4.7,3.2,1.3,0.2,Iris-setosa
3,4,4.6,3.1,1.5,0.2,Iris-setosa
4,5,5.0,3.6,1.4,0.2,Iris-setosa


##Ejercicio 
Buscar que hacen las siguientes funciones:

`inplace`, `drop`, `del`.

Y realizar ejemplos con ellas.
