# Estadística Descriptiva y Pandas

El objetivo del siguiente notebook es, además de repasar conceptos de estadística, que sigas aprendiendo a operar con Numpy y que, además, incorpores Pandas a tu caja de herramientas.

## 1. Estadística Descriptiva

La Estadística Descriptiva nos sirve para comenzar a analizar y entender un conjunto de datos. En el caso de datos numéricos, lo hace obteniendo *valores estadísticos* que, de alguna forma, reemplazan a nuestros datos. Por ejemplo, es muy difícil leer y *entender* la edad de 1000 personas. Pero con un grupo reducido de valores estadísticos **(mínimo, máximo, media y desviación estándar, etc.)** podemos aproximarnos a ese conjunto de una manera mucho más comprensible. Veamos dos medidas muy importantes:

**Promedio**

Dados $n$ números $x_1,x_2,...,x_n$, el promedio o media es 

$$\overline{x} = \frac{1}{n}\sum_{i=1}^{n} x_i = \frac{x_1 + x_2 + ... + x_n}{n}$$

**Desviación Estándar**

La varianza y la desviación estándar nos dan una idea de cuán "dispersos" están los valores con respecto a su promedio.

$$ Var = \frac{\sum_{i=1}^{n} (x_i -\overline{x})^2}{n - 1}$$

La desviación estándar es la raiz cuadrada de la varianza. En general se usa la letra griega $\sigma$ para representarla o las siglas $SD$:

$$ SD = \sqrt{\frac{\sum_{i=1}^{n} (x_i -\overline{x})^2}{n - 1}}$$

$$ SD = \sqrt{Var}$$


**Comentarios**:
1. Dado un conjunto de números, el promedio suele ser considerado el número más representativo de ese conjunto. Esto no siempre es así. Pensá o googleá por qué. 

   **Esto solo es cierto si los datos estan normalmente distribuidos, si tiene asimetrias (es decir un conjunto de datos con mayor frecuencia de numeros chicos o grandes y pocos en el extremo opuesto. o con extremos con poca frecuencia. pueden generar que la media de la poblacion no represente debidamente al conjunto. En ese caso se usa la mediana que separa al conjunto en partes iguales**

2. Al conjunto de números $x_1,...,x_n$ los pueden encontrar por el nombre de *población* o *muestra* (¡Ojo que no estamos diciendo que *población* y *muestra* sean lo mismo!) **el segundo esta contendio en el primero.**

### Challenge:

Vamos a utilizar de excusa la estadística descriptiva para hacer un desafío de programación:

Dadas la siguiente lista de números, escribir una rutina que calcule su promedio, su varianza y desviación estándar. **Pistas:**
* Probablemente te sea muy útil usar lo que hiciste para ejercicios anteriores.
* Para calcular la varianza y la desviación estándar, usa el resultado que obtuviste al calcular el promedio.

In [1]:
import numpy as np
x_s = [1,2,3,1,2,2,3,4,1,2,3,4,1,2,4]

#forma mas larga
suma=0
for i in x_s:
    suma+=i
x_s_meanll=suma/(len(x_s))
print(x_s_meanll)
print()


#forma larga
x_s_meanl= np.sum(x_s)/(len(x_s))
print(x_s_meanl)
print()

# forma rapida
x_s_mean=np.mean(x_s)
print(x_s_mean)

2.3333333333333335

2.3333333333333335

2.3333333333333335


In [13]:
x_s = [1,2,3,1,2,2,3,4,1,2,3,4,1,2,4]
x_s_mean=np.mean(x_s)

#calculo la varianza
#forma lenta
data=0
for i in x_s:
    data+= (i-x_s_mean)**2   #esta parte se puede resumir con datas=(np.sum((x_s-x_s_mean)**2))
    
x_varl=data/(len(x_s)-1)
x_stdl=np.sqrt(x_varl)    

print(x_varl)
print(x_stdl)
print()

#forma rapida con 1/n
x_var=np.var(x_s)
#calculo el desvio estandar
x_std=np.std(x_s)
print(x_var)
print(x_std)

print()
#para n-1 grados de libertad uso
x_var=np.var(x_s,ddof=1)
#ddofint, optional. Means Delta Degrees of Freedom. The divisor used in calculations is N - ddof, where N represents the number of elements. By default ddof is zero.
#equivale a la formula n-1
x_std=np.std(x_s,ddof=1)

print(x_var)
print(x_std)


1.2380952380952384
1.1126972805283737

1.1555555555555554
1.0749676997731399

1.238095238095238
1.1126972805283735


¿Cómo te fue con el Challenge? Si no pudiste resolverlo, no te preocupes. ¡NumPy tiene funciones ya incorporadas que calcula algunos estadísticos sobre un arreglo!

### 1.2 Estadística con NumPy

Veamos cómo se calculan, en NumPy, el promedio, varianza y desviación estándar sobre un arreglo.

In [3]:
import numpy as np

x_s = np.array([1,2,3,1,2,2,3,4,1,2,3,4,1,2,4])

# Promedio
print(x_s.mean())

# Varianza
print(x_s.var(ddof = 1))
#ddofint, optional. Means Delta Degrees of Freedom. The divisor used in calculations is N - ddof, where N represents the number of elements. By default ddof is zero.
#equivale a la formula n-1
# Desviación estándar
print(x_s.std(ddof = 1))

2.3333333333333335
1.238095238095238
1.1126972805283735


**Para investigar**: ¿qué es el parámetro `ddof` de esa función?¿Qué pasa si no lo usas? Esta pregunta es **difícil** y requiere cierto conocimiento previo. Pero intenta, de todas formas, averiguarlo.

De un conjunto de observaciones, los grados de libertad están dados por el número de valores que pueden ser asignados de forma arbitraria, antes de que el resto de las variables tomen un valor automáticamente, producto de establecerse las que son libres; esto, con el fin de compensar e igualar un resultado el cual se ha conocido previamente. Se encuentran mediante la fórmula n − r , donde n es el número de sujetos en la muestra que pueden tomar un valor y r es el número de sujetos cuyo valor dependerá del que tomen los miembros de la muestra que son libres.
En este caso los GDL es igual al número de observaciones menos 1.
En la funcion 1/N-1 indica los grados de liberad. donde N representa el numero de elementos. Por default es cero y realiza la varianza con 1/N

Fuente: ['grados de libertad'](https://es.wikipedia.org/wiki/Grado_de_libertad_(estad%C3%ADstica)


NumPy también puede calcular percentiles (¡googlear!), cuantiles, mínimos y máximos:

In [14]:
print(np.percentile(x_s,75)) #valor que deja el 75% de la muestra a la izquierda (por debajo de este valor)
print(np.quantile(x_s,0.5))  #valor que deja el 50% de la muestra a la izquierda (por debajo de este valor)
print(np.min(x_s))
print(np.max(x_s))

3.0
2.0
1
4


**Para investigar**: ¿Cuál es la diferencia entre `np.percentile()` y `np.quantile()`?¿Cómo obtendrías los cuartiles a partir de ellos?

**Son equivalentes, solo que los cuantiles especifican entre  [0, 1] y los percentiles [0, 100].
Los cuartiles se encuentran, separando los valores que tengan el 25, 50 y 75% de los datos por debajo de estos.**

### 1.3 Generación de muestras al azar

Una cosa sumamente útil que podemos hacer con NumPy es generar muestras al azar. Esto no permite simular situaciones. Por ejemplo, las tiradas de dados que aparecen en el GIF de la bitácora. Estas funciones las encontramos dentro del paquete `random` de NumPy, cuya documentación pueden encontrar [aquí](https://docs.scipy.org/doc/numpy-1.15.0/reference/routines.random.html). Veamos cómo lo podemos hacer:

In [4]:
import numpy as np

muestras_dado = np.random.randint(1,7, size = 15) #me hace un array de valores random entre 1 y 7, con tamanio 15
print(muestras_dado)# random con distribucion uniforme

### También se puede
muestras_dado = np.random.choice([1,2,3,4,5,6], size = 15)
print(muestras_dado)



[3 1 5 2 5 2 2 6 5 4 4 6 3 4 1]
[6 5 3 2 3 4 5 1 1 5 2 4 4 2 2]


### Ejercitación

**Ejercicio 1:** ¿Cuál será el promedio de los valores obtenidos al tirar muchas veces un dado?¿Te animás a averiguar - o calcular - cuánto *debería dar* antes de hacerlo? Vamos a tratar de responder esta pregunta **simulando** un dado. Para ello:
* Obtener muestras al azar de un dado usando lo que vimos anteriormente.
* Calcular su promedio y desviación estándar.

¿A partir de qué cantidad de muestras el promedio se "estabiliza"?

In [74]:
import numpy as np
muestras_dado = np.random.randint(1,7, size = 1000000) #me hace un array de valores random entre 1 y 7, con tamanio 15
#print(muestras_dado) #misma prob de ocurrencia con esta funcion 1/6

media_dado=np.mean(muestras_dado) #muestras_dado.mean()
std_dado=np.std(muestras_dado,ddof=1) #muestras_dado.std(ddof=1)

print(media_dado)
print(std_dado)

#se estabiliza apartir de casi 1e6 muestras:
#apartir de las 1000 veces tengo una media 3.5.... y std 1.7....
#apartir de las 1e6 veces tengo una media de 3.500..  y std 1.707....


3.500502
1.7073800582010625


**Ejercicio 2:** Simular un dado cargado para favorecer un valor de su elección. Por ejemplo, el seis. Para ello, consultar la ayuda de la función `np.random.choice`. ¿Cómo se modifica el promedio y la desviación estándar?

In [30]:
import numpy as np
dado=[1,2,3,4,5,6] 
muestra_cargada= np.random.choice(dado, p=[0.1, 0.1, 0.1, 0.1,0.1,0.5], size = 1000) #replace=reposicion #p=[0.05, 0.05, 0.05, 0.05, 0.05, 0.75] se espera ue e 75 porciento salga 6
#la media depende de cuanto cargo los datos
media_dado=muestra_cargada.mean()
std_dado=muestra_cargada.std(ddof=1)

print(media_dado)
print(std_dado)

#el promedio se corre a valores mayores, dado que la frecuencia con que aparecen el 6 sera mas alta. es decir que
#hay mayor cantidad de datos hacia los valores mayores, por estar cargado.
#el desvio estandar aumenta indicando que la dispersion de datos alrededor de la media aumenta



4.551
1.8129218641975957


## 2. Pandas 

Pandas es la librería más conocida de Python para manipular y analizar datos. Está montada sobre NumPy, por lo cual muchas funcionalidades son similares. Utilizaremos Pandas para trabajar con datasets estructurados (y bueno, ¡bastante más!). 

Así como NumPy nos proveé de los *arreglos* y con ellos accedemos a muchas nuevas funcionalidades, Pandas nos provee de los *Data Frames* y las *Series*. Por lejos, el objeto más utilizados es el primero, los Data Frames. 


En esta sección empezaremos a:

1. Familiarizarnos con los Data Frames de Pandas, manipular sus funciones básicas y entender la lógica de las mismas (¡para después googlearlas!).
2. Empezar a trabajar con Datasets.

**¡Manos a la obra!**

### 2.1 Primeros pasos
### https://pythonexamples.org/pandas-create-initialize-dataframe/
Importamos la librería.

In [31]:
import pandas as pd


Vamos a crear nuestro propio dataset. Es decir, agarrar a mano los datos poblacionales de http://www.ign.gob.ar/nuestrasactividades/geografia/datosargentina/divisionpolitica y guardarlos en una variable `data_dic`.
    datos.argentina.gob.ar
    datos.co
    datos.ch
    
    *¿Qué tipo de variable es, desde el punto de vista de la programación? Un diccionario

**Nota**: la población está en número de habitantes y la superficie en km2.

In [33]:
data_dic = {"Jurisdiccion":["CABA","Buenos Aires","Catamarca","Chaco","Chubut","Córdoba","Jujuy","Mendoza","Misiones","Río Negro","Santa Cruz",
                           "Santa Fe"],"Poblacion":[2890151,15625084,367828,1055259,509108,3308876,673307,1738929,
                                                   1101593,638645,273964,3194537],"Superficie":
           [200,307521,102606,99633,509108,165321,53219,148827,29801,203013,243943,133007]}

Así como podemos crear arreglos a partir de listas, podemos crear Data Frames a partir de diccionarios.

In [34]:
# Creamos el DataFrame
data_pandas = pd.DataFrame(data_dic) #genera una tabla en funcion del diccionario
data_pandas

Unnamed: 0,Jurisdiccion,Poblacion,Superficie
0,CABA,2890151,200
1,Buenos Aires,15625084,307521
2,Catamarca,367828,102606
3,Chaco,1055259,99633
4,Chubut,509108,509108
5,Córdoba,3308876,165321
6,Jujuy,673307,53219
7,Mendoza,1738929,148827
8,Misiones,1101593,29801
9,Río Negro,638645,203013


**Ejercicio 1:** investigar las funciones que se implementan en la próxima celda. ¿Qué hacen? ¿Para qué piensan que pueden ser útiles?

In [6]:
data_pandas.head() #devuelve las primeras n filas. por default 5 
data_pandas.tail()  #devuelve las ultimas n filas. por default 5
data_pandas.count() #cuenta valores, por default por columna, que no sean NAN/None/NaT/Nainfo nos da idea de datoscompletos e incompletos
data_pandas.shape #muestra la dimension de filas y columnas del Dataframe

(12, 3)

**Ejercicio 2:** agregar al Dataset la información correspondiente a alguna jurisdicción faltante. Recuerden que, al tratarse de una nueva instancia, corresponde a una fila. Pista: googlear "add row to pandas dataframe" o similar. No hay una única forma de hacerlo.

In [7]:
import pandas as pd
data_dic = {"Jurisdiccion":["CABA","Buenos Aires","Catamarca","Chaco","Chubut","Córdoba","Jujuy","Mendoza","Misiones","Río Negro","Santa Cruz",
                           "Santa Fe"],"Poblacion":[2890151,15625084,367828,1055259,509108,3308876,673307,1738929,
                                                   1101593,638645,273964,3194537],"Superficie":
           [200,307521,102606,99633,509108,165321,53219,148827,29801,203013,243943,133007]}

# Creamos el DataFrame
data_pandas = pd.DataFrame(data_dic) #genera una tabla en funcion del diccionario
print('Original DataFrame\n------------------')
print(data_pandas)


#mydataframe = mydataframe.append(new_row, ignore_index=True)
new_data_row = {'Jurisdiccion':'La Pampa', 'Poblacion':318.951, 'Superficie':143.440}
#append row to the dataframe
data_pandas = data_pandas.append(new_data_row, ignore_index=True)

print('\n\nNew row added to DataFrame\n--------------------------')
print(data_pandas)

Original DataFrame
------------------
    Jurisdiccion  Poblacion  Superficie
0           CABA    2890151         200
1   Buenos Aires   15625084      307521
2      Catamarca     367828      102606
3          Chaco    1055259       99633
4         Chubut     509108      509108
5        Córdoba    3308876      165321
6          Jujuy     673307       53219
7        Mendoza    1738929      148827
8       Misiones    1101593       29801
9      Río Negro     638645      203013
10    Santa Cruz     273964      243943
11      Santa Fe    3194537      133007


New row added to DataFrame
--------------------------
    Jurisdiccion     Poblacion  Superficie
0           CABA  2.890151e+06      200.00
1   Buenos Aires  1.562508e+07   307521.00
2      Catamarca  3.678280e+05   102606.00
3          Chaco  1.055259e+06    99633.00
4         Chubut  5.091080e+05   509108.00
5        Córdoba  3.308876e+06   165321.00
6          Jujuy  6.733070e+05    53219.00
7        Mendoza  1.738929e+06   148827.00

**Ejercicio 3:** Investigar las funciones columns e index. ¿Qué hacen? ¿Qué tipo de dato es su salida?¿A qué tipo de dato conocido se parecen?

In [37]:
data_pandas.columns #muestra el metadato (key) o informacion sobre de que trata cada columna. Son objetos, es una lista
#data_pandas.index # muestra el largo de las columnas, indica la cantidad de filas

Index(['Jurisdiccion', 'Poblacion', 'Superficie'], dtype='object')

**Ejercicio 4:** ¿Qué hacen las siguientes operaciones?

In [41]:
#select column using dot operator     a = myDataframe.column_name
#select column using square brackets  a = myDataframe[coulumn_name]
data_pandas['Jurisdiccion']  # selecciona la columna jurisdiccion
data_pandas.Jurisdiccion

#select column using square brackets  a = myDataframe[coulumn_name]
#data_pandas[['Jurisdiccion','Poblacion']] #selecciona dos columnas tiene que estar en una lista para mas objetos


#'Poblacion' in data_pandas #consulta al dataframe si existe una columna con dicho nombre. devuelve true
#'densidad' in data_pandas   consulta al dataframe si existe una columna con dicho nombre. devuelve false

0             CABA
1     Buenos Aires
2        Catamarca
3            Chaco
4           Chubut
5          Córdoba
6            Jujuy
7          Mendoza
8         Misiones
9        Río Negro
10      Santa Cruz
11        Santa Fe
Name: Jurisdiccion, dtype: object

**Ejercicio 5:** Agregar una columna al dataframe que corresponda a la densidad de cada jurisdicción. Usar la información que **ya está** en el dataset.data_pandas
### https://pythonexamples.org/pandas-append-dataframe/

In [42]:
import pandas as pd
data_dic = {"Jurisdiccion":["CABA","Buenos Aires","Catamarca","Chaco","Chubut","Córdoba","Jujuy","Mendoza","Misiones","Río Negro","Santa Cruz",
                           "Santa Fe"],"Poblacion":[2890151,15625084,367828,1055259,509108,3308876,673307,1738929,
                                                   1101593,638645,273964,3194537],"Superficie":
           [200,307521,102606,99633,509108,165321,53219,148827,29801,203013,243943,133007]}

# Creamos el DataFrame
data_pandas = pd.DataFrame(data_dic) #genera una tabla en funcion del diccionario

#mydataframe = mydataframe.append(new_row, ignore_index=True)
new_data_row = {'Jurisdiccion':'La Pampa', 'Poblacion':318.951, 'Superficie':143.440}
#append row to the dataframe
data_pandas = data_pandas.append(new_data_row, ignore_index=True)

print('Original DataFrame\n------------------')
print(data_pandas)


#forma rapida, concatena al final
# Declare a list that is to be converted into a column 
densidad =  [14450.8,50.8,3.6,10.6,2.3,20.,12.7,11.7,37.0,3.1,1.1,24.0,2.2 ]
# Using 'Address' as the column name 
# and equating it to the list 
data_pandas['Densidad'] = densidad 
print('New DataFrame\n------------------')
print(data_pandas)

#data_pandas['Densidad'] = data_pandas['Poblacion'] / data_pandas['Superficie'] data_pandas


#otra forma donde podes poner en la columna deseada
# Using DataFrame.insert() to add a column 
data_pandas.insert(1, "Densidad", [14450.8,50.8,3.6,10.6,2.3,20.,12.7,11.7,37.0,3.1,1.1,24.0,2.2 ], True)
print('New DataFrame\n------------------')
print(data_pandas)

Original DataFrame
------------------
    Jurisdiccion     Poblacion  Superficie
0           CABA  2.890151e+06      200.00
1   Buenos Aires  1.562508e+07   307521.00
2      Catamarca  3.678280e+05   102606.00
3          Chaco  1.055259e+06    99633.00
4         Chubut  5.091080e+05   509108.00
5        Córdoba  3.308876e+06   165321.00
6          Jujuy  6.733070e+05    53219.00
7        Mendoza  1.738929e+06   148827.00
8       Misiones  1.101593e+06    29801.00
9      Río Negro  6.386450e+05   203013.00
10    Santa Cruz  2.739640e+05   243943.00
11      Santa Fe  3.194537e+06   133007.00
12      La Pampa  3.189510e+02      143.44
New DataFrame
------------------
    Jurisdiccion     Poblacion  Superficie  Densidad
0           CABA  2.890151e+06      200.00   14450.8
1   Buenos Aires  1.562508e+07   307521.00      50.8
2      Catamarca  3.678280e+05   102606.00       3.6
3          Chaco  1.055259e+06    99633.00      10.6
4         Chubut  5.091080e+05   509108.00       2.3
5        

### 2.2 Filtrado por máscara.

Lo que veremos a continuación es **muy importante**, ya que es una operación que haremos muchas veces. Su implementación es muy parecida tanto en NumPy como en Pandas, por lo que veremos cómo hacerlo primero en NumPy luego en Pandas.

Supongamos que hacemos 50 tiradas de un dado, como hicimos en la sección anterior, pero queremos seleccionar solamente aquellas tiradas que fueron menores que cuatro. ¿Cómo podemos hacerlo?

In [13]:
import numpy as np
muestras_dado = np.random.randint(1,7, size = 50)
print(muestras_dado)

[5 2 4 4 2 3 2 1 4 1 1 4 5 2 1 4 3 1 4 3 2 3 2 5 3 2 1 3 4 2 6 3 3 3 1 1 2
 4 2 3 6 2 5 6 3 4 4 6 2 3]


Lo que podemos hacer es crear una máscara:

In [14]:
mascara = muestras_dado < 4
print(mascara)
print(type(mascara))

[False  True False False  True  True  True  True False  True  True False
 False  True  True False  True  True False  True  True  True  True False
  True  True  True  True False  True False  True  True  True  True  True
  True False  True  True False  True False False  True False False False
  True  True]
<class 'numpy.ndarray'>


Notar que `mascara` es un arreglo de booleanos, con `True` en los valores que cumplen la condición y `False` donde no. Una vez que creamos la máscara, podemos usarla para seleccionar de nuestro arreglo aquellos elementos que queríamos:

In [15]:
print(muestras_dado[mascara]) # me selecciona del vector anterior aquellos valores que son true

[2 2 3 2 1 1 1 2 1 3 1 3 2 3 2 3 2 1 3 2 3 3 3 1 1 2 2 3 2 3 2 3]


Notar que con `mascara.sum()` podemos contar cuántas veces se cumple la condición que pedimos. Los que son true

In [16]:
print(mascara.sum()) 

32


A veces, podemos hacerlo en una sola línea. Supongamos que queremos aquellas tiradas donde salió seis:
me devolvera un array donde se cumple la condicion

In [17]:
print(muestras_dado[muestras_dado == 6])

[6 6 6 6]


**En Pandas**

Supongamos que queremos seleccionar aquellas jurisdicciones cuya población sea mayor a un millón de habitantes. Podemos hacerlo de la siguiente forma:

In [18]:
data_pandas[data_pandas.Poblacion > 1000000] #selecciona las filas donde se cumple la condicion

Unnamed: 0,Jurisdiccion,Poblacion,Superficie,Densidad,Densidad.1
0,CABA,2890151.0,200.0,14450.8,14450.8
1,Buenos Aires,15625084.0,307521.0,50.8,50.8
3,Chaco,1055259.0,99633.0,10.6,10.6
5,Córdoba,3308876.0,165321.0,20.0,20.0
7,Mendoza,1738929.0,148827.0,11.7,11.7
8,Misiones,1101593.0,29801.0,37.0,37.0
11,Santa Fe,3194537.0,133007.0,24.0,24.0


¿Y si queremos seleccionar aquellas jurisdicciones cuya población sea mayor a un millón de habitantes **y** su superficie menor a cien mil km2?

In [19]:
mascara = np.logical_and(data_pandas.Poblacion > 1000000, data_pandas.Superficie < 100000) #funciona con operaciones logicas and or...
data_pandas[mascara]
print(data_pandas[mascara])

### Es equivalente
data_pandas[(data_pandas.Poblacion > 1000000) & (data_pandas.Superficie < 100000)]
print(data_pandas[(data_pandas.Poblacion > 1000000) & (data_pandas.Superficie < 100000)])

  Jurisdiccion  Poblacion  Superficie  Densidad  Densidad
0         CABA  2890151.0       200.0   14450.8   14450.8
3        Chaco  1055259.0     99633.0      10.6      10.6
8     Misiones  1101593.0     29801.0      37.0      37.0
  Jurisdiccion  Poblacion  Superficie  Densidad  Densidad
0         CABA  2890151.0       200.0   14450.8   14450.8
3        Chaco  1055259.0     99633.0      10.6      10.6
8     Misiones  1101593.0     29801.0      37.0      37.0


**Ejercicio:** seleccionar aquellas jurisdicciones cuya población sea menor a 500 mil habitantes **o** su superficie mayor a cien mil km2.

In [20]:
import pandas as pd
data_dic = {"Jurisdiccion":["CABA","Buenos Aires","Catamarca","Chaco","Chubut","Córdoba","Jujuy","Mendoza","Misiones","Río Negro","Santa Cruz",
                           "Santa Fe"],"Poblacion":[2890151,15625084,367828,1055259,509108,3308876,673307,1738929,
                                                   1101593,638645,273964,3194537],"Superficie":
           [200,307521,102606,99633,509108,165321,53219,148827,29801,203013,243943,133007]}

# Creamos el DataFrame
data_pandas = pd.DataFrame(data_dic) #genera una tabla en funcion del diccionario

#mydataframe = mydataframe.append(new_row, ignore_index=True)
new_data_row = {'Jurisdiccion':'La Pampa', 'Poblacion':318.951, 'Superficie':143.440}
#append row to the dataframe
data_pandas = data_pandas.append(new_data_row, ignore_index=True)


#forma rapida, concatena al final
# Declare a list that is to be converted into a column 
densidad =  [14450.8,50.8,3.6,10.6,2.3,20.,12.7,11.7,37.0,3.1,1.1,24.0,2.2 ]
# Using 'Address' as the column name 
# and equating it to the list 
data_pandas['Densidad'] = densidad 



mascara = np.logical_or(data_pandas.Poblacion < 500000, data_pandas.Superficie > 100000) #funciona con operaciones logicas and or...
#data_pandas[data_pandas.Poblacion < 500000 | data_pandas.Superficie > 100000]
data_pandas[mascara]
print(data_pandas[mascara])

    Jurisdiccion     Poblacion  Superficie  Densidad
1   Buenos Aires  1.562508e+07   307521.00      50.8
2      Catamarca  3.678280e+05   102606.00       3.6
4         Chubut  5.091080e+05   509108.00       2.3
5        Córdoba  3.308876e+06   165321.00      20.0
7        Mendoza  1.738929e+06   148827.00      11.7
9      Río Negro  6.386450e+05   203013.00       3.1
10    Santa Cruz  2.739640e+05   243943.00       1.1
11      Santa Fe  3.194537e+06   133007.00      24.0
12      La Pampa  3.189510e+02      143.44       2.2


## 2.3 Iris dataset

¿Pero siempre vamos a tener que crear un diccionario y luego pasarlo a un Data Frame? Evidentemente, esta opción no parece muy cómoda, en particular para conjuntos de datos de gran volumen. Veamos cómo trabajamos con un conjunto de datos preexistente.


**Aviso**: Esta sección es, en realidad, un ejercicio. Para hacerlo, debes ir googleando y consultando la documentación que consideres apropiada. Obviamente, también puedes consultar a tu mentor/a.

Vamos a trabajar con el Iris Dataset, probablemente uno de los conjuntos de datos más famosos, ya que muchos ejemplos se realizan con él. Es un dataset sencillo pero ilustrativo.


1. Abrir con Pandas el archivo 'DS_Bitácora_04_iris.csv' (¿Qué tipo de archivo es?) e imprimir sus primeros cinco elementos. Pista: `pd.read...()`.

In [23]:
import pandas as pd
#https://pandas.pydata.org/pandas-docs/stable/index.html
#el CSV es un dataset estructurado (comma separated value) 

Iris=pd.read_csv('/home/martin/Desktop/Curso_DS_Acamica/Bloque_1/DS_Bitácora_04_Iris.csv', index_col=0)
#selecciono la columna ID como mi indice  con  index_col=0
#https://medium.com/dunder-data/selecting-subsets-of-data-in-pandas-6fcd0170be9c

#print(Iris)

print(Iris)
#print(Iris.head())


     SepalLengthCm  SepalWidthCm  PetalLengthCm  PetalWidthCm         Species
Id                                                                           
1              5.1           3.5            1.4           0.2     Iris-setosa
2              4.9           3.0            1.4           0.2     Iris-setosa
3              4.7           3.2            1.3           0.2     Iris-setosa
4              4.6           3.1            1.5           0.2     Iris-setosa
5              5.0           3.6            1.4           0.2     Iris-setosa
..             ...           ...            ...           ...             ...
146            6.7           3.0            5.2           2.3  Iris-virginica
147            6.3           2.5            5.0           1.9  Iris-virginica
148            6.5           3.0            5.2           2.0  Iris-virginica
149            6.2           3.4            5.4           2.3  Iris-virginica
150            5.9           3.0            5.1           1.8  I

2. ¿Cuántas columnas (features) tiene?¿Cuáles son sus nombres?¿Y cuántas filas (instancias)? Pistas: `shape`, `columns`.

In [22]:
#numero de columnas
print(Iris.columns)

print('contiene 5 columnas') 
print('los nombres de las columnas son ID como indice, SepalLengthCm, SepalWidthCm, PetalLengthCm, PetalWidthCm, Species')
#Iris.count(1) #cuenta valores, por default por fila, que no sean NAN/None/NaT/Nainfo. da el numero de columnas por cada fila
print('contiene 150 filas') 
#Iris.count(0)
Iris.shape  #indica que tiene 150 filas y 5 columnas

Index(['SepalLengthCm', 'SepalWidthCm', 'PetalLengthCm', 'PetalWidthCm',
       'Species'],
      dtype='object')
contiene 5 columnas
los nombres de las columnas son ID como indice, SepalLengthCm, SepalWidthCm, PetalLengthCm, PetalWidthCm, Species
contiene 150 filas


(150, 5)

3. Obtener el valor medio y desviación estándar de cada columna. ¿Hay alguna función de Pandas que nos dé aún más estadísticos? Pistas: `describe`.

In [24]:
#Obtener el valor medio y desviación estándar de cada columna.
Mean=Iris.mean() #calculo la media del dataset por columnas que tengan valores numericos
print('valor medio')
print(Mean)
print('desvio estandar')
Std=Iris.std()
print(Std)
print()
#https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.describe.html?highlight=describe#pandas.DataFrame.describe
#genera la estadistica descriptiva en numeros y caracteres
Iris.describe(include='all') 

valor medio
SepalLengthCm    5.843333
SepalWidthCm     3.054000
PetalLengthCm    3.758667
PetalWidthCm     1.198667
dtype: float64
desvio estandar
SepalLengthCm    0.828066
SepalWidthCm     0.433594
PetalLengthCm    1.764420
PetalWidthCm     0.763161
dtype: float64



Unnamed: 0,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
count,150.0,150.0,150.0,150.0,150
unique,,,,,3
top,,,,,Iris-versicolor
freq,,,,,50
mean,5.843333,3.054,3.758667,1.198667,
std,0.828066,0.433594,1.76442,0.763161,
min,4.3,2.0,1.0,0.1,
25%,5.1,2.8,1.6,0.3,
50%,5.8,3.0,4.35,1.3,
75%,6.4,3.3,5.1,1.8,


4. ¿Creen que todas las columnas tienen información? *Tirar* la columna que crean que está demás. Dependiendo de la función que uses - hay más de una opción -, tal vez tengas que prestar **mucha** atención al argumento `inplace`. Pista: `drop`, `del`.

## https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.drop.html?highlight=drop#pandas.DataFrame.drop
## https://www.geeksforgeeks.org/python-delete-rows-columns-from-dataframe-using-pandas-drop/
## https://note.nkmk.me/en/python-pandas-drop/

In [25]:
import pandas as pd

Iris_corte=pd.read_csv('/home/martin/Desktop/Curso_DS_Acamica/Bloque_1/DS_Bitácora_04_Iris.csv')
print(Iris_corte)

#aqui la columna Id estaria de mas entonces quisiera borrarla

# dropping rows
Iris_corte.drop([1,2,3], inplace=True) #saque la fila 1,2,3 pero a mano. puedo hacer una lista que quiera y tengo que pegarla aqui.
print(Iris_corte)
print()

# dropping  columns 
Iris_corte.drop(["SepalLengthCm", "PetalLengthCm"], axis = 1, inplace = True)  #para eliminar columnas es importante poner el axis
print(Iris_corte) #implace reemplaza el dataframe original, si no tiene el implace o es false crea una copia del dataframe
print()



      Id  SepalLengthCm  SepalWidthCm  PetalLengthCm  PetalWidthCm  \
0      1            5.1           3.5            1.4           0.2   
1      2            4.9           3.0            1.4           0.2   
2      3            4.7           3.2            1.3           0.2   
3      4            4.6           3.1            1.5           0.2   
4      5            5.0           3.6            1.4           0.2   
..   ...            ...           ...            ...           ...   
145  146            6.7           3.0            5.2           2.3   
146  147            6.3           2.5            5.0           1.9   
147  148            6.5           3.0            5.2           2.0   
148  149            6.2           3.4            5.4           2.3   
149  150            5.9           3.0            5.1           1.8   

            Species  
0       Iris-setosa  
1       Iris-setosa  
2       Iris-setosa  
3       Iris-setosa  
4       Iris-setosa  
..              ...  
145  

5. ¿Para qué sirven `loc` e `iloc`? Crea algunos ejemplos.
https://www.shanelynn.ie/select-pandas-dataframe-rows-and-columns-using-iloc-loc-and-ix/
https://www.w3resource.com/pandas/dataframe/dataframe-loc.php
### puedo crear un subset de datos con estas funciones

`loc`
Accede a un grupo de filas y columnas por etiqueta(s) o una matriz booleana
Localiza elementos de mi tabla apartir de las etiquetas o nombres con las que se identifica.

`iloc`
Indexación basada puramente en la ubicación de números enteros para la selección por posición.
Permite ubicar elementos dentro del dataframe.

In [26]:
import pandas as pd

Iris=pd.read_csv('/home/martin/Desktop/Curso_DS_Acamica/Bloque_1/DS_Bitácora_04_Iris.csv', index_col=0)

print(Iris)
#data.loc[<row selection>, <column selection>] 
#se pone en funcion de las etiquetas de las columnas y las etiquetas de la fila
Iris.loc[3, 'PetalLengthCm']

#data.iloc[<row selection>, <column selection>] 
#se pone en funcion del numero de filas y columnas en base al indice entero
Iris.iloc[0] #me devuelve la priemra fila
Iris.iloc[0,1] #me devuelve el valor en la primera fila, segunda columna
Iris.iloc[0:10,2] # me devuelve las primeras 9 filas y la columna 3



     SepalLengthCm  SepalWidthCm  PetalLengthCm  PetalWidthCm         Species
Id                                                                           
1              5.1           3.5            1.4           0.2     Iris-setosa
2              4.9           3.0            1.4           0.2     Iris-setosa
3              4.7           3.2            1.3           0.2     Iris-setosa
4              4.6           3.1            1.5           0.2     Iris-setosa
5              5.0           3.6            1.4           0.2     Iris-setosa
..             ...           ...            ...           ...             ...
146            6.7           3.0            5.2           2.3  Iris-virginica
147            6.3           2.5            5.0           1.9  Iris-virginica
148            6.5           3.0            5.2           2.0  Iris-virginica
149            6.2           3.4            5.4           2.3  Iris-virginica
150            5.9           3.0            5.1           1.8  I

Id
1     1.4
2     1.4
3     1.3
4     1.5
5     1.4
6     1.7
7     1.4
8     1.5
9     1.4
10    1.5
Name: PetalLengthCm, dtype: float64