In [None]:
import numpy as np
import pandas as pd

# CONTENIDO

1. [Obteniendo y conociendo los datos](#obtiene_conoce_datos)
2. [Ordenar y filtrar](#ordenar_filtrar)
3. [Agrupamiento](#agrupamiento)
4. [Aplicación de funciones](#aplicacion_funciones)

[Referencias](#refe)

## Que es pandas?
Biblioteca de software libre de escrita a partir de NumPy para la manipulación y análisis de datos, especialmente usando tablas numéricas (**DataFrames**) y series temporales (**Series**). 

**Estructura básica**


![](./imgs/pandas-data-structure.png) 

<a id='obtiene_conoce_datos'></a>
# 1. Obteniendo y conociendo los datos

### Series temporales

In [None]:
ciudades = pd.Series(['BUCARAMANGA','MEDELLIN','BOGOTA','CALI'])
ciudades

In [None]:
poblacion = pd.Series([581130,2569000,7181000,2228000])
poblacion

### Creando DataFrames a mano

Creamos un diccionario con las **Series**

In [None]:
informacion = {'Nombre_ciudades': ciudades,
              'Poblacion': poblacion}
informacion

Ya con las series podemos crear el **DataFrame**.

In [None]:
df = pd.DataFrame(informacion)
df

![](./imgs/Ejercicio.png)
**EJERCICIO:** Crear un DataFrame cuyas columnas sean 'Nombre', 'Nacimiento', 'Municipio_de_residencia' (Intentar soluciones diferentes)

In [None]:
#`Solución:`

infromacion_curso = pd.DataFrame({ })


En el archivo `data/ejemplo.csv` ya se encontraban algunos datos de ejemplo. Se puede **Cargar el archivo** para visualizarlo

In [None]:
informacion = pd.read_csv('data/ejemplo.csv')
informacion

![Prueba](./imgs/Terminal.png) 

Existe una forma para crear un data Frame (o modificarlo) a traves de archivos .txt. En ellos, basta con escribir cada columna seguido de una coma y cada fila en un renglón independiente. **Hagamoslo con el ejemplo anterior** 

1. Modificar el .txt.
2. Guardarlo.
3. Cargarlo usando `pd.read_csv()

In [None]:
informacion = pd.read_csv('data/ejemplo.txt')
informacion

Podemos visualizar las columnas

In [None]:
informacion.columns

In [None]:
informacion['Nombre']

In [None]:
informacion.Nombre

In [None]:
informacion.Fecha_de_Nacimiento

Si el nombre de la columna tuviera espacios, no podriamos usar esta opción, solo se podría mediante corchetes.

![](./imgs/Ejercicio.png)
Comprobar.

In [None]:
#`Solución:`




In [None]:
informacion['Municipio de residencia']

## Archivos CSV
Entre otras características, Pandas permite la lectura y carga de archivos tipo .csv (formato para representar datos en forma de tabla). La diferencia con los .txt **siempre** los datos estan separados por comas, mientras que en los .txt pueden estar separados por otros caracteres o espacios.

![Prueba](../imgs/Terminal.png) 

1. Veamos el archivo `data/population_by_country_2020.csv` [Tomado de kaggle](https://www.kaggle.com/tanuprabhu/population-by-country-2020)
2. Carguemoslo como un dataframe 


In [None]:
p = pd.read_csv('data/population_by_country_2020.csv')
p

![](../imgs/Pregunta.png)
Al cargar a `p` ya es una instancia del objeto DataFrame?

In [None]:
#'Solución:'




Al crear `p` se creó una instancia de DataFrame. Hay muchos métodos para ella ([ver referencias Pandas](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html)) uno de ellos nos permite ver las primeras filas para conocer las columnas 

In [None]:
p.head()

Se pueden ver mas filas, por ejemplo:

In [None]:
p.head(15)

Veamos algunos otros métodos 

In [None]:
p.tail()

In [None]:
p.shape

In [None]:
p.columns

In [None]:
p.index

In [None]:
p.describe()

In [None]:
p.info()

Se trabaja ahora con un nuevo conjunto de datos sobre ocupación laboral

In [None]:
us = pd.read_csv('data/users.csv')
us.head()

![](imgs/Ejercicio.png)
1. Cuántos usuarios tiene el conjunto de datos?
2. Cuáles son la ocupaciones que se enceuntran en el dataset? 
3. Cuántas ocupaciones diferentes hay? 

In [None]:
#`Solución`. 





In [None]:
us.describe()

![](../imgs/Pregunta.png)
Que tipo de objeto es `us.age`?

In [None]:
#`Solución:`




Conozcamos algunos métodos útiles para este tipo de instancias

In [None]:
print(us.age.nunique())
print(us.occupation.nunique())
print(us.zip_code.nunique())

In [None]:
us.occupation.value_counts()

`head()` es una función que en este caso funciona para diferente tipo de clases

In [None]:
us.occupation.value_counts().head(5)

![](imgs/Ejercicio.png)Cuál es la edad que mas se repite?

In [None]:
#`Solución`




<a id='ordenar_filtrar'></a>
# 2. Ordenar y filtrar

Un método mas para pd.DataFrames es `us.values`

In [None]:
us.values

![](imgs/Pregunta.png) Antes de ejecutar, que cree que hará la siguiente celda de código?

In [None]:
m = us.values
mask1 = m[:,2]=='M'  
m = m[mask1]
mask2 = m[:,3]=='technician'
m = m[mask2]

In [None]:
#



Para filtrar datos, podemos usar lo siguiente. Acá se filtran los hombres mayores de 30 años de nuestra base de datos

In [None]:
#recordemos las columnas
us.columns

In [None]:
us_filtrado = us[ (us['age'] >=30) & (us['gender']=='M') ]
us_filtrado

In [None]:
us_filtrado = us[ (us.age >=30) & (us.gender =='M') ]
us_filtrado

![](imgs/Pregunta.png) Que tipo de objeto se obtiene al filtrar? cuántos usuarios cumplen con esta condición

In [None]:
#`Solución`



![](imgs/Ejercicio.png) 

1. Hay mas hombres o mujeres ejecutiv@s?
2. Cuál es la media de las edades de los educadores?

**No olvida parentesis en las asignaciones logicas**

In [None]:
#Usar parentesis!





Para ordenar los datos se puede usar `sort_values()`

In [None]:
#por defecto ascendente
ordenados= us.sort_values(by = 'age')
display(ordenados)

ordenados_des = us.sort_values(by = 'age', ascending=False)
display(ordenados_des)


# type(ordenados)

 <a id='agrupamiento'></a>
# 3. Agrupamiento



Suponga que se quiere saber la media de las edades por cada una de las ocupaciones. Con lo visto hasta el momento, tocaría filtrar profesión por profesión y clacular la media. Para evitar eso podemos usar agrupamientos

In [None]:
us.groupby('occupation').age.mean()

In [None]:
us.groupby('occupation').age.describe()

En este caso no tiene mucho sentido, pero si se quisiera, se puede comparar contra todos los otros atributos 

In [None]:
us.groupby('occupation').describe()

Si solo queremos ciertos datos

In [None]:
us.groupby('occupation').agg(['mean','std'])

In [None]:
us.groupby('occupation').age.agg(['mean','std'])

![](imgs/Ejercicio.png)

Agrupar por género para ver las medidas (medias, std, min, max, etc..) con respecto a las otras columnas


In [None]:
#`Solución:`






<a id='aplicacion_funciones'></a>
# Aplicación de funciones

Basados en la columna de las edades, se quiere crear una nueva columna que indique el ciclo de vida en el que se encuentra cada usuario. Para esto se usan las funciones applicadas a datos conocidas como `apply`. Para esto

1. Defina la función a aplicar. 
2. Apliquela a una nueva columna con `.apply` (se puede aplicar a la misma columna si lo que se quiere es cambiar el formato o valor de los datos de la columna)

En nuestro caso, la función es

In [None]:
def rango_etareo(x):
    if x<5:
        etapa='PRIMERA_INFANCIA'
    elif 5<x<11:
        etapa = 'INFANCIA'
    elif 11<x<16:
        etapa= 'ADOLESCENCIA'
    elif 16<x<26:
        etapa = 'JUVENTUD'
    elif 26<x<59:
        etapa = 'ADULTEZ'
    else:
        etapa = 'VEJEZ'
        
    return etapa        

Apliquemosla

In [None]:
us['Etapa_Vital'] = us.age.apply(rango_etareo)

In [None]:
us.head(10)

In [None]:
us['Decada'] = us.age.apply(lambda x: np.round(x,-1))
us.head()

![](imgs/Challenge.png)

**EJERCICIO FINAL:**

En el siguiente enlace se presenta un dataset de diagnóstico de diabetes:

[https://www.kaggle.com/mathchi/diabetes-data-set](https://www.kaggle.com/mathchi/diabetes-data-set).

El dataset ya se encuentra descargado en la ruta `/data/diabetes.csv`

Un médico requiere la sigueinte información:

1. *la media y la desviación estandar de la glucosa de los pacientes que fueron diagnosticasdos con diabétes y de los que fueron diagnosticados como no-diabéticos*

2. *Posteriormente, quiere dividir a la población en grupos por rangos de edades de 10 años, es decir, de 0-10, de 10-20, etc. Y para cada uno de estos rupos, calcular la media y la desviación estandar de la glucosa*


<a id='refe'></a>

## Referencias

[1] Que es Pandas?: https://es.wikipedia.org/wiki/Pandas_(software) 

[2] Bivl2ab pandas tutorial: https://gitlab.com/bivl2ab/academico/cursos-uis/ai/ai-uis-student/-/blob/master/notebooks/03_std_Notes_Pandas_Introduction.ipynb

[3] Datasets publicos: https://www.kaggle.com/

[4] Métodos pandas.DataFrame: https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html

[5] Github Pandas Tutorial: https://github.com/guipsamora/pandas_exercises
<!-- [2] official panda doc sites:http://pandas.pydata.org/pandas-docs/stable/index.html

[2] Description of a dataset: https://www.kaggle.com/camnugent/california-housing-prices -->