![DataPoolPa](https://i.ytimg.com/vi/Lrkx9Xb2qZE/hqdefault_live.jpg)

# Python y la Ciencia de Datos

![Crecimiento de Python](https://blog.modeanalytics.com/images/post-images/stack-overflow-growth.png)



#### Usos de Python

[Python.org](https://www.python.org/about/apps/)

[Talk Python to Me](https://talkpython.fm/episodes/all)

[Podcast.______init____](https://www.podcastinit.com/)

## Jerarquía de las librerías
![Canopy](https://www.enthought.com/wp-content/uploads/Canopy-Packages-min-1.png)

Charla sobre el mundo de las [Visualizaciones en Python](https://www.youtube.com/watch?v=FytuB8nFHPQ)

# Uso de un Notebook en la nube ( [Jupyter](https://jupyter.org/try)/[Colab](https://colab.research.google.com/)/[CoCalc](https://cocalc.com/)/[Kaggle](https://www.kaggle.com/) )
Un notebook es un ambiente en el que uno puede ir desarrollando/ejecutando código de manera secuencial. 

El notebook esta dividido en bloques o celdas que pueden ser tanto de código como de **texto** *formateado* ( [Markdown](https://guides.github.com/features/mastering-markdown/) ). 

En los bloques de texto se pueden agregar imágenes, tablas, enlaces,  código de demostración entre otras cosas.


**Para ejecutar una celda hay que apretar ** ```Ctrl + Enter ``` **Y para ejecutar y pasar a la siguiente celda**  ```Shift + Enter ```

**Comentarios dentro del código** Las líneas que empicen con ```#``` son comentarios y es código que no se ejecuta. Para auto comentar una o varias lineas ```Ctrl  + / ``` 

**Tiene habilitada la opción de auto-completar**  ```Tab```

**Sugerencias e información de los argumentos de una función (docstrings).** Dentro de los paréntesis de una función apretar   ```Shift + Tab + Tab```

In [None]:
# import this
import os
print(os.listdir("../input"))

# Primeros pasos con Pandas

Pandas es una librería para análisis de datos que se encuentran estructurados ya sea en forma de una serie o una tabla.

[](Para una intro a Python, Numpy y Matplotlib que son librerias de más bajo nivel ver el kernel *aún no desarrollado :P*)

Página oficial: https://pandas.pydata.org 

[Documentación](https://pandas.pydata.org/pandas-docs/stable/)

Temáticas a investigar en un futuro:

* Análisis Exploratorio de los Datos (EDA) [KDnuggets](https://www.kdnuggets.com/2017/04/value-exploratory-data-analysis.html)

* Visualización Explicativa de los Datos (EDV) [The Pudding](https://pudding.cool/)



### Tipos herramientas de pandas

* Qué es una serie (lista, evolucion temporal)
* Qué es un índice (lista que estiqueta cada punto)
* Qué es un DataFrame (tabla donde las columnas son Series)

### ¿Qué podemos hacer facilmente ?

* Cargar los datos
* Limpieza de los datos: dropna, str()
* Aplicar functiones para transformar los datos: apply, applymap

* Sacar indicadores de los datos. promedio, minimo, maximo, media 
* Hacer agregaciones de los datos: groupby
* Hacer consultas ( query ) sobre los datos
* Unión de distintas fuentes: join, merge

### ¿Cómo graficamos?

* lineas, barras/histogramas, heatmaps ....
* otras librerias de mayor nivel: Bokeh, Seaborn, Plotly


In [None]:
import pandas as pd

Importamos el set de datos 
[](   datos = pd.read_csv('../input/historico-nombres.csv',nrows=500)  

In [None]:
datos = pd.read_csv('../input/historico-nombres.csv')

¿ Cómo puedo ver el tamaño/ dimensiones de mis datos?

In [None]:
datos.shape

Si tengo demasiados datos, me combiene tomar una muestra más pequeña para empezar a explorar. ( Ahorro **memoria** y tiempo de procesamiento ) 

[]( En vez de cargar completamente la tabla completa puedo cargar un número fijo de registros pasándole el parámetro nrows=100 )

In [None]:
# tomamos una muestra más pequeña para avazar rápido
# datos.head()
# datos[1:5:2] 
muestra = datos.sample(10)

¿Cómo veo los valores de una variable o un resultado?  
[](  pd.options.display.max_rows = 10 #Para setear el máximo número de columnas a mostrar)

In [None]:
print(len(muestra))
print(muestra.shape)
# muesta vs print(muestra)

¿ Cómo puedo hacer para ver información sobre un DataFrame? Es decir, su metadata. 

In [None]:
muestra.info()

#### Nota sobre python

Es un *Lenguaje orientado a objetos*, en partícular en python todo es un **objeto**.

Los variables y funciones tienen:

**propiedades** o atributos (adjetivos):  ``df.shape`` , que se llaman ( *call* ) o invocan sin paréntesis.

**metodos** (verbos): ``df.mean()``,  que se invocan con paréntesis.

In [None]:
# dir(muestra) 

### Tipos de estructuras que tiene pandas

**Index** : lista ordenable, que puede tener repetidos y sirve para identificar los registros. 

**Serie** : una columna de un único tipo de dato.

**DataFrame**: conjunto de columnas ( similar a una tabla de Excel )

In [None]:
# seteamos el anio como indice de los registros
# muestra, muestra['nombre'] , muestra[['nombre','cantidad']],muestra.index
# muestra.set_index('anio')

In [None]:
# verificamos la muestra
muestra

In [None]:
# ¿Qué pasó? no se guardo el cambio
muestra = muestra.set_index('anio')
# muestra = muestra.set_index('anio',inplace=True)
muestra

¿ Cómo elegimos un conjunto de registros ?

A partir del Indice

In [None]:
# muestra.loc[2010] # usando las etiquetas

In [None]:
muestra.iloc[3] # usando la posición

# Amasado de Datos ( *Data Wrangling* / *Data Munging* ) + EDA

### Tareas a realizar
- Generar una columna con las iniciales de los nombres
- Generar una columna con el número de nombres de cada persona
- Generar una columna con la longitud del nombre

- ¿Cuál es la persona/s con nombre más largo/corto?
- ¿Cuál es el nombre que más veces aparece?
- ¿Cuál es la combinación de nombres más frecuente?


#### Trabajo con **cadenas** ( *strings* ) 

In [None]:
muestra['nombre']

In [None]:
# strip, split, replace, lower 
nombres = ( muestra['nombre'].str.strip()
                             .str.split(' ',expand=True) )
nombres

**Datos faltantes / nulos ** ( *Missing data* )

``s.fillna, s.dropna``

In [None]:
s1,s2,s3 = nombres[0], nombres[1].dropna(), nombres[2].dropna()
pd.concat([s1,s2,s3])
# nombres.melt()

In [None]:
# Indexación lógica
nombres = nombres[nombres.apply(len) > 0]
len(nombres)

#### Agregación de los datos

``groupby, agg, min, max, count``

In [None]:
s = nombres
# s.groupby(s).count()

¿Cómo lo vemos en un gráfico?

In [None]:
s.groupby(level=0).count().plot(kind='bar') #ojo con el índice, tiene que ser el año
s.groupby(s).count().plot(kind='barh')

# Cargamos una porción más grande de los datos

In [None]:
datos = pd.read_csv('../input/historico-nombres.csv')

In [None]:
# ¿Cómo encontramos la persona con más nombres ?
#datos['nombre'].str.strip().str.split(' ').apply(len).sort_values(ascending=False)
datos['nombre'].str.strip().dropna().str.split(' ').apply(len).sort_values(ascending=False)

In [None]:
# Vemos que está pasando con los que tienen demasiados nombres
# erroneos = 
datos.iloc[[8186346,1182489,3783178,232176,2047569,1896082,7869591,7076041,5585598,6877973]]['nombre'] #.values

In [None]:
erroneos.str.replace('\s+',' ')
# datos['nombre'].str.replace('\s+',' ').str.strip().dropna().str.split(' ').apply(len).sort_values(ascending=False)

In [None]:
datos.iloc[[34184,
1730337,
889444,
1386199,
3869074,
677216]]['nombre'].values

In [None]:
cantidad_de_nombres = datos['nombre'].str.replace('\s+',' ').str.strip().dropna().str.split(' ').apply(len)
cantidad_de_nombres

In [None]:
df = datos.loc[cantidad_de_nombres[cantidad_de_nombres < 3].sample(1000).index]

In [None]:
df = df['nombre'].str.replace(r'\s+',' ').str.strip()
df

In [None]:
dos_nombres = df.str.split(' ',expand=True).rename(columns={0:'primer',1:'segundo'}).dropna()

In [None]:
dos_nombres.groupby(by='primer').count().sort_values(by='segundo',ascending=False)

# Seaborn para hacer los gráficos
![Seaborn](http://www.ifish.net/gallery/data/500/pandaboat.jpg)

[Documentación](https://seaborn.pydata.org/api.html)

``swarmplot , barplot, countplot, pointplot, factorplot, heatmap``

In [None]:
%matplotlib inline
import seaborn as sns
sns.set()

In [None]:
# datos.shape
datos = datos.sample(2000)

In [None]:
datos['nombre'] = datos['nombre'].str.strip().str.replace('\s+',' ').str.lower()
assert datos['nombre'].is_unique
# datos
# datos[datos['nombre'].duplicated()]

In [None]:
es_maria = datos['nombre'].str.contains('maria')#.sum()
datos[es_maria]

In [None]:
datos['long_nombre']=datos['nombre'].str.replace(' ','').apply(len)
# datos.head()

In [None]:
# sns.distplot(datos['long_nombre'],kde=False)
sns.countplot(datos['long_nombre'],color='Black')

In [None]:
cant_vs_long = datos[['cantidad','long_nombre']].groupby('long_nombre',as_index=False).sum()
sns.barplot(x='long_nombre',y='cantidad',data=cant_vs_long,color='Black')

In [None]:
# primer_nombre = 
datos['nombre'].str.split(' ',expand=True).drop(columns=[1,2,3,4]).dropna().rename(columns={0:'nombre'})

In [None]:
primer_nombre = primer_nombre.merge(datos[['cantidad']],right_index=True,left_index=True)
primer_nombre

In [None]:
# primer_nombre = 
primer_nombre.groupby('nombre',as_index=False).sum()

In [None]:
primer_nombre['inicial'] = primer_nombre['nombre'].str.slice(0,1)

In [None]:
# cant_iniciales =
primer_nombre[['inicial','cantidad']].groupby('inicial',as_index=False).sum()

In [None]:
sns.barplot(x='inicial',y='cantidad',data=cant_iniciales,color='black')

In [None]:
nombres = datos['nombre'].str.strip().str.split(' ',expand=True).drop(columns=[2,3,4]).dropna().rename(columns={0:'primer',1:'segundo'})

In [None]:
iniciales = nombres.applymap(lambda x: x[0])
iniciales['dummy'] = 1
iniciales = iniciales.groupby(by=['primer','segundo'],as_index=False).sum()
# iniciales

In [None]:
sns.heatmap(pd.crosstab(index=iniciales['primer'],columns=iniciales['segundo'],values=iniciales['dummy'],aggfunc=sum))

#### Librerías a tener en cuenta

[Python Standard Library](https://docs.python.org/3/)

[Numpy](https://docs.scipy.org/doc/numpy/reference/)

Gráficos:
[Bokeh](https://bokeh.pydata.org/en/latest/),
[Matplotlib](https://matplotlib.org/),
[Altair](https://altair-viz.github.io/)

# Recursos para aprender
### Ejercicios simples de python
[pybites](https://pybit.es/)
[HackerRank](https://www.hackerrank.com/)
[CodeWars](https://www.codewars.com/?language=python)

### Guías 
[Pandas Cheatsheet](https://nbviewer.jupyter.org/github/groverpr/learn_python_libraries/blob/master/pandas/pandas_cheatsheet.ipynb)

[RealPython](https://realpython.com/tutorials/data-science/)

[Tutorial Altair](https://github.com/altair-viz/altair-tutorial) ([video](https://youtu.be/ms29ZPUKxbU))

### Videos 
[Pycon](https://www.youtube.com/channel/UCsX05-2sVSH7Nx3zuk3NYuQ)
[Pydata](https://www.youtube.com/channel/UCOjD18EJYcsBog4IozkF_7w)
[Enthought](https://www.youtube.com/user/EnthoughtMedia)

