# 🐼 Pandas
## La Libreria de Manejo de Datos




<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/e/ed/Pandas_logo.svg/1200px-Pandas_logo.svg.png" alt="Drawing" style="width: 350px;"/>




En esta clase vamos a aprender como usar la libreria de pandas para análisis de datos. Podes pensar a Pandas como una versión extremadamente poderosa de Excel, con un monton más de posibilidades. Los Temas que vamos a ver son los siguientes:

__Crognograma__

* Librerias
* Manejo de Directorio (OS)
* Análisis Introductorio
* Selección de Filas y Columnas
* Filtering, Selección Condicionada
* Reslover NaN Values
* Operaciones con DataFrames
* Concadenar
* Exportar Archivos 
* Gráficos con Pandas
***

Para más información acerca de pandas  te recomendamos que visites estas páginas: 
- [User Guide Pandas]( https://pandas.pydata.org/docs/user_guide/index.html)

- [Tutorial Pandas ](https://pandas.pydata.org/docs/getting_started/intro_tutorials/01_table_oriented.html)

## 📕 Introducción a las Librerias
---
Las librerias son básicamente código externo que podemos utilizar. Esto es clave y es una de la razones para usar python. Mientras más famoso un lenguaje mejores librerias uno dispone.  **Pandas es una libreria** que se centra en el manejo de datos, y es lo que vamos a explorar en este notebook . A continuación instalamos algunas librerias. 



In [None]:
#Instalar si es necesario 
# Formato: !pip install Nombre_de_libreria
!pip install numpy
!pip install pandas 

El símbolo **!**  permite ejecutar como si estubieras en la terminal. 

### ☎️ Importar librerias

---

Hay varias formas de importar, pero en general cada librería tiene una forma **tradicional o popular** de importarse, en el sentido de que la mayoría de la gente lo hace de la misma forma. 

In [1]:
# Importando pandas y numpy
import pandas as pd
import numpy as np

## 📁  Lectura de Archivos
---

Vamos a utilizar el archivo pokemon.csv del github. Vamos a utilizar la función **read_csv()**, hay dos formas de indicarle que archivo leer:

*   Dar un link al archivo csv
*   Indicar el "path" al archivo en nuestra computadora

Si uno esta usando colab se esta manejando con la compu de google, la nuestra no la registra google.  



In [2]:
#Leer con URL 
url = "./Datos/delitos_2019 .csv"
df = pd.read_csv(url, delimiter=",")

_Fuente:_  
https://data.buenosaires.gob.ar/dataset?page=3

CSV es un tipo especial de archivo. Otros tipos de archivos comunes son: 
- JSON Files
- HTML Files
- SQL Files

Puede probar **pd.read**  y apretar tab para ver otras opciones (en Colab solo tiene que esperar y le va a aparecer mas opciones).

In [None]:
# Ejemplos de funciones para leer datos:
#pd.read_csv()
#pd.read_excel()
#pd.read_html()
#pd.read_json()
#pd.read_sql()
#pd.read_sas()
#pd.read_pickle()

### 🗂️ Manejo de Archivos  (Solo usuarios en Colab)
---

In [None]:
#Inidica los archivos en el directorio actual
!ls 

In [None]:
# En google colab puede subir archivos con esta función
from google.colab import files
uploaded = files.upload()

### 📀  Libreria OS (Opcional)
---
Una libreria que le puede interesar para el manejo de Directorios y Paths (Carpetas) es la libreria OS, para mas  infor visite: 
- [Tutorial - OS](https://stackabuse.com/introduction-to-python-os-module/)
- [Youtube - OS ](https://www.youtube.com/watch?v=tJxcKyFMTGo)

Es como usar la **terminal de la computadora**.
Se suele ver cuando se ve notebooks o proyectos de otras personas. 

In [None]:
#Principales Usos:
import os 

# Directorio Actual
print(os.getcwd()) 


# Mostrar Archivos en el directorio Actual
print(os.listdir())

# crear carpeta
os.mkdir('carpeta')
print(os.listdir())

#Cambiar Directorio 
os.chdir('carpeta')
print(os.listdir())

# Cambiar Directorio
os.chdir("../")
print(os.listdir())


# Elimino la Carpeta 
os.rmdir('carpeta')

La función **walk()** de la libreria os realiza un "search" de arriba hacia abajo de todo el sistema de archivos, partiendo desde el path que le indicas. Devuelve un tuple de tamaño 3 indicando el path (dirección), directorios(Carpetas) en ese path, y archivos en ese path, sucesivamente hasta que llega a la útlima carpeta.


In [None]:
for dirpath, dirnames, filnames in os.walk(os.getcwd()):
  print(f"directorio: {dirpath}")
  print(f"Carpetas: {dirnames}")
  print(f"filnames:{filnames}")
  print()

## 📹 Análisis Introductorio
---

### Funciones escenciales para reconocer la data que vamos a manejar:

* **Head**: Por default te devuelve las 5 primerias filas de nuestros data set (el encabezado). si usaramos la funcion .tail() nos mostraria las ultimas 5
* **Shape**: por cuantas filas y columnas esta compuesto nuestro data set
* **Info**: Nos devuelve columna por columna, cual es su 'Type' y cuantos datos son No Nulos. Tambien nos da informacion sobre cuanta memoria RAM estamos utilizando para correr este set de datos
* **Columns**: lista de todas nuestras columnas separadas por ,
* **Describe**: Nos devuelve informacion de estadistica descriptiva de todas las columnas numericas (cantidad de registros no nulos, media, desvio, cuantiles, etc)



In [None]:
df = pd.read_csv(url, delimiter=",")

In [None]:
# Dataframes
# Series
#ambas tienen un índice

In [None]:
type(df)

In [None]:
df.head()

In [None]:
df["fecha"] = pd.to_datetime(df["fecha"])

In [None]:
df.dtypes

In [None]:
# Devuelve (filas, columnas)
df.shape

In [None]:
#Lista de Columnas
df.columns

In [None]:
df.info()

In [None]:
#Estadísticas 
round(df.describe(percentiles=(0.01,0.1,0.9,0.99)),2)

In [None]:
df.sample(5)

## 👬 Diferencia entre Series y Data Frames
---

Hay una sútil diferencia cuando trabajamos con una **columna (Series)** o multiples (Data Frames).  Como son diferentes objetos, hay cosas que se pueden hacer en uno y en otros no.







In [None]:
print(type(df["comuna"])) # Serie

type(df) # Data Frame

### 🦘 Dtype 

Cada Serie tiene **su propio tipo de dato**, denominado **Dtype**, estos son en general:

- int64 (número entero)
- float (número real)
- object (String, texto)
- bool (verdadero o falso)

In [None]:
# Con info() podemos ver el Dtype de cada Serie
df.info()

## 🍧 Selección de Filas y Columnas  
---

###  Selección de  Columnas
---

In [None]:
df["barrio"]

In [None]:
#seleccion de multiples columnas
columnas = ["barrio","comuna"]
df[columnas].head()

In [None]:
df.index

### Selección de  Filas y Columnas
---

seleccion con **LOC** , debemos pasarles "Nombres" , es decir, tanto de filas como columnas, indicarle Qué posicion, hasta donde, o a partir de donde, pero siempre pidiendole con el nombre: `colname` o `rowname` tanto de la fila como de la columna `(fila,columna)`

In [None]:
df.loc[:3,:'barrio']

en este caso le pasamos numeros en las "filas" dado que el `ìndex` es el que Pandas nos da por default del 0 hasta n.

Si quisieramos tomar filas en particular, deberiamos pasarlas en forma de Lista`[1,2,10,232]`

In [None]:
df.loc[0:4, "tipo_delito"] 

con **ILOC** buscamos en términos de la `posición` , no le importa el nombre de las filas o columnas.

In [None]:
df.iloc[:6,:5]

### 🍫  Selección Condicionada
---

**Simbolos y su Sígnificado:**
  
* No   **-**
* Y   **&**
* O   **|**
* son iguales?    **==**
* mayor, menor ... **>, <, >=, <=** 


In [None]:
df["barrio"] == "Villa del Parque"

In [None]:
df.loc[df["barrio"] == "Villa del Parque"].head()

¿Que pasa cuando tenemos que pasarle mas de 1 condicion?

In [None]:
df.loc[(df["barrio"] == "Villa del Parque") & 
       (df["tipo_delito"]=='Robo (con violencia)') & 
       (df['subtipo_delito'] == 'Robo Automotor')].head()

si a la seleccion la `asignamos` a alguna variable, con el **LOC** podemos reutilizarla para realizar una sub-seleccion


In [None]:
mask = (df["fecha"] == "2019-12-30") & (df["comuna"]== 11) & -(df["barrio"]=='Villa del Parque')

df.loc[mask, :'barrio'].head()

_Otro ejemplo:_

In [None]:
mask =  (df["barrio"].isin(["Villa Devoto", "Villa Gral. Mitre"]))
df.loc[ mask, : ].head()

## ☕ Index
---

cuando le pedimos a Pandas que nos devuelva los indices de nuestro DF nos va devolver como estan guardados (parecidos los rangos que vimos anteriormente)

In [None]:
df.index

### 💾 Setear Index

Podemos **Redefinir** el Indice que tuvimos por default utilizando la siguiente funcion:

In [None]:
# le indicamos una columna para que sea el índice
# no mutan los objetos 

df.set_index("id", inplace=True)

In [None]:
df.reset_index(inplace=True)

El cambio que hicimos **no se guardo!** Esto es muy común con pandas.

Cuando hacemos cambios que afectan el dataset los cambios no se suelen guardar. 

Para que los cambios tengan efecto permanente usamos el parámetro `inplace=True`

In [None]:
df.set_index("id", inplace=True)

In [None]:
df.head()

Ahora si, cuando utilicemos la funcion **LOC** vamos a tener que pasarle el nuevo Index (ya no es mas de 0 a n)

In [None]:
df.loc[425359, : ]

In [None]:
df.loc[[371604,425359], :]

### 🕰 ReSetear Index
---



In [None]:
df.reset_index().head()

In [None]:
df.head()

Nos volvio a pasar lo mismo, esto es porque cuando hacemos un `reseteo` del Index, Pandas va a pisar a nuestro indice actual y lo va a eliminar de nuestro DF 

## 🐾 Resolver NaN 
---
Significa Not a Number, es lo que generalmente conocemos como `Nulo, Null` o en excel es simplemente una celda sin datos. 

Es importante que no haya NaN, ya que estos nos pueden generar problemas (existen ciertos algoritmos que pueden sortearlos pero no es recomendable tenerlos).

Hay 3 opciones:
 - Eliminar filas con NaN
 - Eliminar Calumnas con NaN
 - Reemplzar NaN con Otros Valores

### 🔊 Detectar NaN values

In [None]:
# Primer Método
df.info()

In [None]:
#Segundo  Método, Recomendado
df.isnull().sum()
#isna

In [None]:
# Ordenamos de mayor a menor
df.isnull().sum().sort_values(ascending=False)

### 📴 Eliminar NaN Values
---

Eliminar columnas o eliminar filas? Depende el tipo de data set que tengamos podremos determinar que conviene. Regularmente _**eliminar filas**_ es mucho mas practico, dado que todas las columnas pueden ser de valor, pero...

Cuando tenemos un caso como este, donde una columna tiene casi todos sus registros Nulos, eliminando las filas perderiamos casi todo el potencial del data set, aqui SI conviene _**eliminar una columna**_ que aporta pocos atributos.


In [None]:
df.head()

In [None]:
#eliminar columna 'Axis=1, Columnas'
df.drop("subtipo_delito", axis=1).head()

Que pasaria si borrasemos todas las filas con `Nulos`??

In [None]:
#Eliminar Filas
y = df.dropna()
print(y.shape, df.shape)

#### Variables Numericas

In [None]:
df.mean()

In [None]:
# Reemplzar valores NaN
df.fillna(df.mean())

**Sugerencia:** En estos casos donde hay pocas variables numericas, podemos reemplazar cada una por su propia Media `mean()`

In [None]:
df['long'].fillna(df['long'].mean(), inplace = True)

In [None]:
# Ordenamos de mayor a menor
df.isna().sum().sort_values(ascending=False)

Los métodos más comunes para reemplzar NaN son :

- Variables **Continuas** --> Media, Mediana, Modo


- Variables **Categóricas** --> Modo, Su propia Categoría  NaN

Tambíen se pueden usar modelos estadísticos para intentar predecir los valores desconocidos. 

## 🕹Transformación de Variables
---

#### Qué pasa cuando tenemos valores que queremos descartar, pero no son Nan?

In [5]:
df['comuna'].value_counts()

1.0     18874
3.0     11135
4.0      9920
14.0     9559
7.0      7768
13.0     7275
15.0     6836
5.0      6720
9.0      6083
8.0      6075
12.0     5919
2.0      5589
11.0     5194
10.0     5155
6.0      4962
Name: comuna, dtype: int64

Nos vamos a guardar los `Index` de todas las filas que contengan ese "S/D" que hace que una columna Numerica sea un String

In [None]:
h = df[(df.franja_horaria == 'S/D')].index

In [None]:
h.unique()

Como ya sabemos, con la funcion **DROP** vamos a poder eliminar _Filas con NaN_

In [None]:
df.drop(h, inplace = True)

In [None]:
df.franja_horaria.value_counts().tail()

In [None]:
df.info()

In [None]:
df.franja_horaria = pd.to_numeric(df.franja_horaria).astype('Int64')

In [None]:
df.info()

## 🛡️  Group By
----
¿Que es un Group By?



![Image of Yaktocat](https://data36.com/wp-content/uploads/2017/06/SQL-GROUP-BY-clause-1024x720.png)

In [6]:
df["barrio"].unique()

array(['Nueva Pompeya', 'Liniers', 'Chacarita', 'Floresta',
       'Parque Patricios', 'Boca', 'Villa Pueyrredón', 'Barracas',
       'Almagro', 'Palermo', 'Parque Avellaneda', 'Parque Chacabuco',
       'Villa Devoto', 'San Cristóbal', 'Villa Lugano', 'Retiro',
       'Mataderos', 'Villa Crespo', 'Balvanera', 'Recoleta',
       'Villa Soldati', 'Constitución', 'Villa Urquiza', 'Flores',
       'San Telmo', 'Caballito', 'Nuñez', 'Villa Luro', 'Belgrano',
       'Saavedra', 'Puerto Madero', 'Villa Ortuzar', 'San Nicolás',
       'Boedo', 'Monserrat', 'Colegiales', 'Villa del Parque', 'Coghlan',
       'Villa Santa Rita', nan, 'Monte Castro', 'Villa Riachuelo',
       'Villa Gral. Mitre', 'Paternal', 'Agronomía', 'Vélez Sársfield',
       'Parque Chas', 'Villa Real', 'Versalles'], dtype=object)

In [16]:
robo_con_violencia= df.loc[df["tipo_delito"] == "Robo (con violencia)"]

In [17]:
(robo_con_violencia["barrio"].value_counts()/robo_con_violencia["barrio"].shape[0])*100

Balvanera            7.806230
Palermo              7.502070
Flores               4.998726
Almagro              4.726416
Recoleta             4.559208
Caballito            4.175425
Barracas             3.957258
Constitución         3.748646
San Nicolás          3.700873
Villa Lugano         3.646729
Retiro               3.391936
Belgrano             3.127588
Villa Crespo         2.855277
Nueva Pompeya        2.788394
Parque Chacabuco     2.318619
Monserrat            2.181668
Mataderos            2.119562
Villa Urquiza        1.915727
Villa Soldati        1.758074
San Cristóbal        1.724632
Parque Patricios     1.681636
Boca                 1.646602
Parque Avellaneda    1.613160
Boedo                1.598828
Saavedra             1.512835
Nuñez                1.468246
Liniers              1.425250
Villa Devoto         1.387031
Floresta             1.294668
Chacarita            1.262819
San Telmo            1.258042
Colegiales           1.216638
Villa del Parque     1.060577
Villa Gral

In [20]:
df

Unnamed: 0,id,fecha,franja_horaria,tipo_delito,subtipo_delito,cantidad_registrada,comuna,barrio,lat,long
0,374556,2019-01-01,12,Lesiones,Siniestro Vial,1.0,4.0,Nueva Pompeya,-34.648387,-58.404748
1,426152,2019-01-01,6,Robo (con violencia),,1.0,9.0,Liniers,-34.649827,-58.513859
2,371604,2019-01-01,8,Lesiones,Siniestro Vial,1.0,15.0,Chacarita,-34.588108,-58.439392
3,425359,2019-01-01,16,Hurto (sin violencia),Hurto Automotor,1.0,10.0,Floresta,-34.631877,-58.483975
4,437571,2019-01-01,2,Robo (con violencia),Robo Automotor,1.0,4.0,Parque Patricios,-34.633161,-58.397123
...,...,...,...,...,...,...,...,...,...,...
117656,486770,2019-12-31,18,Robo (con violencia),Robo Automotor,1.0,8.0,Villa Riachuelo,-34.692347,-58.472299
117657,486678,2019-12-31,4,Robo (con violencia),Robo Automotor,1.0,5.0,Boedo,-34.626424,-58.422846
117658,486668,2019-12-31,1,Robo (con violencia),Robo Automotor,1.0,1.0,Monserrat,-34.615892,-58.370573
117659,486750,2019-12-31,14,Robo (con violencia),Robo Automotor,1.0,15.0,Villa Crespo,-34.602577,-58.433145


In [18]:
#Group By por si solo no hace nada
group_barrio = df.groupby(by=["barrio"])
group_barrio

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7f0f442e07f0>

In [23]:
# Devuelve la media para cada variable 
group_barrio.sum()

Unnamed: 0_level_0,id,cantidad_registrada,comuna,lat,long
barrio,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Agronomía,194344238,454.0,6810.0,-15705.102362,-26555.31613
Almagro,2130169083,4914.0,24570.0,-170062.074568,-287079.940828
Balvanera,3971160690,9239.0,27717.0,-319739.612695,-539589.215498
Barracas,1625925539,3711.0,14840.0,-128533.457658,-216603.890702
Belgrano,1712561126,4003.0,52039.0,-138341.451388,-233995.77408
Boca,730481441,1683.0,6732.0,-58289.150027,-98223.740979
Boedo,778065508,1806.0,9030.0,-62540.266586,-105504.330988
Caballito,2128523264,4962.0,29772.0,-171772.226632,-289985.200222
Chacarita,623170230,1452.0,21765.0,-50185.379177,-84812.26377
Coghlan,204326482,476.0,5712.0,-16450.944837,-27833.714673


In [None]:
group_barrio.mean()["franja_horaria"].sort_values(ascending=False).head()

In [None]:
group_barrio.std()["comuna"].head()

In [None]:
group_barrio.describe()["cantidad_registrada"].sort_values(by='count',ascending=False).head()

## 🎯Merge
---

Es una funcion que nos permite **UNIR** dos Data Frames. 

Esta _Union_ se va a llevar a cabo de diferentes maneras:
 - Inner
 - Left
 - Right
 - Outer

![Image of Yaktocat](https://miro.medium.com/max/1200/1*9eH1_7VbTZPZd9jBiGIyNA.png)


In [26]:
data1 = { 'Nombres': ['Juan','Rosa','Pepe', 'Maria'], 
        'Color': ['Verde','Rojo','Azul','Negro'],
        'Numeros': [5,8,8,9]}

data2 = { 'Nombres': ['Juan','Rosa','Pepe'], 
        'Color': ['Verde','Rojo','Azul'],
        'Numeros': [5,8,8]}

data3 = { 'Nombres': ['Juan','Tini','Pepe', 'Maria'], 
        'Color': ['Verde','Negro','Azul','Negro'],
        'Numeros': [5,20,8,9]}



In [27]:
df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)
df3 = pd.DataFrame(data3)
print(df1)
print(df2)
print(df3)

  Nombres  Color  Numeros
0    Juan  Verde        5
1    Rosa   Rojo        8
2    Pepe   Azul        8
3   Maria  Negro        9
  Nombres  Color  Numeros
0    Juan  Verde        5
1    Rosa   Rojo        8
2    Pepe   Azul        8
  Nombres  Color  Numeros
0    Juan  Verde        5
1    Tini  Negro       20
2    Pepe   Azul        8
3   Maria  Negro        9


In [28]:
df1.merge(df2,on='Nombres')    #default = inner  

Unnamed: 0,Nombres,Color_x,Numeros_x,Color_y,Numeros_y
0,Juan,Verde,5,Verde,5
1,Rosa,Rojo,8,Rojo,8
2,Pepe,Azul,8,Azul,8


In [29]:
df1.merge(df2,on='Nombres',how='left')
df1.merge(df2,on='Nombres',how='right')

Unnamed: 0,Nombres,Color_x,Numeros_x,Color_y,Numeros_y
0,Juan,Verde,5,Verde,5
1,Rosa,Rojo,8,Rojo,8
2,Pepe,Azul,8,Azul,8


In [30]:
df2.merge(df3,on='Nombres',how='inner')

Unnamed: 0,Nombres,Color_x,Numeros_x,Color_y,Numeros_y
0,Juan,Verde,5,Verde,5
1,Pepe,Azul,8,Azul,8


In [31]:
df3.merge(df2,on='Nombres',how='outer')

Unnamed: 0,Nombres,Color_x,Numeros_x,Color_y,Numeros_y
0,Juan,Verde,5.0,Verde,5.0
1,Tini,Negro,20.0,,
2,Pepe,Azul,8.0,Azul,8.0
3,Maria,Negro,9.0,,
4,Rosa,,,Rojo,8.0


In [32]:
df1.merge(df2,on=['Nombres','Color'],how='left')

Unnamed: 0,Nombres,Color,Numeros_x,Numeros_y
0,Juan,Verde,5,5.0
1,Rosa,Rojo,8,8.0
2,Pepe,Azul,8,8.0
3,Maria,Negro,9,


In [33]:
#Otra forma de escribir la sentencia
pd.merge(df3,df2,on='Nombres',how='outer')

Unnamed: 0,Nombres,Color_x,Numeros_x,Color_y,Numeros_y
0,Juan,Verde,5.0,Verde,5.0
1,Tini,Negro,20.0,,
2,Pepe,Azul,8.0,Azul,8.0
3,Maria,Negro,9.0,,
4,Rosa,,,Rojo,8.0


## 🧷 Concatenar
---

In [34]:
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                        'B': ['B0', 'B1', 'B2', 'B3'],
                        'C': ['C0', 'C1', 'C2', 'C3'],
                        'D': ['D0', 'D1', 'D2', 'D3']},
                        index=[0, 1, 2, 3])

df2 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                        'B': ['B4', 'B5', 'B6', 'B7'],
                        'C': ['C4', 'C5', 'C6', 'C7'],
                        'D': ['D4', 'D5', 'D6', 'D7']},
                         index=[4, 5, 6, 7]) 

In [35]:
df2

Unnamed: 0,A,B,C,D
4,A0,B4,C4,D4
5,A1,B5,C5,D5
6,A2,B6,C6,D6
7,A3,B7,C7,D7


In [36]:
pd.concat([df1,df2]) # stockean como blockes de lego

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A0,B4,C4,D4
5,A1,B5,C5,D5
6,A2,B6,C6,D6
7,A3,B7,C7,D7


In [None]:
pd.concat([df1,df2], axis=1) #Por Default axis=0, se acumulan a la derecha

## 🎨Join 
---

Con el joinning buscamos las mismas Keys en tablas diferentes para poder juntar esos datos.

In [None]:
df10 = pd.DataFrame({'A': ['A0', 'A1', 'A2'],
                     'B': ['B0', 'B1', 'B2']},
                    index=['K0', 'K1', 'K2'])


df11 = pd.DataFrame({'B': ['C0', 'C2', 'C3'],
                      'D': ['D0', 'D2', 'D3']},
                     index=['K0', 'K2', 'K3'])

df10
df11

In [None]:
df1.join(df2,
          rsuffix='_1',
          how='outer')

### _**Aplicamos lo aprendido con las ultimas funciones**_

In [None]:
df_group=pd.concat([df1,df2,df3]).groupby(by=['Nombres','Color']).sum()
df_group

https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html

##  💮  Operaciones 
---
### Operaciones Básicas

In [None]:
df['cantidad_registrada'].sum()

In [None]:
df['franja_horaria'].mean()

In [None]:
df['cantidad_registrada'].std()

In [None]:
df.nunique().sort_values()

In [None]:
df["barrio"].unique()

In [None]:
df["tipo_delito"].apply(len)

###  🧱   Operaciones entre Columnas

In [None]:
df["columna_x"] = df["comuna"]*(1/3) + df["franja_horaria"]*(2/3)
df["columna_x"] = round(df["columna_x"])
df.head()

In [37]:
df

Unnamed: 0,id,fecha,franja_horaria,tipo_delito,subtipo_delito,cantidad_registrada,comuna,barrio,lat,long
0,374556,2019-01-01,12,Lesiones,Siniestro Vial,1.0,4.0,Nueva Pompeya,-34.648387,-58.404748
1,426152,2019-01-01,6,Robo (con violencia),,1.0,9.0,Liniers,-34.649827,-58.513859
2,371604,2019-01-01,8,Lesiones,Siniestro Vial,1.0,15.0,Chacarita,-34.588108,-58.439392
3,425359,2019-01-01,16,Hurto (sin violencia),Hurto Automotor,1.0,10.0,Floresta,-34.631877,-58.483975
4,437571,2019-01-01,2,Robo (con violencia),Robo Automotor,1.0,4.0,Parque Patricios,-34.633161,-58.397123
...,...,...,...,...,...,...,...,...,...,...
117656,486770,2019-12-31,18,Robo (con violencia),Robo Automotor,1.0,8.0,Villa Riachuelo,-34.692347,-58.472299
117657,486678,2019-12-31,4,Robo (con violencia),Robo Automotor,1.0,5.0,Boedo,-34.626424,-58.422846
117658,486668,2019-12-31,1,Robo (con violencia),Robo Automotor,1.0,1.0,Monserrat,-34.615892,-58.370573
117659,486750,2019-12-31,14,Robo (con violencia),Robo Automotor,1.0,15.0,Villa Crespo,-34.602577,-58.433145


In [44]:
df["nueva_columna"] = df["tipo_delito"] + "_" + df["subtipo_delito"]  

In [45]:
df["nueva_columna"]

0                       Lesiones_Siniestro Vial
1                                           NaN
2                       Lesiones_Siniestro Vial
3         Hurto (sin violencia)_Hurto Automotor
4           Robo (con violencia)_Robo Automotor
                          ...                  
117656      Robo (con violencia)_Robo Automotor
117657      Robo (con violencia)_Robo Automotor
117658      Robo (con violencia)_Robo Automotor
117659      Robo (con violencia)_Robo Automotor
117660      Robo (con violencia)_Robo Automotor
Name: nueva_columna, Length: 117661, dtype: object

In [None]:
# valor Z !
df["columna_z"] =  (df["columna_x"] - df["columna_x"].mean()) / df["columna_x"].std()
df.head()

### 🔦 Info en valores únicos 

In [None]:
#Valores únicos
df["comuna"].unique()

#Cantidad de Valores únicos
df['comuna'].nunique()

#Frecuencia Absoluta 
df['comuna'].value_counts()

###  Columnas  Condicionales 
---

Este paso es muy común y es muy usado para realizar **feature engineering**, crear nuevas variables a partir de ya existentes. 


Queremos crear una nueva columna donde indiquemos que tan cool es el pokemon basado en la generación.  Entonces usamos esta regla:

- Entre 1 y 3 son  Loosers
- Entre 4 y 5 son casi Cool
- 6 son Instagramers 

para esto vamos a usar la **selección condicional** que vimos hace un rato.



In [48]:
df.pivot_table()

Unnamed: 0,id,fecha,franja_horaria,tipo_delito,subtipo_delito,cantidad_registrada,comuna,barrio,lat,long,nueva columna,nueva_columna,comuna2
0,374556,2019-01-01,12,Lesiones,Siniestro Vial,1.0,4.0,Nueva Pompeya,-34.648387,-58.404748,LesionesSiniestro Vial,Lesiones_Siniestro Vial,8.0
1,426152,2019-01-01,6,Robo (con violencia),,1.0,9.0,Liniers,-34.649827,-58.513859,,,18.0
2,371604,2019-01-01,8,Lesiones,Siniestro Vial,1.0,15.0,Chacarita,-34.588108,-58.439392,LesionesSiniestro Vial,Lesiones_Siniestro Vial,30.0
3,425359,2019-01-01,16,Hurto (sin violencia),Hurto Automotor,1.0,10.0,Floresta,-34.631877,-58.483975,Hurto (sin violencia)Hurto Automotor,Hurto (sin violencia)_Hurto Automotor,20.0
4,437571,2019-01-01,2,Robo (con violencia),Robo Automotor,1.0,4.0,Parque Patricios,-34.633161,-58.397123,Robo (con violencia)Robo Automotor,Robo (con violencia)_Robo Automotor,8.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...
117656,486770,2019-12-31,18,Robo (con violencia),Robo Automotor,1.0,8.0,Villa Riachuelo,-34.692347,-58.472299,Robo (con violencia)Robo Automotor,Robo (con violencia)_Robo Automotor,16.0
117657,486678,2019-12-31,4,Robo (con violencia),Robo Automotor,1.0,5.0,Boedo,-34.626424,-58.422846,Robo (con violencia)Robo Automotor,Robo (con violencia)_Robo Automotor,10.0
117658,486668,2019-12-31,1,Robo (con violencia),Robo Automotor,1.0,1.0,Monserrat,-34.615892,-58.370573,Robo (con violencia)Robo Automotor,Robo (con violencia)_Robo Automotor,2.0
117659,486750,2019-12-31,14,Robo (con violencia),Robo Automotor,1.0,15.0,Villa Crespo,-34.602577,-58.433145,Robo (con violencia)Robo Automotor,Robo (con violencia)_Robo Automotor,30.0


In [None]:
df.loc[df['comuna'] <= 4 , 'barrio_clase'] = "este"

df.loc[(4 < df['comuna']) & (df['comuna'] <=8) , 'barrio_clase'] = "oeste"

df.loc[df['comuna']>8 , 'barrio_clase'] = "centro"

df.head()

In [None]:
print(df["barrio_clase"].unique())
df["barrio_clase"].value_counts()

###  🛠️  Funciones aplicadas a las columnas

Vamos a usar el método **apply()**, el cual toma como input una función. La idea es que se va a ejecutar a cada elemento. 

In [46]:
def times2(x):
    return x*2

In [47]:
df["comuna2"] = df['comuna'].apply(times2)
df.head()

Unnamed: 0,id,fecha,franja_horaria,tipo_delito,subtipo_delito,cantidad_registrada,comuna,barrio,lat,long,nueva columna,nueva_columna,comuna2
0,374556,2019-01-01,12,Lesiones,Siniestro Vial,1.0,4.0,Nueva Pompeya,-34.648387,-58.404748,LesionesSiniestro Vial,Lesiones_Siniestro Vial,8.0
1,426152,2019-01-01,6,Robo (con violencia),,1.0,9.0,Liniers,-34.649827,-58.513859,,,18.0
2,371604,2019-01-01,8,Lesiones,Siniestro Vial,1.0,15.0,Chacarita,-34.588108,-58.439392,LesionesSiniestro Vial,Lesiones_Siniestro Vial,30.0
3,425359,2019-01-01,16,Hurto (sin violencia),Hurto Automotor,1.0,10.0,Floresta,-34.631877,-58.483975,Hurto (sin violencia)Hurto Automotor,Hurto (sin violencia)_Hurto Automotor,20.0
4,437571,2019-01-01,2,Robo (con violencia),Robo Automotor,1.0,4.0,Parque Patricios,-34.633161,-58.397123,Robo (con violencia)Robo Automotor,Robo (con violencia)_Robo Automotor,8.0


**Funcion INSERT**

In [None]:
h = df['comuna2']
df.insert(0,'comuna_nueva',h)
df.head()

### 🤺 Operaciones Summary
---
Estas son algunas de las funciones que se aplican cuando usamos la **función describe()**

Otras operaciones summary son:
- .min()
- .max()
- .count()
- .idxmax()
- .idxmin()
- .quantile()
- .skew()
- .kurtosis()

In [None]:
print(df["comuna"].min()) # Minimo
print(df["comuna"].max()) # Maximo
print(df["comuna"].count()) # Cantidad
print(df["comuna"].idxmax()) # El índice del valor máximo
print(df["comuna"].idxmin()) # El índice del valor mínimo
print(df["comuna"].quantile([.25,.5,.75])) # Los quantiles
print(df["comuna"].skew()) # Asimetria
print(df["comuna"].kurtosis()) # Kurtosis

Se puede Armar Dataframes a partir de Diccionarios 

## 👾 Funciones Con Pandas! WOW
---
Vamos a ver como crear funciones para automtizar nuestro laburo

In [None]:
def obtener_Z(df, columna):
    # valor Z !
    df2 = pd.DataFrame([])
    df2[f"Z_{columna}"] =  (df[columna] - df[columna].mean()) / df[columna].std()
    return df2

obtener_Z(df, "comuna")

In [None]:
# Sacamos los valores Z para Attack 

Z_comuna = obtener_Z(df, "comuna")

pd.concat([df, Z_comuna ], axis=1)

##  💐 Intervalos de Clase
---

La idea es transformar las variables continuas en discretas, poniendolas en contenedores.

In [None]:
df.head()

In [None]:
# Con Cut le indicamos cuanto contenedores queremos
pd.cut(df["franja_horaria"], bins=15)

In [None]:
# qcut se Basa en quantiles 
df["franja_IC"] = pd.qcut(df["franja_horaria"],[0,0.25,0.5,0.75,1])
df["franja_IC"]

## 🤪  Dummy Variables
---
Es la forma de Transformar variables en discretas en valores numéricos.


La variable toma 1 si se cumple la condición y 0 en caso que no.

In [None]:
df.head()

In [None]:
pd.get_dummies(data = df, columns=["subtipo_delito"], prefix="sub_Dummy", drop_first=True ).head()

## 💌 Funciones relacionadas al Texto
---
En general vamos a usar **.str** para indicar que vamos a usar una función relacionada a las strings. 

In [None]:
df["barrio"].str.lower()

In [None]:
#mask = df["barrio"].str.contains('vil')
#df.loc[mask, :]

##  👩‍🏫 Cambiar los nombres de Columna 
---
Vamos a usar la función **rename()**.

In [None]:
df.rename(columns = {'barrio':'Barrio', "comuna": "Poligono"}, inplace=True)
df.head()

In [None]:
df.columns

In [None]:
df.columns = [x.lower() for x in df.columns]
df

In [None]:
df.columns.values[1] ="nombre"
df.head()

## 👀 Exportando Archivos
---

In [None]:
#Exportando a CSV
df1.to_csv('Ejemplo.csv',index=False)
#Exportando a Excel
df1.to_excel("excel_df.xlsx", index=False)

In [None]:
pd.read_csv("Ejemplo.csv")

# Felicitaciones por completar esta parte!  