# 🐼 Pandas
## La Libreria de Manejo de Datos



---
**Autores de la Notebook:** 


* [Matias Sanchez Gavier ](https://matias-online.netlify.app/)  🧛
*   [Matias Moris](https://www.linkedin.com/in/matias-moris-6041337b/) ⚽
* [Anotonio Marrazzo](https://www.linkedin.com/in/antonio-marrazzo-40b3491a2/) 🏆

---



<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/e/ed/Pandas_logo.svg/1200px-Pandas_logo.svg.png" alt="Drawing" style="width: 350px;"/>




En esta clase vamos a aprender como usar la libreria de pandas para análisis de datos. Podes pensar a Pandas como una versión extremadamente poderosa de Excel, con un monton más de posibilidades. Los Temas que vamos a ver son los siguientes:

__Crognograma__

* Librerias
* Manejo de Directorio (OS)
* Análisis Introductorio
* Selección de Filas y Columnas
* Filtering, Selección Condicionada
* Reslover NaN Values
* Operaciones con DataFrames
* Concadenar
* Exportar Archivos 
* Gráficos con Pandas
***

Para más información acerca de pandas  te recomendamos que visites estas páginas: 
- [User Guide Pandas]( https://pandas.pydata.org/docs/user_guide/index.html)

- [Tutorial Pandas ](https://pandas.pydata.org/docs/getting_started/intro_tutorials/01_table_oriented.html)

## 📕 Introducción a las Librerias
---
Las librerias son básicamente código externo que podemos utilizar. Esto es clave y es una de la razones para usar python. Mientras más famoso un lenguaje mejores librerias uno dispone.  **Pandas es una libreria** que se centra en el manejo de datos, y es lo que vamos a explorar en este notebook . A continuación instalamos algunas librerias. 



In [None]:
#Instalar si es necesario 
# Formato: !pip install Nombre_de_libreria
!pip install numpy
!pip install pandas 



El símbolo **!**  permite ejecutar como si estubieras en la terminal. 

### ☎️ Importar librerias

---

Hay varias formas de importar, pero en general cada librería tiene una forma **tradicional o popular** de importarse, en el sentido de que la mayoría de la gente lo hace de la misma forma. 

In [2]:
# Importando pandas y numpy
import pandas as pd
import numpy as np

## 📁  Lectura de Archivos
---

Vamos a utilizar el archivo pokemon.csv del github. Vamos a utilizar la función **read_csv()**, hay dos formas de indicarle que archivo leer:

*   Dar un link al archivo csv
*   Indicar el "path" al archivo en nuestra computadora

Si uno esta usando colab se esta manejando con la compu de google, la nuestra no la registra google.  



In [3]:
#Leer con URL 
url = "https://raw.githubusercontent.com/sanchezgaviermatias/Curso-Python/master/2-%20Numpy%20Pandas/delitos_2019.csv"
df = pd.read_csv(url)

CSV es un tipo especial de archivo. Otros tipos de archivos comunes son: 
- JSON Files
- HTML Files
- SQL Files

Puede probar **pd.read**  y apretar tab para ver otras opciones (en Colab solo tiene que esperar y le va a aparecer mas opciones).

In [None]:
# Ejemplos de funciones para leer datos:
#pd.read_csv()
#pd.read_excel()
#pd.read_html()
#pd.read_json()
#pd.read_sql()
#pd.read_sas()
#pd.read_pickle()

### 🗂️ Manejo de Archivos  (Solo usuarios en Colab)
---

In [None]:
#Inidica los archivos en el directorio actual
!ls 

In [None]:
# En google colab puede subir archivos con esta función
from google.colab import files
uploaded = files.upload()

### 📀  Libreria OS (Opcional)
---
Una libreria que le puede interesar para el manejo de Directorios y Paths (Carpetas) es la libreria OS, para mas  infor visite: 
- [Tutorial - OS](https://stackabuse.com/introduction-to-python-os-module/)
- [Youtube - OS ](https://www.youtube.com/watch?v=tJxcKyFMTGo)

Es como usar la **terminal de la computadora**.
Se suele ver cuando se ve notebooks o proyectos de otras personas. 

In [None]:
#Principales Usos:
import os 

# Directorio Actual
print(os.getcwd()) 


# Mostrar Archivos en el directorio Actual
print(os.listdir())

# crear carpeta
os.mkdir('carpeta')
print(os.listdir())

#Cambiar Directorio 
os.chdir('carpeta')
print(os.listdir())

# Cambiar Directorio
os.chdir("../")
print(os.listdir())


# Elimino la Carpeta 
os.rmdir('carpeta')

/content
['.config', 'sample_data']
['.config', 'carpeta', 'sample_data']
[]
['.config', 'carpeta', 'sample_data']


La función **walk()** de la libreria os realiza un "search" de arriba hacia abajo de todo el sistema de archivos, partiendo desde el path que le indicas. Devuelve un tuple de tamaño 3 indicando el path (dirección), directorios(Carpetas) en ese path, y archivos en ese path, sucesivamente hasta que llega a la útlima carpeta.


In [None]:
for dirpath, dirnames, filnames in os.walk(os.getcwd()):
  print(f"directorio: {dirpath}")
  print(f"Carpetas: {dirnames}")
  print(f"filnames:{filnames}")
  print()

## 📹 Análisis Introductorio
---

### Funciones escenciales para reconocer la data que vamos a manejar:

* **Head**: Por default te devuelve las 5 primerias filas de nuestros data set (el encabezado). si usaramos la funcion .tail() nos mostraria las ultimas 5
* **Shape**: por cuantas filas y columnas esta compuesto nuestro data set
* **Info**: Nos devuelve columna por columna, cual es su 'Type' y cuantos datos son No Nulos. Tambien nos da informacion sobre cuanta memoria RAM estamos utilizando para correr este set de datos
* **Columns**: lista de todas nuestras columnas separadas por ,
* **Describe**: Nos devuelve informacion de estadistica descriptiva de todas las columnas numericas (cantidad de registros no nulos, media, desvio, cuantiles, etc)



In [148]:
df.head()

Unnamed: 0,id,fecha,franja_horaria,tipo_delito,subtipo_delito,cantidad_registrada,comuna,barrio,lat,long
0,374556,2019-01-01,12,Lesiones,Siniestro Vial,1.0,4.0,Nueva Pompeya,-34.648387,-58.404748
1,426152,2019-01-01,6,Robo (con violencia),,1.0,9.0,Liniers,-34.649827,-58.513859
2,371604,2019-01-01,8,Lesiones,Siniestro Vial,1.0,15.0,Chacarita,-34.588108,-58.439392
3,425359,2019-01-01,16,Hurto (sin violencia),Hurto Automotor,1.0,10.0,Floresta,-34.631877,-58.483975
4,437571,2019-01-01,2,Robo (con violencia),Robo Automotor,1.0,4.0,Parque Patricios,-34.633161,-58.397123


In [149]:
# Devuelve (filas, columnas)
df.shape

(117661, 10)

In [150]:
#Lista de Columnas
df.columns

Index(['id', 'fecha', 'franja_horaria', 'tipo_delito', 'subtipo_delito',
       'cantidad_registrada', 'comuna', 'barrio', 'lat', 'long'],
      dtype='object')

In [151]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 117661 entries, 0 to 117660
Data columns (total 10 columns):
id                     117661 non-null int64
fecha                  117661 non-null object
franja_horaria         117661 non-null object
tipo_delito            117661 non-null object
subtipo_delito         11676 non-null object
cantidad_registrada    117661 non-null float64
comuna                 117064 non-null float64
barrio                 117064 non-null object
lat                    117064 non-null float64
long                   117064 non-null float64
dtypes: float64(4), int64(1), object(5)
memory usage: 9.0+ MB


In [152]:
#Estadísticas 
round(df.describe(percentiles=(0.01,0.1,0.9,0.99)))

Unnamed: 0,id,cantidad_registrada,comuna,lat,long
count,117661.0,117661.0,117064.0,117064.0,117064.0
mean,429710.0,1.0,7.0,-35.0,-58.0
std,33968.0,0.0,5.0,0.0,0.0
min,353583.0,1.0,1.0,-35.0,-59.0
1%,372058.0,1.0,1.0,-35.0,-59.0
10%,382647.0,1.0,1.0,-35.0,-58.0
50%,429711.0,1.0,7.0,-35.0,-58.0
90%,476775.0,1.0,14.0,-35.0,-58.0
99%,487364.0,1.0,15.0,-35.0,-58.0
max,488541.0,2.0,15.0,-35.0,-58.0


## 👬 Diferencia entre Series y Data Frames
---

Hay una sútil diferencia cuando trabajamos con una **columna (Series)** o multiples (Data Frames).  Como son diferentes objetos, hay cosas que se pueden hacer en uno y en otros no.







In [153]:
print(type(df["comuna"])) # Serie

type(df) # Data Frame

<class 'pandas.core.series.Series'>


pandas.core.frame.DataFrame

### 🦘 Dtype 

Cada Serie tiene **su propio tipo de dato**, denominado **Dtype**, estos son en general:

- int64 (número entero)
- float (número real)
- object (String, texto)
- bool (verdadero o falso)

In [154]:
# Con info() podemos ver el Dtype de cada Serie
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 117661 entries, 0 to 117660
Data columns (total 10 columns):
id                     117661 non-null int64
fecha                  117661 non-null object
franja_horaria         117661 non-null object
tipo_delito            117661 non-null object
subtipo_delito         11676 non-null object
cantidad_registrada    117661 non-null float64
comuna                 117064 non-null float64
barrio                 117064 non-null object
lat                    117064 non-null float64
long                   117064 non-null float64
dtypes: float64(4), int64(1), object(5)
memory usage: 9.0+ MB


## 🍧 Selección de Filas y Columnas  
---

###  Selección de  Columnas
---

In [155]:
df["barrio"]

0            Nueva Pompeya
1                  Liniers
2                Chacarita
3                 Floresta
4         Parque Patricios
                ...       
117656     Villa Riachuelo
117657               Boedo
117658           Monserrat
117659        Villa Crespo
117660        Villa Lugano
Name: barrio, Length: 117661, dtype: object

In [156]:
df.barrio

0            Nueva Pompeya
1                  Liniers
2                Chacarita
3                 Floresta
4         Parque Patricios
                ...       
117656     Villa Riachuelo
117657               Boedo
117658           Monserrat
117659        Villa Crespo
117660        Villa Lugano
Name: barrio, Length: 117661, dtype: object

In [157]:
#seleccion de multiples columnas
df[["barrio","comuna"]].head()

Unnamed: 0,barrio,comuna
0,Nueva Pompeya,4.0
1,Liniers,9.0
2,Chacarita,15.0
3,Floresta,10.0
4,Parque Patricios,4.0


### Selección de  Filas y Columnas
---

seleccion con **LOC** , debemos pasarles "Nombres" , es decir, tanto de filas como columnas, indicarle Qué posicion, hasta donde, o a partir de donde, pero siempre pidiendole con el nombre: `colname` o `rowname` tanto de la fila como de la columna `(fila,columna)`

In [180]:
df.loc[:3,:'barrio']

Unnamed: 0,id,fecha,franja_horaria,tipo_delito,subtipo_delito,cantidad_registrada,comuna,barrio
0,374556,2019-01-01,12,Lesiones,Siniestro Vial,1.0,4.0,Nueva Pompeya
1,426152,2019-01-01,6,Robo (con violencia),,1.0,9.0,Liniers
2,371604,2019-01-01,8,Lesiones,Siniestro Vial,1.0,15.0,Chacarita
3,425359,2019-01-01,16,Hurto (sin violencia),Hurto Automotor,1.0,10.0,Floresta


en este caso le pasamos numeros en las "filas" dado que el `ìndex` es el que Pandas nos da por default del 0 hasta n.

Si quisieramos tomar filas en particular, deberiamos pasarlas en forma de Lista`[1,2,10,232]`

In [184]:
df.loc[0:10, "tipo_delito"] 

0                  Lesiones
1      Robo (con violencia)
2                  Lesiones
3     Hurto (sin violencia)
4      Robo (con violencia)
5      Robo (con violencia)
6                  Lesiones
7     Hurto (sin violencia)
8      Robo (con violencia)
9      Robo (con violencia)
10                 Lesiones
Name: tipo_delito, dtype: object

con **ILOC** buscamos en términos de la `posición` , no le importa el nombre de las filas o columnas.

In [193]:
df.iloc[:5,:6]

Unnamed: 0,id,fecha,franja_horaria,tipo_delito,subtipo_delito,cantidad_registrada
0,374556,2019-01-01,12,Lesiones,Siniestro Vial,1.0
1,426152,2019-01-01,6,Robo (con violencia),,1.0
2,371604,2019-01-01,8,Lesiones,Siniestro Vial,1.0
3,425359,2019-01-01,16,Hurto (sin violencia),Hurto Automotor,1.0
4,437571,2019-01-01,2,Robo (con violencia),Robo Automotor,1.0


### 🍫  Selección Condicionada
---

**Simbolos y su Sígnificado:**
  
* No   **-**
* Y   **&**
* O   **|**
* son iguales?    **==**
* mayor, menor ... **>, <, >=, <=** 


In [29]:
df.loc[df["barrio"] == "Villa del Parque",  : ].head()

Unnamed: 0,id,fecha,franja_horaria,tipo_delito,subtipo_delito,cantidad_registrada,comuna,barrio,lat,long
159,451688,2019-01-01,13,Robo (con violencia),,1.0,11.0,Villa del Parque,-34.599154,-58.483507
188,460113,2019-01-01,16,Robo (con violencia),,1.0,11.0,Villa del Parque,-34.602306,-58.489087
215,446396,2019-01-02,22,Robo (con violencia),Robo Automotor,1.0,11.0,Villa del Parque,-34.604106,-58.489222
281,431340,2019-01-02,7,Robo (con violencia),,1.0,11.0,Villa del Parque,-34.606146,-58.497404
346,463250,2019-01-02,4,Robo (con violencia),,1.0,11.0,Villa del Parque,-34.601393,-58.48914


In [213]:
df.loc[df['barrio'] == 'Floresta'].tail(4)

Unnamed: 0,id,fecha,franja_horaria,tipo_delito,subtipo_delito,cantidad_registrada,comuna,barrio,lat,long
117631,388617,2019-12-31,14,Hurto (sin violencia),,1.0,10.0,Floresta,-34.62994,-58.479126
117633,379910,2019-12-31,15,Hurto (sin violencia),,1.0,10.0,Floresta,-34.629873,-58.480287
117637,424528,2019-12-31,13,Hurto (sin violencia),,1.0,10.0,Floresta,-34.632503,-58.480787
117642,486706,2019-12-31,0,Robo (con violencia),,1.0,10.0,Floresta,-34.627221,-58.479754


In [221]:
df.loc[(df["barrio"] == "Villa del Parque") & 
       (df["tipo_delito"]=='Robo (con violencia)') & 
       (df['subtipo_delito'] == 'Robo Automotor')].head()

Unnamed: 0,id,fecha,franja_horaria,tipo_delito,subtipo_delito,cantidad_registrada,comuna,barrio,lat,long
215,446396,2019-01-02,22,Robo (con violencia),Robo Automotor,1.0,11.0,Villa del Parque,-34.604106,-58.489222
1809,426793,2019-01-06,23,Robo (con violencia),Robo Automotor,1.0,11.0,Villa del Parque,-34.607246,-58.495078
5688,448210,2019-01-17,14,Robo (con violencia),Robo Automotor,1.0,11.0,Villa del Parque,-34.601893,-58.487804
7299,458451,2019-01-22,23,Robo (con violencia),Robo Automotor,1.0,11.0,Villa del Parque,-34.597674,-58.490878
10154,474026,2019-01-31,23,Robo (con violencia),Robo Automotor,1.0,11.0,Villa del Parque,-34.60306,-58.498042


si a la seleccion la `asignamos` a alguna variable, con el **LOC** podemos reutilizarla para realizar una sub-seleccion


In [222]:
mask = (df["fecha"] == "2019-12-30") & (df["comuna"]== 11) & -(df["barrio"]=='Villa del Parque')

df.loc[mask, :'barrio'].head()

Unnamed: 0,id,fecha,franja_horaria,tipo_delito,subtipo_delito,cantidad_registrada,comuna,barrio
117194,424308,2019-12-30,9,Hurto (sin violencia),Hurto Automotor,1.0,11.0,Villa Gral. Mitre
117228,424311,2019-12-30,9,Hurto (sin violencia),,1.0,11.0,Villa Devoto
117260,424514,2019-12-30,17,Hurto (sin violencia),,1.0,11.0,Villa Gral. Mitre
117270,424330,2019-12-30,11,Hurto (sin violencia),,1.0,11.0,Villa Devoto
117408,424440,2019-12-30,21,Hurto (sin violencia),,1.0,11.0,Villa Gral. Mitre


_Otro ejemplo:_

In [223]:
mask =  (df["barrio"].isin(["Villa Devoto", "Villa Gral. Mitre"]))
df.loc[ mask, : ].head()

Unnamed: 0,id,fecha,franja_horaria,tipo_delito,subtipo_delito,cantidad_registrada,comuna,barrio,lat,long
14,371693,2019-01-01,7,Lesiones,Siniestro Vial,1.0,11.0,Villa Devoto,-34.589282,-58.519116
24,375762,2019-01-01,13,Lesiones,Siniestro Vial,1.0,11.0,Villa Devoto,-34.603255,-58.524662
63,452436,2019-01-01,8,Robo (con violencia),,1.0,11.0,Villa Devoto,-34.604306,-58.513099
79,440363,2019-01-01,1,Robo (con violencia),,1.0,11.0,Villa Devoto,-34.600628,-58.51247
155,449568,2019-01-01,11,Robo (con violencia),,1.0,11.0,Villa Devoto,-34.608756,-58.514194


## ☕ Index
---

cuando le pedimos a Pandas que nos devuelva los indices de nuestro DF nos va devolver como estan guardados (parecidos los rangos que vimos anteriormente)

In [227]:
df.index

RangeIndex(start=0, stop=117661, step=1)

### 💾 Setear Index

Podemos **Redefinir** el Indice que tuvimos por default utilizando la siguiente funcion:

In [234]:
# le indicamos una columna para que sea el índice

df.set_index("id").head( )

In [229]:
df.head()

Unnamed: 0,id,fecha,franja_horaria,tipo_delito,subtipo_delito,cantidad_registrada,comuna,barrio,lat,long
0,374556,2019-01-01,12,Lesiones,Siniestro Vial,1.0,4.0,Nueva Pompeya,-34.648387,-58.404748
1,426152,2019-01-01,6,Robo (con violencia),,1.0,9.0,Liniers,-34.649827,-58.513859
2,371604,2019-01-01,8,Lesiones,Siniestro Vial,1.0,15.0,Chacarita,-34.588108,-58.439392
3,425359,2019-01-01,16,Hurto (sin violencia),Hurto Automotor,1.0,10.0,Floresta,-34.631877,-58.483975
4,437571,2019-01-01,2,Robo (con violencia),Robo Automotor,1.0,4.0,Parque Patricios,-34.633161,-58.397123


El cambio que hicimos **no se guardo!** Esto es muy común con pandas.

Cuando hacemos cambios que afectan el dataset los cambios no se suelen guardar. 

Para que los cambios tengan efecto permanente usamos el parámetro `inplace=True`

In [230]:
df.set_index("id", inplace=True)

In [231]:
df.head()

Unnamed: 0_level_0,fecha,franja_horaria,tipo_delito,subtipo_delito,cantidad_registrada,comuna,barrio,lat,long
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
374556,2019-01-01,12,Lesiones,Siniestro Vial,1.0,4.0,Nueva Pompeya,-34.648387,-58.404748
426152,2019-01-01,6,Robo (con violencia),,1.0,9.0,Liniers,-34.649827,-58.513859
371604,2019-01-01,8,Lesiones,Siniestro Vial,1.0,15.0,Chacarita,-34.588108,-58.439392
425359,2019-01-01,16,Hurto (sin violencia),Hurto Automotor,1.0,10.0,Floresta,-34.631877,-58.483975
437571,2019-01-01,2,Robo (con violencia),Robo Automotor,1.0,4.0,Parque Patricios,-34.633161,-58.397123


Ahora si, cuando utilicemos la funcion **LOC** vamos a tener que pasarle el nuevo Index (ya no es mas de 0 a n)

In [48]:
df.loc[425359, : ]

fecha                             2019-01-01
franja_horaria                            16
tipo_delito            Hurto (sin violencia)
subtipo_delito               Hurto Automotor
cantidad_registrada                        1
comuna                                    10
barrio                              Floresta
lat                                 -34.6319
long                                 -58.484
Name: 425359, dtype: object

In [50]:
df.loc[[371604,425359], :]

Unnamed: 0_level_0,fecha,franja_horaria,tipo_delito,subtipo_delito,cantidad_registrada,comuna,barrio,lat,long
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
371604,2019-01-01,8,Lesiones,Siniestro Vial,1.0,15.0,Chacarita,-34.588108,-58.439392
425359,2019-01-01,16,Hurto (sin violencia),Hurto Automotor,1.0,10.0,Floresta,-34.631877,-58.483975


### 🕰 ReSetear Index
---



In [237]:
df.reset_index().head()

Unnamed: 0,id,fecha,franja_horaria,tipo_delito,subtipo_delito,cantidad_registrada,comuna,barrio,lat,long
0,374556,2019-01-01,12,Lesiones,Siniestro Vial,1.0,4.0,Nueva Pompeya,-34.648387,-58.404748
1,426152,2019-01-01,6,Robo (con violencia),,1.0,9.0,Liniers,-34.649827,-58.513859
2,371604,2019-01-01,8,Lesiones,Siniestro Vial,1.0,15.0,Chacarita,-34.588108,-58.439392
3,425359,2019-01-01,16,Hurto (sin violencia),Hurto Automotor,1.0,10.0,Floresta,-34.631877,-58.483975
4,437571,2019-01-01,2,Robo (con violencia),Robo Automotor,1.0,4.0,Parque Patricios,-34.633161,-58.397123


In [238]:
df.head()

Unnamed: 0_level_0,fecha,franja_horaria,tipo_delito,subtipo_delito,cantidad_registrada,comuna,barrio,lat,long
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
374556,2019-01-01,12,Lesiones,Siniestro Vial,1.0,4.0,Nueva Pompeya,-34.648387,-58.404748
426152,2019-01-01,6,Robo (con violencia),,1.0,9.0,Liniers,-34.649827,-58.513859
371604,2019-01-01,8,Lesiones,Siniestro Vial,1.0,15.0,Chacarita,-34.588108,-58.439392
425359,2019-01-01,16,Hurto (sin violencia),Hurto Automotor,1.0,10.0,Floresta,-34.631877,-58.483975
437571,2019-01-01,2,Robo (con violencia),Robo Automotor,1.0,4.0,Parque Patricios,-34.633161,-58.397123


Nos volvio a pasar lo mismo, esto es porque cuando hacemos un `reseteo` del Index, Pandas va a pisar a nuestro indice actual y lo va a eliminar de nuestro DF 

## 🐾 Resolver NaN 
---
Significa Not a Number, es lo que generalmente conocemos como `Nulo, Null` o en excel es simplemente una celda sin datos. 

Es importante que no haya NaN, ya que estos nos pueden generar problemas (existen ciertos algoritmos que pueden sortearlos pero no es recomendable tenerlos).

Hay 3 opciones:
 - Eliminar filas con NaN
 - Eliminar Calumnas con NaN
 - Reemplzar NaN con Otros Valores

### 🔊 Detectar NaN values

In [51]:
# Primer Método
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 117661 entries, 374556 to 486683
Data columns (total 9 columns):
fecha                  117661 non-null object
franja_horaria         117661 non-null object
tipo_delito            117661 non-null object
subtipo_delito         11676 non-null object
cantidad_registrada    117661 non-null float64
comuna                 117064 non-null float64
barrio                 117064 non-null object
lat                    117064 non-null float64
long                   117064 non-null float64
dtypes: float64(4), object(5)
memory usage: 14.0+ MB


In [52]:
#Segundo  Método, Recomendado
df.isnull().sum()

fecha                       0
franja_horaria              0
tipo_delito                 0
subtipo_delito         105985
cantidad_registrada         0
comuna                    597
barrio                    597
lat                       597
long                      597
dtype: int64

In [53]:
# Ordenamos de mayor a menor
df.isna().sum().sort_values(ascending=False)

subtipo_delito         105985
long                      597
lat                       597
barrio                    597
comuna                    597
cantidad_registrada         0
tipo_delito                 0
franja_horaria              0
fecha                       0
dtype: int64

### 📴 Eliminar NaN Values
---

Eliminar columnas o eliminar filas? Depende el tipo de data set que tengamos podremos determinar que conviene. Regularmente _**eliminar filas**_ es mucho mas practico, dado que todas las columnas pueden ser de valor, pero...

Cuando tenemos un caso como este, donde una columna tiene casi todos sus registros Nulos, eliminando las filas perderiamos casi todo el potencial del data set, aqui SI conviene _**eliminar una columna**_ que aporta pocos atributos.


In [246]:
#eliminar columna 'Axis=1, Columnas'
df.drop("subtipo_delito",axis=1).head()

Unnamed: 0_level_0,fecha,franja_horaria,tipo_delito,cantidad_registrada,comuna,barrio,lat,long
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
374556,2019-01-01,12,Lesiones,1.0,4.0,Nueva Pompeya,-34.648387,-58.404748
426152,2019-01-01,6,Robo (con violencia),1.0,9.0,Liniers,-34.649827,-58.513859
371604,2019-01-01,8,Lesiones,1.0,15.0,Chacarita,-34.588108,-58.439392
425359,2019-01-01,16,Hurto (sin violencia),1.0,10.0,Floresta,-34.631877,-58.483975
437571,2019-01-01,2,Robo (con violencia),1.0,4.0,Parque Patricios,-34.633161,-58.397123


Que pasaria si borrasemos todas las filas con `Nulos`??

In [249]:
#Eliminar Filas
y = df.dropna()
print(y.shape, df.shape)

(11324, 9) (117661, 9)


#### Variables Numericas

In [257]:
# Reemplzar valores NaN
df.fillna(df.mean())

cantidad_registrada     1.000059
comuna                  7.131868
lat                   -34.611337
long                  -58.432901
dtype: float64

**Sugerencia:** En estos casos donde hay pocas variables numericas, podemos reemplazar cada una por su propia Media `mean()`

In [267]:
df['long'].fillna(df['long'].mean(), inplace = True)

In [268]:
# Ordenamos de mayor a menor
df.isna().sum().sort_values(ascending=False)

subtipo_delito         105985
barrio                    597
comuna                    597
long                        0
lat                         0
cantidad_registrada         0
tipo_delito                 0
franja_horaria              0
fecha                       0
dtype: int64

Los métodos más comunes para reemplzar NaN son :

- Variables **Continuas** --> Media, Mediana, Modo


- Variables **Categóricas** --> Modo, Su propia Categoría  NaN

Tambíen se pueden usar modelos estadísticos para intentar predecir los valores desconocidos. 

## 🕹Transformación de Variables
---

#### Qué pasa cuando tenemos valores que queremos descartar, pero no son Nan?

In [278]:
df['franja_horaria'].value_counts().tail()

5      2357
2      1965
4      1814
3      1719
S/D       8
Name: franja_horaria, dtype: int64

Nos vamos a guardar los `Index` de todas las filas que contengan ese "S/D" que hace que una columna Numerica sea un String

In [287]:
h = df[(df.franja_horaria == 'S/D')].index

In [288]:
h.unique()

Int64Index([370989, 392384, 449495, 392348, 392639, 449807, 477325, 370978], dtype='int64', name='id')

In [289]:
df.drop(h, inplace = True)

In [290]:
df.franja_horaria.value_counts().tail()

1    2445
5    2357
2    1965
4    1814
3    1719
Name: franja_horaria, dtype: int64

In [291]:
df.franja_horaria = pd.to_numeric(df.franja_horaria).astype('Int64')

In [292]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 117653 entries, 374556 to 486683
Data columns (total 9 columns):
fecha                  117653 non-null object
franja_horaria         117653 non-null Int64
tipo_delito            117653 non-null object
subtipo_delito         11674 non-null object
cantidad_registrada    117653 non-null float64
comuna                 117057 non-null float64
barrio                 117057 non-null object
lat                    117653 non-null float64
long                   117653 non-null float64
dtypes: Int64(1), float64(4), object(4)
memory usage: 9.1+ MB


##  💮  Operaciones 
---
### Operaciones Básicas

In [61]:
df['cantidad_registrada'].sum()

117668.0

In [130]:
df.sort_values(by='franja_horaria').head( )

Unnamed: 0,franja_horaria,id,fecha,tipo_delito,subtipo_delito,cantidad_registrada,comuna,barrio,lat,long
45208,0,442972,2019-05-10,Robo (con violencia),-58.4329,1.0,2.0,Recoleta,-34.59677,-58.41424
30566,0,372386,2019-03-28,Lesiones,Siniestro Vial,1.0,5.0,Almagro,-34.61877,-58.419633
103232,0,478040,2019-11-13,Robo (con violencia),-58.4329,1.0,8.0,Villa Lugano,-34.678242,-58.476561
2935,0,381048,2019-01-09,Hurto (sin violencia),-58.4329,1.0,1.0,San Telmo,-34.623028,-58.371454
113467,0,484036,2019-12-16,Robo (con violencia),-58.4329,1.0,4.0,Barracas,-34.65077,-58.396049


In [131]:
df['franja_horaria'].mean()

13.61306554019022

In [132]:
df['franja_horaria'].std()

6.107206697676569

In [133]:
df.max()

franja_horaria                           23
id                                   488541
fecha                            2019-12-31
tipo_delito            Robo (con violencia)
cantidad_registrada                       2
comuna                                   15
lat                                -34.5285
long                               -58.3434
dtype: object

###  🧱   Operaciones entre Columnas

In [134]:
df["columna_x"] = df["comuna"]*(1/3) + df["franja_horaria"]*(2/3)
df["columna_x"] = round(df["columna_x"])
df.head()

Unnamed: 0,franja_horaria,id,fecha,tipo_delito,subtipo_delito,cantidad_registrada,comuna,barrio,lat,long,columna_x
0,12,374556,2019-01-01,Lesiones,Siniestro Vial,1.0,4.0,Nueva Pompeya,-34.648387,-58.404748,9.0
1,6,426152,2019-01-01,Robo (con violencia),-58.4329,1.0,9.0,Liniers,-34.649827,-58.513859,7.0
2,8,371604,2019-01-01,Lesiones,Siniestro Vial,1.0,15.0,Chacarita,-34.588108,-58.439392,10.0
3,16,425359,2019-01-01,Hurto (sin violencia),Hurto Automotor,1.0,10.0,Floresta,-34.631877,-58.483975,14.0
4,2,437571,2019-01-01,Robo (con violencia),Robo Automotor,1.0,4.0,Parque Patricios,-34.633161,-58.397123,3.0


In [135]:
# valor Z !
df["columna_z"] =  (df["columna_x"] - df["columna_x"].mean()) / df["columna_x"].std()
df.head()

Unnamed: 0,franja_horaria,id,fecha,tipo_delito,subtipo_delito,cantidad_registrada,comuna,barrio,lat,long,columna_x,columna_z
0,12,374556,2019-01-01,Lesiones,Siniestro Vial,1.0,4.0,Nueva Pompeya,-34.648387,-58.404748,9.0,-0.505872
1,6,426152,2019-01-01,Robo (con violencia),-58.4329,1.0,9.0,Liniers,-34.649827,-58.513859,7.0,-0.937858
2,8,371604,2019-01-01,Lesiones,Siniestro Vial,1.0,15.0,Chacarita,-34.588108,-58.439392,10.0,-0.289879
3,16,425359,2019-01-01,Hurto (sin violencia),Hurto Automotor,1.0,10.0,Floresta,-34.631877,-58.483975,14.0,0.574094
4,2,437571,2019-01-01,Robo (con violencia),Robo Automotor,1.0,4.0,Parque Patricios,-34.633161,-58.397123,3.0,-1.80183


### 🔦 Info en valores únicos 

In [137]:
#Valores únicos
df["comuna"].unique()

array([  4.        ,   9.        ,  15.        ,  10.        ,
        12.        ,   5.        ,  14.        ,   7.        ,
        11.        ,   3.        ,   8.        ,   1.        ,
         2.        ,   6.        ,  13.        , -58.43290079])

In [138]:
#Cantidad de Valores únicos
df['comuna'].nunique()

16

In [139]:
#Frecuencia Absoluta 
df['comuna'].value_counts()

 1.000000     18874
 3.000000     11134
 4.000000      9920
 14.000000     9559
 7.000000      7767
 13.000000     7274
 15.000000     6836
 5.000000      6720
 9.000000      6082
 8.000000      6074
 12.000000     5918
 2.000000      5589
 11.000000     5193
 10.000000     5155
 6.000000      4962
-58.432901      596
Name: comuna, dtype: int64

###  Columnas  Condicionales 
---

Este paso es muy común y es muy usado para realizar **feature engineering**, crear nuevas variables a partir de ya existentes. 


In [140]:
df["barrio"].unique()

array(['Nueva Pompeya', 'Liniers', 'Chacarita', 'Floresta',
       'Parque Patricios', 'Boca', 'Villa Pueyrredón', 'Barracas',
       'Almagro', 'Palermo', 'Parque Avellaneda', 'Parque Chacabuco',
       'Villa Devoto', 'San Cristóbal', 'Villa Lugano', 'Retiro',
       'Mataderos', 'Villa Crespo', 'Balvanera', 'Recoleta',
       'Villa Soldati', 'Constitución', 'Villa Urquiza', 'Flores',
       'San Telmo', 'Caballito', 'Nuñez', 'Villa Luro', 'Belgrano',
       'Saavedra', 'Puerto Madero', 'Villa Ortuzar', 'San Nicolás',
       'Boedo', 'Monserrat', 'Colegiales', 'Villa del Parque', 'Coghlan',
       'Villa Santa Rita', -58.432900790515326, 'Monte Castro',
       'Villa Riachuelo', 'Villa Gral. Mitre', 'Paternal', 'Agronomía',
       'Vélez Sársfield', 'Parque Chas', 'Villa Real', 'Versalles'],
      dtype=object)

Queremos crear una nueva columna donde indiquemos que tan cool es el pokemon basado en la generación.  Entonces usamos esta regla:

- Entre 1 y 3 son  Loosers
- Entre 4 y 5 son casi Cool
- 6 son Instagramers 

para esto vamos a usar la **selección condicional** que vimos hace un rato.



In [141]:
df.loc[df['comuna'] <= 4 , 'barrio_clase'] = "este"

df.loc[(4 < df['comuna']) & (df['comuna'] <=8) , 'barrio_clase'] = "oeste"

df.loc[df['comuna']>8 , 'barrio_clase'] = "centro"

df.head()

Unnamed: 0,franja_horaria,id,fecha,tipo_delito,subtipo_delito,cantidad_registrada,comuna,barrio,lat,long,columna_x,columna_z,barrio_clase
0,12,374556,2019-01-01,Lesiones,Siniestro Vial,1.0,4.0,Nueva Pompeya,-34.648387,-58.404748,9.0,-0.505872,este
1,6,426152,2019-01-01,Robo (con violencia),-58.4329,1.0,9.0,Liniers,-34.649827,-58.513859,7.0,-0.937858,centro
2,8,371604,2019-01-01,Lesiones,Siniestro Vial,1.0,15.0,Chacarita,-34.588108,-58.439392,10.0,-0.289879,centro
3,16,425359,2019-01-01,Hurto (sin violencia),Hurto Automotor,1.0,10.0,Floresta,-34.631877,-58.483975,14.0,0.574094,centro
4,2,437571,2019-01-01,Robo (con violencia),Robo Automotor,1.0,4.0,Parque Patricios,-34.633161,-58.397123,3.0,-1.80183,este


In [144]:
print(df["barrio_clase"].unique())
df["barrio_clase"].value_counts()

['este' 'centro' 'oeste']


este      46113
centro    46017
oeste     25523
Name: barrio_clase, dtype: int64

###  🛠️  Funciones aplicadas a las columnas

Vamos a usar el método **apply()**, el cual toma como input una función. La idea es que se va a ejecutar a cada elemento. 

In [294]:
def times2(x):
    return x*2

In [295]:
df["comuna2"] = df['comuna'].apply(times2)
df.head()

Unnamed: 0_level_0,fecha,franja_horaria,tipo_delito,subtipo_delito,cantidad_registrada,comuna,barrio,lat,long,comuna2
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
374556,2019-01-01,12,Lesiones,Siniestro Vial,1.0,4.0,Nueva Pompeya,-34.648387,-58.404748,8.0
426152,2019-01-01,6,Robo (con violencia),,1.0,9.0,Liniers,-34.649827,-58.513859,18.0
371604,2019-01-01,8,Lesiones,Siniestro Vial,1.0,15.0,Chacarita,-34.588108,-58.439392,30.0
425359,2019-01-01,16,Hurto (sin violencia),Hurto Automotor,1.0,10.0,Floresta,-34.631877,-58.483975,20.0
437571,2019-01-01,2,Robo (con violencia),Robo Automotor,1.0,4.0,Parque Patricios,-34.633161,-58.397123,8.0


In [300]:
df["tipo_delito"].apply(len)

id
374556     8
426152    20
371604     8
425359    21
437571    20
          ..
486770    20
486678    20
486668    20
486750    20
486683    20
Name: tipo_delito, Length: 117653, dtype: int64

In [301]:
df["tipo_delito"].apply(str)

id
374556                 Lesiones
426152     Robo (con violencia)
371604                 Lesiones
425359    Hurto (sin violencia)
437571     Robo (con violencia)
                  ...          
486770     Robo (con violencia)
486678     Robo (con violencia)
486668     Robo (con violencia)
486750     Robo (con violencia)
486683     Robo (con violencia)
Name: tipo_delito, Length: 117653, dtype: object

## 🛡️  Group By
----
¿Que es un Group By?



![Image of Yaktocat](https://data36.com/wp-content/uploads/2017/06/SQL-GROUP-BY-clause-1024x720.png)

In [303]:
df["barrio"].unique()

array(['Nueva Pompeya', 'Liniers', 'Chacarita', 'Floresta',
       'Parque Patricios', 'Boca', 'Villa Pueyrredón', 'Barracas',
       'Almagro', 'Palermo', 'Parque Avellaneda', 'Parque Chacabuco',
       'Villa Devoto', 'San Cristóbal', 'Villa Lugano', 'Retiro',
       'Mataderos', 'Villa Crespo', 'Balvanera', 'Recoleta',
       'Villa Soldati', 'Constitución', 'Villa Urquiza', 'Flores',
       'San Telmo', 'Caballito', 'Nuñez', 'Villa Luro', 'Belgrano',
       'Saavedra', 'Puerto Madero', 'Villa Ortuzar', 'San Nicolás',
       'Boedo', 'Monserrat', 'Colegiales', 'Villa del Parque', 'Coghlan',
       'Villa Santa Rita', nan, 'Monte Castro', 'Villa Riachuelo',
       'Villa Gral. Mitre', 'Paternal', 'Agronomía', 'Vélez Sársfield',
       'Parque Chas', 'Villa Real', 'Versalles'], dtype=object)

In [304]:
#Group By por si solo no hace nada
df_group = df.groupby("barrio")
df_group

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x12825db38>

In [311]:
# Devuelve la media para cada variable 
df_group.mean()

Unnamed: 0_level_0,cantidad_registrada,comuna,comuna2,franja_horaria,lat,long
barrio,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Agronomía,1.0,15.0,30.0,13.484581,-34.592736,-58.491886
Almagro,1.0,5.0,10.0,13.527676,-34.607667,-58.420826
Balvanera,1.0,3.0,6.0,13.925742,-34.6076,-58.403423
Barracas,1.00027,4.0,8.0,13.12345,-34.645137,-58.383798
Belgrano,1.0,13.0,26.0,14.280789,-34.559443,-58.455102
Boca,1.0,4.0,8.0,13.565657,-34.634076,-58.362294
Boedo,1.0,5.0,10.0,13.923588,-34.629162,-58.418788
Caballito,1.0,6.0,12.0,13.890367,-34.617539,-58.441193
Chacarita,1.000689,15.0,30.0,13.568573,-34.586753,-58.450905
Coghlan,1.0,12.0,24.0,13.777311,-34.560808,-58.47419


In [320]:
df_group.mean()["franja_horaria"].sort_values(ascending=False).head()

barrio
Puerto Madero    14.590106
Belgrano         14.280789
San Nicolás      14.172110
Colegiales       14.145777
Nuñez            14.072102
Name: franja_horaria, dtype: float64

In [319]:
df_group.std()["comuna"].head()

barrio
Agronomía    0.0
Almagro      0.0
Balvanera    0.0
Barracas     0.0
Belgrano     0.0
Name: comuna, dtype: float64

In [318]:
df_group.describe()["cantidad_registrada"].sort_values(by='count',ascending=False).head()

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
barrio,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Palermo,9559.0,1.000105,0.010228,1.0,1.0,1.0,1.0,2.0
Balvanera,9238.0,1.0,0.0,1.0,1.0,1.0,1.0,1.0
San Nicolás,6246.0,1.0,0.0,1.0,1.0,1.0,1.0,1.0
Recoleta,5589.0,1.0,0.0,1.0,1.0,1.0,1.0,1.0
Flores,5518.0,1.0,0.0,1.0,1.0,1.0,1.0,1.0


Otras operaciones summary son:
- .min()
- .max()
- .count()
- .idxmax()
- .idxmin()
- .quantile()
- .skew()
- .kurtosis()

### 🤺 Operaciones Summary
---
Estas son algunas de las funciones que se aplican cuando usamos la **función describe()**


In [322]:
print(df["comuna"].min()) # Minimo
print(df["comuna"].max()) # Maximo
print(df["comuna"].count()) # Cantidad
print(df["comuna"].idxmax()) # El índice del valor máximo
print(df["comuna"].idxmin()) # El índice del valor mínimo
print(df["comuna"].quantile([.25,.5,.75])) # Los quantiles
print(df["comuna"].skew()) # Asimetria
print(df["comuna"].kurtosis()) # Kurtosis

1.0
15.0
117057
371604
372543
0.25     3.0
0.50     7.0
0.75    12.0
Name: comuna, dtype: float64
0.2276473574238919
-1.3288936999123235


## 🧷 Concatenar Dataframes
---

Se puede Armar Dataframes a partir de Diccionarios 

In [None]:
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                        'B': ['B0', 'B1', 'B2', 'B3'],
                        'C': ['C0', 'C1', 'C2', 'C3'],
                        'D': ['D0', 'D1', 'D2', 'D3']},
                        index=[0, 1, 2, 3])

In [None]:
df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                        'B': ['B4', 'B5', 'B6', 'B7'],
                        'C': ['C4', 'C5', 'C6', 'C7'],
                        'D': ['D4', 'D5', 'D6', 'D7']},
                         index=[4, 5, 6, 7]) 

In [None]:
pd.concat([df1,df2]) # stockean como blockes de lego

In [None]:
pd.concat([df1,df2], axis=1) #Por Default axis=0, se acumulan a la derecha

## 👾 Funciones Con Pandas! WOW
---
Vamos a ver como crear funciones para automtizar nuestro laburo

In [324]:
def obtener_Z(df, columna):
    # valor Z !
    df2 = pd.DataFrame([])
    df2[f"Z_{columna}"] =  (df[columna] - df[columna].mean()) / df[columna].std()
    return df2

obtener_Z(df, "comuna")

Unnamed: 0_level_0,Z_comuna
id,Unnamed: 1_level_1
374556,-0.665527
426152,0.397019
371604,1.672075
425359,0.609528
437571,-0.665527
...,...
486770,0.184510
486678,-0.453018
486668,-1.303055
486750,1.672075


In [326]:
# Sacamos los valores Z para Attack 

Z_comuna = obtener_Z(df, "comuna")

pd.concat([df, Z_comuna ], axis=1)

Unnamed: 0_level_0,fecha,franja_horaria,tipo_delito,subtipo_delito,cantidad_registrada,comuna,barrio,lat,long,comuna2,Z_comuna
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
374556,2019-01-01,12,Lesiones,Siniestro Vial,1.0,4.0,Nueva Pompeya,-34.648387,-58.404748,8.0,-0.665527
426152,2019-01-01,6,Robo (con violencia),,1.0,9.0,Liniers,-34.649827,-58.513859,18.0,0.397019
371604,2019-01-01,8,Lesiones,Siniestro Vial,1.0,15.0,Chacarita,-34.588108,-58.439392,30.0,1.672075
425359,2019-01-01,16,Hurto (sin violencia),Hurto Automotor,1.0,10.0,Floresta,-34.631877,-58.483975,20.0,0.609528
437571,2019-01-01,2,Robo (con violencia),Robo Automotor,1.0,4.0,Parque Patricios,-34.633161,-58.397123,8.0,-0.665527
...,...,...,...,...,...,...,...,...,...,...,...
486770,2019-12-31,18,Robo (con violencia),Robo Automotor,1.0,8.0,Villa Riachuelo,-34.692347,-58.472299,16.0,0.184510
486678,2019-12-31,4,Robo (con violencia),Robo Automotor,1.0,5.0,Boedo,-34.626424,-58.422846,10.0,-0.453018
486668,2019-12-31,1,Robo (con violencia),Robo Automotor,1.0,1.0,Monserrat,-34.615892,-58.370573,2.0,-1.303055
486750,2019-12-31,14,Robo (con violencia),Robo Automotor,1.0,15.0,Villa Crespo,-34.602577,-58.433145,30.0,1.672075


##  💐 Intervalos de Clase
---

La idea es transformar las variables continuas en discretas, poniendolas en contenedores.

In [328]:
df.head()

Unnamed: 0_level_0,fecha,franja_horaria,tipo_delito,subtipo_delito,cantidad_registrada,comuna,barrio,lat,long,comuna2
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
374556,2019-01-01,12,Lesiones,Siniestro Vial,1.0,4.0,Nueva Pompeya,-34.648387,-58.404748,8.0
426152,2019-01-01,6,Robo (con violencia),,1.0,9.0,Liniers,-34.649827,-58.513859,18.0
371604,2019-01-01,8,Lesiones,Siniestro Vial,1.0,15.0,Chacarita,-34.588108,-58.439392,30.0
425359,2019-01-01,16,Hurto (sin violencia),Hurto Automotor,1.0,10.0,Floresta,-34.631877,-58.483975,20.0
437571,2019-01-01,2,Robo (con violencia),Robo Automotor,1.0,4.0,Parque Patricios,-34.633161,-58.397123,8.0


In [329]:
# Con Cut le indicamos cuanto contenedores queremos
pd.cut(df["franja_horaria"], bins=15)

id
374556    (10.733, 12.267]
426152        (4.6, 6.133]
371604        (7.667, 9.2]
425359    (15.333, 16.867]
437571      (1.533, 3.067]
                ...       
486770      (16.867, 18.4]
486678        (3.067, 4.6]
486668     (-0.023, 1.533]
486750      (13.8, 15.333]
486683      (6.133, 7.667]
Name: franja_horaria, Length: 117653, dtype: category
Categories (15, interval[float64]): [(-0.023, 1.533] < (1.533, 3.067] < (3.067, 4.6] < (4.6, 6.133] ... (16.867, 18.4] < (18.4, 19.933] < (19.933, 21.467] < (21.467, 23.0]]

In [330]:
# qcut se Basa en quantiles 
df["franja_IC"] = pd.qcut(df["franja_horaria"],[0,0.25,0.5,0.75,1])
df["franja_IC"]

id
374556      (9.0, 14.0]
426152    (-0.001, 9.0]
371604    (-0.001, 9.0]
425359     (14.0, 19.0]
437571    (-0.001, 9.0]
              ...      
486770     (14.0, 19.0]
486678    (-0.001, 9.0]
486668    (-0.001, 9.0]
486750      (9.0, 14.0]
486683    (-0.001, 9.0]
Name: franja_IC, Length: 117653, dtype: category
Categories (4, interval[float64]): [(-0.001, 9.0] < (9.0, 14.0] < (14.0, 19.0] < (19.0, 23.0]]

## 🤪  Dummy Variables
---
Es la forma de Transformar variables en discretas en valores numéricos.


La variable toma 1 si se cumple la condición y 0 en caso que no.

In [331]:
df.head()

Unnamed: 0_level_0,fecha,franja_horaria,tipo_delito,subtipo_delito,cantidad_registrada,comuna,barrio,lat,long,comuna2,franja_IC
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
374556,2019-01-01,12,Lesiones,Siniestro Vial,1.0,4.0,Nueva Pompeya,-34.648387,-58.404748,8.0,"(9.0, 14.0]"
426152,2019-01-01,6,Robo (con violencia),,1.0,9.0,Liniers,-34.649827,-58.513859,18.0,"(-0.001, 9.0]"
371604,2019-01-01,8,Lesiones,Siniestro Vial,1.0,15.0,Chacarita,-34.588108,-58.439392,30.0,"(-0.001, 9.0]"
425359,2019-01-01,16,Hurto (sin violencia),Hurto Automotor,1.0,10.0,Floresta,-34.631877,-58.483975,20.0,"(14.0, 19.0]"
437571,2019-01-01,2,Robo (con violencia),Robo Automotor,1.0,4.0,Parque Patricios,-34.633161,-58.397123,8.0,"(-0.001, 9.0]"


In [333]:
pd.get_dummies(data = df, columns=["subtipo_delito"], prefix="sub_Dummy", drop_first=True ).head()

Unnamed: 0_level_0,fecha,franja_horaria,tipo_delito,cantidad_registrada,comuna,barrio,lat,long,comuna2,franja_IC,sub_Dummy_Hurto Automotor,sub_Dummy_Robo Automotor,sub_Dummy_Siniestro Vial
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
374556,2019-01-01,12,Lesiones,1.0,4.0,Nueva Pompeya,-34.648387,-58.404748,8.0,"(9.0, 14.0]",0,0,1
426152,2019-01-01,6,Robo (con violencia),1.0,9.0,Liniers,-34.649827,-58.513859,18.0,"(-0.001, 9.0]",0,0,0
371604,2019-01-01,8,Lesiones,1.0,15.0,Chacarita,-34.588108,-58.439392,30.0,"(-0.001, 9.0]",0,0,1
425359,2019-01-01,16,Hurto (sin violencia),1.0,10.0,Floresta,-34.631877,-58.483975,20.0,"(14.0, 19.0]",1,0,0
437571,2019-01-01,2,Robo (con violencia),1.0,4.0,Parque Patricios,-34.633161,-58.397123,8.0,"(-0.001, 9.0]",0,1,0


## 💌 Funciones relacionadas al Texto
---
En general vamos a usar **.str** para indicar que vamos a usar una función relacionada a las strings. 

In [334]:
df["barrio"].str.lower()

id
374556       nueva pompeya
426152             liniers
371604           chacarita
425359            floresta
437571    parque patricios
                ...       
486770     villa riachuelo
486678               boedo
486668           monserrat
486750        villa crespo
486683        villa lugano
Name: barrio, Length: 117653, dtype: object

In [339]:
#mask = df["barrio"].str.contains('vil')
#df.loc[mask, :]

##  👩‍🏫 Cambiar los nombres de Columna 
---
Vamos a usar la función **rename()**.

In [340]:
df.rename(columns = {'barrio':'Barrio', "comuna": "Poligono"}, inplace=True)
df.head()

Unnamed: 0_level_0,fecha,franja_horaria,tipo_delito,subtipo_delito,cantidad_registrada,Poligono,Barrio,lat,long,comuna2,franja_IC
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
374556,2019-01-01,12,Lesiones,Siniestro Vial,1.0,4.0,Nueva Pompeya,-34.648387,-58.404748,8.0,"(9.0, 14.0]"
426152,2019-01-01,6,Robo (con violencia),,1.0,9.0,Liniers,-34.649827,-58.513859,18.0,"(-0.001, 9.0]"
371604,2019-01-01,8,Lesiones,Siniestro Vial,1.0,15.0,Chacarita,-34.588108,-58.439392,30.0,"(-0.001, 9.0]"
425359,2019-01-01,16,Hurto (sin violencia),Hurto Automotor,1.0,10.0,Floresta,-34.631877,-58.483975,20.0,"(14.0, 19.0]"
437571,2019-01-01,2,Robo (con violencia),Robo Automotor,1.0,4.0,Parque Patricios,-34.633161,-58.397123,8.0,"(-0.001, 9.0]"


In [None]:
df.columns

In [341]:
df.columns = [x.lower() for x in df.columns]
df

Unnamed: 0_level_0,fecha,franja_horaria,tipo_delito,subtipo_delito,cantidad_registrada,poligono,barrio,lat,long,comuna2,franja_ic
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
374556,2019-01-01,12,Lesiones,Siniestro Vial,1.0,4.0,Nueva Pompeya,-34.648387,-58.404748,8.0,"(9.0, 14.0]"
426152,2019-01-01,6,Robo (con violencia),,1.0,9.0,Liniers,-34.649827,-58.513859,18.0,"(-0.001, 9.0]"
371604,2019-01-01,8,Lesiones,Siniestro Vial,1.0,15.0,Chacarita,-34.588108,-58.439392,30.0,"(-0.001, 9.0]"
425359,2019-01-01,16,Hurto (sin violencia),Hurto Automotor,1.0,10.0,Floresta,-34.631877,-58.483975,20.0,"(14.0, 19.0]"
437571,2019-01-01,2,Robo (con violencia),Robo Automotor,1.0,4.0,Parque Patricios,-34.633161,-58.397123,8.0,"(-0.001, 9.0]"
...,...,...,...,...,...,...,...,...,...,...,...
486770,2019-12-31,18,Robo (con violencia),Robo Automotor,1.0,8.0,Villa Riachuelo,-34.692347,-58.472299,16.0,"(14.0, 19.0]"
486678,2019-12-31,4,Robo (con violencia),Robo Automotor,1.0,5.0,Boedo,-34.626424,-58.422846,10.0,"(-0.001, 9.0]"
486668,2019-12-31,1,Robo (con violencia),Robo Automotor,1.0,1.0,Monserrat,-34.615892,-58.370573,2.0,"(-0.001, 9.0]"
486750,2019-12-31,14,Robo (con violencia),Robo Automotor,1.0,15.0,Villa Crespo,-34.602577,-58.433145,30.0,"(9.0, 14.0]"


In [4]:
df.columns.values[1] ="nombre"
df.head()

Unnamed: 0,id,nombre,franja_horaria,tipo_delito,subtipo_delito,cantidad_registrada,comuna,barrio,lat,long
0,374556,2019-01-01,12,Lesiones,Siniestro Vial,1.0,4.0,Nueva Pompeya,-34.648387,-58.404748
1,426152,2019-01-01,6,Robo (con violencia),,1.0,9.0,Liniers,-34.649827,-58.513859
2,371604,2019-01-01,8,Lesiones,Siniestro Vial,1.0,15.0,Chacarita,-34.588108,-58.439392
3,425359,2019-01-01,16,Hurto (sin violencia),Hurto Automotor,1.0,10.0,Floresta,-34.631877,-58.483975
4,437571,2019-01-01,2,Robo (con violencia),Robo Automotor,1.0,4.0,Parque Patricios,-34.633161,-58.397123


## 👀 Exportando Archivos
---

In [None]:
#Exportando a CSV
df1.to_csv('Ejemplo.csv',index=False)
#Exportando a Excel
df1.to_excel("excel_df.xlsx", index=False)

In [None]:
pd.read_csv("Ejemplo.csv")

# Felicitaciones por completar esta parte!  