# Sesión 05: Funciones vectorizadas y limpieza de datos

## Ejemplo 1: Funciones vectorizadas con Series

Las funciones vectorizadas en Python, especialmente en el contexto de pandas, se refieren a operaciones que se aplican a Series de manera eficiente y rápida, actuando sobre cada elemento de la Serie sin la necesidad de un bucle explícito. Estas funciones son cruciales para el análisis de datos debido a su eficiencia y capacidad para manejar grandes conjuntos de datos. Aquí están algunas de las funciones vectorizadas más comunes para trabajar con Series en pandas:

In [1]:
import pandas as pd
import numpy as np

In [None]:
serie_1 = pd.Series([1,2,3,4,5,6,7,8,9,10])

In [None]:
serie_1 + 10

0    11
1    12
2    13
3    14
4    15
5    16
6    17
7    18
8    19
9    20
dtype: int64

In [None]:
serie_1 * 150

0     150
1     300
2     450
3     600
4     750
5     900
6    1050
7    1200
8    1350
9    1500
dtype: int64

In [None]:
(serie_1 +10) * 100

0    1100
1    1200
2    1300
3    1400
4    1500
5    1600
6    1700
7    1800
8    1900
9    2000
dtype: int64

In [None]:
serie_1 * 60 / 100

0    0.6
1    1.2
2    1.8
3    2.4
4    3.0
5    3.6
6    4.2
7    4.8
8    5.4
9    6.0
dtype: float64

In [None]:
import numpy as np

In [None]:
np.power(serie_1,15)

0                   1
1               32768
2            14348907
3          1073741824
4         30517578125
5        470184984576
6       4747561509943
7      35184372088832
8     205891132094649
9    1000000000000000
dtype: int64

In [None]:
np.sqrt(serie_1)

0    1.000000
1    1.414214
2    1.732051
3    2.000000
4    2.236068
5    2.449490
6    2.645751
7    2.828427
8    3.000000
9    3.162278
dtype: float64

### Funciones Aritméticas

- **`add()`, `sub()`, `mul()`, `div()`**: Realizan operaciones básicas de suma, resta, multiplicación y división.
- **`pow()`**: Eleva los elementos de la Serie a potencias específicas.
- **`abs()`**: Calcula el valor absoluto de cada elemento.

### Funciones Estadísticas

- **`sum()`**: Suma los elementos de la Serie.
- **`mean()`**: Calcula la media.
- **`median()`**: Obtiene la mediana.
- **`min()`, `max()`**: Encuentra los valores mínimo y máximo.
- **`std()`, `var()`**: Calcula la desviación estándar y la varianza.
- **`cumsum()`, `cumprod()`, `cummax()`, `cummin()`**: Realizan operaciones acumulativas como suma acumulativa, producto acumulativo, máximo acumulativo y mínimo acumulativo.

### Funciones de Manipulación de Texto

- **`str.lower()`, `str.upper()`, `str.capitalize()`**: Cambian el texto a minúsculas, mayúsculas o formato título.
- **`str.strip()`, `str.startswith()`, `str.endswith()`**: Eliminan espacios, verifican si los elementos comienzan o terminan con una subcadena específica.
- **`str.contains()`, `str.replace()`**: Buscan subcadenas o las reemplazan.

### Funciones de Fecha y Tiempo

- **`dt.year`, `dt.month`, `dt.day`**: Extraen el año, mes o día de fechas.
- **`dt.hour`, `dt.minute`, `dt.second`**: Extraen la hora, minuto o segundo.

### Funciones para Trabajar con Datos Nulos

- **`isna()`, `notna()`**: Verifican si los elementos son nulos o no nulos.
- **`fillna()`**: Rellena valores nulos con un valor especificado.
- **`dropna()`**: Elimina los elementos nulos.

### Funciones de Búsqueda y Ordenación

- **`sort_values()`**: Ordena la Serie.
- **`idxmax()`, `idxmin()`**: Encuentran el índice del valor máximo o mínimo.

### Funciones Lógicas

- **`all()`, `any()`**: Verifican si todos los elementos o algún elemento cumple una condición.

Estas funciones, al ser vectorizadas, permiten un procesamiento de datos más rápido y eficiente en comparación con la iteración manual a través de elementos en Python puro. Son herramientas esenciales en el análisis y la manipulación de datos en pandas.

In [None]:
aciertos = pd.Series([50, 55, 45, 65, 66, 46, 48, 53, 55, 56, 59, 68, 67, 60, 45, 56, 66, 64, 59, 55, 34, 45, 49, 48, 55])


In [None]:
(aciertos * 100)/68
porcentajes = (aciertos * 100)/68
porcentajes

0      73.529412
1      80.882353
2      66.176471
3      95.588235
4      97.058824
5      67.647059
6      70.588235
7      77.941176
8      80.882353
9      82.352941
10     86.764706
11    100.000000
12     98.529412
13     88.235294
14     66.176471
15     82.352941
16     97.058824
17     94.117647
18     86.764706
19     80.882353
20     50.000000
21     66.176471
22     72.058824
23     70.588235
24     80.882353
dtype: float64

## Ejemplo 2: Agregaciones

En Python, especialmente en las bibliotecas pandas y NumPy, las funciones de agregación son herramientas cruciales para el análisis de datos, ya que permiten resumir y analizar grandes conjuntos de datos. Aquí te proporciono un resumen de las funciones de agregación más populares en pandas y NumPy:

### Funciones de Agregación en Pandas

1. **`sum()`**: Calcula la suma total de los elementos.
2. **`mean()`**: Determina la media aritmética.
3. **`median()`**: Encuentra la mediana (el valor medio).
4. **`min()` / `max()`**: Obtiene el valor mínimo/máximo.
5. **`std()`**: Calcula la desviación estándar.
6. **`var()`**: Encuentra la varianza.
7. **`count()`**: Cuenta el número de elementos no nulos.
8. **`describe()`**: Proporciona un resumen estadístico rápido.
9. **`quantile(q)`**: Calcula el cuantil para la probabilidad dada `q`.
10. **`agg()` o `aggregate()`**: Permite múltiples operaciones de agregación a la vez.

### Funciones de Agregación en NumPy

NumPy, siendo una biblioteca fundamental para la computación científica en Python, ofrece también una amplia gama de funciones de agregación, muchas de las cuales son compartidas por pandas, pero aplicadas a arrays NumPy:

1. **`np.sum()`**: Calcula la suma de los elementos.
2. **`np.mean()`**: Determina la media aritmética.
3. **`np.median()`**: Encuentra la mediana.
4. **`np.min()` / `np.max()`**: Obtiene el mínimo/máximo valor.
5. **`np.std()`**: Calcula la desviación estándar.
6. **`np.var()`**: Determina la varianza.
7. **`np.ptp()`**: Calcula el rango (diferencia entre el máximo y el mínimo).
8. **`np.percentile()` / `np.quantile()`**: Calcula percentiles/cuantiles.
9. **`np.count_nonzero()`**: Cuenta el número de elementos no cero.
10. **`np.unique()`**: Encuentra los elementos únicos y sus frecuencias.

### Uso Combinado en Análisis de Datos

En análisis de datos, a menudo se combinan las capacidades de pandas y NumPy. Por ejemplo, es común usar NumPy para realizar cálculos en arrays individuales o segmentos de un DataFrame de pandas, y luego usar las funciones de pandas para agregaciones y resúmenes a nivel de DataFrame o Series.

Estas funciones son fundamentales en la exploración y análisis de datos, proporcionando herramientas eficientes para resumir conjuntos de datos complejos y grandes, permitiendo al analista obtener insights y entender las tendencias y patrones en los datos.

In [None]:
import pandas as pd
import numpy as np

# Creando un DataFrame de ejemplo
data = {
    'edad': [25, 30, 35, 40, 45],
    'salario': [50000, 55000, 60000, 65000, 70000],
    'años_de_experiencia': [2, 3, 7, 10, 15]
}

df = pd.DataFrame(data)
df.head()

Unnamed: 0,edad,salario,años_de_experiencia
0,25,50000,2
1,30,55000,3
2,35,60000,7
3,40,65000,10
4,45,70000,15


In [None]:
resumen_estadistico = df.describe()
print(resumen_estadistico)

            edad      salario  años_de_experiencia
count   5.000000      5.00000             5.000000
mean   35.000000  60000.00000             7.400000
std     7.905694   7905.69415             5.319774
min    25.000000  50000.00000             2.000000
25%    30.000000  55000.00000             3.000000
50%    35.000000  60000.00000             7.000000
75%    40.000000  65000.00000            10.000000
max    45.000000  70000.00000            15.000000


In [None]:
serie = pd.Series([1, 2, 3, 4, 5])

In [None]:
serie.sum()

15

In [None]:
serie.min()

1

In [None]:
serie.max()

5

In [None]:
serie.max()

5

In [None]:
serie.count()

5

##Reto 2

In [None]:
edades = pd.Series([23, 24, 23, 34, 30, 17, 18, 24, 35, 28, 27, 27, 34, 32, 29, 16, 16, 17, 19, 34, 45, 46, 43, 45, 43, 32, 25, 29, 28, 38, 30, 37, 38, 24, 26, 25, 24, 19, 19, 18, 17, 18, 21, 20, 23, 24, 25, 25, 26, 24, 23, 32, 24, 25, 24, 36, 35, 36, 38, 39, 45, 46, 43, 48, 42, 41, 41, 26, 19, 19, 19, 20, 39, 38, 43, 28, 27, 39, 43, 52, 50, 38, 15, 17, 23, 25, 19, 32, 34, 35, 19, 19, 20, 26, 25, 43, 45, 46, 34, 33, 30, 30, 34, 45, 50, 50, 47, 25, 34, 37, 38, 19, 19, 20, 25, 28, 34, 32, 36, 39, 39, 28, 34, 33, 22, 25, 17, 17, 22, 24, 25, 45, 46, 43, 34, 35, 32, 23])
promedio = edades.sum() / edades.count()
diferencia = edades - promedio
cuadrado = np.power(diferencia, 2)
suma = cuadrado.sum()
division = suma / (edades.count() - 1)
raiz = np.sqrt(division)
promedio = edades.mean()
resta = edades - promedio
cuadrado = np.power(resta,2)
suma = cuadrado.sum()
numero_datos = edades.count()
valor_dentro = suma/(numero_datos-1)
std = np.sqrt(valor_dentro)
std#desviacion estandar

9.55678104254041

## Ejemplo 3: Funciones vectorizadas y agregaciones con DataFrames

In [None]:
datos = {
    'precio': [34, 54, 223, 78, 56, 12, 34],
    'cantidad_en_stock': [3, 6, 10, 2, 5, 45, 2],
    'productos_vendidos': [3, 45, 23, 76, 24, 6, 2]
}

df = pd.DataFrame(datos, index=["Pokemaster", "Cegatron",
                                "Pika shuuu", "Lazarillo de Tormes",
                                "Stevie Wonder", "Needle", "El AyMeDuele"])
df.head(10)

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,34,3,3
Cegatron,54,6,45
Pika shuuu,223,10,23
Lazarillo de Tormes,78,2,76
Stevie Wonder,56,5,24
Needle,12,45,6
El AyMeDuele,34,2,2


In [None]:
df * 100

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,3400,300,300
Cegatron,5400,600,4500
Pika shuuu,22300,1000,2300
Lazarillo de Tormes,7800,200,7600
Stevie Wonder,5600,500,2400
Needle,1200,4500,600
El AyMeDuele,3400,200,200


In [None]:
(df * 100) / 2

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,1700.0,150.0,150.0
Cegatron,2700.0,300.0,2250.0
Pika shuuu,11150.0,500.0,1150.0
Lazarillo de Tormes,3900.0,100.0,3800.0
Stevie Wonder,2800.0,250.0,1200.0
Needle,600.0,2250.0,300.0
El AyMeDuele,1700.0,100.0,100.0


In [None]:
np.power(df, 2)

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,1156,9,9
Cegatron,2916,36,2025
Pika shuuu,49729,100,529
Lazarillo de Tormes,6084,4,5776
Stevie Wonder,3136,25,576
Needle,144,2025,36
El AyMeDuele,1156,4,4


In [None]:
np.sqrt(df)

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,5.830952,1.732051,1.732051
Cegatron,7.348469,2.44949,6.708204
Pika shuuu,14.933185,3.162278,4.795832
Lazarillo de Tormes,8.831761,1.414214,8.717798
Stevie Wonder,7.483315,2.236068,4.898979
Needle,3.464102,6.708204,2.44949
El AyMeDuele,5.830952,1.414214,1.414214


In [None]:
np.sin(df) + 100

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,100.529083,100.14112,100.14112
Cegatron,99.441211,99.720585,100.850904
Pika shuuu,100.053053,99.455979,99.15378
Lazarillo de Tormes,100.513978,100.909297,100.566108
Stevie Wonder,99.478449,99.041076,99.094422
Needle,99.463427,100.850904,99.720585
El AyMeDuele,100.529083,100.909297,100.909297


In [None]:
# Funciones de agregacion
df.sum(axis=0) # axis = 0 es por columnas

precio                491
cantidad_en_stock      73
productos_vendidos    179
dtype: int64

In [None]:
df.sum(axis=1) # axis = 1 es por renglon

Pokemaster              40
Cegatron               105
Pika shuuu             256
Lazarillo de Tormes    156
Stevie Wonder           85
Needle                  63
El AyMeDuele            38
dtype: int64

In [None]:
df.min()

precio                12
cantidad_en_stock      2
productos_vendidos     2
dtype: int64

## Ejemplo 4: Identificación y conteo de NaNs

In [None]:
import pandas as pd
import numpy as np

In [3]:
datos = {
    'precio': [34, 54, np.nan, np.nan, 56, 12, 34],
    'cantidad_en_stock': [3, 6, 14, np.nan, 5, 2, 10],
    'productos_vendidos': [3, 45, 23, np.nan, 24, 6, np.nan]
}
df = pd.DataFrame(datos, index=["Pokemaster", "Cegatron", "Pika Shuu",
                                "Lazarillo de Tormes", "Stevie Wonder",
                                "Needle", "El AyMeDuele"])
df.head(10)


Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,34.0,3.0,3.0
Cegatron,54.0,6.0,45.0
Pika Shuu,,14.0,23.0
Lazarillo de Tormes,,,
Stevie Wonder,56.0,5.0,24.0
Needle,12.0,2.0,6.0
El AyMeDuele,34.0,10.0,


In [4]:
df.isna() #True = Nan

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,False,False,False
Cegatron,False,False,False
Pika Shuu,True,False,False
Lazarillo de Tormes,True,True,True
Stevie Wonder,False,False,False
Needle,False,False,False
El AyMeDuele,False,False,True


In [None]:
df.isna().sum(axis=1) # axis=1 representa valores o conteo por renglones

Pokemaster             0
Cegatron               0
Pika Shuu              1
Lazarillo de Tormes    3
Stevie Wonder          0
Needle                 0
El AyMeDuele           1
dtype: int64

In [None]:
df.isna().sum(axis=0) # axis=0 representa valores o conteo por columnas

precio                2
cantidad_en_stock     1
productos_vendidos    2
dtype: int64

## Ejemplo 5: Limpiando nans

In [None]:
# Para limpiar las filas que tengan mínimo 1 valor NaN, se utiliza dropna(axis=0, how='any'):
# how='any': Especifica cómo se determinará si una fila o columna se eliminará:

# how='any': Si cualquier valor en la fila (o columna, dependiendo de axis) es NaN, entonces esa fila (o columna) será eliminada.
# how='all': Si todos los valores en la fila (o columna) son NaN, entonces esa fila (o columna) será eliminada.

In [8]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [9]:
df.head(10)

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,34.0,3.0,3.0
Cegatron,54.0,6.0,45.0
Pika Shuu,,14.0,23.0
Lazarillo de Tormes,,,
Stevie Wonder,56.0,5.0,24.0
Needle,12.0,2.0,6.0
El AyMeDuele,34.0,10.0,


In [10]:
df.dropna(axis=0, how='any')#eliminar filas con NaNs

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,34.0,3.0,3.0
Cegatron,54.0,6.0,45.0
Stevie Wonder,56.0,5.0,24.0
Needle,12.0,2.0,6.0


In [11]:
df.dropna(axis=0, how='all') # axis = 0 representa por renglones

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,34.0,3.0,3.0
Cegatron,54.0,6.0,45.0
Pika Shuu,,14.0,23.0
Stevie Wonder,56.0,5.0,24.0
Needle,12.0,2.0,6.0
El AyMeDuele,34.0,10.0,


In [12]:
df_dropped = df.dropna(axis=0, how='all')#eliminar solamente las filas donde TODOS los valores sean NaN
df_dropped.head(10)

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,34.0,3.0,3.0
Cegatron,54.0,6.0,45.0
Pika Shuu,,14.0,23.0
Stevie Wonder,56.0,5.0,24.0
Needle,12.0,2.0,6.0
El AyMeDuele,34.0,10.0,


In [13]:
df['descuento'] = np.nan
df.head(10)

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos,descuento
Pokemaster,34.0,3.0,3.0,
Cegatron,54.0,6.0,45.0,
Pika Shuu,,14.0,23.0,
Lazarillo de Tormes,,,,
Stevie Wonder,56.0,5.0,24.0,
Needle,12.0,2.0,6.0,
El AyMeDuele,34.0,10.0,,


In [14]:
df.dropna(axis=1, how='any') # axis = 1 representa por columnas

Pokemaster
Cegatron
Pika Shuu
Lazarillo de Tormes
Stevie Wonder
Needle
El AyMeDuele


In [15]:
df.head()

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos,descuento
Pokemaster,34.0,3.0,3.0,
Cegatron,54.0,6.0,45.0,
Pika Shuu,,14.0,23.0,
Lazarillo de Tormes,,,,
Stevie Wonder,56.0,5.0,24.0,


In [16]:
df.dropna(axis=1, how='all') # axis = 1 representa por columnas

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,34.0,3.0,3.0
Cegatron,54.0,6.0,45.0
Pika Shuu,,14.0,23.0
Lazarillo de Tormes,,,
Stevie Wonder,56.0,5.0,24.0
Needle,12.0,2.0,6.0
El AyMeDuele,34.0,10.0,


In [17]:
# Llenando NaNs con valores
df_no_nans = df.dropna(axis=0, how='all') # para renglones
df_no_nans = df_no_nans.dropna(axis=1, how='all') # para columnas

df_no_nans.head(10)

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,34.0,3.0,3.0
Cegatron,54.0,6.0,45.0
Pika Shuu,,14.0,23.0
Stevie Wonder,56.0,5.0,24.0
Needle,12.0,2.0,6.0
El AyMeDuele,34.0,10.0,


In [18]:
df_no_nans['productos_vendidos'] = df_no_nans['productos_vendidos'].fillna(0)
df_no_nans

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,34.0,3.0,3.0
Cegatron,54.0,6.0,45.0
Pika Shuu,,14.0,23.0
Stevie Wonder,56.0,5.0,24.0
Needle,12.0,2.0,6.0
El AyMeDuele,34.0,10.0,0.0


In [19]:
# Para finalizar, "precio" sí es una variable muy importante, así que nos deshacemos de las filas que aún tengan NaNs:
df_no_nans.dropna(axis=0)

Unnamed: 0,precio,cantidad_en_stock,productos_vendidos
Pokemaster,34.0,3.0,3.0
Cegatron,54.0,6.0,45.0
Stevie Wonder,56.0,5.0,24.0
Needle,12.0,2.0,6.0
El AyMeDuele,34.0,10.0,0.0


## Ejemplo 6: Limpiando NaNs en un dataset real

In [6]:
import pandas as pd
import numpy as np

In [20]:
df = pd.read_csv('/content/drive/MyDrive/Datasets/melbourne_housing-raw.csv', sep=',')

df.head()

Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,Postcode,...,Bathroom,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount
0,Abbotsford,68 Studley St,2,h,,SS,Jellis,3/09/2016,2.5,3067.0,...,1.0,1.0,126.0,,,Yarra,-37.8014,144.9958,Northern Metropolitan,4019.0
1,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,3067.0,...,1.0,1.0,202.0,,,Yarra,-37.7996,144.9984,Northern Metropolitan,4019.0
2,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,3067.0,...,1.0,0.0,156.0,79.0,1900.0,Yarra,-37.8079,144.9934,Northern Metropolitan,4019.0
3,Abbotsford,18/659 Victoria St,3,u,,VB,Rounds,4/02/2016,2.5,3067.0,...,2.0,1.0,0.0,,,Yarra,-37.8114,145.0116,Northern Metropolitan,4019.0
4,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,3067.0,...,2.0,0.0,134.0,150.0,1900.0,Yarra,-37.8093,144.9944,Northern Metropolitan,4019.0


In [21]:
df.shape

(19740, 21)

In [22]:
df.tail(10)

Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,Postcode,...,Bathroom,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount
19730,Wheelers Hill,9 Xavier Dr,4,h,,PN,Harcourts,29/07/2017,16.7,3150.0,...,,,,,,,,,South-Eastern Metropolitan,7392.0
19731,Whittlesea,30 Sherwin St,3,h,601000.0,S,Ray,29/07/2017,35.5,3757.0,...,2.0,2.0,1970.0,779.0,135.0,Manningham,-37.76311,145.10494,Northern Victoria,2170.0
19732,Williamstown,75 Cecil St,3,h,1050000.0,VB,Williams,29/07/2017,6.8,3016.0,...,,,,,,,,,Western Metropolitan,6380.0
19733,Williamstown,2/29 Dover Rd,1,u,385000.0,SP,Williams,29/07/2017,6.8,3016.0,...,1.0,3.0,,819.0,,Whittlesea,-37.67908,145.02095,Western Metropolitan,6380.0
19734,Williamstown,87 Pasco St,3,h,1285000.0,S,Jas,29/07/2017,6.8,3016.0,...,1.0,1.0,2010.0,140.0,78.0,Whittlesea,-37.68199,145.01744,Western Metropolitan,6380.0
19735,Windsor,201/152 Peel St,2,u,560000.0,PI,hockingstuart,29/07/2017,4.6,3181.0,...,1.0,1.0,,585.0,,Whittlesea,-37.67681,145.00323,Southern Metropolitan,4380.0
19736,Wollert,60 Saltlake Bvd,3,h,525300.0,S,Stockdale,29/07/2017,25.5,3750.0,...,2.0,2.0,,333.0,,Darebin,-37.75884,145.00264,Northern Metropolitan,2940.0
19737,Yarraville,2 Adeney St,2,h,750000.0,SP,hockingstuart,29/07/2017,6.3,3013.0,...,2.0,2.0,1999.0,199.0,140.0,Darebin,-37.75948,144.99615,Western Metropolitan,6543.0
19738,Yarraville,54 Pentland Pde,6,h,2450000.0,VB,Village,29/07/2017,6.3,3013.0,...,2.0,1.0,2011.0,238.0,118.0,Hume,-37.70322,144.88236,Western Metropolitan,6543.0
19739,Yarraville,10/127 Somerville Rd,3,t,645000.0,SP,Jas,29/07/2017,6.3,3013.0,...,1.0,1.0,1980.0,0.0,66.32,Hume,-37.69815,144.88019,Western Metropolitan,6543.0


In [23]:
df.isna().sum()

Suburb               0
Address              0
Rooms                0
Type                 0
Price             4344
Method               0
SellerG              0
Date                 0
Distance             8
Postcode             8
Bedroom2          4413
Bathroom          4413
Car               4413
Landsize          4796
BuildingArea     11123
YearBuilt        10389
CouncilArea       4444
Lattitude         4292
Longtitude        4292
Regionname           8
Propertycount        8
dtype: int64

In [24]:
df_2 = df.drop(columns=['BuildingArea', 'YearBuilt'])#eliminanamos estas columnas ya que tiene  muchos NaNs
df_2.isna().sum()

Suburb              0
Address             0
Rooms               0
Type                0
Price            4344
Method              0
SellerG             0
Date                0
Distance            8
Postcode            8
Bedroom2         4413
Bathroom         4413
Car              4413
Landsize         4796
CouncilArea      4444
Lattitude        4292
Longtitude       4292
Regionname          8
Propertycount       8
dtype: int64

In [25]:
df_2['Regionname'] = df_2['Regionname'].fillna('No sabemos')

df_2.isna().sum()

Suburb              0
Address             0
Rooms               0
Type                0
Price            4344
Method              0
SellerG             0
Date                0
Distance            8
Postcode            8
Bedroom2         4413
Bathroom         4413
Car              4413
Landsize         4796
CouncilArea      4444
Lattitude        4292
Longtitude       4292
Regionname          0
Propertycount       8
dtype: int64

In [26]:
# Ahora eliminemos las filas que contengan al menos un NaN:
df_dropped = df_2.dropna(axis=0, how='any')
df_dropped.isna().sum()

Suburb           0
Address          0
Rooms            0
Type             0
Price            0
Method           0
SellerG          0
Date             0
Distance         0
Postcode         0
Bedroom2         0
Bathroom         0
Car              0
Landsize         0
CouncilArea      0
Lattitude        0
Longtitude       0
Regionname       0
Propertycount    0
dtype: int64

In [27]:
df_dropped.shape #Total de filas que nos quedaron despues de hacer la limpia de NaNs

(11646, 19)

## Ejemplo 7: Reindexando y renombrando columnas

In [28]:
import pandas as pd

In [38]:
df = pd.read_csv('/content/drive/MyDrive/Datasets/melbourne_housing-raw.csv', sep=',')

df.head()

Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,Postcode,...,Bathroom,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount
0,Abbotsford,68 Studley St,2,h,,SS,Jellis,3/09/2016,2.5,3067.0,...,1.0,1.0,126.0,,,Yarra,-37.8014,144.9958,Northern Metropolitan,4019.0
1,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,3067.0,...,1.0,1.0,202.0,,,Yarra,-37.7996,144.9984,Northern Metropolitan,4019.0
2,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,3067.0,...,1.0,0.0,156.0,79.0,1900.0,Yarra,-37.8079,144.9934,Northern Metropolitan,4019.0
3,Abbotsford,18/659 Victoria St,3,u,,VB,Rounds,4/02/2016,2.5,3067.0,...,2.0,1.0,0.0,,,Yarra,-37.8114,145.0116,Northern Metropolitan,4019.0
4,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,3067.0,...,2.0,0.0,134.0,150.0,1900.0,Yarra,-37.8093,144.9944,Northern Metropolitan,4019.0


In [39]:
df_2 = df.drop(columns=['BuildingArea', 'YearBuilt'])

In [40]:
df_dropped = df_2.dropna(axis=0, how='any')

In [41]:
df_dropped.reset_index(drop = True)#la indexasion anterior la quita

Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,Postcode,Bedroom2,Bathroom,Car,Landsize,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount
0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,3067.0,2.0,1.0,1.0,202.0,Yarra,-37.79960,144.99840,Northern Metropolitan,4019.0
1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,3067.0,2.0,1.0,0.0,156.0,Yarra,-37.80790,144.99340,Northern Metropolitan,4019.0
2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,3067.0,3.0,2.0,0.0,134.0,Yarra,-37.80930,144.99440,Northern Metropolitan,4019.0
3,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,3067.0,3.0,2.0,1.0,94.0,Yarra,-37.79690,144.99690,Northern Metropolitan,4019.0
4,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,3067.0,3.0,1.0,2.0,120.0,Yarra,-37.80720,144.99410,Northern Metropolitan,4019.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
11641,Whittlesea,30 Sherwin St,3,h,601000.0,S,Ray,29/07/2017,35.5,3757.0,3.0,2.0,2.0,1970.0,Manningham,-37.76311,145.10494,Northern Victoria,2170.0
11642,Williamstown,87 Pasco St,3,h,1285000.0,S,Jas,29/07/2017,6.8,3016.0,2.0,1.0,1.0,2010.0,Whittlesea,-37.68199,145.01744,Western Metropolitan,6380.0
11643,Yarraville,2 Adeney St,2,h,750000.0,SP,hockingstuart,29/07/2017,6.3,3013.0,3.0,2.0,2.0,1999.0,Darebin,-37.75948,144.99615,Western Metropolitan,6543.0
11644,Yarraville,54 Pentland Pde,6,h,2450000.0,VB,Village,29/07/2017,6.3,3013.0,3.0,2.0,1.0,2011.0,Hume,-37.70322,144.88236,Western Metropolitan,6543.0


In [42]:
#Cambiemos entonces nuestros nombres de columnas. Primero creamos un mapa de los nombres viejos a los nombres nuevos:
column_name_mapping = {
    'Suburb': 'suburb',
    'Address': 'address',
    'Rooms': 'rooms',
    'Type': 'type',
    'Price': 'price',
    'Method': 'method',
    'SellerG': 'seller_g',
    'Date': 'date',
    'Distance': 'distance',
    'Postcode': 'post_code',
    'Bedroom2': 'bedrooms',
    'Bathroom': 'bathroom',
    'Car': 'car',
    'Landsize asdasd asdasdas asdasd': 'land_size',
    'CouncilArea': 'council_area',
    'Lattitude': 'latitude',
    'Longtitude': 'longitude',
    'Regionname': 'region_name',
    'Propertycount': 'property_count'
}

In [37]:
#Rename para cambiar los nombres:
df_renamed = df_dropped.rename(columns=column_name_mapping)
df_renamed
#Listo ahora los indices estan corretos!!!

Unnamed: 0,suburb,address,rooms,type,price,method,seller_g,date,distance,post_code,bedrooms,bathroom,car,Landsize,council_area,latitude,longitude,region_name,property_count
1,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,3067.0,2.0,1.0,1.0,202.0,Yarra,-37.79960,144.99840,Northern Metropolitan,4019.0
2,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,3067.0,2.0,1.0,0.0,156.0,Yarra,-37.80790,144.99340,Northern Metropolitan,4019.0
4,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,3067.0,3.0,2.0,0.0,134.0,Yarra,-37.80930,144.99440,Northern Metropolitan,4019.0
5,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,3067.0,3.0,2.0,1.0,94.0,Yarra,-37.79690,144.99690,Northern Metropolitan,4019.0
6,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,3067.0,3.0,1.0,2.0,120.0,Yarra,-37.80720,144.99410,Northern Metropolitan,4019.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
19731,Whittlesea,30 Sherwin St,3,h,601000.0,S,Ray,29/07/2017,35.5,3757.0,3.0,2.0,2.0,1970.0,Manningham,-37.76311,145.10494,Northern Victoria,2170.0
19734,Williamstown,87 Pasco St,3,h,1285000.0,S,Jas,29/07/2017,6.8,3016.0,2.0,1.0,1.0,2010.0,Whittlesea,-37.68199,145.01744,Western Metropolitan,6380.0
19737,Yarraville,2 Adeney St,2,h,750000.0,SP,hockingstuart,29/07/2017,6.3,3013.0,3.0,2.0,2.0,1999.0,Darebin,-37.75948,144.99615,Western Metropolitan,6543.0
19738,Yarraville,54 Pentland Pde,6,h,2450000.0,VB,Village,29/07/2017,6.3,3013.0,3.0,2.0,1.0,2011.0,Hume,-37.70322,144.88236,Western Metropolitan,6543.0


funciones que puedes utilizar para agregar/reducir tu dataset:
- mean()
- sum()
- size()
- count()
- std()
- var()
- sem()
- describe()
- first()
- last()
- last()
- nth()
- min()
- max()


Retos

In [49]:
#Reto 1: Funciones vectorizadas
import pandas as pd
import numpy as np
aciertos = pd.Series([50, 55, 45, 65, 66, 46, 48, 53, 55, 56, 59, 68, 67, 60, 45, 56, 66, 64, 59, 55, 34, 45, 49, 48, 55])
multi_100 = np.multiply(aciertos, 100) #multiplica los elementos de las dos estructuras:
entre_68 = np.divide(multi_100, 68) #divide los elementos de una de las estructuras por los elementos de la otra
porcentaje = entre_68
porcentaje#imprimir porcentaje

0      73.529412
1      80.882353
2      66.176471
3      95.588235
4      97.058824
5      67.647059
6      70.588235
7      77.941176
8      80.882353
9      82.352941
10     86.764706
11    100.000000
12     98.529412
13     88.235294
14     66.176471
15     82.352941
16     97.058824
17     94.117647
18     86.764706
19     80.882353
20     50.000000
21     66.176471
22     72.058824
23     70.588235
24     80.882353
dtype: float64

In [56]:
### Reto 2: Agregaciones###
#calcular la desviación estándar de un conjunto de datos usando funciones vectorizadas y agregaciones#
import numpy as np
edades = pd.Series([23, 24, 23, 34, 30, 17, 18, 24, 35, 28, 27, 27, 34, 32, 29, 16, 16, 17, 19, 34, 45, 46, 43, 45, 43, 32, 25, 29, 28, 38, 30, 37, 38, 24, 26, 25, 24, 19, 19, 18, 17, 18, 21, 20, 23, 24, 25, 25, 26, 24, 23, 32, 24, 25, 24, 36, 35, 36, 38, 39, 45, 46, 43, 48, 42, 41, 41, 26, 19, 19, 19, 20, 39, 38, 43, 28, 27, 39, 43, 52, 50, 38, 15, 17, 23, 25, 19, 32, 34, 35, 19, 19, 20, 26, 25, 43, 45, 46, 34, 33, 30, 30, 34, 45, 50, 50, 47, 25, 34, 37, 38, 19, 19, 20, 25, 28, 34, 32, 36, 39, 39, 28, 34, 33, 22, 25, 17, 17, 22, 24, 25, 45, 46, 43, 34, 35, 32, 23])
promedio = edades.sum()/ edades.count()
diferencia = edades - promedio
promedio_alejado = np.power(diferencia,2)
sumar = promedio_alejado.sum()
dividir = sumar / (edades.count() - 1)
raiz = np.sqrt(dividir)
std = raiz
raiz

9.55678104254041

In [65]:
### Reto 3: Agregaciones con DatFrames
import numpy as np
datos = {
    'producto': ["Pokemaster", "Cegatron", "Pikame Mucho", "Lazarillo de Tormes", "Stevie Wonder", "Needle", "El AyMeDuele", "El Desretinador", "Sacamel Ojocles", "Desojado", "Maribel Buenas Noches", "Cíclope", "El Cuatro Ojos"],
    'precio': [12000, 5500, 2350, 4800, 8900, 6640, 1280, 1040, 23100, 16700, 15000, 13400, 19600],
    'cantidad_en_stock': [34, 54, 36, 78, 56, 12, 34, 4, 0, 18, 45, 23, 5],
    'cantidad_vendidos': [120, 34, 59, 9, 15, 51, 103, 72, 39, 23, 10, 62, 59]
}

df = pd.DataFrame(datos)
df_dropped = df.drop(columns=['producto'])
print(df_dropped)

    precio  cantidad_en_stock  cantidad_vendidos
0    12000                 34                120
1     5500                 54                 34
2     2350                 36                 59
3     4800                 78                  9
4     8900                 56                 15
5     6640                 12                 51
6     1280                 34                103
7     1040                  4                 72
8    23100                  0                 39
9    16700                 18                 23
10   15000                 45                 10
11   13400                 23                 62
12   19600                  5                 59


In [69]:
# El valor mínimo de cada columna
minimo = df_dropped.min(axis = 0)
print(maximo)
# El valor máximo de cada columna
maximo = df_dropped.max(axis = 0)
print(maximo)
# El promedio por columna
means = df_dropped.mean(axis = 0)
print(means)
# La mediana por columna (El valor que se encuentra a la mitad de la secuencia ordenada de valores)
medians = df_dropped.median(axis = 0)
print(medians)
# La desviación estándar por columna
stds = df_dropped.std(axis = 0)
print(stds)

precio               1040
cantidad_en_stock       0
cantidad_vendidos       9
dtype: int64
precio               23100
cantidad_en_stock       78
cantidad_vendidos      120
dtype: int64
precio               10023.846154
cantidad_en_stock       30.692308
cantidad_vendidos       50.461538
dtype: float64
precio               8900.0
cantidad_en_stock      34.0
cantidad_vendidos      51.0
dtype: float64
precio               7210.205196
cantidad_en_stock      23.382275
cantidad_vendidos      34.289492
dtype: float64


In [74]:
###   Reto 4:Limpiando un Dataset de NaNs ###
import pandas as pd
import numpy as np
pd.options.mode.chained_assignment = None
datos = {
    'precio': [12000, 5500, np.nan, 4800, 8900, np.nan, 1280, 1040, 23100, np.nan, 15000, 13400, np.nan],
    'cantidad_en_stock': [34, 54, np.nan, 78, 56, np.nan, 34, 4, 0, 18, 45, 23, 5],
    'cantidad_vendidos': [120, 34, np.nan, 9, 15, np.nan, 103, np.nan, np.nan, 23, 10, 62, 59],
    'descuentos': [np.nan] * 13
}
df = pd.DataFrame(datos, index=["Pokemaster", "Cegatron", "Pikame Mucho", "Lazarillo de Tormes", "Stevie Wonder", "Needle", "El AyMeDuele", "El Desretinador", "Sacamel Ojocles", "Desojado", "Maribel Buenas Noches", "Cíclope", "El Cuatro Ojos"])
df


Unnamed: 0,precio,cantidad_en_stock,cantidad_vendidos,descuentos
Pokemaster,12000.0,34.0,120.0,
Cegatron,5500.0,54.0,34.0,
Pikame Mucho,,,,
Lazarillo de Tormes,4800.0,78.0,9.0,
Stevie Wonder,8900.0,56.0,15.0,
Needle,,,,
El AyMeDuele,1280.0,34.0,103.0,
El Desretinador,1040.0,4.0,,
Sacamel Ojocles,23100.0,0.0,,
Desojado,,18.0,23.0,


In [82]:
df_copy = df.copy()
df_copy.isna().sum(axis=0) #conteo de cuántos NaNs hay en cada fila y en cada columna
df_copy.isna().sum(axis = 1)


Pokemaster               1
Cegatron                 1
Pikame Mucho             4
Lazarillo de Tormes      1
Stevie Wonder            1
Needle                   4
El AyMeDuele             1
El Desretinador          2
Sacamel Ojocles          2
Desojado                 2
Maribel Buenas Noches    1
Cíclope                  1
El Cuatro Ojos           2
dtype: int64

In [90]:
df_copy = df_copy.dropna(axis = 0, how ="all")
df_copy = df_copy.dropna(axis = 1, how = "all") #Elimina las filas y columnas donde todos los valores sean NaN
df_copy

Unnamed: 0,precio,cantidad_en_stock,cantidad_vendidos
Pokemaster,12000.0,34.0,120.0
Cegatron,5500.0,54.0,34.0
Lazarillo de Tormes,4800.0,78.0,9.0
Stevie Wonder,8900.0,56.0,15.0
El AyMeDuele,1280.0,34.0,103.0
El Desretinador,1040.0,4.0,0.0
Sacamel Ojocles,23100.0,0.0,0.0
Maribel Buenas Noches,15000.0,45.0,10.0
Cíclope,13400.0,23.0,62.0


In [91]:
df_copy['cantidad_vendidos'] = df_copy['cantidad_vendidos'].fillna(0) #cambia los NaNs que haya en esa columna por 0
df_copy

Unnamed: 0,precio,cantidad_en_stock,cantidad_vendidos
Pokemaster,12000.0,34.0,120.0
Cegatron,5500.0,54.0,34.0
Lazarillo de Tormes,4800.0,78.0,9.0
Stevie Wonder,8900.0,56.0,15.0
El AyMeDuele,1280.0,34.0,103.0
El Desretinador,1040.0,4.0,0.0
Sacamel Ojocles,23100.0,0.0,0.0
Maribel Buenas Noches,15000.0,45.0,10.0
Cíclope,13400.0,23.0,62.0


In [92]:
df_copy = df_copy.dropna(axis = 0) # elimina las filas restantes que tengan algún NaN en dicha columna
df_copy

Unnamed: 0,precio,cantidad_en_stock,cantidad_vendidos
Pokemaster,12000.0,34.0,120.0
Cegatron,5500.0,54.0,34.0
Lazarillo de Tormes,4800.0,78.0,9.0
Stevie Wonder,8900.0,56.0,15.0
El AyMeDuele,1280.0,34.0,103.0
El Desretinador,1040.0,4.0,0.0
Sacamel Ojocles,23100.0,0.0,0.0
Maribel Buenas Noches,15000.0,45.0,10.0
Cíclope,13400.0,23.0,62.0


In [None]:
###     Reto 5:Limpiando un dataset     ###
#Es el codigo de arriaba el nombre el dataset es 'melbourne_housing-raw.csv'.