# Ejemplo básico pandas

Este jupyter notebook es un ejemplo básico del uso de la biblioteca `pandas` de python. Sólo para que los estudiantes tengan claras técnicas fundamentales al momento de enfrentarse a un conjunto de datos.

Para los ejemplos utilizaré el conjunto de datos [mtcars](https://gist.githubusercontent.com/seankross/a412dfbd88b3db70b74b/raw/5f23f993cd87c283ce766e7ac6b329ee7cc2e1d1/mtcars.csv) que pueden descargar y cargarlo luego con la función `pd.read_csv`. Asegúrense de darle la ruta correcta al archivo y de ver su directorio de trabajo, ello lo pueden hacer vía:

```python
import os


print(os.getcwd())
```

In [4]:
import pandas as pd


csv_url = "https://gist.githubusercontent.com/seankross/a412dfbd88b3db70b74b/raw/5f23f993cd87c283ce766e7ac6b329ee7cc2e1d1/mtcars.csv"

dataset = pd.read_csv(csv_url)

# Siempre es buena idea ver cómo son los datos
dataset.head()

Unnamed: 0,model,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
0,Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
1,Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
2,Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
3,Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1
4,Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2


In [6]:
# Información del dataset (Uso en memoria, tipos, etc)
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32 entries, 0 to 31
Data columns (total 12 columns):
model    32 non-null object
mpg      32 non-null float64
cyl      32 non-null int64
disp     32 non-null float64
hp       32 non-null int64
drat     32 non-null float64
wt       32 non-null float64
qsec     32 non-null float64
vs       32 non-null int64
am       32 non-null int64
gear     32 non-null int64
carb     32 non-null int64
dtypes: float64(5), int64(6), object(1)
memory usage: 3.1+ KB


In [7]:
# Estadística descriptiva
dataset.describe()

Unnamed: 0,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
count,32.0,32.0,32.0,32.0,32.0,32.0,32.0,32.0,32.0,32.0,32.0
mean,20.090625,6.1875,230.721875,146.6875,3.596563,3.21725,17.84875,0.4375,0.40625,3.6875,2.8125
std,6.026948,1.785922,123.938694,68.562868,0.534679,0.978457,1.786943,0.504016,0.498991,0.737804,1.6152
min,10.4,4.0,71.1,52.0,2.76,1.513,14.5,0.0,0.0,3.0,1.0
25%,15.425,4.0,120.825,96.5,3.08,2.58125,16.8925,0.0,0.0,3.0,2.0
50%,19.2,6.0,196.3,123.0,3.695,3.325,17.71,0.0,0.0,4.0,2.0
75%,22.8,8.0,326.0,180.0,3.92,3.61,18.9,1.0,1.0,4.0,4.0
max,33.9,8.0,472.0,335.0,4.93,5.424,22.9,1.0,1.0,5.0,8.0


In [8]:
# También se puede acceder a información de algunas columnas del dataset
dataset[["mpg", "hp"]].head()

Unnamed: 0,mpg,hp
0,21.0,110
1,21.0,110
2,22.8,93
3,21.4,110
4,18.7,175


In [11]:
# Podemos también contar valores:
dataset["cyl"].value_counts()

8    14
4    11
6     7
Name: cyl, dtype: int64

In [21]:
# También podemos calcular los porcentajes:
porcentajes = (dataset["cyl"].value_counts()/dataset.shape[0]).reset_index(name="count")
porcentajes

Unnamed: 0,index,count
0,8,0.4375
1,4,0.34375
2,6,0.21875


In [22]:
# Podemos también calcular el promedio de una columna
dataset["hp"].mean()

146.6875

In [23]:
# Podemos elegir sub-conjuntos en base a algun criterio
dataset[dataset["hp"] > dataset["hp"].mean()].head()

Unnamed: 0,model,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
4,Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2
6,Duster 360,14.3,8,360.0,245,3.21,3.57,15.84,0,0,3,4
11,Merc 450SE,16.4,8,275.8,180,3.07,4.07,17.4,0,0,3,3
12,Merc 450SL,17.3,8,275.8,180,3.07,3.73,17.6,0,0,3,3
13,Merc 450SLC,15.2,8,275.8,180,3.07,3.78,18.0,0,0,3,3


In [25]:
# Podemos ordenar en base a alguna columna o columnas
dataset.sort_values(by=["wt", "qsec"]).head()

Unnamed: 0,model,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
27,Lotus Europa,30.4,4,95.1,113,3.77,1.513,16.9,1,1,5,2
18,Honda Civic,30.4,4,75.7,52,4.93,1.615,18.52,1,1,4,2
19,Toyota Corolla,33.9,4,71.1,65,4.22,1.835,19.9,1,1,4,1
25,Fiat X1-9,27.3,4,79.0,66,4.08,1.935,18.9,1,1,4,1
26,Porsche 914-2,26.0,4,120.3,91,4.43,2.14,16.7,0,1,5,2


In [26]:
# También en forma descendente
dataset.sort_values(by=["wt", "qsec"], ascending=False).head()

Unnamed: 0,model,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
15,Lincoln Continental,10.4,8,460.0,215,3.0,5.424,17.82,0,0,3,4
16,Chrysler Imperial,14.7,8,440.0,230,3.23,5.345,17.42,0,0,3,4
14,Cadillac Fleetwood,10.4,8,472.0,205,2.93,5.25,17.98,0,0,3,4
11,Merc 450SE,16.4,8,275.8,180,3.07,4.07,17.4,0,0,3,3
24,Pontiac Firebird,19.2,8,400.0,175,3.08,3.845,17.05,0,0,3,2
