### Objetivos de la Clase

---

- Aprender las bases de pandas: para qué sirve, cuáles son sus estructuras de datos y aplicaciones principales.

- Aplicar los conocimientos adquiridos de pandas en prácticas.


### Pandas

---

- **Colección de estructuras de datos y funciones** que facilitan el trabajo con datos estructurados.

- Nombre derivado de  "**Pan**el **Da**ta **S**ystem" (término econométrico para datasets multidimensionales). 

- Construído **en base a Numpy**, inicialmente por Wes McKinney.

- Ofrece más versatilidad que Numpy: podemos trabajar con **datos de diferentes tipos** y podemos identificar las filas y columnas **usando etiquetas**, en lugar de solamente enteros. 
    
- Combina la alta performance de las **operaciones sobre arrays de NumPy con la flexibilidad en la manipulación de datos** de un spreadsheet o una base de datos relacional.

- Provee **funcionalidades de indexación avanzadas** para facilitar la manipulación, agregación y selección de partes de un dataset.

- Provee **operaciones de agrupación por columnas, filtros y sumarizaciones**.

- Estas características hacen de pandas una librería **indispensable para las tareas de limpieza y preprocesamiento de datos**. 


### Datos:

https://raw.githubusercontent.com/carabedo/labs/master/data/freddo.csv

In [6]:
import numpy as np

In [10]:
np.genfromtxt('helados.csv',delimiter=',')

array([[  nan,   nan],
       [ 12.2, 125. ],
       [ 14.4, 175. ],
       [ 15. , 325. ],
       [ 16.7, 275. ],
       [ 17.8, 425. ],
       [ 18.3, 400. ],
       [ 19.4, 450. ],
       [ 22.2, 425. ],
       [ 22.8, 450. ],
       [ 23.9, 525. ],
       [ 25. , 550. ],
       [ 26.7, 625. ]])

In [11]:
data=np.genfromtxt('helados.csv',delimiter=',')
data.shape

(13, 2)

In [12]:
data[1,1]

125.0

In [13]:
type(data[1,1])

numpy.float64

In [2]:
import pandas as pd

In [3]:
pd.read_csv('helados.csv')

Unnamed: 0,temp,venta
0,12.2,125
1,14.4,175
2,15.0,325
3,16.7,275
4,17.8,425
5,18.3,400
6,19.4,450
7,22.2,425
8,22.8,450
9,23.9,525


In [4]:
df=pd.read_csv('helados.csv')

### Estructuras de datos de Pandas

---

Veremos los siguientes objetos:

* Series

* DataFrames

* Index




### Pandas: Series

---

<div class="Table">
    <div class="Row">
        <div class="Cell Clase05 left"> <img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/M1/CLASE_05_Pandas1/Presentacion/img/M1_CLASE_05_serie.jpg" align="center" /></div>
        <div class="Cell Clase05 right">
            <ul>
                <li>Una Series es un objeto similar a un <b>vector unidimensional</b></li>                
                <li>Contiene <b>un array de valores y un array asociado de etiquetas</b> de estos valores denominado como índice.</li>            
                <li>Una Serie también puede ser pensada como un <b>diccionario de tamaño fijo con sus claves ordenadas</b>.</li>
                <li>Al igual que  los arrays de NumPy, permite pasar <b>una lista de valores con índices</b> para seleccionar un subconjunto de valores.</li>
             </ul>            
        </div>
    </div>
</div> 
    

### En Python

In [5]:
import pandas as pd

lista = [0.25, 0.5, 0.75, 1.0]

data = pd.Series(lista)
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

In [3]:
data.values

array([0.25, 0.5 , 0.75, 1.  ])

In [4]:
data.index

RangeIndex(start=0, stop=4, step=1)

In [15]:
df

Unnamed: 0,temp,venta
0,12.2,125
1,14.4,175
2,15.0,325
3,16.7,275
4,17.8,425
5,18.3,400
6,19.4,450
7,22.2,425
8,22.8,450
9,23.9,525


In [16]:
df.temp

0     12.2
1     14.4
2     15.0
3     16.7
4     17.8
5     18.3
6     19.4
7     22.2
8     22.8
9     23.9
10    25.0
11    26.7
Name: temp, dtype: float64

In [17]:
df['temp']

0     12.2
1     14.4
2     15.0
3     16.7
4     17.8
5     18.3
6     19.4
7     22.2
8     22.8
9     23.9
10    25.0
11    26.7
Name: temp, dtype: float64

In [6]:
type(df.temp)

pandas.core.series.Series

In [7]:
t=df['temp']

In [8]:
t.index

RangeIndex(start=0, stop=12, step=1)

In [9]:
t.values

array([12.2, 14.4, 15. , 16.7, 17.8, 18.3, 19.4, 22.2, 22.8, 23.9, 25. ,
       26.7])

In [22]:
t.name

'temp'

### Pandas: DataFrame

---

<div class="Table">
    <div class="Row">
        <div class="Cell Clase05 left"> <img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/M1/CLASE_05_Pandas1/Presentacion/img/M1_CLASE_05_dataframe.jpg" align="center" /></div>
        <div class="Cell Clase05 right">
            <ul>
                <li>Representa una <b>estructura de datos tabular</b> que contiene una <b>colección de columnas</b>, cada una de las cuales tiene un tipo determinado (number, string, boolean).</li>                
                <li>El DataFrame tiene <b>índices de columnas y filas</b>.</li>            
             </ul>            
        </div>
    </div>
</div> 



In [10]:
df=pd.read_csv('helados.csv')
df

Unnamed: 0,temp,venta
0,12.2,125
1,14.4,175
2,15.0,325
3,16.7,275
4,17.8,425
5,18.3,400
6,19.4,450
7,22.2,425
8,22.8,450
9,23.9,525


### Pandas: DataFrame

---

- En el día a día de un data scientist la limpieza, preparado y normalización de los datos con los que trabaja es la tarea que más tiempo insume. 

- Pandas es la librería principal al momento de tener que realizar estas tareas. 

- Los DataFrame de Pandas son la herramienta fundamental que vamos a utilizar a lo largo del curso y de nuestro día de trabajo a partir de ahora. 


In [23]:
df.columns

Index(['temp', 'venta'], dtype='object')

In [24]:
df.index

RangeIndex(start=0, stop=12, step=1)

In [25]:
df.values

array([[ 12.2, 125. ],
       [ 14.4, 175. ],
       [ 15. , 325. ],
       [ 16.7, 275. ],
       [ 17.8, 425. ],
       [ 18.3, 400. ],
       [ 19.4, 450. ],
       [ 22.2, 425. ],
       [ 22.8, 450. ],
       [ 23.9, 525. ],
       [ 25. , 550. ],
       [ 26.7, 625. ]])

In [12]:
df.values.shape

(12, 2)

Podemos indexar un DataFrame usando las posiciones (iloc) o los valores (loc)

<img src='https://shanelynnwebsite-mid9n9g1q9y8tt.netdna-ssl.com/wp-content/uploads/2016/10/Pandas-selections-and-indexing-1024x731.png' width=500>

In [13]:
df

Unnamed: 0,temp,venta
0,12.2,125
1,14.4,175
2,15.0,325
3,16.7,275
4,17.8,425
5,18.3,400
6,19.4,450
7,22.2,425
8,22.8,450
9,23.9,525


In [14]:
df.iloc[1]

temp      14.4
venta    175.0
Name: 1, dtype: float64

In [39]:
df.iloc[0,1]

125

In [36]:
#slicing
df.iloc[::2,:]

Unnamed: 0,temp,venta
0,12.2,125
2,15.0,325
4,17.8,425
6,19.4,450
8,22.8,450
10,25.0,550


In [38]:
#fancy
df.iloc[[0,3],[1,0]]

Unnamed: 0,venta,temp
0,125,12.2
3,275,16.7


In [15]:
df

Unnamed: 0,temp,venta
0,12.2,125
1,14.4,175
2,15.0,325
3,16.7,275
4,17.8,425
5,18.3,400
6,19.4,450
7,22.2,425
8,22.8,450
9,23.9,525


In [32]:
df.loc[0]

temp      12.2
venta    125.0
Name: 0, dtype: float64

In [17]:
df

Unnamed: 0,temp,venta
0,12.2,125
1,14.4,175
2,15.0,325
3,16.7,275
4,17.8,425
5,18.3,400
6,19.4,450
7,22.2,425
8,22.8,450
9,23.9,525


In [21]:
# fancy con los nombres de las columnas

df2=df.loc[:,['venta','temp','temp','venta']]

In [23]:
df2.temp=df2.temp*2
df2

Unnamed: 0,venta,temp,temp.1,venta.1
0,125,24.4,24.4,125
1,175,28.8,28.8,175
2,325,30.0,30.0,325
3,275,33.4,33.4,275
4,425,35.6,35.6,425
5,400,36.6,36.6,400
6,450,38.8,38.8,450
7,425,44.4,44.4,425
8,450,45.6,45.6,450
9,525,47.8,47.8,525


In [32]:
mascara1=df.temp < 20
type(mascara1)


pandas.core.series.Series

In [33]:
mascara2=df.temp.values < 20
type(mascara2)


numpy.ndarray

In [30]:
#boolean

df.loc[df.temp < 20]

Unnamed: 0,temp,venta
0,12.2,125
1,14.4,175
2,15.0,325
3,16.7,275
4,17.8,425
5,18.3,400
6,19.4,450


In [35]:
df.iloc[df.temp < 20]

NotImplementedError: iLocation based boolean indexing on an integer type is not available

### En Python

Vamos a construir dos instancias de Series:

* area, a partir de un diccionario

* population, a partir de dos listas 

Luego construimos el DataFrame states a partir de las dos Series resultado del paso anterior


In [42]:
import pandas as pd


area_dict = {'California': 423967, 'Texas': 695662, 'New York': 141297,
             'Florida': 170312, 'Illinois': 149995}

area = pd.Series(area_dict)
area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
dtype: int64

In [53]:
states_list = ['Illinois','Texas','New York', 'Florida', 'California']
states_pop = [12882135, 26448193, 19651127, 19552860, 38332521]


population = pd.Series(states_pop, index= states_list)
population

Illinois      12882135
Texas         26448193
New York      19651127
Florida       19552860
California    38332521
dtype: int64

In [54]:
states = pd.DataFrame({'population': population,
                       'area': area})
states

Unnamed: 0,population,area
California,38332521,423967
Florida,19552860,170312
Illinois,12882135,149995
New York,19651127,141297
Texas,26448193,695662


In [7]:
states.index

Index(['California', 'Florida', 'Illinois', 'New York', 'Texas'], dtype='object')

In [49]:
states.columns

Index(['population', 'area'], dtype='object')

Podemos seleccionar la columna 'area' del DataFrame

In [9]:
states['area']

California    423967
Florida       170312
Illinois      149995
New York      141297
Texas         695662
Name: area, dtype: int64

In [10]:
states.area

California    423967
Florida       170312
Illinois      149995
New York      141297
Texas         695662
Name: area, dtype: int64

Podemos indexar un DataFrame usando las posiciones (iloc) o los valores (loc)

In [55]:
states

Unnamed: 0,population,area
California,38332521,423967
Florida,19552860,170312
Illinois,12882135,149995
New York,19651127,141297
Texas,26448193,695662


In [11]:
states.iloc[:3, :1]

Unnamed: 0,population
California,38332521
Florida,19552860
Illinois,12882135


In [12]:
states.loc[:'Illinois', :'population']

Unnamed: 0,population
California,38332521
Florida,19552860
Illinois,12882135


Podemos indexar un DataFrame usando loc y máscaras booleanas

In [57]:
states.loc[states.area > 423000, ['population','population']]

Unnamed: 0,population,population.1
California,38332521,38332521
Texas,26448193,26448193


Podemos modificar valores de una DataFrame

In [58]:
states

Unnamed: 0,population,area
California,38332521,423967
Florida,19552860,170312
Illinois,12882135,149995
New York,19651127,141297
Texas,26448193,695662


In [61]:
states['micol']=states.area

In [62]:
states

Unnamed: 0,population,area,micol
California,38332521,423967,423967
Florida,19552860,170312,170312
Illinois,12882135,149995,149995
New York,19651127,141297,141297
Texas,26448193,695662,695662


In [65]:
states['density'] = states.population / states.area
states

Unnamed: 0,population,area,micol,density
California,38332521,423967,423967,90.413926
Florida,19552860,170312,170312,114.806121
Illinois,12882135,149995,149995,85.883763
New York,19651127,141297,141297,139.076746
Texas,26448193,695662,695662,38.01874


In [66]:
states['micol 2']=states.area

In [67]:
states

Unnamed: 0,population,area,micol,density,micol 2
California,38332521,423967,423967,90.413926,423967
Florida,19552860,170312,170312,114.806121,170312
Illinois,12882135,149995,149995,85.883763,149995
New York,19651127,141297,141297,139.076746,141297
Texas,26448193,695662,695662,38.01874,695662


In [68]:
states.micol 2

SyntaxError: invalid syntax (Temp/ipykernel_12500/1622010603.py, line 1)

In [96]:
states.columns=states.columns.map(str.upper)

In [97]:
states

Unnamed: 0,POPULATION,AREA,MICOL,DENSITY,MICOL 2,DENSITY2
California,38332521,423967,423967,90.413926,423967,False
Florida,19552860,170312,170312,114.806121,170312,False
Illinois,12882135,149995,149995,85.883763,149995,True
New York,19651127,141297,141297,139.076746,141297,False
Texas,26448193,695662,695662,38.01874,695662,False


In [94]:
str.upper('hola')

'HOLA'

In [76]:
states

Unnamed: 0,population,area,micol,density,micol 2,density2
California,38332521,423967,423967,90.413926,423967,False
Florida,19552860,170312,170312,114.806121,170312,False
Illinois,12882135,149995,149995,85.883763,149995,True
New York,19651127,141297,141297,139.076746,141297,False
Texas,26448193,695662,695662,38.01874,695662,False


In [85]:
pd.read_csv('data_filt.csv',encoding='latin1')

Unnamed: 0,ch06,nivel_ed,htot,calif,p47t
0,46,1_H/Sec inc,45,2_Op./No calif.,6000.0
1,26,2_Sec. comp y más,25,2_Op./No calif.,5000.0
2,47,2_Sec. comp y más,25,2_Op./No calif.,5000.0
3,52,1_H/Sec inc,90,2_Op./No calif.,11000.0
4,45,1_H/Sec inc,44,2_Op./No calif.,9500.0
...,...,...,...,...,...
23443,45,2_Sec. comp y más,50,2_Op./No calif.,4000.0
23444,58,1_H/Sec inc,30,2_Op./No calif.,5000.0
23445,36,2_Sec. comp y más,40,2_Op./No calif.,13000.0
23446,49,1_H/Sec inc,40,2_Op./No calif.,4000.0


### Ejercicio Series

Dadas dos series de representan cantidades 

<code>cantidades_prod1 = pd.Series([3, 7, 1], index=['local_a', 'local_b', 'local_c'])
cantidades_prod2 = pd.Series([54, 70, 985] index=['local_a', 'local_b', 'local_c'])
</code>

* ¿Qué cantidad de prod2 hay en local_b? 

* Usando iloc obtener la suma de prod1 en local_a y local_c

* Usando <code>index</code> responder ¿qué local corresponde al índice 1 de cantidades_prod1?

### Ejercicio DataFrame

* Construir una instancia de DataFrame usando las dos series del ejercicio anterior como columnas.

* Agregar al dataframe del paso anterior la columna 'total' cuyos datos sean el resultado de sumar las columnas 'cantidades_prod1' y 'cantidades_prod2'

* Mostrar los primeros dos registros de ese dataframe

* Mostrar los últimos dos registros de ese dataframe

* Obtener los nombres de locales que tengan en total más de 60 productos


### Solución

----

### Ejercicio Series

In [15]:
import pandas as pd
import numpy as np

cantidades_prod1 = pd.Series([3, 7, 1], index=['local_a', 'local_b', 'local_c'])

cantidades_prod2 = pd.Series([54, 70, 985], index=['local_a', 'local_b', 'local_c'])


In [16]:
cantidades_prod1

local_a    3
local_b    7
local_c    1
dtype: int64

In [17]:
cantidades_prod2

local_a     54
local_b     70
local_c    985
dtype: int64

In [18]:
cantidad = cantidades_prod2.loc['local_b']
cantidad

70

In [19]:
indices = [0, 2]
cantidades_a_c = cantidades_prod1.iloc[indices]
np.sum(cantidades_a_c)

4

In [20]:
cantidades_prod1.index[1]

'local_b'

### Ejercicio DataFrame

In [21]:
data_dict = {'cantidades_prod1': cantidades_prod1, 'cantidades_prod2': cantidades_prod2}
data = pd.DataFrame(data_dict)
data

Unnamed: 0,cantidades_prod1,cantidades_prod2
local_a,3,54
local_b,7,70
local_c,1,985


In [22]:
data['total'] = data.cantidades_prod1 + data.cantidades_prod2
data

Unnamed: 0,cantidades_prod1,cantidades_prod2,total
local_a,3,54,57
local_b,7,70,77
local_c,1,985,986


In [23]:
data.head(2)

Unnamed: 0,cantidades_prod1,cantidades_prod2,total
local_a,3,54,57
local_b,7,70,77


In [24]:
data.tail(2)

Unnamed: 0,cantidades_prod1,cantidades_prod2,total
local_b,7,70,77
local_c,1,985,986


In [25]:
mask = data.total > 60
data_mask = data.loc[mask, :]
locales = data_mask.index 
locales.values

array(['local_b', 'local_c'], dtype=object)