# Python Pandas: Tratamiento y análisis de datos

## Base Datos

In [1]:
import pandas as pd

In [2]:
# Importando base la datos 'alquiler.csv'
datos = pd.read_csv('./data/alquiler.csv', sep=';')

In [3]:
datos

Unnamed: 0,Tipo,Distrito,Cuartos,Vacantes,Suites,Area,Valor,Mantenimiento,Impuesto
0,Habitación,San Borja,1,0,0,40,1700.0,500.0,60.0
1,Casa,Lurigancho,2,0,1,100,7000.0,,
2,Local comercial,Ate,0,4,0,150,5200.0,4020.0,1111.0
3,Departamento,Pachacámac,1,0,0,15,800.0,390.0,20.0
4,Departamento,Ate,1,0,0,48,800.0,230.0,
...,...,...,...,...,...,...,...,...,...
32955,Habitación,Pachacámac,0,0,0,27,800.0,350.0,25.0
32956,Departamento,Lince,3,1,2,78,1800.0,800.0,40.0
32957,Departamento,Rímac,2,1,0,48,1400.0,509.0,37.0
32958,Departamento,Rímac,2,0,0,70,3000.0,760.0,


In [4]:
type(datos)

pandas.core.frame.DataFrame

In [5]:
datos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32960 entries, 0 to 32959
Data columns (total 9 columns):
Tipo             32960 non-null object
Distrito         32960 non-null object
Cuartos          32960 non-null int64
Vacantes         32960 non-null int64
Suites           32960 non-null int64
Area             32960 non-null int64
Valor            32943 non-null float64
Mantenimiento    28867 non-null float64
Impuesto         22723 non-null float64
dtypes: float64(3), int64(4), object(2)
memory usage: 2.3+ MB


In [6]:
datos.head(10)

Unnamed: 0,Tipo,Distrito,Cuartos,Vacantes,Suites,Area,Valor,Mantenimiento,Impuesto
0,Habitación,San Borja,1,0,0,40,1700.0,500.0,60.0
1,Casa,Lurigancho,2,0,1,100,7000.0,,
2,Local comercial,Ate,0,4,0,150,5200.0,4020.0,1111.0
3,Departamento,Pachacámac,1,0,0,15,800.0,390.0,20.0
4,Departamento,Ate,1,0,0,48,800.0,230.0,
5,Departamento,Barranco,3,1,0,70,1200.0,,
6,Departamento,Comas,2,0,0,50,1300.0,301.0,17.0
7,Casa en condominio,Ate,5,4,5,750,22000.0,,
8,Casa en condominio,El Agustino,2,2,0,65,1000.0,,
9,Local comercial,Pachacámac,0,3,0,695,35000.0,19193.0,3030.0


## Informaciones generales sobre la Base de Datos

In [7]:
datos.dtypes

Tipo              object
Distrito          object
Cuartos            int64
Vacantes           int64
Suites             int64
Area               int64
Valor            float64
Mantenimiento    float64
Impuesto         float64
dtype: object

In [8]:
tipo_de_datos = pd.DataFrame(datos.dtypes, columns=['Tipos de datos'])

In [9]:
tipo_de_datos.columns.name = 'Variables'

In [10]:
tipo_de_datos

Variables,Tipos de datos
Tipo,object
Distrito,object
Cuartos,int64
Vacantes,int64
Suites,int64
Area,int64
Valor,float64
Mantenimiento,float64
Impuesto,float64


In [11]:
datos.shape

(32960, 9)

In [12]:
datos.shape[0]

32960

In [13]:
datos.shape[1]

9

In [14]:
print(f'La base de datos presenta {datos.shape[0]} registros (inmuebles) y {datos.shape[1]} variables')

La base de datos presenta 32960 registros (inmuebles) y 9 variables


### Ejercicio

In [15]:
# data = [['Fulano', 12, 7.0, True],
#         ['Sicrano', 15, 3.5, False], 
#         ['Beltrano', 18, 9.3, True]]
# datos = pd.DataFrame(data, 
#         columns = ['Alumno', 'Edad', 'Nota', 'Aprobado'])
# datos

In [16]:
tipo_de_datos = pd.DataFrame(datos.dtypes, columns=['Tipos de datos'])
tipo_de_datos.columns.name = 'Variables'
tipo_de_datos

Variables,Tipos de datos
Tipo,object
Distrito,object
Cuartos,int64
Vacantes,int64
Suites,int64
Area,int64
Valor,float64
Mantenimiento,float64
Impuesto,float64


## (Extra) Importando otras fuentes (.csv, .json, .xlsx, .html)

In [17]:
json = open('./extras/alquiler.json')
print(json.read())

[{"Tipo":"Habitación","Distrito":"San Borja","Cuartos":1,"Vacantes":0,"Suites":0,"Area":40,"Valor":1700.0,"Mantenimiento":500.0,"Impuesto":60.0},
{"Tipo":"Casa","Distrito":"Lurigancho","Cuartos":2,"Vacantes":0,"Suites":1,"Area":100,"Valor":7000.0,"Mantenimiento":null,"Impuesto":null},
{"Tipo":"Local comercial","Distrito":"Ate","Cuartos":0,"Vacantes":4,"Suites":0,"Area":150,"Valor":5200.0,"Mantenimiento":4020.0,"Impuesto":1111.0},
{"Tipo":"Departamento","Distrito":"Pachacámac","Cuartos":1,"Vacantes":0,"Suites":0,"Area":15,"Valor":800.0,"Mantenimiento":390.0,"Impuesto":20.0},
{"Tipo":"Departamento","Distrito":"Ate","Cuartos":1,"Vacantes":0,"Suites":0,"Area":48,"Valor":800.0,"Mantenimiento":230.0,"Impuesto":null},
{"Tipo":"Departamento","Distrito":"Barranco","Cuartos":3,"Vacantes":1,"Suites":0,"Area":70,"Valor":1200.0,"Mantenimiento":null,"Impuesto":null},
{"Tipo":"Departamento","Distrito":"Comas","Cuartos":2,"Vacantes":0,"Suites":0,"Area":50,"Valor":1300.0,"Mantenimiento":301.0,"Impuesto

In [18]:
df_json = pd.read_json('./extras/alquiler.json')
df_json

Unnamed: 0,Tipo,Distrito,Cuartos,Vacantes,Suites,Area,Valor,Mantenimiento,Impuesto
0,Habitación,San Borja,1,0,0,40,1700,500.0,60.0
1,Casa,Lurigancho,2,0,1,100,7000,,
2,Local comercial,Ate,0,4,0,150,5200,4020.0,1111.0
3,Departamento,Pachacámac,1,0,0,15,800,390.0,20.0
4,Departamento,Ate,1,0,0,48,800,230.0,
5,Departamento,Barranco,3,1,0,70,1200,,
6,Departamento,Comas,2,0,0,50,1300,301.0,17.0
7,Casa en condominio,Ate,5,4,5,750,22000,,
8,Casa en condominio,El Agustino,2,2,0,65,1000,,
9,Local comercial,Pachacámac,0,3,0,695,35000,19193.0,3030.0


In [19]:
txt = open('./extras/alquiler.txt')
print(txt.read())

Tipo	Distrito	Cuartos	Vacantes	Suites	Area	Valor	Mantenimiento	Impuesto
Habitación	San Borja	1	0	0	40	1700	500	60
Casa	Lurigancho	2	0	1	100	7000		
Local comercial	Ate	0	4	0	150	5200	4020	1111
Departamento	Pachacámac	1	0	0	15	800	390	20
Departamento	Ate	1	0	0	48	800	230	
Departamento	Barranco	3	1	0	70	1200		
Departamento	Comas	2	0	0	50	1300	301	17
Casa en condominio	Ate	5	4	5	750	22000		
Casa en condominio	El Agustino	2	2	0	65	1000		
Local comercial	Pachacámac	0	3	0	695	35000	19193	3030



In [20]:
df_txt = pd.read_table('./extras/alquiler.txt')
df_txt

Unnamed: 0,Tipo,Distrito,Cuartos,Vacantes,Suites,Area,Valor,Mantenimiento,Impuesto
0,Habitación,San Borja,1,0,0,40,1700,500.0,60.0
1,Casa,Lurigancho,2,0,1,100,7000,,
2,Local comercial,Ate,0,4,0,150,5200,4020.0,1111.0
3,Departamento,Pachacámac,1,0,0,15,800,390.0,20.0
4,Departamento,Ate,1,0,0,48,800,230.0,
5,Departamento,Barranco,3,1,0,70,1200,,
6,Departamento,Comas,2,0,0,50,1300,301.0,17.0
7,Casa en condominio,Ate,5,4,5,750,22000,,
8,Casa en condominio,El Agustino,2,2,0,65,1000,,
9,Local comercial,Pachacámac,0,3,0,695,35000,19193.0,3030.0


In [21]:
df_xlsx = pd.read_excel('./extras/alquiler.xlsx')
df_xlsx

Unnamed: 0,Tipo,Distrito,Cuartos,Vacantes,Suites,Area,Valor,Mantenimiento,Impuesto
0,Habitación,San Borja,1,0,0,40,1700,500.0,60.0
1,Casa,Lurigancho,2,0,1,100,7000,,
2,Local comercial,Ate,0,4,0,150,5200,4020.0,1111.0
3,Departamento,Pachacámac,1,0,0,15,800,390.0,20.0
4,Departamento,Ate,1,0,0,48,800,230.0,
5,Departamento,Barranco,3,1,0,70,1200,,
6,Departamento,Comas,2,0,0,50,1300,301.0,17.0
7,Casa en condominio,Ate,5,4,5,750,22000,,
8,Casa en condominio,El Agustino,2,2,0,65,1000,,
9,Local comercial,Pachacámac,0,3,0,695,35000,19193.0,3030.0


In [22]:
df_html = pd.read_html('./extras/datos_html_1.html')
df_html[0]

Unnamed: 0,Año,Campeón,Subcampeón,Sede
0,2018,Francia,Croacia,Rusia
1,2014,Alemania,Argentina,Brasil
2,2010,España,Holanda,Sudáfrica
3,2006,Italia,Francia,Alemania
4,2002,Brasil,Alemania,Corea S. y Japón
5,1998,Francia,Brasil,Francia
6,1994,Brasil,Italia,Estados Unidos
7,1990,Alemania,Argentina,Italia
8,1986,Argentina,Alemania (RFA),México
9,1982,Italia,Alemania (RFA),España


In [23]:
# df_html = pd.read_html('https://www.googles.com/')
# len(df_html)

## Series  Index

### Eliminando valores repetidos

In [24]:
datos.head(10)

Unnamed: 0,Tipo,Distrito,Cuartos,Vacantes,Suites,Area,Valor,Mantenimiento,Impuesto
0,Habitación,San Borja,1,0,0,40,1700.0,500.0,60.0
1,Casa,Lurigancho,2,0,1,100,7000.0,,
2,Local comercial,Ate,0,4,0,150,5200.0,4020.0,1111.0
3,Departamento,Pachacámac,1,0,0,15,800.0,390.0,20.0
4,Departamento,Ate,1,0,0,48,800.0,230.0,
5,Departamento,Barranco,3,1,0,70,1200.0,,
6,Departamento,Comas,2,0,0,50,1300.0,301.0,17.0
7,Casa en condominio,Ate,5,4,5,750,22000.0,,
8,Casa en condominio,El Agustino,2,2,0,65,1000.0,,
9,Local comercial,Pachacámac,0,3,0,695,35000.0,19193.0,3030.0


In [25]:
datos['Tipo']

0             Habitación
1                   Casa
2        Local comercial
3           Departamento
4           Departamento
              ...       
32955         Habitación
32956       Departamento
32957       Departamento
32958       Departamento
32959    Local comercial
Name: Tipo, Length: 32960, dtype: object

In [26]:
datos.Tipo

0             Habitación
1                   Casa
2        Local comercial
3           Departamento
4           Departamento
              ...       
32955         Habitación
32956       Departamento
32957       Departamento
32958       Departamento
32959    Local comercial
Name: Tipo, Length: 32960, dtype: object

In [27]:
tipo_de_inmuble = datos.Tipo

In [28]:
type(tipo_de_inmuble)

pandas.core.series.Series

In [29]:
#  Eliminando valores repetidos solo para esta celda
tipo_de_inmuble.drop_duplicates()

0                        Habitación
1                              Casa
2                   Local comercial
3                      Departamento
7                Casa en condominio
16                Edificio completo
17                             Flat
29                     Tienda/Salón
80                          Almacén
83                   Casa comercial
117                   Casa de villa
159                         Terreno
207                         Cochera
347                            Loft
589      Tienda en Centro Comercial
2157                         Chacra
3354          Terreno em condominio
4379                        Oficina
4721                         Chalet
6983                         Studio
9687                          Hotel
23614              Local industrial
Name: Tipo, dtype: object

In [30]:
tipo_de_inmuble

0             Habitación
1                   Casa
2        Local comercial
3           Departamento
4           Departamento
              ...       
32955         Habitación
32956       Departamento
32957       Departamento
32958       Departamento
32959    Local comercial
Name: Tipo, Length: 32960, dtype: object

In [31]:
# Eliminando valores repetidos permanentemente 
tipo_de_inmuble.drop_duplicates(inplace= True)
tipo_de_inmuble

0                        Habitación
1                              Casa
2                   Local comercial
3                      Departamento
7                Casa en condominio
16                Edificio completo
17                             Flat
29                     Tienda/Salón
80                          Almacén
83                   Casa comercial
117                   Casa de villa
159                         Terreno
207                         Cochera
347                            Loft
589      Tienda en Centro Comercial
2157                         Chacra
3354          Terreno em condominio
4379                        Oficina
4721                         Chalet
6983                         Studio
9687                          Hotel
23614              Local industrial
Name: Tipo, dtype: object

## Organizando ls Visualizacion

In [34]:
tipo_de_inmuble.index

Int64Index([    0,     1,     2,     3,     7,    16,    17,    29,    80,
               83,   117,   159,   207,   347,   589,  2157,  3354,  4379,
             4721,  6983,  9687, 23614],
           dtype='int64')

In [35]:
type(tipo_de_inmuble)

pandas.core.series.Series

In [36]:
tipo_de_inmuble = pd.DataFrame(tipo_de_inmuble)

In [38]:
tipo_de_inmuble.shape[0]

22

In [39]:
range(tipo_de_inmuble.shape[0])

range(0, 22)

In [41]:
for i in range(tipo_de_inmuble.shape[0]):
    print(i)

0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21


In [42]:
tipo_de_inmuble.index = range(tipo_de_inmuble.shape[0])

In [43]:
tipo_de_inmuble.index

RangeIndex(start=0, stop=22, step=1)

In [44]:
tipo_de_inmuble

Unnamed: 0,Tipo
0,Habitación
1,Casa
2,Local comercial
3,Departamento
4,Casa en condominio
5,Edificio completo
6,Flat
7,Tienda/Salón
8,Almacén
9,Casa comercial


In [47]:
tipo_de_inmuble.columns.name = 'Id'

In [48]:
tipo_de_inmuble

Id,Tipo
0,Habitación
1,Casa
2,Local comercial
3,Departamento
4,Casa en condominio
5,Edificio completo
6,Flat
7,Tienda/Salón
8,Almacén
9,Casa comercial


## (Extra) Creando dataframes

In [49]:
import pandas as pd

### Series

In [50]:
data = [1,2,3,4,5]

In [52]:
s = pd.Series(data)
s

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [55]:
index = ['Linea' + str(i) for i in range(5)]
index

['Linea0', 'Linea1', 'Linea2', 'Linea3', 'Linea4']

In [56]:
s = pd.Series(data = data, index = index)
s

Linea0    1
Linea1    2
Linea2    3
Linea3    4
Linea4    5
dtype: int64

In [57]:
data = {'Linea' +str(i) : i+1 for i in range(5)}
data

{'Linea0': 1, 'Linea1': 2, 'Linea2': 3, 'Linea3': 4, 'Linea4': 5}

In [58]:
s = pd.Series(data)
s

Linea0    1
Linea1    2
Linea2    3
Linea3    4
Linea4    5
dtype: int64

In [60]:
s1 = s + 2
s1

Linea0    3
Linea1    4
Linea2    5
Linea3    6
Linea4    7
dtype: int64

In [61]:
s2 = s1 + s
s2

Linea0     4
Linea1     6
Linea2     8
Linea3    10
Linea4    12
dtype: int64

#### Ejercicio

In [62]:
datos = {'A': {'X': 1, 'Y': 3}, 'B': {'X': 2, 'Y': 4}}
df = pd.DataFrame(datos)
df

Unnamed: 0,A,B
X,1,2
Y,3,4


In [63]:
datos = [('A', 'B'), ('C', 'D')]
df = pd.DataFrame(datos, columns = ['L1', 'L2'],  index = ['C1', 'C2'])
df

Unnamed: 0,L1,L2
C1,A,B
C2,C,D


In [64]:
df1 = pd.DataFrame({'A': {'X': 1}, 'B': {'X': 2}})
df2 = pd.DataFrame({'C': {'X': 3}, 'D': {'X': 4}})
pd.concat([df1, df2])


of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  pd.concat([df1, df2])


Unnamed: 0,A,B,C,D
X,1.0,2.0,,
X,,,3.0,4.0


In [65]:
datos = [[1, 2, 3], [4, 5, 6]]
index = 'X,Y'.split(',')
columns = list('CBA')[::-1]
df = pd.DataFrame(datos, index, columns)
df

Unnamed: 0,A,B,C
X,1,2,3
Y,4,5,6


### DataFrame

In [67]:
data = [[1,2,3], [4,5,6], [7,8,9]]
data

[[1, 2, 3], [4, 5, 6], [7, 8, 9]]

In [68]:
df1 = pd.DataFrame(data = data)
df1

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


In [75]:
index = ['Linea' + str(i) for i in range(3)]
index

['Linea0', 'Linea1', 'Linea2']

In [76]:
df1 = pd.DataFrame(data = data, index = index )
df1

Unnamed: 0,0,1,2
Linea0,1,2,3
Linea1,4,5,6
Linea2,7,8,9


In [77]:
columns = ['Columna' + str(i) for i in range(3)]
columns

['Columna0', 'Columna1', 'Columna2']

In [78]:
df1 = pd.DataFrame(data = data, index = index, columns = columns )
df1

Unnamed: 0,Columna0,Columna1,Columna2
Linea0,1,2,3
Linea1,4,5,6
Linea2,7,8,9


In [79]:
data = {'Columna0': {'Linea0': 1, 'Linea1': 4, 'Linea2': 7},
 'Columna1': {'Linea0': 2, 'Linea1': 5, 'Linea2': 8},
 'Columna2': {'Linea0': 3, 'Linea1': 6, 'Linea2': 9}}

In [80]:
data

{'Columna0': {'Linea0': 1, 'Linea1': 4, 'Linea2': 7},
 'Columna1': {'Linea0': 2, 'Linea1': 5, 'Linea2': 8},
 'Columna2': {'Linea0': 3, 'Linea1': 6, 'Linea2': 9}}

In [81]:
df2 = pd.DataFrame(data)
df2

Unnamed: 0,Columna0,Columna1,Columna2
Linea0,1,2,3
Linea1,4,5,6
Linea2,7,8,9


In [82]:
data = [(1, 2, 3), 
        (4, 5, 6), 
        (7, 8, 9)]
data

[(1, 2, 3), (4, 5, 6), (7, 8, 9)]

In [83]:
df3 = pd.DataFrame(data = data, index = index, columns = columns)
df3

Unnamed: 0,Columna0,Columna1,Columna2
Linea0,1,2,3
Linea1,4,5,6
Linea2,7,8,9


In [84]:
df1[df > 0] = 'A'
df1

Unnamed: 0,Columna0,Columna1,Columna2
Linea0,1,2,3
Linea1,4,5,6
Linea2,7,8,9


In [85]:
df2[df2 > 0] = 'B'
df2

Unnamed: 0,Columna0,Columna1,Columna2
Linea0,B,B,B
Linea1,B,B,B
Linea2,B,B,B


In [86]:
df3[df3 > 0] = 'C'
df3

Unnamed: 0,Columna0,Columna1,Columna2
Linea0,C,C,C
Linea1,C,C,C
Linea2,C,C,C


In [87]:
df4 = pd.concat([df1,df2,df3])
df4

Unnamed: 0,Columna0,Columna1,Columna2
Linea0,1,2,3
Linea1,4,5,6
Linea2,7,8,9
Linea0,B,B,B
Linea1,B,B,B
Linea2,B,B,B
Linea0,C,C,C
Linea1,C,C,C
Linea2,C,C,C


In [88]:
df4 = pd.concat([df1,df2,df3], axis = 1)
df4

Unnamed: 0,Columna0,Columna1,Columna2,Columna0.1,Columna1.1,Columna2.1,Columna0.2,Columna1.2,Columna2.2
Linea0,1,2,3,B,B,B,C,C,C
Linea1,4,5,6,B,B,B,C,C,C
Linea2,7,8,9,B,B,B,C,C,C
