## Carga de módulos (Librerías)

In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

### Inspeccionar un DataFrame

Cuando tiene un DataFrame para trabajar, lo primero que debemos hacer es explorarlo y ver que contiene. Hay varios métodos y atributos para esto:

* **.head()** devuelve las primeras filas del DataFrame
* **.info()** muestra información sobre cada una de las columnas, como el tipo de datos y el número de valores missing (nulos).
* **.shape** devuelve una tupla con el número de filas y columnas del DataFrame
* **.describe()** calcula algunas estadísticas de resumen para cada columna.

In [2]:
diabetes = pd.read_csv('https://raw.githubusercontent.com/stivenlopezg/Diplomado-Python/master/data/diabetes.csv',
                       dtype={'PatientID': object, 'Diabetic': object})

print(f'El set de datos tiene {diabetes.shape[0]} observaciones, y {diabetes.shape[1]} variables. \n')
diabetes.head()

El set de datos tiene 15000 observaciones, y 10 variables. 



Unnamed: 0,PatientID,Pregnancies,PlasmaGlucose,DiastolicBloodPressure,TricepsThickness,SerumInsulin,BMI,DiabetesPedigree,Age,Diabetic
0,1354778,0,171,80,34,23,43.509726,1.213191,21,0
1,1147438,8,92,93,47,36,21.240576,0.158365,23,0
2,1640031,7,115,47,52,35,41.511523,0.079019,23,0
3,1883350,9,103,78,25,304,29.582192,1.28287,43,1
4,1424119,1,85,59,27,35,42.604536,0.549542,22,0


In [3]:
diabetes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15000 entries, 0 to 14999
Data columns (total 10 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   PatientID               15000 non-null  object 
 1   Pregnancies             15000 non-null  int64  
 2   PlasmaGlucose           15000 non-null  int64  
 3   DiastolicBloodPressure  15000 non-null  int64  
 4   TricepsThickness        15000 non-null  int64  
 5   SerumInsulin            15000 non-null  int64  
 6   BMI                     15000 non-null  float64
 7   DiabetesPedigree        15000 non-null  float64
 8   Age                     15000 non-null  int64  
 9   Diabetic                15000 non-null  object 
dtypes: float64(2), int64(6), object(2)
memory usage: 1.1+ MB


In [4]:
diabetes.describe()

Unnamed: 0,Pregnancies,PlasmaGlucose,DiastolicBloodPressure,TricepsThickness,SerumInsulin,BMI,DiabetesPedigree,Age
count,15000.0,15000.0,15000.0,15000.0,15000.0,15000.0,15000.0,15000.0
mean,3.224533,107.856867,71.220667,28.814,137.852133,31.509646,0.398968,30.137733
std,3.39102,31.981975,16.758716,14.555716,133.068252,9.759,0.377944,12.089703
min,0.0,44.0,24.0,7.0,14.0,18.200512,0.078044,21.0
25%,0.0,84.0,58.0,15.0,39.0,21.259887,0.137743,22.0
50%,2.0,104.0,72.0,31.0,83.0,31.76794,0.200297,24.0
75%,6.0,129.0,85.0,41.0,195.0,39.259692,0.616285,35.0
max,14.0,192.0,117.0,93.0,799.0,56.034628,2.301594,77.0


In [5]:
diabetes.describe(exclude='number')

Unnamed: 0,PatientID,Diabetic
count,15000,15000
unique,14895,2
top,1758462,0
freq,2,10000


In [6]:
diabetes.sample(n=5, random_state=42)

Unnamed: 0,PatientID,Pregnancies,PlasmaGlucose,DiastolicBloodPressure,TricepsThickness,SerumInsulin,BMI,DiabetesPedigree,Age,Diabetic
11499,1763065,7,93,86,16,49,45.327927,0.204736,24,0
6475,1814475,1,98,62,13,58,29.712845,0.087436,34,1
13167,1473525,1,70,86,11,50,40.657364,0.492743,22,0
862,1123081,3,135,70,19,27,50.915305,0.111574,21,0
5970,1479105,1,139,94,7,15,34.524436,0.122165,26,0


El conjunto de datos tiene 11 variables y 15000 registros, donde estas variables son:

* *PatientID*: El ID del paciente.
* *Pregnancies*: El número de embarazos.
* *PlasmaGlucose*: Concentración de glucosa a 2 horas, en una prueba de tolerancia oral a la glucosa.
* *DiastolicBloodPressure*: Presión arterial diastólica.
* *TricepsThickness*: Espesor del pliegue cutaneo del triceps.
* *SerumInsulin*: Insulina Sérica de dos horas.
* *BMI*: Indice de masa corporal.
* *DiabetesPedigree*: Función pedigree de la diabetes.
* *Age*: Edad expresada en años.
* *Diabetic*: Si la persona tiene diabetes o no (Si=1, No=0).

### Partes de un DataFrame

Es útil saber que los DataFrames constan de tres componentes, almacenados como atributos:

* **.values**: Una matriz de valores *Numpy* bidimensional.
* **.columns**: Un índice de columnas: los nombres de las columnas.
* **.index**: Un índice para las filas: números de fila o nombres de fila.

In [7]:
diabetes.values

array([['1354778', 0, 171, ..., 1.213191354, 21, '0'],
       ['1147438', 8, 92, ..., 0.158364981, 23, '0'],
       ['1640031', 7, 115, ..., 0.079018568, 23, '0'],
       ...,
       ['1742742', 0, 93, ..., 0.427048955, 24, '0'],
       ['1099353', 0, 132, ..., 0.302257208, 23, '0'],
       ['1386396', 3, 114, ..., 0.14736285, 34, '1']], dtype=object)

In [8]:
# diabetes.index = diabetes['PatientID']
diabetes.set_index('PatientID', inplace=True)

In [9]:
diabetes.columns

Index(['Pregnancies', 'PlasmaGlucose', 'DiastolicBloodPressure',
       'TricepsThickness', 'SerumInsulin', 'BMI', 'DiabetesPedigree', 'Age',
       'Diabetic'],
      dtype='object')

In [10]:
diabetes.index

Index(['1354778', '1147438', '1640031', '1883350', '1424119', '1619297',
       '1660149', '1458769', '1201647', '1403912',
       ...
       '1220763', '1603490', '1202654', '1165919', '1453189', '1490300',
       '1744410', '1742742', '1099353', '1386396'],
      dtype='object', name='PatientID', length=15000)

### Ordenar filas

Para entender un poco más los datos, podemos ordenar las filas usando el método **.sort_values()**.

In [11]:
diabetes.sort_index(inplace=True)
diabetes = diabetes.sort_values(by=['Age'], ascending=[True])

diabetes.head()

Unnamed: 0_level_0,Pregnancies,PlasmaGlucose,DiastolicBloodPressure,TricepsThickness,SerumInsulin,BMI,DiabetesPedigree,Age,Diabetic
PatientID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1628533,9,86,58,32,27,39.484717,0.1787,21,0
1879781,1,86,61,56,31,39.008252,0.101323,21,0
1208887,1,89,81,12,33,43.548543,0.178823,21,0
1209324,6,134,64,11,140,32.375979,0.567238,21,1
1209326,1,70,82,46,35,20.861974,0.136347,21,0


### Seleccionar columnas

En muchas ocasiones no necesitará todas las variables en su set de datos, o incluso experimentará con unas pocas. Los corchetes (**[]**) se pueden utilizar para seleccionar solo las columnas de interés. Por ejemplo, para seleccionar la columna `salary` del DataFrame `data`, puede hacer lo siguiente: `data["salary"]`

In [12]:
# diabetes.Diabetic
# diabetes['Diabetic']
# diabetes[['Age', 'Diabetic']].sample()
diabetes.loc[(diabetes['Age'] == 28) & (diabetes['PlasmaGlucose'] < 104), ['Age', 'Diabetic']]

Unnamed: 0_level_0,Age,Diabetic
PatientID,Unnamed: 1_level_1,Unnamed: 2_level_1
1784026,28,1
1040847,28,1
1002470,28,1
1713011,28,1
1225802,28,1
1257312,28,1
1713155,28,1
1060827,28,1
1238494,28,1
1771543,28,1


In [13]:
diabetes.query('PlasmaGlucose < 104')

Unnamed: 0_level_0,Pregnancies,PlasmaGlucose,DiastolicBloodPressure,TricepsThickness,SerumInsulin,BMI,DiabetesPedigree,Age,Diabetic
PatientID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1628533,9,86,58,32,27,39.484717,0.178700,21,0
1879781,1,86,61,56,31,39.008252,0.101323,21,0
1208887,1,89,81,12,33,43.548543,0.178823,21,0
1209326,1,70,82,46,35,20.861974,0.136347,21,0
1703348,9,76,59,17,22,22.039984,1.135634,21,0
...,...,...,...,...,...,...,...,...,...
1605313,7,92,80,10,41,44.029707,0.634594,76,0
1032359,9,95,59,42,15,20.595198,0.244552,76,0
1247294,7,91,52,41,70,28.945416,0.115246,76,0
1241498,0,51,54,34,48,30.000624,0.175144,77,0


### Seleccionar filas

Para encontrar un subconjunto de filas que coincida con algún criterio, quizás la forma más común es usar operadores lógicosque devuelvan **True** o **False** para cada fila, y luego pasarlo entre corchetes.

In [14]:
# diabetes.iloc[[10, 11, 66], [5, 6, 7]]

indices = diabetes.sample(n=10, random_state=42).index.tolist()
indices

['1898914',
 '1026705',
 '1495489',
 '1532436',
 '1178223',
 '1101741',
 '1646716',
 '1335573',
 '1163345',
 '1641132']

In [15]:
diabetes.loc[indices, 'PlasmaGlucose'] = np.nan

diabetes.isna().sum()

Pregnancies                0
PlasmaGlucose             10
DiastolicBloodPressure     0
TricepsThickness           0
SerumInsulin               0
BMI                        0
DiabetesPedigree           0
Age                        0
Diabetic                   0
dtype: int64

### Agregar nuevas columnas

Una de las prácticas más comunes es agregar nuevas columnas a un DataFrame. Esta etapa en el proceso de construir un modelo usando algoritmos de Machine Learning o estadísticos se llama ingeniería de características.

Podemos crear columnas desde cero, o derivarla de otra columna, por ejemplo, agregando columnas o cambiando sus unidades.

In [16]:
import time

In [17]:
start = time.time()

diabetes['diabetes_apply'] = diabetes['Diabetic'].apply(lambda x: 'Si' if x == '1' else 'No')

end = time.time() - start
end

0.003006458282470703

In [18]:
start = time.time()

diabetes['diabetes_map'] = diabetes['Diabetic'].map({'0': 'No', '1': 'Si'})

end = time.time() - start
end

0.0029981136322021484

In [19]:
diabetes.head()

Unnamed: 0_level_0,Pregnancies,PlasmaGlucose,DiastolicBloodPressure,TricepsThickness,SerumInsulin,BMI,DiabetesPedigree,Age,Diabetic,diabetes_apply,diabetes_map
PatientID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1628533,9,86.0,58,32,27,39.484717,0.1787,21,0,No,No
1879781,1,86.0,61,56,31,39.008252,0.101323,21,0,No,No
1208887,1,89.0,81,12,33,43.548543,0.178823,21,0,No,No
1209324,6,134.0,64,11,140,32.375979,0.567238,21,1,Si,Si
1209326,1,70.0,82,46,35,20.861974,0.136347,21,0,No,No


### Estadísticas descriptivas

Puede utilizar diferentes métodos como:

* **.mean()**
* **.median()**
* **.min()**
* **.max()**
* **.quantile()**

Y muchos otros más para calcular estadísticas sobre los datos, sin embargo, en algunos casos necesitará crear sus propias funciones personalizadas. Para esto el método **.agg()** le permite aplicar sus propias funciones personalizadas a un DataFrame, así como también aplicar funciones a más de una columna, lo que hace que sus agregaciones sean más eficientes.

In [20]:
diabetes[['PlasmaGlucose', 'Age']].head()

Unnamed: 0_level_0,PlasmaGlucose,Age
PatientID,Unnamed: 1_level_1,Unnamed: 2_level_1
1628533,86.0,21
1879781,86.0,21
1208887,89.0,21
1209324,134.0,21
1209326,70.0,21


In [21]:
diabetes['ensalada_frutas'] = diabetes[['PlasmaGlucose', 'Age']].mean(axis=1)

diabetes.head()

Unnamed: 0_level_0,Pregnancies,PlasmaGlucose,DiastolicBloodPressure,TricepsThickness,SerumInsulin,BMI,DiabetesPedigree,Age,Diabetic,diabetes_apply,diabetes_map,ensalada_frutas
PatientID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
1628533,9,86.0,58,32,27,39.484717,0.1787,21,0,No,No,53.5
1879781,1,86.0,61,56,31,39.008252,0.101323,21,0,No,No,53.5
1208887,1,89.0,81,12,33,43.548543,0.178823,21,0,No,No,55.0
1209324,6,134.0,64,11,140,32.375979,0.567238,21,1,Si,Si,77.5
1209326,1,70.0,82,46,35,20.861974,0.136347,21,0,No,No,45.5


### Eliminar datos duplicados

Cuando queremos ver si hay datos duplicados, dos métodos interesantes son:

* **.duplicated()**
* **.drop_duplicates()**

Ambos métodos comparten dos argumentos muy importantes, el primero es *subset* que considera solo las columnas que se le pasen para buscar datos duplicados; el segundo es *keep* que determina que duplicado dejar o eliminar.

In [26]:
# diabetes.reset_index(drop=True, inplace=True)
#
# diabetes.drop(labels='index', axis=1, inplace=True)
#
# diabetes[diabetes.duplicated(subset=['PatientID'], keep=False)].shape[0]/diabetes.shape[0]

In [27]:
# diabetes.drop_duplicates(subset=['PatientID'], keep=False, inplace=True)

### Agrupaciones

Podemos hacer agrupaciones usando el método **.groupby()**, donde el primer argumento es *by* que recibe un str o una lista de las columnas por las cuales se desea agrupar.

In [28]:
# diabetes.groupby(by='Diabetic', as_index=False).mean()
table = diabetes.groupby(by=['Diabetic', 'diabetes_apply']).mean()
table

Unnamed: 0_level_0,Unnamed: 1_level_0,Pregnancies,PlasmaGlucose,DiastolicBloodPressure,TricepsThickness,SerumInsulin,BMI,DiabetesPedigree,Age,ensalada_frutas
Diabetic,diabetes_apply,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
0,No,2.2479,104.965083,70.1387,27.2444,114.5765,30.057052,0.353457,27.209,66.0664
1,Si,5.1778,113.657057,73.3846,31.9532,184.4034,34.414834,0.48999,35.9952,74.7841


In [29]:
table['Diabetic'] = table.index.get_level_values(0)
table

Unnamed: 0_level_0,Unnamed: 1_level_0,Pregnancies,PlasmaGlucose,DiastolicBloodPressure,TricepsThickness,SerumInsulin,BMI,DiabetesPedigree,Age,ensalada_frutas,Diabetic
Diabetic,diabetes_apply,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
0,No,2.2479,104.965083,70.1387,27.2444,114.5765,30.057052,0.353457,27.209,66.0664,0
1,Si,5.1778,113.657057,73.3846,31.9532,184.4034,34.414834,0.48999,35.9952,74.7841,1


In [30]:
table.index

MultiIndex([('0', 'No'),
            ('1', 'Si')],
           names=['Diabetic', 'diabetes_apply'])

In [31]:
table.loc[[('0', 'No')], ]

Unnamed: 0_level_0,Unnamed: 1_level_0,Pregnancies,PlasmaGlucose,DiastolicBloodPressure,TricepsThickness,SerumInsulin,BMI,DiabetesPedigree,Age,ensalada_frutas,Diabetic
Diabetic,diabetes_apply,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
0,No,2.2479,104.965083,70.1387,27.2444,114.5765,30.057052,0.353457,27.209,66.0664,0


In [32]:
table = diabetes.groupby(by='Diabetic').agg(['mean', 'median', 'std'])
table

Unnamed: 0_level_0,Pregnancies,Pregnancies,Pregnancies,PlasmaGlucose,PlasmaGlucose,PlasmaGlucose,DiastolicBloodPressure,DiastolicBloodPressure,DiastolicBloodPressure,TricepsThickness,...,BMI,DiabetesPedigree,DiabetesPedigree,DiabetesPedigree,Age,Age,Age,ensalada_frutas,ensalada_frutas,ensalada_frutas
Unnamed: 0_level_1,mean,median,std,mean,median,std,mean,median,std,mean,...,std,mean,median,std,mean,median,std,mean,median,std
Diabetic,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2
0,2.2479,1,3.130531,104.965083,96.0,32.074428,70.1387,69,17.704926,27.2444,...,10.09352,0.353457,0.193486,0.331053,27.209,24,9.928463,66.0664,63.0,16.781532
1,5.1778,5,3.029063,113.657057,109.0,30.999172,73.3846,74,14.445041,31.9532,...,8.325321,0.48999,0.222887,0.443775,35.9952,37,13.780332,74.7841,73.5,16.989187


In [33]:
table.loc[:, [('PlasmaGlucose', 'median')]]

Unnamed: 0_level_0,PlasmaGlucose
Unnamed: 0_level_1,median
Diabetic,Unnamed: 1_level_2
0,96.0
1,109.0


In [34]:
diabetes.groupby('Diabetic',)['Age'].agg(min_age='min',
                                         max_age='max',
                                         median_age='median',
                                         std_age='std').reset_index()

Unnamed: 0,Diabetic,min_age,max_age,median_age,std_age
0,0,21,77,24,9.928463
1,1,21,67,37,13.780332


### Tablas dínamicas

Otra forma de calcular estadísticas agrupadas son las tablas dínamicas. Algunos argumentos interesantes son:

* **values** es la columna que desea resumir.
* **index** es la columna por la que desea agrupar.
* **aggfunc** como se quiere agregar (por ejemplo, mediana)


**Nota**:

* De forma predeterminada el método **.pivot_table()** toma el valor medio para cada grupo.
* Para agrupar por dos variables, podemos pasar un segundo nombre de variable al argumento **columns**.
* En caso de tener valores missing, podemos completarlos (imputarlos) usando el argumento **fill_value**.

In [43]:
diabetes.pivot_table(index=['Diabetic', 'Pregnancies'], values='Age',
                     aggfunc='median', fill_value=0)

Unnamed: 0_level_0,Unnamed: 1_level_0,Age
Diabetic,Pregnancies,Unnamed: 2_level_1
0,0,23.0
0,1,24.0
0,2,23.0
0,3,24.0
0,4,24.0
0,5,24.0
0,6,23.0
0,7,24.0
0,8,23.0
0,9,24.0


### Trabajar con index

Como se ha mencionado, una parte importante de los DataFrames son los index, que por lo general es un valor númerico de 0 a *n-1*, donde *n* es el número de observaciones totales en el DataFrame.

Sin embargo, podemos mover una columna del cuerpo del DataFrame al índice, de la siguiente forma:

* **set_index(column_name)**

También puede tener varios índices, solo debemos pasar una lista sobre el método **set_index()**. Y para restablecer al DataFrame original,

* **reset_index()**

Adicional, el método **reset_index()** tiene un argumento drop que le permite eliminar el índice.

In [44]:
temperatures = pd.read_csv('https://raw.githubusercontent.com/stivenlopezg/Diplomado-Python/master/data/temperatures.csv',
                           index_col=0, parse_dates=['date'])

temperatures.head()

Unnamed: 0,date,city,country,avg_temp_c
0,2000-01-01,Abidjan,Côte D'Ivoire,27.293
1,2000-02-01,Abidjan,Côte D'Ivoire,27.685
2,2000-03-01,Abidjan,Côte D'Ivoire,29.061
3,2000-04-01,Abidjan,Côte D'Ivoire,28.162
4,2000-05-01,Abidjan,Côte D'Ivoire,27.547


In [45]:
temperatures.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 16500 entries, 0 to 16499
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype         
---  ------      --------------  -----         
 0   date        16500 non-null  datetime64[ns]
 1   city        16500 non-null  object        
 2   country     16500 non-null  object        
 3   avg_temp_c  16407 non-null  float64       
dtypes: datetime64[ns](1), float64(1), object(2)
memory usage: 644.5+ KB


In [49]:
temperatures.describe(datetime_is_numeric=True)

Unnamed: 0,date,avg_temp_c
count,16500,16407.0
mean,2006-10-31 13:49:05.454545408,19.732877
min,2000-01-01 00:00:00,-23.495
25%,2003-06-01 00:00:00,14.87
50%,2006-11-01 00:00:00,22.119
75%,2010-04-01 00:00:00,27.0015
max,2013-09-01 00:00:00,38.283
std,,9.579635


In [48]:
temperatures.describe(exclude='number')

  temperatures.describe(exclude='number')


Unnamed: 0,date,city,country
count,16500,16500,16500
unique,165,100,49
top,2007-05-01 00:00:00,Melbourne,China
freq,100,165,2640
first,2000-01-01 00:00:00,,
last,2013-09-01 00:00:00,,


In [50]:
temperatures.set_index('date', inplace=True)

temperatures.index

DatetimeIndex(['2000-01-01', '2000-02-01', '2000-03-01', '2000-04-01',
               '2000-05-01', '2000-06-01', '2000-07-01', '2000-08-01',
               '2000-09-01', '2000-10-01',
               ...
               '2012-12-01', '2013-01-01', '2013-02-01', '2013-03-01',
               '2013-04-01', '2013-05-01', '2013-06-01', '2013-07-01',
               '2013-08-01', '2013-09-01'],
              dtype='datetime64[ns]', name='date', length=16500, freq=None)

In [52]:
temperatures.loc['2010-01': '2011-01', :]

Unnamed: 0_level_0,city,country,avg_temp_c
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2010-01-01,Abidjan,Côte D'Ivoire,28.270
2010-02-01,Abidjan,Côte D'Ivoire,29.262
2010-03-01,Abidjan,Côte D'Ivoire,29.596
2010-04-01,Abidjan,Côte D'Ivoire,29.068
2010-05-01,Abidjan,Côte D'Ivoire,28.258
...,...,...,...
2010-09-01,Xian,China,19.630
2010-10-01,Xian,China,12.292
2010-11-01,Xian,China,6.742
2010-12-01,Xian,China,0.845


### Unir datos (merge)

En muchas ocasiones tendremos diferentes archivos planos, y para analizar lo que me interesa debo unir los diferentes archivos.

In [53]:
doctors = pd.read_csv('https://raw.githubusercontent.com/stivenlopezg/Diplomado-Python/master/data/doctors.csv',
                      encoding='latin-1')

diabetes = pd.read_csv('https://raw.githubusercontent.com/stivenlopezg/Diplomado-Python/master/data/diabetes.csv')
diabetes.drop_duplicates(subset=['PatientID'], keep=False, inplace=True)

In [77]:
# pd.merge(left=diabetes[['PatientID', 'Pregnancies', 'Diabetic']], right=doctors, how='left', on=['PatientID'])

diabetes.merge(right=doctors, how='left', on=['PatientID']).sample(100)

Unnamed: 0,PatientID,Pregnancies,PlasmaGlucose,DiastolicBloodPressure,TricepsThickness,SerumInsulin,BMI,DiabetesPedigree,Age,Diabetic,Physician
1828,1300388,1,69,64,9,138,41.030369,0.079026,25,0,Iselda Bahena
6563,1498885,4,176,87,48,157,46.080433,1.806626,21,1,Carey Merrill
12115,1954810,6,117,59,8,45,36.164059,0.556659,21,0,Anthony Frizzell
7677,1601642,8,78,74,42,29,20.444919,0.225279,21,0,Naiyana Kunakorn
5582,1691755,6,142,46,7,20,20.013580,1.090609,23,0,Vicky Erickson
...,...,...,...,...,...,...,...,...,...,...,...
10901,1568246,10,113,62,16,155,37.306467,0.626796,39,1,Sonia Harrison
4099,1687939,1,157,50,11,40,20.782917,0.146402,22,0,Jeannette Kjaer
9152,1661286,6,100,62,52,184,35.933682,0.679035,32,1,Consuelo Navarro
3766,1736225,3,104,71,48,220,30.334832,0.298803,47,1,Generosa Esposito
