## Análisis de datos con Pandas

Pandas es uno de los paquetes de Python más populares entre los usuarios porque brinda herramientas robustas para hacer ánalisis de datos de manera rápida y sencilla. 

Pandas trabaja con tablas indexadas a las que denomina DataFrames y con columnas indexadas a las que denomina Series. Cuenta con gran cantidad de funciones muy flexibles que permiten manipular los datos, realizar consultas similares a las de SQL y hacer análisis estadísticos complejos.

Entre las ventajas que posee pandas, resaltan las siguientes:

 1. Manipulación robusta de los datos
 2. Gestiona múltiples estructuras y formatos de datos.
 3. Manejo integrado de datos faltantes
 4. Búsquedas y agrupaciones optimizadas
 5. Manejo de datos georeferenciados y series de tiempo.



Para importar las funciones de pandas se utilizar la siguiente línea de código:

In [3]:
import pandas as pd

### Importación de datos

Pandas tiene herramientas robustas para importar datos desde: csv (valores separados por comas), xls (excel), gbq (Google BigQuery) y otros gestores de bases de datos como Oracle.

#### Leer un .csv 

La lectura de un csv se realiza a través del método "read_csv()" y pasando como argumento la dirección del archivo. Observe el ejemplo.

In [4]:
# Leer un CSV
# raw = crudo 
#direccion = r"C:\Users\juanf\OneDrive\Escritorio\Python\Building_Energy_Benchmarking_2018.csv"
#energy_df = pd.read_csv(direccion, sep=",") #encoding = "latin-1"
# No olvidar escribir correctamente la dirección del archivo
# La dirección del archivo se compone de la ubiciación más el nombre
# La ubicación la encuentra en propiedades del archivo
# La opción propiedades aparece al dar click derecho sobre el documento
# Dirección: "Ubicacion\Nombre.Extension"

#Para visualizar el documento:
# energy_df
# o tambien 
#print(energy_df)

Si y solo si el documento se encuentra en la misma carpeta que su notebook puede omitir la ubicacion.

#### Leer un .xls 

In [7]:
energy_df = pd.read_csv("Building_Energy_Benchmarking_2018.csv", sep=",")
energy_df

Unnamed: 0,OSEBuildingID,DataYear,BuildingName,BuildingType,TaxParcelIdentificationNumber,Address,City,State,ZipCode,Latitude,...,ThirdLargestPropertyUseTypeGFA,Electricity(kWh),Electricity(kBtu),NaturalGas(therms),NaturalGas(kBtu),SteamUse(kBtu),TotalGHGEmissions,GHGEmissionsIntensity,ComplianceStatus,ComplianceIssue
0,1,2018,MAYFLOWER PARK HOTEL,NonResidential,0659000030,405 OLIVE WAY,SEATTLE,WA,98101.0,47.61220,...,,1145355.0,3907951.0,14101.0,1410145.0,2090193.0,196.4,2.2,Compliant,No Issue
1,2,2018,PARAMOUNT HOTEL,NonResidential,0659000220,724 PINE ST,SEATTLE,WA,98101.0,47.61317,...,4622.0,840157.0,2866615.0,50307.0,5030730.0,0.0,274.8,3.1,Compliant,No Issue
2,3,2018,WESTIN HOTEL (Parent Building),NonResidential,0659000475,1900 5TH AVE,SEATTLE,WA,98101.0,47.61393,...,0.0,13028620.0,44453651.0,14503.0,1450300.0,20851598.0,1304.2,1.7,Compliant,No Issue
3,5,2018,HOTEL MAX,NonResidential,0659000640,620 STEWART ST,SEATTLE,WA,98101.0,47.61412,...,,769653.0,2626057.0,27306.0,2730608.0,2003570.0,258.5,4.2,Compliant,No Issue
4,8,2018,WARWICK SEATTLE HOTEL,NonResidential,0659000970,401 LENORA ST,SEATTLE,WA,98121.0,47.61375,...,0.0,1392492.0,4751183.0,83829.0,8382912.0,0.0,457.9,4.0,Compliant,No Issue
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3532,50414,2018,OTHELLO NORTH,Multifamily MR (5-9),8800000035,4200 S OTHELLO ST,SEATTLE,WA,98118.0,47.53771,...,,625138.0,2132970.0,26767.0,2676660.0,0.0,147.9,0.4,Compliant,No Issue
3533,50415,2018,PORT OF SEATTLE- TERMINAL 115 (CAMPUS),Campus,5367202505,6000 WEST MARGINAL WAY SW,SEATTLE,WA,98106.0,47.54657,...,34255.0,1543452.0,5266258.0,0.0,0.0,0.0,14.1,0.0,Compliant,No Issue
3534,50416,2018,PORT OF SEATTLE- TERMINAL 91 (CAMPUS),Campus,7666201146,2001 W GARFIELD ST,SEATTLE,WA,98119.0,47.63100,...,143000.0,21549590.0,73527201.0,31671.0,3167104.0,0.0,364.5,0.4,Compliant,No Issue
3535,50452,2018,PORT OF SEATTLE - TERMINAL 5 CAMPUS,Campus,7666705565,3443 WEST MARGINAL WAY SW,SEATTLE,WA,98106.0,47.57250,...,33420.0,3939839.0,13442731.0,2191.0,219138.0,0.0,47.5,0.2,Compliant,No Issue


Similar a la lectura de ".csv", se utiliza el método "read_excel()".

In [None]:
# Leer un XLS
#direccion = r"C:\Users\juanf\OneDrive\Escritorio\Python\Concrete_Data.xls" #xlsx
concrete_df = pd.read_excel('Data/Concrete_Data.xls')

# La primera vez probablemente tenga que instalar xlrd con "pip install xlrd"

# No olvidar escribir correctamente la dirección del archivo
# La dirección del archivo se compone de la ubiciación más el nombre
# La ubicación la encuentra en propiedades del archivo
# La opción propiedades aparece al dar click derecho sobre el documento
# Dirección: "Ubicacion\Nombre.Extension"
 
#Para visualizar el documento:
concrete_df

Las tablas que se han importado en las celdas anteriores son de la clase "DataFrame" y están compuestas por columnas de la clase "Series", tanto los DataFrames como las Series tienen un índice que Pandas le añade automáticamente y por ello se dice que están indexadas.

### Manipular datos con Pandas

Antes de manipular los datos es necesario conocerlos, si no se conoce la representación física de los datos si bien se podrían realizar análisis, estos no brindarían ninguna conclusión lógica.  

Los datos contenidos en la variable energy_df corresponden a datos referentes a la energía utilizada por edificaciones: 
https://data.seattle.gov/dataset/2018-Building-Energy-Benchmarking/7rac-kyay

Los datos contenidos en la variable concrete_df corresponden a datos referentes a los componentes de muestras de concreto y su resistencia a la compresión: https://archive.ics.uci.edu/ml/datasets/concrete+compressive+strength

Para manipular los datos se hace uso de métodos y atributos:

In [8]:
# Visualizar las primeras filas
energy_df.head()

Unnamed: 0,OSEBuildingID,DataYear,BuildingName,BuildingType,TaxParcelIdentificationNumber,Address,City,State,ZipCode,Latitude,...,ThirdLargestPropertyUseTypeGFA,Electricity(kWh),Electricity(kBtu),NaturalGas(therms),NaturalGas(kBtu),SteamUse(kBtu),TotalGHGEmissions,GHGEmissionsIntensity,ComplianceStatus,ComplianceIssue
0,1,2018,MAYFLOWER PARK HOTEL,NonResidential,659000030,405 OLIVE WAY,SEATTLE,WA,98101.0,47.6122,...,,1145355.0,3907951.0,14101.0,1410145.0,2090193.0,196.4,2.2,Compliant,No Issue
1,2,2018,PARAMOUNT HOTEL,NonResidential,659000220,724 PINE ST,SEATTLE,WA,98101.0,47.61317,...,4622.0,840157.0,2866615.0,50307.0,5030730.0,0.0,274.8,3.1,Compliant,No Issue
2,3,2018,WESTIN HOTEL (Parent Building),NonResidential,659000475,1900 5TH AVE,SEATTLE,WA,98101.0,47.61393,...,0.0,13028620.0,44453651.0,14503.0,1450300.0,20851598.0,1304.2,1.7,Compliant,No Issue
3,5,2018,HOTEL MAX,NonResidential,659000640,620 STEWART ST,SEATTLE,WA,98101.0,47.61412,...,,769653.0,2626057.0,27306.0,2730608.0,2003570.0,258.5,4.2,Compliant,No Issue
4,8,2018,WARWICK SEATTLE HOTEL,NonResidential,659000970,401 LENORA ST,SEATTLE,WA,98121.0,47.61375,...,0.0,1392492.0,4751183.0,83829.0,8382912.0,0.0,457.9,4.0,Compliant,No Issue


In [9]:
# Visualizar las últimas filas
energy_df.tail()

Unnamed: 0,OSEBuildingID,DataYear,BuildingName,BuildingType,TaxParcelIdentificationNumber,Address,City,State,ZipCode,Latitude,...,ThirdLargestPropertyUseTypeGFA,Electricity(kWh),Electricity(kBtu),NaturalGas(therms),NaturalGas(kBtu),SteamUse(kBtu),TotalGHGEmissions,GHGEmissionsIntensity,ComplianceStatus,ComplianceIssue
3532,50414,2018,OTHELLO NORTH,Multifamily MR (5-9),8800000035,4200 S OTHELLO ST,SEATTLE,WA,98118.0,47.53771,...,,625138.0,2132970.0,26767.0,2676660.0,0.0,147.9,0.4,Compliant,No Issue
3533,50415,2018,PORT OF SEATTLE- TERMINAL 115 (CAMPUS),Campus,5367202505,6000 WEST MARGINAL WAY SW,SEATTLE,WA,98106.0,47.54657,...,34255.0,1543452.0,5266258.0,0.0,0.0,0.0,14.1,0.0,Compliant,No Issue
3534,50416,2018,PORT OF SEATTLE- TERMINAL 91 (CAMPUS),Campus,7666201146,2001 W GARFIELD ST,SEATTLE,WA,98119.0,47.631,...,143000.0,21549590.0,73527201.0,31671.0,3167104.0,0.0,364.5,0.4,Compliant,No Issue
3535,50452,2018,PORT OF SEATTLE - TERMINAL 5 CAMPUS,Campus,7666705565,3443 WEST MARGINAL WAY SW,SEATTLE,WA,98106.0,47.5725,...,33420.0,3939839.0,13442731.0,2191.0,219138.0,0.0,47.5,0.2,Compliant,No Issue
3536,50453,2018,PORT OF SEATTLE - TERMINAL 86,Campus,7666202055,955 ALASKAN WAY W,SEATTLE,WA,98119.0,47.6266,...,6823.0,5997937.0,20464961.0,0.0,0.0,0.0,54.6,0.8,Compliant,No Issue


In [10]:
# Obtener los nombres de las columnas

columnas_energy = energy_df.columns
columnas_energy

Index(['OSEBuildingID', 'DataYear', 'BuildingName', 'BuildingType',
       'TaxParcelIdentificationNumber', 'Address', 'City', 'State', 'ZipCode',
       'Latitude', 'Longitude', 'Neighborhood', 'CouncilDistrictCode',
       'YearBuilt', 'NumberofFloors', 'NumberofBuildings', 'PropertyGFATotal',
       'PropertyGFABuilding(s)', 'PropertyGFAParking', 'PrimaryPropertyType',
       'ENERGYSTARScore', 'SiteEUIWN(kBtu/sf)', 'SiteEUI(kBtu/sf)',
       'SiteEnergyUse(kBtu)', 'SiteEnergyUseWN(kBtu)', 'SourceEUIWN(kBtu/sf)',
       'SourceEUI(kBtu/sf)', 'LargestPropertyUseType',
       'LargestPropertyUseTypeGFA', 'SecondLargestPropertyUseType',
       'SecondLargestPropertyUseTypeGFA', 'ThirdLargestPropertyUseType',
       'ThirdLargestPropertyUseTypeGFA', 'Electricity(kWh)',
       'Electricity(kBtu)', 'NaturalGas(therms)', 'NaturalGas(kBtu)',
       'SteamUse(kBtu)', 'TotalGHGEmissions', 'GHGEmissionsIntensity',
       'ComplianceStatus', 'ComplianceIssue'],
      dtype='object')

In [11]:
# Obtener el índice
energy_df.index

RangeIndex(start=0, stop=3537, step=1)

In [12]:
# Obtener el tamaño
energy_df.shape

(3537, 42)

In [13]:
# Obtener la cantidad de datos
energy_df.size

148554

Para separar la tabla en columnas, se hace uso de la notación de los corchetes:

dataframe["NombreDeLaSerie"]

Podrá observar similitudes entre los dataframes y los diccionarios. 

In [14]:
# Solicitar solo cierta columna
energy_df[[r'NaturalGas(therms)']]
# Puede utilizar comillas dobles o simples

Unnamed: 0,NaturalGas(therms)
0,14101.0
1,50307.0
2,14503.0
3,27306.0
4,83829.0
...,...
3532,26767.0
3533,0.0
3534,31671.0
3535,2191.0


In [15]:
# Solicitar solo ciertas columnas

energy_df[['OSEBuildingID','BuildingName',
           'BuildingType','YearBuilt','NumberofFloors']]

Unnamed: 0,OSEBuildingID,BuildingName,BuildingType,YearBuilt,NumberofFloors
0,1,MAYFLOWER PARK HOTEL,NonResidential,1927,12
1,2,PARAMOUNT HOTEL,NonResidential,1996,11
2,3,WESTIN HOTEL (Parent Building),NonResidential,1969,41
3,5,HOTEL MAX,NonResidential,1926,10
4,8,WARWICK SEATTLE HOTEL,NonResidential,1980,18
...,...,...,...,...,...
3532,50414,OTHELLO NORTH,Multifamily MR (5-9),2016,7
3533,50415,PORT OF SEATTLE- TERMINAL 115 (CAMPUS),Campus,1950,4
3534,50416,PORT OF SEATTLE- TERMINAL 91 (CAMPUS),Campus,2000,4
3535,50452,PORT OF SEATTLE - TERMINAL 5 CAMPUS,Campus,1980,4


In [16]:
# Obtener un nuevo dataframe con solo unas columnas del anterior

myEnergy_df = energy_df[['OSEBuildingID', 'YearBuilt', 'NumberofFloors',
                         'ENERGYSTARScore','Electricity(kBtu)', 
                         'GHGEmissionsIntensity']]
myEnergy_df.head()

Unnamed: 0,OSEBuildingID,YearBuilt,NumberofFloors,ENERGYSTARScore,Electricity(kBtu),GHGEmissionsIntensity
0,1,1927,12,60.0,3907951.0,2.2
1,2,1996,11,71.0,2866615.0,3.1
2,3,1969,41,64.0,44453651.0,1.7
3,5,1926,10,39.0,2626057.0,4.2
4,8,1980,18,81.0,4751183.0,4.0


In [17]:
# el nuevo dataframe solo tiene 6 columnas
myEnergy_df.shape

(3537, 6)

In [18]:
# Renombrar las columnas
myEnergy_df = myEnergy_df.rename(columns={'OSEBuildingID': "id",
                                      'YearBuilt': "yearBuilt",
                                      'NumberofFloors': "numberOfFloors",
                                      'ENERGYSTARScore': "energyStarScore",
                                      'Electricity(kBtu)': "electricity",
                                      'GHGEmissionsIntensity': "emissionsIntensity"
                                       })
# Observe que dentro del diccionario se escribe:
#  "nombreAnterior": "nombreNuevo"

myEnergy_df.head(4) 

Unnamed: 0,id,yearBuilt,numberOfFloors,energyStarScore,electricity,emissionsIntensity
0,1,1927,12,60.0,3907951.0,2.2
1,2,1996,11,71.0,2866615.0,3.1
2,3,1969,41,64.0,44453651.0,1.7
3,5,1926,10,39.0,2626057.0,4.2


In [19]:
#Cambiar la columna del índice
myEnergy_df.set_index('id', inplace=True) 
#inplace=True elimina el índice anterior
myEnergy_df.head()

Unnamed: 0_level_0,yearBuilt,numberOfFloors,energyStarScore,electricity,emissionsIntensity
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,1927,12,60.0,3907951.0,2.2
2,1996,11,71.0,2866615.0,3.1
3,1969,41,64.0,44453651.0,1.7
5,1926,10,39.0,2626057.0,4.2
8,1980,18,81.0,4751183.0,4.0


In [20]:
# Solicitar los datos de una fila (row) según el índice

myEnergy_df.loc[8]

yearBuilt                1980.0
numberOfFloors             18.0
energyStarScore            81.0
electricity           4751183.0
emissionsIntensity          4.0
Name: 8, dtype: float64

In [21]:
# La fila obtenida en la celda anterior es muy similar a un diccionario.
# Al igual que un diccionario, se accede a sus valores a traves de claves.
myEnergy_df.loc[8]["yearBuilt"]

1980.0

In [22]:
# Conocer el tipo de dato de una columna
myEnergy_df["numberOfFloors"].dtype

dtype('int64')

In [24]:
# Se puede modificar el tipo de dato de una columna
myEnergy_df["numberOfFloors"] = myEnergy_df["numberOfFloors"].astype(str) 

In [25]:
myEnergy_df["numberOfFloors"].dtype

dtype('O')

In [26]:
print(myEnergy_df.loc[8]["numberOfFloors"])
print(type(myEnergy_df.loc[8]["numberOfFloors"]))
print(myEnergy_df["numberOfFloors"].dtype)

18
<class 'str'>
object


Los tipos de datos que tienen soporte en pandas son: int, float, str, bool y datetime.

In [27]:
# Se puede pedir los elementos no repetidos de una columna
pd.unique(myEnergy_df["yearBuilt"])

array([1927, 1996, 1969, 1926, 1980, 1999, 1904, 1910, 1998, 1928, 1922,
       2004, 1930, 1983, 1907, 1916, 1985, 1961, 2001, 1991, 1955, 1978,
       1949, 1989, 1906, 1994, 1992, 1990, 1950, 1900, 1954, 1911, 1973,
       1920, 1982, 1908, 1959, 2000, 1997, 1962, 1970, 2008, 1948, 1965,
       1929, 2010, 1938, 1986, 2002, 1923, 2003, 1957, 1964, 1941, 1963,
       2006, 1915, 1958, 2009, 2011, 1971, 2007, 1951, 1953, 1952, 1960,
       1937, 1966, 1968, 1925, 1924, 2005, 1909, 1931, 1972, 1914, 1913,
       1917, 1995, 1981, 1976, 1988, 1979, 1947, 1984, 1956, 1912, 1977,
       1921, 1945, 2016, 1974, 1975, 1946, 1967, 1987, 1940, 1932, 1993,
       1918, 1905, 1902, 1939, 1944, 1942, 1903, 2012, 2013, 2015, 1901,
       1919, 2017, 2014, 1936, 2018, 1935, 1896], dtype=int64)

Pandas cuenta con herramientas que permiten ordenar los datos según el criterio de alguna columna.

In [28]:
# Se puede ordenar datos según una columna
myEnergy_df = myEnergy_df.sort_values(by='energyStarScore')
myEnergy_df.head(50)

Unnamed: 0_level_0,yearBuilt,numberOfFloors,energyStarScore,electricity,emissionsIntensity
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
21117,1946,3,1.0,1903747.0,5.7
22502,1974,1,1.0,1075044.0,1.1
704,2000,4,1.0,27578572.0,0.8
703,2000,4,1.0,27966212.0,0.7
24202,1978,1,1.0,814604.0,0.8
24180,1986,2,1.0,2681479.0,0.3
28735,2008,4,1.0,3903427.0,4.9
20059,1959,3,1.0,1923833.0,0.2
85,1970,2,1.0,5427919.0,6.2
27154,1913,4,1.0,908420.0,2.1


In [31]:
# Ordenar por más de un campo
myEnergy_df.sort_values(by=['yearBuilt','numberOfFloors','energyStarScore'], 
                        ascending= False) #ascending = True or False

Unnamed: 0_level_0,yearBuilt,numberOfFloors,energyStarScore,electricity,emissionsIntensity
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
24235,2018,8,71.0,7692787.0,0.8
50349,2018,5,69.0,1429292.0,1.1
50350,2017,9,99.0,2748461.0,0.4
50269,2017,8,,0.0,0.0
50328,2017,7,96.0,947058.0,0.4
...,...,...,...,...,...
318,1900,1,,4363791.0,6.6
23854,1900,1,,0.0,15.5
26594,1900,1,,728064.0,0.4
49967,1900,0,,688274099.0,1.6


In [32]:
# Se puede pedir los estadísticos de los datos, todos a la vez
myEnergy_df["energyStarScore"].describe()

count    2570.000000
mean       70.637354
std        25.847820
min         1.000000
25%        56.000000
50%        77.000000
75%        92.000000
max       100.000000
Name: energyStarScore, dtype: float64

In [33]:
# o solicitar directamente alguno de ellos 
myEnergy_df["yearBuilt"].mean() #min, max, mean, std, sum, count

1970.6262369239469

### Exportar datos

In [34]:
# Genere su nuevo dataframe el cual se exportara
print(myEnergy_df)
datosProcesados_df = myEnergy_df.copy()

       yearBuilt numberOfFloors  energyStarScore  electricity  \
id                                                              
21117       1946              3              1.0    1903747.0   
22502       1974              1              1.0    1075044.0   
704         2000              4              1.0   27578572.0   
703         2000              4              1.0   27966212.0   
24202       1978              1              1.0     814604.0   
...          ...            ...              ...          ...   
50402       2015              7              NaN   10290844.0   
50415       1950              4              NaN    5266258.0   
50416       2000              4              NaN   73527201.0   
50452       1980              4              NaN   13442731.0   
50453       1980              4              NaN   20464961.0   

       emissionsIntensity  
id                         
21117                 5.7  
22502                 1.1  
704                   0.8  
703           

In [35]:
# Guardar los datos en un archivo csv
datosProcesados_df.to_csv("datosprocesados.csv")

### Manejo de datos faltantes

Pandas posee algoritmos para solucionar el problema de datos faltantes en la tablas. El método más sencillo y eficaz es utilizar la función dropna.

Observe que las columnas "electricity" y "energyStarScore" no poseen la misma cantidad de datos, inclusive no coincide con la cantidad de filas.

In [36]:
myEnergy_df["electricity"].count()

3521

In [37]:
myEnergy_df["energyStarScore"].count()

2570

In [38]:
myEnergy_df.shape

(3537, 5)

Para solucionar el problema, se filtran los valores vacios, de tal manera que se eliminan las filas que contengan algún valor faltante:

In [39]:
#Se filtran los varores vacios
myEnergy_df = myEnergy_df.dropna() #fillna
# nueva variable = modificacion de la antigua variable

myEnergy_df = myEnergy_df.reset_index()
#print(myEnergy_df.shape)
myEnergy_df.head(10)

Unnamed: 0,id,yearBuilt,numberOfFloors,energyStarScore,electricity,emissionsIntensity
0,21117,1946,3,1.0,1903747.0,5.7
1,22502,1974,1,1.0,1075044.0,1.1
2,704,2000,4,1.0,27578572.0,0.8
3,703,2000,4,1.0,27966212.0,0.7
4,24202,1978,1,1.0,814604.0,0.8
5,24180,1986,2,1.0,2681479.0,0.3
6,28735,2008,4,1.0,3903427.0,4.9
7,20059,1959,3,1.0,1923833.0,0.2
8,85,1970,2,1.0,5427919.0,6.2
9,27154,1913,4,1.0,908420.0,2.1


In [None]:
myEnergy_df.shape

In [None]:
del myEnergy_df["id"]

In [None]:
myEnergy_df.head()

Se puede solicitar los nuevos estadísticos de todas las columnas de la tabla para verificar que se filtró correctamente.


In [None]:
myEnergy_df.describe()

Tome en cuenta que la función "describe" obtiene los estadísticos solo de datos de tipo numéricos.

### Para practicar:

1. Obtenga los estadísticos de la tabla "Concrete Data".

2. Filtre los datos faltantes de la tabla "Concrete Data". ¿Tenía la tabla datos faltantes? 

3. Genere un nuevo dataframe y expórtelo como csv

### Bibliografía

Bibliografia de Pandas

https://pandas.pydata.org/docs/


Visualización de datos con pandas

https://pandas.pydata.org/pandas-docs/stable/user_guide/visualization.html

Repositorio del paquete

https://github.com/pandas-dev/pandas

Bases de datos:

https://figshare.com

https://www.kaggle.com

https://www.kaggle.com/loveall/appliances-energy-prediction

https://www.data.gov

https://data.europa.eu/euodp/en/home

https://archive.ics.uci.edu/ml/datasets.php


Bases de datos en Google:

https://datasetsearch.research.google.com

Otros:

https://lionbridge.ai/datasets/the-50-best-free-datasets-for-machine-learning/
https://guides.library.cmu.edu/machine-learning/datasets

Extra: Turoriales para la gestión de bases de datos con python

https://realpython.com/tutorials/databases/