joins_advanced.rst @ 70

Revision 62, 8.7 KB checked in by thomasg, 13 years ago (diff)
Fin correction typo et orthographe V2 du document

Partie 19 : Plus de jointures spatiales

Dans la partie prÃ©cÃ©dente nous avons vu les fonctions :command:`ST_Centroid(geometry)` et :command:`ST_Union(geometry)` ainsi que quelques exemples simples. Dans cette partie nous rÃ©aliserons des choses plus Ã©laborÃ©es.

System Message: ERROR/3 (<string>, line 6); backlink

Unknown interpreted text role "command".

System Message: ERROR/3 (<string>, line 6); backlink

Unknown interpreted text role "command".

CrÃ©ation de la table de traÃ§age des recensements

System Message: WARNING/2 (<string>, line 11)

Title underline too short.

CrÃ©ation de la table de traÃ§age des recensements
------------------------------------------------

Dans le rÃ©pertoire \data\ des travaux pratiques, il y a un fichier qui contient des donnÃ©es attributaires, mais pas de gÃ©omÃ©tries, ce fichier est nommÃ© nyc_census_sociodata.sql. La table contient des donnÃ©es sociaux-Ã©conomiques intÃ©ressantes Ã propos de New York : revenus financiers, Ã©ducation .... Il y a juste un problÃšme, les donnÃ©es sont rassemblÃ©es en "trace de recensement" et nous n'avons pas de donnÃ©es spatiales associÃ©es !

Dans cette partie nous allons

Charger la table nyc_census_sociodata.sql

CrÃ©er une table spatiale pour les traces de recensement

Joindre les donnÃ©es attributaires Ã nos donnÃ©es spatiales

RÃ©aliser certaines analyses sur nos nouvelles donnÃ©es

Chargement du fichier nyc_census_sociodata.sql

Ouvrez la fenÃªtre de requÃªtage SQL depuis PgAdmin

SÃ©lectionnez File->Open depuis le menu et naviguez jusqu'au fichier nyc_census_sociodata.sql

Cliquez sur le bouton "Run Query"

Si vous cliquez sur le bouton "Refresh" depuis PgAdmin, la liste des tables devrait contenir votre nouvelle table nyc_census_sociodata

CrÃ©ation de la table traces de recensement

System Message: WARNING/2 (<string>, line 31)

Title underline too short.

CrÃ©ation de la table traces de recensement
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

Comme nous l'avons fait dans la partie prÃ©cÃ©dente, nous pouvons construire des gÃ©omÃ©tries de niveau suppÃ©rieur en utilisant nos blocs de base en utilisant une partie de la clef blkid. Afin de calculer les traces de recensement, nous avons besoin de regrouper les blocs en uitlisant les 11 premiers caractÃšres de la colonne blkid.

360610001009000 = 36 061 00100 9000
36     = State of New York
061    = New York County (Manhattan)
000100 = Census Tract
9      = Census Block Group
000    = Census Block

CrÃ©ation de la nouvelle table en utilisant la fonction d'agrÃ©gation :command:`ST_Union` :

System Message: ERROR/3 (<string>, line 45); backlink

Unknown interpreted text role "command".

-- CrÃ©ation de la table
CREATE TABLE nyc_census_tract_geoms AS
SELECT
  ST_Union(the_geom) AS the_geom,
  SubStr(blkid,1,11) AS tractid
FROM nyc_census_blocks
GROUP BY tractid;
-- Indexation du champ tractid
CREATE INDEX nyc_census_tract_geoms_tractid_idx ON nyc_census_tract_geoms (tractid);
-- Mise Ã  jour de la table geometry_columns
SELECT Populate_Geometry_Columns();

Regrouper les donnÃ©es attributaires et spatiales

L'objectif est ici de regrouper les donnÃ©es spatiales que nous avons crÃ©Ã© avec les donnÃ©es attributaires que nous avions chargÃ© initialement.

-- CrÃ©ation de la table
CREATE TABLE nyc_census_tracts AS
SELECT
  g.the_geom,
  a.*
FROM nyc_census_tract_geoms g
JOIN nyc_census_sociodata a
ON g.tractid = a.tractid;
-- Indexation des gÃ©omÃ©tries
CREATE INDEX nyc_census_tract_gidx ON nyc_census_tracts USING GIST (the_geom);
-- Mise Ã  jour de la table geometry_columns
SELECT Populate_Geometry_Columns();

RÃ©pondre Ã une question intÃ©ressante

System Message: WARNING/2 (<string>, line 88)

Title underline too short.

RÃ©pondre Ã  une question intÃ©ressante
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

RÃ©pondre Ã une question intÃ©ressante ! "Lister les 10 meilleurs quartiers ordonnÃ©s par la proportion de personnes ayant acquis un diplÃŽme".

SELECT
  Round(100.0 * Sum(t.edu_graduate_dipl) / Sum(t.edu_total), 1) AS graduate_pct,
  n.name, n.boroname
FROM nyc_neighborhoods n
JOIN nyc_census_tracts t
ON ST_Intersects(n.the_geom, t.the_geom)
WHERE t.edu_total > 0
GROUP BY n.name, n.boroname
ORDER BY graduate_pct DESC
LIMIT 10;

Nous sommons les statistiques qui nous intÃ©ressent, nous les divisons ensuite Ã la fin. Afin d'Ã©viter l'erreur de non-division par zÃ©ro, nous ne prenons pas en compte les quartiers qui n'ont aucune personne ayant obtenu un diplÃŽme.

 graduate_pct |       name        | boroname
--------------+-------------------+-----------
         40.4 | Carnegie Hill     | Manhattan
         40.2 | Flatbush          | Brooklyn
         34.8 | Battery Park      | Manhattan
         33.9 | North Sutton Area | Manhattan
         33.4 | Upper West Side   | Manhattan
         33.3 | Upper East Side   | Manhattan
         32.0 | Tribeca           | Manhattan
         31.8 | Greenwich Village | Manhattan
         29.8 | West Village      | Manhattan
         29.7 | Central Park      | Manhattan

Polygones/Jointures de polygones

Dans notre requÃªte intÃ©ressante (dans :ref:`interestingquestion`) nous avons utilisÃ© la fonction :command:`ST_Intersects(geometry_a, geometry_b)` pour dÃ©terminer quelle entitÃ© polygonale Ã inclure dans chaque groupe de quartier. Ce qui nous conduit Ã la question : que ce passe-t-il si une entitÃ© tombe entre deux quartiers ? Il intersectera chacun d'entre eux et ainsi sera inclut dans chacun des rÃ©sultats.

System Message: ERROR/3 (<string>, line 128); backlink

Unknown interpreted text role "ref".

System Message: ERROR/3 (<string>, line 128); backlink

Unknown interpreted text role "command".

Pour Ã©viter ce cas de double comptage il existe trois mÃ©thodes :

La mÃ©thode simple consiste a s'assurer que chaque entitÃ© ne se retrouve que dans un seul groupe gÃ©ographique (en utilisant :command:`ST_Centroid(geometry)`)

System Message: ERROR/3 (<string>, line 134); backlink

Unknown interpreted text role "command".

La mÃ©thode complexe consiste Ã disviser les parties qui se croisent en utilisant les bordures (en utilisant :command:`ST_Intersection(geometry,geometry)`)

System Message: ERROR/3 (<string>, line 135); backlink

Unknown interpreted text role "command".

SELECT
  Round(100.0 * Sum(t.edu_graduate_dipl) / Sum(t.edu_total), 1) AS graduate_pct,
  n.name, n.boroname
FROM nyc_neighborhoods n
JOIN nyc_census_tracts t
ON ST_Contains(n.the_geom, ST_Centroid(t.the_geom))
WHERE t.edu_total > 0
GROUP BY n.name, n.boroname
ORDER BY graduate_pct DESC
LIMIT 10;

Remarquez que la requÃªte prend plus de temps Ã s'exÃ©cuter, puisque la fonction :command:`ST_Centroid` doit Ãªtre effectuÃ©e pour chaque entitÃ©.

System Message: ERROR/3 (<string>, line 152); backlink

Unknown interpreted text role "command".

 graduate_pct |       name        | boroname
--------------+-------------------+-----------
         49.2 | Carnegie Hill     | Manhattan
         39.5 | Battery Park      | Manhattan
         34.3 | Upper East Side   | Manhattan
         33.6 | Upper West Side   | Manhattan
         32.5 | Greenwich Village | Manhattan
         32.2 | Tribeca           | Manhattan
         31.3 | North Sutton Area | Manhattan
         30.8 | West Village      | Manhattan
         30.1 | Downtown          | Brooklyn
         28.4 | Cobble Hill       | Brooklyn

Jointures utilisant un large rayon de distance

Une requÃªte qu'il est "sympa" de demander est : "Comment les temps de permutation des gens proches (dans un rayon de 500 mÃštres ) des stations de mÃ©tro diffÃšrent de ceux qui en vivent loin ? "

NÃ©anmoins, la question rencontre les mÃªmes problÃšmes de double comptage : plusieurs personnes seront dans un rayon de 500 mÃštres de plusieurs stations de mÃ©tro diffÃ©rentes. Comparons la population de New York :

SELECT Sum(popn_total)
FROM nyc_census_blocks;

SELECT Sum(popn_total)
FROM nyc_census_blocks census
JOIN nyc_subway_stations subway
ON ST_DWithin(census.the_geom, subway.the_geom, 500);

10556898

Il y a plus de personnes proches du mÃ©tro qu'il y a de personnes ! Clairement, notre requÃªte SQL simple rencontre un gros problÃšme de double comptage. Vous pouvez voir le problÃšme en regardant l'image des zones tampons crÃ©Ã©es pour les stations.

La solution est de s'assurer que nous avons seulement des blocs distincts avant de les regrouper. Nous pouvons rÃ©aliser cela en cassant notre requÃªte en sous-requÃªtes qui rÃ©cupÃšrent les blocs distincts, les regroupent pour ensuite retourner notre rÃ©ponse :

SELECT Sum(popn_total)
FROM (
  SELECT DISTINCT ON (blkid) popn_total
  FROM nyc_census_blocks census
  JOIN nyc_subway_stations subway
  ON ST_DWithin(census.the_geom, subway.the_geom, 500)
) AS distinct_blocks;

C'est mieux ! Donc un peu plus de 50 % de la population de New York vit Ã proximitÃ© (500m, environ 5 Ã 7 minutes de marche) du mÃ©tro.

Note: See TracBrowser for help on using the repository browser.

PostGIS.fr

Bienvenue sur PostGIS.fr

source: trunk/workshop-foss4g/joins_advanced.rst @ 70

Partie 19 : Plus de jointures spatiales

CrÃ©ation de la table de traÃ§age des recensements

Chargement du fichier nyc_census_sociodata.sql

CrÃ©ation de la table traces de recensement

Regrouper les donnÃ©es attributaires et spatiales

RÃ©pondre Ã une question intÃ©ressante

Polygones/Jointures de polygones

Jointures utilisant un large rayon de distance

Download in other formats: